Tartalomjegyzék:

Hogyan készíthetek PySpark DataFrame-et egy listából?
Hogyan készíthetek PySpark DataFrame-et egy listából?

Videó: Hogyan készíthetek PySpark DataFrame-et egy listából?

Videó: Hogyan készíthetek PySpark DataFrame-et egy listából?
Videó: Hogyan készíthetek egyszerűen honlapot? 2024, Lehet
Anonim

Az alábbi lépéseket követem egy DataFrame létrehozásához a sorok listájából:

  1. Teremt a lista sorból. Minden sor egy személy nevét tartalmazza életkorával.
  2. Teremt egy RDD a lista felett.
  3. Alakítani minden sor egy sorra.
  4. Teremt a DataFrame a createDataFrame alkalmazásával az RDD-n az sqlContext segítségével.

Ezt szem előtt tartva hogyan konvertálhat egy DataFrame-et listává a Pythonban?

  1. 1. lépés: Konvertálja a Dataframe-et beágyazott Numpy tömbbé a DataFrame.to_numpy() használatával, azaz
  2. 2. lépés: Alakítsa át a 2D Numpy tömböt listákká.
  3. 1. lépés: Transzponálja át az adatkeretet, hogy a sorokat oszlopokká, az oszlopokat pedig sorokká alakítsa.
  4. 2. lépés: A DataFrame.to_numpy() segítségével alakítsa át a Dataframe-et beágyazott Numpy tömbbé

Ezenkívül mi az a szikra DataFrame? A Spark DataFrame névvel ellátott oszlopokba rendezett adatok elosztott gyűjteménye, amely műveleteket biztosít az aggregátumok szűrésére, csoportosítására vagy kiszámítására, és használható Szikra SQL. DataFrames felépíthető strukturált adatfájlokból, meglévő RDD-kből, Hive-táblázatokból vagy külső adatbázisokból.

Tudja azt is, mi az a PySpark SQL?

Spark SQL egy Szikra modul a strukturált adatfeldolgozáshoz. Ez egy DataFrames nevű programozási absztrakciót biztosít, és elosztottként is működhet SQL lekérdező motor. Lehetővé teszi, hogy a módosítatlan Hadoop Hive-lekérdezések akár 100-szor gyorsabban fussanak a meglévő telepítéseken és adatokon.

A Spark DataFrame-ek megváltoztathatatlanok?

Ban ben Szikra nem tudsz - DataFrames vannak változhatatlan . Használnia kell.

Ajánlott: