Innholdsfortegnelse:

Hvordan lager jeg en PySpark DataFrame fra en liste?
Hvordan lager jeg en PySpark DataFrame fra en liste?

Video: Hvordan lager jeg en PySpark DataFrame fra en liste?

Video: Hvordan lager jeg en PySpark DataFrame fra en liste?
Video: PySpark Tutorial 5: Create PySpark DataFrame | PySpark with Python 2024, Kan
Anonim

Jeg følger disse trinnene for å lage en DataFrame fra listen over tuples:

  1. Skape en liste av tuppel. Hver tuppel inneholder navnet på en person med alder.
  2. Skape en RDD fra liste ovenfor.
  3. Konvertere hver tuple til en rad.
  4. Skape en Dataramme ved å bruke createDataFrame på RDD ved hjelp av sqlContext.

Med dette i øyesyn, hvordan konverterer du en DataFrame til en liste i Python?

  1. Trinn 1: Konverter Dataframe til en nestet Numpy-matrise ved hjelp av DataFrame.to_numpy(), dvs.
  2. Trinn 2: Konverter 2D Numpy-array til en liste over lister.
  3. Trinn 1: Transponer datarammen for å konvertere rader som kolonner og kolonner som rader.
  4. Trinn 2: Konverter Dataframe til en nestet Numpy-matrise ved hjelp av DataFrame.to_numpy()

I tillegg, hva er en spark DataFrame? EN Spark DataFrame er en distribuert samling av data organisert i navngitte kolonner som gir operasjoner for å filtrere, gruppere eller beregne aggregater, og som kan brukes med Gnist SQL. Datarammer kan konstrueres fra strukturerte datafiler, eksisterende RDD-er, tabeller i Hive eller eksterne databaser.

Vet også, hva er PySpark SQL?

Spark SQL er en Gnist modul for strukturert databehandling. Den gir en programmeringsabstraksjon kalt DataFrames og kan også fungere som en distribuert SQL søkemotor. Den lar umodifiserte Hadoop Hive-spørringer kjøre opptil 100 ganger raskere på eksisterende distribusjoner og data.

Er spark DataFrames uforanderlige?

I Gnist du kan ikke - Datarammer er uforanderlig . Du bør bruke.

Anbefalt: