Hva er reduser med nøkkel?
Hva er reduser med nøkkel?

Video: Hva er reduser med nøkkel?

Video: Hva er reduser med nøkkel?
Video: Redusert kjøttforbruk – en nøkkel til klimakutt 2024, Kan
Anonim

Spark RDD reduceByKey-funksjonen slår sammen verdiene for hver nøkkel ved å bruke et assosiativ redusere funksjon. Det betyr intuitivt at denne funksjonen gir samme resultat når den brukes gjentatte ganger på samme sett med RDD-data med flere partisjoner, uavhengig av elementets rekkefølge.

Så, hva er forskjellen mellom groupByKey og reduceByKey?

groupByKey () er bare å gruppere datasettet ditt basert på en nøkkel. reduserByKey () er noe sånt som gruppering + aggregering. reduserByKey kan brukes når vi kjører på store datasett. aggregateByKey() er logisk det samme som reduserByKey (), men det lar deg returnere resultatet annerledes type.

Vet også, hvorfor redusere er handling i gnist? Gnistreduser operasjon er en handling type operasjon og det utløser en full DAG-utførelse for alle oppstilte late instruksjoner. Gnist RDD redusere funksjon reduserer elementene i denne RDD ved å bruke den spesifiserte kommutative og assosiative binære operatoren. Gnistreduser operasjonen er nesten lik som redusere metode i Scala.

Foruten ovenfor, hva er Pairrdd?

Spark gir spesielle operasjoner på RDD-er som inneholder nøkkel/verdi-par. Disse RDD-ene kalles par-RDD-er. Par RDD-er er en nyttig byggestein i mange programmer, ettersom de avslører operasjoner som lar deg handle på hver nøkkel parallelt eller omgruppere data på tvers av nettverket. ParRDDs er NØKKEL/VERDI-par.

Er reduceByKey en handling?

reduce() gir ut en samling som ikke legger til den dirigerte asykliske grafen (DAG), så implementeres som en handling . Derimot, reduserByKey () returnerer en RDD som bare er et annet nivå/tilstand i DAG, derfor er en transformasjon.

Anbefalt: