Hvilket filformat av Hadoop tillater kolonneformat datalagring?
Hvilket filformat av Hadoop tillater kolonneformat datalagring?

Video: Hvilket filformat av Hadoop tillater kolonneformat datalagring?

Video: Hvilket filformat av Hadoop tillater kolonneformat datalagring?
Video: Data Science with Python! Analyzing File Types from Avro to Stata 2024, April
Anonim

Kolonnefilformater (parkett, RCF-fil )

Den siste hotness i filformater for Hadoop iscolumnar fillagring. I utgangspunktet betyr dette at i stedet for bare å lagre rader med data ved siden av hverandre, lagrer du også kolonneverdier ved siden av hverandre. Så datasett er partisjonert både horisontalt og vertikalt.

I tillegg til dette, i hvilket format håndterer Hadoop data?

Det er flere Hadoop -spesifikk fil formater som ble spesielt laget for å fungere godt med MapReduce. Disse Hadoop -spesifikk fil formater includefil-basert data strukturer som sekvensfiler, serialisering formater som Avro, og kolonneformet formater som RCFile og Parkett.

Man kan også spørre, hva er kolonneformat? Rad og Spalter Oppbevaring For Hive. ORC er en søyleformet Oppbevaring format brukt i Hadoop for Hivetables. Det er en effektiv filformat for lagring av data der poster inneholder mange kolonner. Et eksempel er Clickstream (nett)data for å analysere nettstedaktivitet og ytelse.

På samme måte spørs det, hva er filformat i Hadoop?

Grunnleggende filformater er: Tekst format , Nøkkelverdi format , Sekvens format . Annen formater som brukes og er velkjente er: Avro, Parkett, RC eller Row-Columnar format , ORC eller Optimized RowColumnar format.

Hvorfor brukes kolonneformede filformater i datavarehus?

ORC butikker rad data i kolonneformat . Denne raden- kolonneformat er svært effektiv for kompresjon og Oppbevaring . Det gir mulighet for parallell behandling på tvers av acluster, og kolonneformat gjør det mulig å hoppe over unødvendige kolonner for raskere behandling og dekompresjon.

Anbefalt: