Innholdsfortegnelse:

Hva er forskjellige filformater i Hadoop?
Hva er forskjellige filformater i Hadoop?

Video: Hva er forskjellige filformater i Hadoop?

Video: Hva er forskjellige filformater i Hadoop?
Video: Different Data File Formats in Big Data Engineering 2024, Desember
Anonim

Heldigvis for deg har big data-fellesskapet i utgangspunktet bestemt seg for tre optimaliserte filformater til bruk i Hadoop klynger: Optimized Row Columnar (ORC), Avro og Parkett.

Deretter kan man også spørre, hva er de forskjellige typene dataformater?

Det er tre typer data kartlegging og GIS dataformater . Hver type håndteres annerledes.

Dataformattyper

  • Filbasert- Shapefiler, Microstation Design Files (DGN), GeoTIFF-bilder.
  • Katalogbasert - ESRI ArcInfo Coverages, US Census TIGER.
  • Databasetilkoblinger - PostGIS, ESRI ArcSDE, MySQL.

I tillegg, hvilket filformat er best i hive? RCFile er radsøyleformet filformat . Dette er en annen form for Hive filformat som tilbyr høy kompresjonshastighet på radnivå. Hvis du har krav om å utføre flere rader om gangen, kan du bruke RCFile format.

Med tanke på dette, hva er de vanlige inndataformatene i Hadoop?

InputFormat lager Inputsplit

  • De vanligste inngangsformatene er:
  • FileInputFormat- Det er basisklassen for alle filbaserte InputFormat.
  • TextInputFormat- Det er standardinndataformatet til MapReduce.
  • KeyValueTextInputFormat- Det ligner på TextInputFormat.
  • Følg lenken for å lære mer om InputFormat i Hadoop.

Hva er orc-filformat i Hadoop?

ORC-filformat Den optimaliserte radkolonnen ( ORC ) filformat gir en svært effektiv måte å lagre Hive-data på. Den ble designet for å overvinne begrensningene til den andre Hive filformater . Ved hjelp av ORC-filer forbedrer ytelsen når Hiveis leser, skriver og behandler data.

Anbefalt: