Hva er problemet med små filer i Hadoop?
Hva er problemet med små filer i Hadoop?

Video: Hva er problemet med små filer i Hadoop?

Video: Hva er problemet med små filer i Hadoop?
Video: ЛЮБОВЬ С ДОСТАВКОЙ НА ДОМ (2020). Романтическая комедия. Хит 2024, November
Anonim

1) Problem med liten fil i HDFS : Lagre mye av små filer som er ekstremt mindre enn blokkstørrelsen ikke kan håndteres effektivt av HDFS . Leser gjennom små filer involverer mange søk og mye hopping mellom datanode til datanode, som er ineffektiv databehandling.

Foruten dette, hvilke filer håndterer små filproblemer i Hadoop?

1) HAR ( Hadoop Arkiv) Filer har blitt introdusert til håndtere små filer problem . HAR har introdusert et lag på toppen av HDFS , som gir grensesnitt for fil tilgang. Ved hjelp av Hadoop arkivkommando, HAR filer er opprettet, som kjører en Kart reduksjon jobb med å pakke filer blir arkivert i mindre antall HDFS-filer.

Videre, kan jeg ha flere filer i HDFS med forskjellige blokkstørrelser? Misligholde størrelse av blokkere er 64 MB. du kan endre det avhengig av ditt krav. Kommer til spørsmålet ditt ja du kan lage flere filer ved å variere blokkstørrelser men i sanntid dette vil ikke favorisere produksjonen.

Dessuten, hvorfor håndterer ikke HDFS små filer optimalt?

Problemer med små filer og HDFS Hver fil , katalog og blokker inn HDFS er representert som et objekt i navnenodens minne, som hver opptar 150 byte, som en tommelfingerregel. Dessuten, HDFS er det ikke rettet opp for effektiv tilgang små filer : det er primært designet for streaming tilgang av store filer.

Hvorfor er Hadoop treg?

Langsom Behandlingshastighet Denne disken søker tar tid og dermed gjør hele prosessen veldig langsom . Hvis Hadoop behandler data i lite volum, er det veldig langsom forholdsvis. Den er ideell for store datasett. Som Hadoop har batchbehandlingsmotor i kjernen, hastigheten for sanntidsbehandling er mindre.

Anbefalt: