Hvordan oppnås datalokalisering i Hadoop?
Hvordan oppnås datalokalisering i Hadoop?

Video: Hvordan oppnås datalokalisering i Hadoop?

Video: Hvordan oppnås datalokalisering i Hadoop?
Video: Как включить и отключить Chrome PDF Viewer 2024, November
Anonim

Datalokalisering i Hadoop . Ta eksempelet Wordcount, der de fleste ordene har blitt gjentatt i 5 Lacs eller flere ganger. I så fall etter Mapper-fasen vil hver Mapper-utgang ha ord i området 5 Lacs. Denne komplette prosessen med å lagre Mapper-utdata til LFS kalles som Datalokalisering.

Med tanke på dette, hva er datalokalisering i Hadoop?

Konseptet av Data lokalitet i Hadoop-data lokalitet i Kart reduksjon refererer til evnen til å flytte beregningen nær der den faktiske data ligger på noden, i stedet for å bevege seg stort data til beregning. Dette minimerer overbelastning av nettverket og øker den totale gjennomstrømningen til systemet.

Dessuten, hvordan lagres big data? De fleste forbinder automatisk HDFS, eller Hadoop Distributed File System, med Hadoop data varehus. HDFS lagrer informasjon i klynger som består av mindre blokker. Disse blokkene er lagret i fysisk på stedet Oppbevaring enheter, for eksempel interne diskstasjoner.

Bare så, hvordan lagres data i Hadoop?

På en Hadoop klynge, den data i HDFS og MapReduce-systemet er plassert på hver maskin i klyngen. Data er lagret i data blokker på DataNodene. HDFS replikerer disse data blokker, vanligvis 128 MB i størrelse, og distribuerer dem slik at de blir replikert innenfor flere noder på tvers av klyngen.

Hvordan lagres filer i HDFS?

HDFS avslører en fil systemnavneområde og lar brukerdata være lagret i filer . Internt, a fil er delt inn i en eller flere blokker og disse blokkene er lagret i et sett med DataNoder. NameNode kjøres fil systemnavneromsoperasjoner som åpning, lukking og nytt navn filer og kataloger.

Anbefalt: