Innholdsfortegnelse:

Hvordan kan jeg forbedre sqoop-ytelsen min?
Hvordan kan jeg forbedre sqoop-ytelsen min?

Video: Hvordan kan jeg forbedre sqoop-ytelsen min?

Video: Hvordan kan jeg forbedre sqoop-ytelsen min?
Video: Hvordan å forbedre ditt liv med riktig start på dagen 2024, November
Anonim

Å optimalisere opptreden , sett de antall kartoppgaver til en verdi lavere enn de maksimalt antall tilkoblinger som de database støtter. Kontrollere de mengde parallellitet det Sqoop vil bruke til å overføre data er de hovedmåten å kontrollere de laste på din database.

Tilsvarende, hva skjer hvis sqoop mislykkes mellom en prosess?

En typisk Sqoop jobb som tar inn data fra en kildedatabase til HDFS vil kopiere dataene til en målkatalog. Den kopierte filen kommer til å bli slettet hvis sqoop mislykkes uten å fullføre.

Man kan også spørre, hvordan oppnår man parallellisme i sqoop? Kontrollere Parallellisme . Sqoop importerer data parallelt fra de fleste databasekilder. Du kan spesifisere antall kartoppgaver (parallelle prosesser) som skal brukes for å utføre importen ved å bruke argumentet -m eller --num-mapper. Hvert av disse argumentene har en heltallsverdi som tilsvarer graden av parallellisme å ansette

Følgelig, hvordan forbedrer jeg ytelsen til Hive-søk?

Nedenfor er listen over fremgangsmåter som vi kan følge for å optimalisere Hive-søk

  1. Aktiver komprimering i Hive.
  2. Optimaliser sammenføyninger.
  3. Unngå global sortering i Hive.
  4. Aktiver Tez Execution Engine.
  5. Optimaliser LIMIT-operatør.
  6. Aktiver parallell kjøring.
  7. Aktiver Mapreduce Strict Mode.
  8. Enkelt Reduser for Multi Group BY.

Hvordan fungerer sqoop split?

Den kan brukes til å forbedre importytelsen ved å oppnå større parallellitet. Sqoop skaper deler seg basert på verdier i en bestemt kolonne i tabellen som er spesifisert av -- dele -av av brukeren gjennom importkommandoen. Hvis den ikke er tilgjengelig, brukes primærnøkkelen til inndatatabellen til å lage deler seg.

Anbefalt: