MongoDB med Hadoop og relaterede Big Data-teknologier

MongoDB med Hadoop og relaterede Big Data Technologies er en kraftfuld kombination til løsning af en kompleks situation inden for analyse.

Relationsdatabaser i lang tid var nok til at håndtere små eller mellemstore datasæt. Men den kolossale hastighed, hvormed data vokser, gør den traditionelle tilgang til datalagring og -hentning umulig. Dette problem løses af nyere teknologier, der kan håndtere Big Data. Hadoop, Hive og Hbase er de populære platforme til at betjene denne type store datasæt. NoSQL eller ikke kun SQL-databaser som MongoDB giver en mekanisme til at gemme og hente data i taber-konsistensmodel med fordele som:



flet sorter pseudokode c ++
  • Vandret skalering
  • Højere tilgængelighed
  • Hurtigere adgang

MongoDB-ingeniørholdet har for nylig opdateret MongoDB Connector til Hadoop for at få bedre integration. Dette gør det lettere for Hadoop-brugere at:



  • Integrer realtidsdata fra MongoDB med Hadoop til dyb, offline analyse.
  • Connector eksponerer den analytiske kraft af Hadoop's MapReduce til live applikationsdata fra MongoDB, hvilket styrer værdi fra big data hurtigere og mere effektivt.
  • Connectoren præsenterer MongoDB som et Hadoop-kompatibelt filsystem, der giver et MapReduce-job mulighed for at læse fra MongoDB direkte uden først at kopiere det til HDFS (Hadoop file System), hvilket fjerner behovet for at flytte Terabyte data over hele netværket.
  • MapReduce-job kan videregive forespørgsler som filtre, så man undgår behovet for at scanne hele samlinger og kan også drage fordel af MongoDBs rige indekseringsfunktioner, herunder geo-rumlig, tekstsøgning, array, sammensatte og sparsomme indekser.
  • Når man læser fra MongoDB, kan resultaterne af Hadoop-job også skrives tilbage til MongoDB for at understøtte driftsprocesser i realtid og ad hoc-forespørgsel.

Hadoop og MongoDB Use Cases:

Lad os se på en beskrivelse på højt niveau af, hvordan MongoDB og Hadoop kan passe sammen i en typisk Big Data-stak. Primært har vi:

  • MongoDB bruges som 'Operativt' datalager i realtid
  • Hadoop til offline batch databehandling og analyse

Læs videre for at vide hvorfor og hvordan MongoDB blev brugt af virksomheder og organisationer som Aadhar, Shutterfly, Metlife og eBay .



Anvendelse af MongoDB med Hadoop i batchaggregation:

I de fleste scenarier er den indbyggede aggregeringsfunktionalitet, der leveres af MongoDB, tilstrækkelig til at analysere data. I visse tilfælde kan det imidlertid være nødvendigt med væsentlig mere kompleks dataggregation. Det er her Hadoop kan give en stærk ramme til kompleks analyse.

I dette scenarie:

  • Data hentes fra MongoDB og behandles i Hadoop via et eller flere MapReduce-job. Data kan også hentes fra andre steder inden for disse MapReduce-job for at udvikle en multi-datakildeløsning.
  • Output fra disse MapReduce-job kan derefter skrives tilbage til MongoDB til forespørgsel på et senere tidspunkt og til enhver analyse på ad hoc-basis.
  • Applikationer bygget oven på MongoDB kan derfor bruge oplysningerne fra batchanalyse til at præsentere for slutklienten eller for at aktivere andre downstream-funktioner.

Hadoop Mongo DB Aggregation



Anvendelse i datalagring:

I en typisk produktionsopsætning findes applikationsdata muligvis i flere datalagre, hver med deres eget forespørgselssprog og funktionalitet. For at reducere kompleksiteten i disse scenarier kan Hadoop bruges som et datalager og fungere som et centraliseret lager for data fra de forskellige kilder.

I denne slags scenarie:

  • Periodisk MapReduce-job indlæser data fra MongoDB i Hadoop.
  • Når dataene fra MongoDB og andre kilder er tilgængelige i Hadoop, kan det større datasæt forespørges imod.
  • Dataanalytikere har nu mulighed for at bruge enten MapReduce eller Pig til at oprette job, der forespørger de større datasæt, der indeholder data fra MongoDB.

Holdet, der arbejder bag MongoDB, har sikret, at det med sin rige integration med Big Data-teknologier som Hadoop er i stand til at integrere godt i Big Data Stack og hjælpe med at løse nogle komplekse arkitektoniske problemer, når det kommer til datalagring, hentning, behandling, sammenlægning og oplagring . Hold øje med vores kommende indlæg om karrieremuligheder for dem, der starter Hadoop med MongoDB. Hvis du allerede arbejder med Hadoop eller bare henter MongoDB, skal du tjekke de kurser, vi tilbyder til MongoDB