Beherskede Hadoop? Tid til at komme i gang med Apache Spark

Dette blogindlæg forklarer, hvorfor du skal komme i gang med Apache Spark efter Hadoop & hvorfor læring af Spark efter mestring af hadoop kan gøre underværker for din karriere!



Hadoop er, som vi alle ved, plakatdrengen med store data. Som en software-ramme, der er i stand til at behandle elefantiske proportioner af data, har Hadoop fundet vej til toppen af ​​CIO-buzzwords-listen.



Imidlertid har den hidtil usete stigning i hukommelsesstakken introduceret big data-økosystemet til et nyt alternativ til analyse. MapReduce-analysemetoden erstattes af en ny tilgang, der tillader analyse både inden for Hadoop-rammen og uden for den. Apache Spark er det friske nye ansigt til big data analytics.

Big data-entusiaster har certificeret Apache Spark som den hotteste databehandlingsmotor til big data i verden. Det skubber hurtigt MapReduce og Java ud af deres positioner, og jobtendenser afspejler denne ændring. Ifølge en undersøgelse foretaget af TypeSafe vurderer eller undersøger 71% af de globale Java-udviklere i øjeblikket omkring Spark, og 35% af dem er allerede begyndt at bruge det. Gnisteksperter er i øjeblikket efterspurgt, og i de kommende uger forventes antallet af gnistrelaterede jobmuligheder kun at gå gennem taget.



Så hvad er det ved Apache Spark, der får det til at vises øverst på hver CIO's to-do-liste?

aktivitets livscyklus for Android

Her er nogle af de interessante funktioner i Apache Spark:

  • Hadoop-integration - Spark kan arbejde med filer gemt i HDFS.
  • Spark's Interactive Shell - Spark er skrevet i Scala og har sin egen version af Scala-tolken.
  • Sparks Analytic Suite - Spark leveres med værktøjer til interaktiv forespørgselsanalyse, storstilet grafbehandling og analyse og realtidsanalyse.
  • Modstandsdygtige distribuerede datasæt (RDD'er) - RDD'er er distribuerede objekter, der kan cachelagres i hukommelsen på tværs af en klynge af beregningsnoder. De er de primære dataobjekter, der bruges i Spark.
  • Distribuerede operatører - Udover MapReduce er der mange andre operatører, man kan bruge på RDD'er.

Organisationer som NASA, Yahoo og Adobe har forpligtet sig til Spark. Dette siger John Tripier, Alliances and Ecosystem Lead at Databricks, 'Adoptionen af ​​Apache Spark af store og små virksomheder vokser i en utrolig hastighed på tværs af en bred vifte af industrier, og efterspørgslen efter udviklere med certificeret ekspertise er hurtigt efterfølgende ”. Der har aldrig været et bedre tidspunkt at lære gnist, hvis du har en baggrund i Hadoop.



Edureka har specielt kurateret et kursus om Apache Spark & ​​Scala, co-oprettet af praktikere fra det virkelige liv. For en differentieret live e-læringsoplevelse sammen med brancherelevante projekter, se vores kursus. Nye partier starter snart, så tjek kurset her: .

Har du et spørgsmål til os? Nævn det i kommentarfeltet, så vender vi tilbage til dig.

Relaterede indlæg:

service nu billetværktøjsvejledning

Apache Spark mod Hadoop MapReduce