4 måder at bruge R og Hadoop sammen på

R og Hadoop supplerer hinanden ret godt med hensyn til visualisering og analyse af big data. Dette blogindlæg taler om 4 måder at bruge dem sammen på.

Hadoop er en forstyrrende Java-baseret programmeringsramme, der understøtter behandling af store datasæt i et distribueret computermiljø, mens R er et programmeringssprog og softwaremiljø til statistisk computing og grafik. R-sproget bruges meget blandt statistikere og databearbejdere til udvikling af statistisk software og udførelse af dataanalyse. Inden for interaktiv dataanalyse, statistik til generelle formål og forudsigelig modellering har R vundet massiv popularitet på grund af dets klassificerings-, klyngedannelses- og rangfunktioner.



KM



Hadoop og R supplerer hinanden ret godt med hensyn til visualisering og analyse af big data.

Brug af R og Hadoop

Der er fire forskellige måder at bruge Hadoop og R sammen på:



1. RHadoop

RHadoop er en samling af tre R-pakker: rmr, rhdfs og rhbase. rmr-pakke giver Hadoop MapReduce-funktionalitet i R, rhdfs giver HDFS-filhåndtering i R og rhbase giver HBase-databasestyring indenfra R. Hver af disse primære pakker kan bruges til at analysere og administrere Hadoop-rammedata bedre.

2. ORK



ORCH står for Oracle R Connector til Hadoop. Det er en samling af R-pakker, der giver de relevante grænseflader til at arbejde med Hive-tabeller, Apache Hadoop-beregningsinfrastruktur, det lokale R-miljø og Oracle-databasetabeller. Derudover leverer ORCH også forudsigende analytiske teknikker, der kan anvendes på data i HDFS-filer.

3. RIP

RHIPE er en R-pakke, der giver en API til brug af Hadoop. RHIPE står for R og Hadoop Integrated Programming Environment og er i det væsentlige RHadoop med en anden API.

Fire. Hadoop-streaming

Hadoop Streaming er et hjælpeprogram, der giver brugerne mulighed for at oprette og køre job med alle eksekverbare filer som kortlæggeren og / eller reduceringsenheden. Ved hjælp af streaming-systemet kan man udvikle fungerende Hadoop-job med lige nok viden om Java til at skrive to shell-scripts, der fungerer sammen.

Kombinationen af ​​R og Hadoop fremstår som et must-have værktøjssæt til folk, der arbejder med statistik og store datasæt. Visse Hadoop-entusiaster har dog rejst et rødt flag, mens de beskæftiger sig med ekstremt store Big Data-fragmenter. De hævder, at fordelen ved R ikke er dens syntaks, men det udtømmende bibliotek af primitiver til visualisering og statistik. Disse biblioteker er grundlæggende ikke-distribuerede, hvilket gør datahentning til en tidskrævende affære. Dette er en iboende fejl med R, og hvis du vælger at overse den, kan R og Hadoop i tandem stadig gøre underværker.

Lad os nu se en demo:

scanner klasse i java eksempler

Har du et spørgsmål til os? Nævn dem i kommentarfeltet, så vender vi tilbage til dig.

Relaterede indlæg: