Griseprogrammering: Opret dit første Apache-griseskript

Læs dette blogindlæg for at oprette dit første Apache Pig-script. Apache Pig-scripts bruges til at udføre et sæt Apache Pig-kommandoer samlet.

Griseprogrammering: Opret dit første Apache-griseskript

I vores , lærer vi nu, hvordan man opretter et Apache Pig-script. Apache Pig-scripts bruges til at udføre et sæt Apache Pig-kommandoer samlet. Dette hjælper med at reducere den tid og kræfter, der investeres i at skrive og udføre hver kommando manuelt, mens du gør dette i svineprogrammering.Det er også en integreret del af .Denne blog er en trinvis vejledning, der hjælper dig med at oprette dit første Apache Pig-script.



Apache Pig-script-eksekveringsmetoder

Lokal tilstand : I 'lokal tilstand' kan du udføre griseskriptet i det lokale filsystem. I dette tilfælde behøver du ikke at gemme dataene i Hadoop HDFS-filsystem, i stedet for kan du arbejde med de data, der er gemt i selve det lokale filsystem.



MapReduce Mode : I 'MapReduce-tilstand' skal dataene gemmes i HDFS-filsystem, og du kan behandle dataene ved hjælp af griseskript.

Apache-griseskript i MapReduce-tilstand

Lad os sige, at vores opgave er at læse data fra en datafil og vise det krævede indhold på terminalen som output.



Eksempeldatafilen indeholder følgende data:

Information txt-fil - Apache Pig Script - Edureka

Gem tekstfilen med navnet 'information.txt'



Eksempeldatafilen indeholder fem kolonner Fornavn , Efternavn , Mobil nummer , By og Erhverv adskilt af tabulatortast . Vores opgave er at læse indholdet af denne fil fra HDFS og vise alle kolonnerne i disse poster.

For at behandle disse data ved hjælp af Pig, skal denne fil være til stede i Apache Hadoop HDFS.

Kommando : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Trin 1: Skrivning af et griseskript

c ++ sorteringsarrays

Opret og åbn en Apache Pig-scriptfil i en editor (f.eks. Gedit).

Kommando : sudo gedit /home/edureka/output.pig

Denne kommando opretter en 'output.pig' fil inde i edureka-brugerens hjemmekatalog.

Lad os skrive få PIG-kommandoer i output.pig-filen.

A = LOAD '/edureka/information.txt' ved hjælp af PigStorage ('') som (FName: chararray, LName: chararray, MobileNo: chararray, By: chararray, Profession: chararray) B = FOREACH A generer FName, MobileNo, Profession DUMP B

Gem og luk filen.

  • Den første kommando indlæser filen 'information.txt' i variabel A med indirekte skema (FName, LName, MobileNo, City, Profession).
  • Den anden kommando indlæser de krævede data fra variabel A til variabel B.
  • Den tredje linje viser indholdet af variabel B på terminalen / konsollen.

Trin 2: Udfør Apache Pig Script

For at udføre griseskriptet i HDFS-tilstand skal du køre følgende kommando:

Kommando : gris /home/edureka/output.pig

Når udførelsen er færdig, skal du gennemse resultatet. Disse nedenstående billeder viser resultaterne og deres mellemliggende kort og reducerer funktioner.

Billedet nedenfor viser, at scriptet blev udført med succes.

Billedet nedenfor viser resultatet af vores script.

Tillykke med udførelsen af ​​dit første Apache Pig-script med succes!

Nu ved du, hvordan man opretter og udfører Apache Pig-script. Derfor er vores næste blog i vil dække, hvordan man gør Opret UDF (brugerdefinerede funktioner) i Apache Pig og udfør det i MapReduce / HDFS-tilstand.

Nu hvor du har oprettet og udført Apache Pig Script, skal du tjekke af Edureka, et pålideligt online læringsfirma med et netværk på mere end 250.000 tilfredse elever spredt over hele kloden. Edureka Big Data Hadoop-certificeringskursus hjælper elever med at blive eksperter i HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved hjælp af realtidsanvendelsessager på Retail, Social Media, Aviation, Tourism, Finance domæne.

Har du et spørgsmål til os? Nævn det i kommentarfeltet, og vi vender tilbage til dig.