Hvad er datalogi? En begyndervejledning til datalogi

Datavidenskab er fremtiden for kunstig intelligens. Lær, hvad der er datalogi, hvordan kan det tilføre værdi til din virksomhed og dens forskellige livscyklusfaser.

Da verden gik ind i big data-æraen, voksede behovet for lagring også. Det var den største udfordring og bekymring for virksomhedsindustrien frem til 2010. Hovedfokus var på at opbygge en ramme og løsninger til lagring af data. Nu når Hadoop og andre rammer med succes har løst problemet med opbevaring, er fokus flyttet til behandling af disse data. Data Science er den hemmelige sauce her. Alle de ideer, du ser i Hollywood sci-fi-film, kan faktisk blive virkelighed af Data Science. Datavidenskab er fremtiden for kunstig intelligens. Derfor er det meget vigtigt at forstå, hvad der er datalogi, og hvordan det kan tilføre værdi til din virksomhed.



Edureka 2019 Tech Career Guide er ude! De hotteste jobroller, præcise læringsveje, industriudsigter og mere i guiden. Hent nu.

I denne blog vil jeg dække følgende emner.



I slutningen af ​​denne blog vil du være i stand til at forstå, hvad der er Data Science og dets rolle i at udtrække meningsfuld indsigt fra de komplekse og store datasæt overalt omkring os.For at få dybdegående viden om datalogi kan du tilmelde dig live af Edureka med support døgnet rundt og adgang til hele livet.

Hvad er datalogi?

Datalogi er en blanding af forskellige værktøjer, algoritmer og maskinlæringsprincipper med det formål at opdage skjulte mønstre fra rådataene. Men hvordan er dette forskelligt fra, hvad statistikere har gjort i årevis?



Svaret ligger i forskellen mellem at forklare og forudsige.

Data Analyst v / s Data Science - Edureka

Som du kan se fra ovenstående billede, en dataanalytikerforklarer normalt, hvad der foregår ved at behandle datahistorikken. På den anden side udfører Data Scientist ikke kun den sonderende analyse for at opdage indsigt fra den, men bruger også forskellige avancerede maskinlæringsalgoritmer til at identificere forekomsten af ​​en bestemt begivenhed i fremtiden. En dataforsker vil se på dataene fra mange vinkler, undertiden vinkler, der ikke var kendt tidligere.



Så Data Science bruges primært til at træffe beslutninger og forudsigelser ved hjælp af forudsigende kausalanalyse, receptpligtig analyse (forudsigelig plus beslutningsvidenskab) og maskinlæring.

  • Prædiktiv kausal analyse - Hvis du vil have en model, der kan forudsige mulighederne for en bestemt begivenhed i fremtiden, skal du anvende forudsigelig kausal analyse. Sig, hvis du yder penge på kredit, så er sandsynligheden for, at kunder foretager fremtidige kreditbetalinger til tiden, et anliggende for dig. Her kan du opbygge en model, der kan udføre forudsigende analyser af kundens betalingshistorik for at forudsige, om de fremtidige betalinger vil være til tiden eller ej.
  • Receptpligtig analyse: Hvis du vil have en model, der har intelligensen til at tage sine egne beslutninger og evnen til at ændre den med dynamiske parametre, har du bestemt brug for forskriftsmæssig analyse til den. Dette relativt nye felt handler om rådgivning. Med andre ord forudsiger det ikke kun en række foreskrevne handlinger og tilknyttede resultater.
    Det bedste eksempel på dette er Googles selvkørende bil, som jeg også havde diskuteret tidligere. Data indsamlet af køretøjer kan bruges til at træne selvkørende biler. Du kan køre algoritmer på disse data for at bringe intelligens til det. Dette gør det muligt for din bil at tage beslutninger som hvornår du skal dreje, hvilken vej du skal tage,hvornår man skal bremse eller fremskynde.
  • Maskinindlæring til forudsigelse - Hvis du har transaktionsdata fra et finansieringsselskab og har brug for at opbygge en model til at bestemme den fremtidige tendens, så er maskinindlæringsalgoritmer det bedste valg. Dette falder under paradigmet for overvåget læring. Det kaldes overvåget, fordi du allerede har de data, som du kan træne dine maskiner på. For eksempel kan en opdagelsesmodel for svindel trænes ved hjælp af en historisk oversigt over falske køb.
  • Maskinindlæring til mønsteropdagelse - Hvis du ikke har parametrene, som du kan forudsige, skal du finde ud af de skjulte mønstre i datasættet for at kunne give meningsfulde forudsigelser. Dette er intet andet end den ikke-overvågede model, da du ikke har nogen foruddefinerede etiketter til gruppering. Den mest almindelige algoritme, der bruges til mønsteropdagelse, er Clustering.
    Lad os sige, at du arbejder i et telefonselskab, og at du skal etablere et netværk ved at placere tårne ​​i en region. Derefter kan du bruge klyngeteknikken til at finde de tårnplaceringer, der vil sikre, at alle brugerne modtager optimal signalstyrke.

Lad os se, hvordan andelen af ​​ovennævnte fremgangsmåder adskiller sig for såvel dataanalyse som datalogi. Som du kan se på billedet nedenfor, Data Analysisinkluderer beskrivende analyser og forudsigelse til en vis grad. På den anden side handler datalogi mere om forudsigelig kausal analyse og maskinindlæring.

Data Science Analytics - Edureka

Nu hvor du ved præcis, hvad Data Science er, lad os nu finde ud af, hvorfor det var nødvendigt i første omgang.

Hvorfor datalogi?

  • Traditionelt var de data, vi havde, for det meste strukturerede og små i størrelse, som kunne analyseres ved hjælp af enkle BI-værktøjer.I modsætning til data itraditionelle systemer, som for det meste var struktureret, i dag er de fleste data ustrukturerede eller semi-strukturerede. Lad os se på datatendenser i billedet nedenfor, som viser, at mere end 80% af dataene inden 2020 vil være ustrukturerede.
    Strømning af ustrukturerede data - Edureka
    Disse data genereres fra forskellige kilder som økonomiske logfiler, tekstfiler, multimedieformularer, sensorer og instrumenter. Enkle BI-værktøjer er ikke i stand til at behandle denne enorme mængde og mangfoldighed af data. Dette er grunden til, at vi har brug for mere komplekse og avancerede analytiske værktøjer og algoritmer til at behandle, analysere og trække meningsfuld indsigt ud af det.

Dette er ikke den eneste grund til, at Data Science er blevet så populær. Lad os grave dybere og se, hvordan Data Science bruges i forskellige domæner.

  • Hvad med, hvis du kunne forstå dine kunders nøjagtige krav ud fra de eksisterende data som kundens tidligere browserhistorik, købshistorik, alder og indkomst. Uden tvivl havde du også alle disse data tidligere, men nu med den store mængde og mangfoldighed af data kan du træne modeller mere effektivt og anbefale produktet til dine kunder med mere præcision. Ville det ikke være fantastisk, da det vil bringe mere forretning til din organisation?
  • Lad os tage et andet scenarie for at forstå datavidenskabens rolle i beslutningstagning.Hvad med hvis din bil havde intelligens til at køre dig hjem? De selvkørende biler indsamler live data fra sensorer, herunder radarer, kameraer og lasere for at skabe et kort over omgivelserne. Baseret på disse data tager det beslutninger som hvornår man skal fremskynde, hvornår man skal fremskynde, hvornår man skal overhale, hvor man skal dreje - ved hjælp af avancerede maskinindlæringsalgoritmer.
  • Lad os se, hvordan datalogi kan bruges i forudsigende analyse. Lad os tage vejrudsigter som et eksempel. Data fra skibe, fly, radarer, satellitter kan indsamles og analyseres for at bygge modeller. Disse modeller forudsiger ikke kun vejret, men hjælper også med at forudsige forekomsten af ​​naturlige katastrofer. Det vil hjælpe dig med at træffe passende foranstaltninger på forhånd og redde mange dyrebare liv.

Lad os se på nedenstående infografik for at se alle de domæner, hvor Data Science skaber sit indtryk.

Datavidenskabssager - Edureka

Hvem er dataforsker?

Der er flere definitioner tilgængelige på dataforskere. Med enkle ord er en dataforsker en, der praktiserer datavidenskabens kunst.Udtrykket 'Data Scientist' har væretopfundet efter at have overvejet det faktum, at en datavidenskabsmand trækker en masse information fra de videnskabelige felter og applikationer, hvad enten det er statistik eller matematik.

Hvad gør en dataforsker?

Dataforskere er dem, der knækker komplekse dataproblemer med deres stærke ekspertise inden for visse videnskabelige discipliner. De arbejder med flere elementer relateret til matematik, statistik, datalogi osv. (Selvom de måske ikke er eksperter inden for alle disse områder).De bruger meget af de nyeste teknologier til at finde løsninger og nå konklusioner, der er afgørende for en organisations vækst og udvikling. Dataforskere præsenterer dataene i en meget mere nyttig form sammenlignet med de rådata, der er tilgængelige for dem fra strukturerede såvel som ustrukturerede former.

Fibonacci serie c ++

For at vide mere om en dataforsker kan du henvise til denne artikel på

Når vi bevæger os videre, kan vi nu diskutere BI. Jeg er sikker på, at du måske også har hørt om Business Intelligence (BI). Data Science er ofte forvekslet med BI. Jeg vil angive noget kortfattet og tydeligtkontraster mellem de to, som vil hjælpe dig med at få en bedre forståelse. Lad os kigge på det.

Business Intelligence (BI) vs. datalogi

  • Business Intelligence (BI) analyserer grundlæggende de tidligere data for at finde eftertanke og indsigt til at beskrive forretningstendenser. Her giver BI dig mulighed for at tage data fra eksterne og interne kilder, forberede dem, køre forespørgsler på dem og oprette dashboards for at besvare spørgsmål somkvartalsindtægtsanalyseeller forretningsproblemer. BI kan evaluere virkningen af ​​visse begivenheder i den nærmeste fremtid.
  • Datavidenskab er en mere fremadskuende tilgang, en udforskende måde med fokus på at analysere tidligere eller aktuelle data og forudsige fremtidige resultater med det formål at træffe informerede beslutninger. Den besvarer de åbne spørgsmål om 'hvad' og 'hvordan' begivenheder opstår.

Lad os se på nogle kontrasterende funktioner.

Funktioner Business Intelligence (BI) Datalogi
Data kilderStruktureret
(Normalt SQL, ofte datavarehus)
Både struktureret og ustruktureret

(logfiler, skydata, SQL, NoSQL, tekst)

Nærme sigStatistik og visualiseringStatistik, maskinindlæring, grafanalyse, neurolingvistisk programmering (NLP)
FokusFortid og nutidNuværende og fremtid
VærktøjerPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R.

Dette handlede om, hvad der er datalogi, lad os nu forstå datalogiets livscyklus.

En almindelig fejl i Data Science-projekter er at skynde sig ind i dataindsamling og analyse uden at forstå kravene eller endda indramme forretningsproblemet korrekt. Derfor er det meget vigtigt for dig at følge alle faser gennem datalogiets livscyklus for at sikre, at projektet fungerer problemfrit.

Livscyklus for datalogi

Her er en kort oversigt over de vigtigste faser i datavidenskabens livscyklus:

Lifecycle of Data Science - Edureka


Opdagelse af datalogi - EdurekaFase 1 — Opdagelse:
Før du starter projektet, er det vigtigt at forstå de forskellige specifikationer, krav, prioriteter og krævet budget. Du skal have evnen til at stille de rigtige spørgsmål.Her vurderer du, om du har de nødvendige ressourcer til stede med hensyn til mennesker, teknologi, tid og data til at støtte projektet.I denne fase skal du også ramme forretningsproblemet og formulere indledende hypoteser (IH) til test.

Datavidenskab forberedelse af data - Edureka

Fase 2 — Dataforberedelse: I denne fase har du brug for analytisk sandkasse, hvor du kan udføre analyser i hele projektets varighed. Du er nødt til at udforske, forbehandle og betingelsesdata inden modellering. Yderligere vil du udføre ETLT (udtrække, transformere, indlæse og transformere) for at få data ind i sandkassen. Lad os se på strømmen Statistisk analyse nedenfor.

Livscyklus for datalogi
Du kan bruge R til datarengøring, transformation og visualisering. Dette hjælper dig med at få øje på outliers og etablere et forhold mellem variablerne.Når du har renset og forberedt dataene, er det tid til at udforskeanalysepå det. Lad os se, hvordan du kan opnå det.

Fase 3 — Modelplanlægning: Data Science model planlægning - Edureka Her bestemmer du metoderne og teknikkerne til at tegne forholdet mellem variabler.Disse relationer sætter grundlaget for de algoritmer, som du implementerer i næste fase.Du vil anvende Exploratory Data Analytics (EDA) ved hjælp af forskellige statistiske formler og visualiseringsværktøjer.

Lad os se på forskellige modelplanlægningsværktøjer.

Modelplanlægningsværktøjer i Data Science - Edureka

  1. R har et komplet sæt modelleringsfunktioner og giver et godt miljø til opbygning af fortolkende modeller.
  2. SQL-analysetjenester kan udføre analyse i databasen ved hjælp af almindelige dataudvindingsfunktioner og grundlæggende forudsigelige modeller.
  3. SAS / ADGANG kan bruges til at få adgang til data fra Hadoop og bruges til at oprette gentagelige og genanvendelige modeldiagrammer.

Skønt der findes mange værktøjer på markedet, men R er det mest anvendte værktøj.

Nu hvor du har fået indsigt i arten af ​​dine data og har besluttet algoritmerne, der skal bruges. I næste fase vil duansøgealgoritmen og opbygge en model.

Datavidenskab modelbygning - EdurekaFase 4 — Modelbygning: I denne fase vil du udvikle datasæt til trænings- og testformål. Her yDu skal overveje, om dine eksisterende værktøjer er tilstrækkelige til at køre modellerne, eller om det har brug for et mere robust miljø (som hurtig og parallel behandling). Du vil analysere forskellige læringsteknikker som klassificering, tilknytning og klyngedannelse for at opbygge modellen.

Du kan opnå modelopbygning gennem følgende værktøjer.

Modelbygningsværktøjer i datalogi

Fase 5 - operationalisering: Datavidenskab operationaliserer - Edureka I denne fase leverer du endelige rapporter, briefinger, kode og tekniske dokumenter.Derudover implementeres nogle gange et pilotprojekt også i et produktionsmiljø i realtid. Dette giver dig et klart billede af ydeevnen og andre relaterede begrænsninger i lille skala inden fuld implementering.


Kommunikation i datalogi - EdurekaFase 6 — Kommuniker resultater:
Nu er det vigtigt at evaluere, om du har været i stand til at nå dit mål, som du havde planlagt i den første fase. Så i sidste fase identificerer du alle de vigtigste fund, kommunikerer til interessenterne og bestemmer, om resultaterneaf projektet er en succes eller en fiasko baseret på kriterierne udviklet i fase 1.

Nu vil jeg tage en casestudie for at forklare dig de forskellige faser beskrevet ovenfor.

Case Study: Diabetes Prevention

Hvad hvis vi kunne forudsige forekomsten af ​​diabetes og på forhånd træffe passende foranstaltninger for at forhindre det?
I dette brugstilfælde vil vi forudsige forekomsten af ​​diabetes ved hjælp af hele den livscyklus, som vi diskuterede tidligere. Lad os gennemgå de forskellige trin.

Trin 1:

  • Først,vi indsamler data baseret på sygehistorieaf patienten som beskrevet i fase 1. Du kan henvise til eksemplet på nedenstående data.

Data Science-eksempeldata - Edureka

  • Som du kan se, har vi de forskellige attributter som nævnt nedenfor.

Egenskaber:

  1. npreg - Antal gange gravid
  2. glukose - Plasmaglukosekoncentration
  3. bp - Blodtryk
  4. hud - Triceps hudfoldtykkelse
  5. bmi - Body mass index
  6. ped - Diabetes stamtavlefunktion
  7. alder - Alder
  8. indkomst - Indkomst

Trin 2:

hvordan man bruger anaconda python
  • Når vi først har dataene, skal vi rense og forberede dataene til dataanalyse.
  • Disse data har mange uoverensstemmelser som manglende værdier, tomme kolonner, bratte værdier og forkert dataformat, som skal renses.
  • Her har vi organiseret dataene i en enkelt tabel under forskellige attributter - hvilket gør det mere struktureret.
  • Lad os se på eksemplets data nedenfor.

Datavidenskab inkonsekvente data - Edureka

Disse data har mange uoverensstemmelser.

  1. I kolonnen npreg , 'En' er skrevet iord,hvorimod det skal være i numerisk form som 1.
  2. I kolonne bp en af ​​værdierne er 6600, hvilket er umuligt (i det mindste for mennesker) da bp ikke kan gå op til en så enorm værdi.
  3. Som du kan se Indkomst kolonnen er blank og giver heller ingen mening i at forudsige diabetes. Derfor er det overflødigt at have det her og bør fjernes fra bordet.
  • Så vi renser og forbehandler disse data ved at fjerne outliers, udfylde nulværdierne og normalisere datatypen. Hvis du husker, er dette vores anden fase, som er forbehandling af data.
  • Endelig får vi de rene data som vist nedenfor, som kan bruges til analyse.

Data Science konsistente data - Edureka

Trin 3:

Lad os nu lave nogle analyser som diskuteret tidligere i fase 3.

  • Først indlæser vi dataene i den analytiske sandkasse og anvender forskellige statistiske funktioner på den. For eksempel har R funktioner som beskriver hvilket giver os antallet af manglende værdier og unikke værdier. Vi kan også bruge opsummeringsfunktionen, som giver os statistiske oplysninger som middel-, median-, rækkevidde-, min- og maksimumværdier.
  • Derefter bruger vi visualiseringsteknikker som histogrammer, stregdiagrammer, boksdiagrammer for at få en god idé om distributionen af ​​data.

Data Science visualisering - Edureka

Trin 4:

Nu, baseret på indsigt, der er afledt af det foregående trin, er beslutningstræet bedst egnet til denne form for problem. Lad os se hvordan?

  • Siden har vi allerede de vigtigste attributter til analyse som npreg, bmi osv., så vi bruger detovervåget læringsteknik til at opbygge enmodel her.
  • Desuden har vi især brugt beslutningstræ, fordi det tager alle attributter i betragtning på én gang, som dem der har enlineært forhold såvel som dem, der har et ikke-lineært forhold. I vores tilfælde har vi et lineært forhold mellem npreg og alder, der henviser til, at det ikke-lineære forhold mellem npreg og ped .
  • Beslutningstræmodeller er også meget robuste, da vi kan bruge den forskellige kombination af attributter til at lave forskellige træer og derefter endelig implementere den med den maksimale effektivitet.

Lad os se på vores beslutningstræ.

Design træ datasæt

Her er den vigtigste parameter niveauet for glukose, så det er vores rodknude. Nu bestemmer den aktuelle node og dens værdi den næste vigtige parameter, der skal tages. Det fortsætter, indtil vi får resultatet i form af pos eller neg . Pos betyder, at tendensen til at have diabetes er positiv, og neg betyder, at tendensen til at have diabetes er negativ.

Hvis du vil lære mere om implementeringen af ​​beslutningstræet, henvises til denne blog

Trin 5:

I denne fase vil vi køre et lille pilotprojekt for at kontrollere, om vores resultater er passende. Vi vil også se efter eventuelle præstationsbegrænsninger. Hvis resultaterne ikke er korrekte, er vi nødt til at genplanlægge og genopbygge modellen.

Trin 6:

Når vi har udført projektet med succes, deler vi output for fuld implementering.

Det er lettere sagt end gjort at være dataforsker. Så lad os se, hvad alt hvad du behøver for at være dataforsker.En datavidenskab kræver dybest set færdighederfra tre hovedområder som vist nedenfor.

Data Science færdigheder - Edureka

Som du kan se i ovenstående billede, skal du tilegne dig forskellige hårde færdigheder og bløde færdigheder. Du skal være god til Statistikker og matematik at analysere og visualisere data. Det er overflødigt at sige, Maskinelæring udgør hjertet i datalogi og kræver, at du er god til det. Du skal også have en solid forståelse af domæne du arbejder for at forstå forretningsproblemerne tydeligt. Din opgave slutter ikke her. Du skal være i stand til at implementere forskellige algoritmer, der kræver god kodning færdigheder. Endelig, når du har taget bestemte nøglebeslutninger, er det vigtigt for dig at aflevere dem til interessenterne. Så godt meddelelse vil helt sikkert tilføje brownie-point til dine færdigheder.

Jeg opfordrer dig til at se denne Video Science-tutorial, der forklarer, hvad der er Data Science og alt det, vi har diskuteret i bloggen. Gå videre, nyd videoen og fortæl mig, hvad du synes.

Hvad er datalogi? Datalogikursus - Vejledning i datalogi til begyndere Edureka

Denne Edureka Data Science-kursusvideo tager dig gennem behovet for datavidenskab, hvad er datavidenskab, datavidenskabssager til erhvervslivet, BI vs datavidenskab, dataanalyseværktøjer, datavidenskabscyklus sammen med en demo.

I sidste ende vil det ikke være forkert at sige, at fremtiden tilhører dataforskerne. Det forudsiges, at der ved udgangen af ​​året 2018 vil være behov for omkring en million dataforskere. Flere og flere data giver muligheder for at føre vigtige forretningsbeslutninger. Det vil snart ændre den måde, vi ser på den verden, der er oversvømmet med data omkring os. Derfor skal en dataforsker være dygtig og motiveret til at løse de mest komplekse problemer.

Jeg håber, du nød at læse min blog og forstod, hvad der er Data Science.Tjek vores her, der kommer med instruktørstyret live træning og virkelige projektoplevelser.