Hvad er forudsætningerne for maskinlæring?

Denne blog om forudsætninger for maskinlæring hjælper dig med at forstå de grundlæggende begreber, du har brug for at vide, før du kommer i gang med maskinlæring.

Machine Learning er uden tvivl den mest efterspurgte teknologi i æraen! Hvis du er en nybegynder, der kommer i gang med Machine Learning, er det vigtigt, at du kender forudsætningerne for Machine Learning. Denne blog hjælper dig med at forstå de forskellige koncepter, som du har brug for at vide, før du kommer i gang med Machine Learning.



For at få indgående kendskab til kunstig intelligens og maskinindlæring kan du tilmelde dig live af Edureka med support døgnet rundt og adgang til hele livet.



Her er en liste over emner dækket af denne blog:

  1. Forudsætninger for maskinindlæring
  2. Forståelse af maskinindlæring med en brugssag

Forudsætninger for maskinlæring

At komme i gang medMaskinindlæring skal du være fortrolig med følgende begreber:



  1. Statistikker
  2. Lineær algebra
  3. Calculus
  4. Sandsynlighed
  5. Programmeringssprog

Statistikker

Statistikker indeholder værktøjer, der kan bruges til at få noget resultat af dataene. Der er beskrivende statistikker, der bruges til at omdanne rådata i nogle vigtige oplysninger. Inferentiel statistik kan også bruges til at få vigtig information fra en stikprøve af data i stedet for at bruge komplet datasæt.

For at lære mere om Statistik, du kan gå gennem følgende blogs:

Lineær algebra

Lineære algebra-tilbudmed vektorer, matricer og lineære transformationer. Det er meget vigtigt i maskinindlæring, da det kan bruges til at transformere og udføre operationer på datasættet.



Calculus

Calculus er et vigtigt felt i matematik, og det spiller en integreret rolle i mange maskinindlæringsalgoritmer. Datasæt med flere funktioner erbruges til at opbygge maskinlæringsmodeller, da funktioner er flere multivariable beregninger spiller en vigtig rolle for at opbygge en maskinlæringsmodel. Integrationer og differentieringer er et must.

Sandsynlighed

Sandsynlighed hjælper med at forudsige sandsynligheden for begivenheder. Det hjælper os med at begrunde, at situationen måske eller måske ikke sker igen. For maskinlæring er sandsynligheden en fundament.

Mathematics

For at lære mere om sandsynlighed kan du gå igennem dette Blog.

Programmeringssprog

Det er vigtigt at kende programmeringssprog som R og Python for at implementere hele Machine Learning-processen. Python og R leverer begge indbyggede biblioteker, der gør det meget nemt at implementere Machine Learning-algoritmer.

Udover at have grundlæggende viden om programmering er det også vigtigt, at du ved, hvordan du udtrækker, behandler og analyserer data. Dette er en af ​​de vigtigste færdigheder, der er nødvendige for maskinlæring.

For at lære mere om programmeringen sprog til maskinindlæring, kan du gå gennem følgende blogs:

  1. De bedste Python-biblioteker til datalogi og maskinindlæring

Machine Learning brugssag

Maskinindlæring handler om at skabe en algoritme, der kan lære af data for at forudsige, hvilke slags objekter der er på billedet, eller en anbefalingsmotor, den bedste kombination af lægemidler til at kurere den bestemte sygdom eller spamfiltrering.

Maskinindlæring er bygget på matematiske forudsætninger, og hvis du ved, hvorfor matematik bruges til maskinindlæring, vil det gøre det sjovt. Du skal kende matematikken bag de funktioner, du vil bruge, og hvilken model der passer til dataene, og hvorfor.

Så lad os starte med et interessant problem med at forudsige huspriser, have et datasæt, der indeholder en historie med forskellige funktioner og priser, for nu vil vi overveje arealet af boligarealet i kvadratfod og priserne.

Nu har vi et datasæt, der indeholder to kolonner som vist nedenfor:

forskellen mellem aws og azurblå

Der skal være en vis sammenhæng mellem disse to variabler for at finde ud af, at vi bliver nødt til at bygge en model, der kan forudsige prisen på huse, hvordan kan vi gøre det?

Lad os tegne disse data og se hvordan det ser ud:

Her er X-aksen prisen pr. Kvadratmeter boligareal, og Y-aksen er husets pris. Hvis vi plotter alle datapunkterne, får vi et spredningsdiagram, som kan repræsenteres af en linje som vist i figuren ovenfor, og hvis vi indtaster nogle data, forudsiger det et resultat. Ideelt set skal vi finde en linje, der skærer de maksimale datapunkter.

Her forsøger vi at oprette en linje, der betegnes som:

Y = mX + c

Denne metode til forudsigelse af det lineære forhold mellem målet (afhængig variabel) og forudsigelsesvariabel (uafhængig variabel) betegnes som lineær regression. Det giver os mulighed for at studere og sammenfatte en sammenhæng mellem to variabler.

  • X = uafhængig variabel
  • Y = afhængig variabel
  • c = y-skæring
  • m = linjens hældning

Hvis vi betragter ligningen, har vi værdier for X, som er en uafhængig variabel, så alt hvad vi skal gøre er at beregne værdier for m og c for at forudsige værdien af ​​Y.

Så hvordan finder vi disse variabler?

For at finde disse variabler kan vi prøve en række værdier og prøve at finde ud af en linje, der skærer det maksimale antal datapunkter. Men hvordan kan vi finde den bedste pasform?

Så for at finde den bedst egnede linje kan vi bruge mindste kvadraters fejlfunktion, der finder fejlen mellem den reelle værdi af y og den forudsagte værdi y`.

Fejlfunktionen med mindst kvadrat kan repræsenteres ved hjælp af følgende ligning:

Ved hjælp af denne funktion kan vi finde ud af fejlen for hvert forudsagt datapunkt ved at sammenligne det med den aktuelle værdi af datapunktet. Du tager derefter summeringen af ​​alle disse fejl og kvadrerer dem for at finde ud af afvigelsen i forudsigelsen.

Hvis vi tilføjer den tredje akse til vores graf, der indeholder alle mulige fejlværdier og plotter den i 3-dimensionelt rum, vil den se sådan ud:

I ovenstående billede ville de ideelle værdier være i den nederste sorte del, som forudsiger priserne tæt på det faktiske datapunkt. Det næste trin er at finde de bedst mulige værdier for m og c. Dette kan gøres ved hjælp af optimeringsteknikken kaldet gradientnedstigning.

Gradientnedstigning er en iterativ metode, hvor vi starter med at initialisere nogle sæt værdier for vores variabler og langsomt forbedre dem ved at minimere fejlen mellem den aktuelle værdi og den forudsagte værdi.

Hvis vi næsten tænker, at priserne på lejligheden ikke kun afhænger af prisen pr. Kvadratfod, er der mange faktorer såsom antallet af soveværelser, badeværelser osv. Hvis vi også betragter disse funktioner, vil ligningen se noget ud sådan her

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c

Dette er multilinær regression, dette hører til lineær algebra, her kan vi bruge matricer af størrelse mxn, hvor m er funktioner og n er datapunkter.

Lad os overveje en anden situation, hvor vi kan bruge sandsynligheden til at finde husets tilstand for at klassificere et hus baseret på, om det er i god eller dårlig stand. Til dette for at arbejde skal vi bruge en teknik kaldet Logistisk regression, der fungerer på sandsynligheden for forekomster repræsenteret af en sigmoid-funktion.

I denne artikel dækkede vi forudsætningerne for maskinlæring, og hvordan de anvendes i maskinlæring. Så grundlæggende består den af ​​statistik, beregning, lineær algebra og sandsynlighedsteori. Calculus har teknikker, der anvendes til optimering, lineær algebra har algoritmer, der kan arbejde på enorme datasæt, med sandsynlighed kan vi forudsige sandsynligheden for forekomster, og statistikker hjælper os med at udlede nyttige indsigter fra stikprøven af ​​datasæt.

Nu hvor du kender forudsætningerne for maskinlæring, er jeg sikker på, at du er nysgerrig efter at lære mere. Her er et par blogs, der hjælper dig med at komme i gang med datalogi:

Hvis du ønsker at tilmelde dig et komplet kursus om kunstig intelligens og maskinindlæring, har Edureka en specielt kurateret der gør dig dygtig i teknikker som Supervised Learning, Unsupervised Learning og Natural Language Processing. Det inkluderer træning i de nyeste fremskridt og tekniske tilgange inden for kunstig intelligens og maskinindlæring som dyb læring, grafiske modeller og forstærkningslæring.