Masinõpe 101: järelevalve all, järelevalveta, tugevdamine ja muud

Masinõpe on olemise oluline osa Andmeteadlane . Lihtsamalt öeldes kasutab masinõpealgoritmid mustrite avastamiseks ja prognooside tegemiseks.See on üks populaarsemaid meetodeid, mida kasutatakse suure hulga toorandmete töötlemiseks, ja see kasvab veelgi populaarsemaks, kui rohkem ettevõtteid proovib teha andmepõhiseid otsuseid.

Masinõpe hõlmab tohutul hulgal ideid, tööriistu ja tehnikaid, mida andmeteadlased ja teised spetsialistid kasutavad. Oleme selgitanud neid mõisteid laiemalt , aga seekord heidame pilgu pealemõne konkreetse komponendi juures jakuidas neid probleemide lahendamiseks kasutada.



Juhendatud masinõpe

Kõige lihtsamad ülesanded kuuluvad vihmavarju alla juhendatud õpe .



Juhendatud õppe puhul on meil juurdepääs õigete sisend-väljund paaride näidetele, mida saame treeningfaasis masinale näidata. Käekirjatuvastuse levinud näidet käsitletakse tavaliselt juhendatud õppeülesandena. Näitame arvutile mitut käsitsi kirjutatud numbrite kujutist koos nende numbrite õigete siltidega ja arvuti õpib mustreid, mis seostavad kujutisi nende siltidega.

Sel viisil ülesannete täitmise selgesõnalise näite abil õppimine on suhteliselt kergesti mõistetav ja hõlpsasti rakendatav, kuid sellel on ülioluline ülesanne: saame seda teha ainult siis, kui meil on juurdepääs õigete sisend-väljundpaaride andmekogumile. Käekirja näites tähendab see, et ühel hetkel peame saatma inimese, kes klassifitseerib treeningkomplektis olevad kujutised. See on vaevarikas ja sageli teostamatu töö, kuid kui andmed on olemas, võivad juhendatud õppealgoritmid olla väga tõhusad paljude ülesannete puhul.



Regressioon ja klassifikatsioon

Juhendatud masinõppeülesanded võib laias laastus jagada kahte alarühma. regressioon ja klassifikatsioon . Regressioon on pideva suuruse hindamise või ennustamise probleem. Kui suur on S&P 500 väärtus ühe kuu pärast tänasest? Kui pikk saab laps täiskasvanuna olema? Kui palju meie kliente sel aastal konkurendi juurde lahkub? Need on näited küsimustest, mis jääksid regressiooni alla. Nende probleemide lahendamiseks juhendatud masinõppe raamistikus koguksime varasemaid näiteid õigete vastuste sisend- ja väljundpaaridest, mis käsitlevad sama probleemi. Sisendite jaoks tuvastaksime Funktsioonid mis meie arvates ennustavad tulemusi, mida tahame ennustada.

Esimese probleemi lahendamiseks võiksime püüda koguda tunnustena S&P 500 alla kuuluvate aktsiate ajaloolised hinnad antud kuupäevadel koos S&P 500 väärtusega üks kuu hiljem. See moodustaks meie koolituskomplekti, mille põhjal masin prooviks määrata funktsioonide ja võimalike S&P 500 väärtuste vahelise funktsionaalse seose.

Klassifikatsioon tegeleb vaatluste määramisega diskreetsetesse kategooriatesse, mitte pidevate suuruste hindamisega. Kõige lihtsamal juhul on võimalikud kaks kategooriat; seda juhtumit tuntakse kui binaarne klassifikatsioon . Paljusid olulisi küsimusi saab kujundada binaarse klassifikatsiooni raames. Kas antud klient lahkub meie hulgast konkurendi pärast? Kas konkreetsel patsiendil on vähk? Kas antud pilt sisaldab hot dogi? Binaarse klassifitseerimise teostamise algoritmid on eriti olulised, kuna paljud üldisemat tüüpi klassifitseerimise algoritmid, kus on suvalised sildid, on lihtsalt hunnik binaarseid klassifikaatoreid, mis töötavad koos. Näiteks käsitsikirjatuvastuse probleemi lihtne lahendus on lihtsalt koolitada hulk binaarseid klassifikaatoreid: 0-detektor, 1-detektor, 2-detektor jne, mis annavad kindlustunde, et pilt on nende vastav number. Klassifikaator väljastab lihtsalt numbri, mille klassifikaator on kõige kindlam.



Teisest küljest on olemas täiesti erinev ülesannete klass, millele viidatakse kui juhendamata õppimine . Juhendatud õppeülesanded leiavad mustreid, kus meil on õigete vastuste andmekogum, millest õppida. Järelevalveta õppeülesanded leiavad mustreid seal, kus me seda ei tee. Põhjuseks võib olla see, et õigeid vastuseid ei ole võimalik jälgida või neid on võimatu saada, või võib-olla ei ole antud probleemi puhul isegi õiget vastust per se.

Klasterdamine ja generatiivne modelleerimine

Probleemiks on suur järelevalveta ülesannete alamklass rühmitamine . Klasterdamine viitab vaatluste rühmitamisele nii, et ühise rühma liikmed on üksteisega sarnased ja erinevad teiste rühmade liikmetest. Levinud rakendus on siin turunduses, kus soovime tuvastada sarnaste eelistuste või ostuharjumustega klientide või potentsiaalsete klientide segmente. Klastrite moodustamise peamine väljakutse on see, et sageli on raske või võimatu teada, mitu klastrit peaks eksisteerima või kuidas klastrid peaksid välja nägema.

masinõpe

Väga huvitav juhendamata ülesannete klass on generatiivne modelleerimine . Generatiivsed mudelid on mudelid, mis jäljendavad treeninguandmeid genereerivat protsessi. Hea generatiivne mudel suudaks genereerida uusi andmeid, mis mõnes mõttes sarnanevad treeningandmetega. Seda tüüpi õpe on järelevalveta, kuna protsessi mis andmeid genereerib, ei ole otseselt vaadeldav – vaadeldavad on ainult andmed ise.



Hiljutised arengud selles valdkonnas on toonud kaasa hämmastavaid ja aeg-ajalt kohutavaid edusamme pildi loomisel. Siinne pilt luuakse omamoodi järelevalveta õppemudeli, mida nimetatakse sügava konvolutsioonilise üldistatud võistleva võrgustiku mudeliks, väljaõppel, et luua nägudest pilte ja küsida sellelt naeratava mehe pilte.

Tugevdusõpe, hübriidid ja palju muud

Uut tüüpi õppimisprobleeme, mis on viimasel ajal palju tähelepanu saanud, nimetatakse tugevdusõpe . Tugevdusõppes ei paku me masinale näiteid õigete sisend-väljundpaaride kohta, kuid pakume masinale meetodit oma jõudluse kvantifitseerimiseks tasu signaal . Tugevdatavad õppemeetodid sarnanevad sellega, kuidas inimesed ja loomad õpivad: masin proovib palju erinevaid asju ja saab tasu, kui ta teeb midagi hästi.

Tugevdusõpe on kasulik juhtudel, kui lahendusruum on tohutu või lõpmatu, ja seda kasutatakse tavaliselt juhtudel, kui masinat võib pidada keskkonnaga suhtlevaks agendiks. Üks esimesi suuri edulugusid seda tüüpi mudelite jaoks oli väikese meeskonna poolt, kesõpetas välja tugevdamisõppe mudeli, et mängida Atari videomänge, kasutades sisendina ainult mängu pikslite väljundit. Lõpuks suutis mudel kolmes mängus edestada inimmängijaid ja mudeli loonud ettevõtetGoogle omandas selle üle 500 miljoni dollari eestlühidalt pärast seda.

Atari videomängude mängimise probleemi juhendatud õppimise rakendamiseks vajame andmestikku, mis sisaldab miljoneid või miljardeid näitemänge, mida mängivad päris inimesed, et masin saaks õppida. Seevastu tugevdav õpe annab masinale tasu vastavalt sellele, kui hästi see oma ülesannet täidab. Lihtsad videomängud sobivad seda tüüpi ülesannete jaoks hästi, kuna skoor töötab hästi preemiana. Masin õpib simulatsiooni teel, millised mustrid maksimeerivad selle tasu.

Sageli annavad hübriidmeetodid häid tulemusi. Näiteks mõnes valdkonnas on oluline ülesanne anomaalia tuvastamine . Anomaaliate tuvastamise algoritm jälgib mõnda signaali ja annab teada, kui midagi imelik juhtub. Hea näide on pettuste avastamine. Me tahame algoritmi, mis jälgib krediitkaarditehingute voogu ja märgib veidraid tehinguid. Aga mida tähendab imelik? See probleem sobib teatud tüüpi järelevalvega/järelvalveta hübriidse lähenemisviisiga. Kindlasti on mõned teadaolevad mustrid, mida soovime, et algoritm suudaks tuvastada, ja saame juhendatud õppemudelit treenida, näidates sellele tuntud pettusmustrite näiteid. Kuid me tahame ka avastada varem tundmatuid näiteid võimalikust pettusest või muust ebatavalisest tegevusest, mida võidakse saavutada järelevalveta õppimise meetoditega.

Masinõppe põhitõdedel võib olla suur mõju

Paljud kõige arenenumad tööriistad nõuavad palju keerulisi teadmisi kõrgtasemel matemaatikas, statistikas ja tarkvaratehnikas. Algajale, kes soovib alustada, võib see tunduda üle jõu käiv, eriti kui soovite töötada mõne põneva uue mudeliga.

Hea uudis on see, et põhitõdedega, mis on laialdaselt kättesaadavad, saate palju ära teha. R-is ja Pythonis on rakendatud mitmesuguseid juhendatud ja järelevalveta õppemudeleid, mis on vabalt saadaval ja hõlpsasti oma arvutis seadistatavad, ning isegi lihtsaid mudeleid, nagu lineaarne või logistiline regressioon, saab kasutada huvitavate ja oluliste masinõppeülesannete täitmiseks.

Vaadake meie Masinõppe tunnistuse kursus et õppida põhitõdesid ja alustada. Kui soovite rohkem, taotlege nüüd BrainStationi Andmeteaduse diplomi programm.


Kategori: Andmeteadus