Kas andmeteadlased kodeerivad?
BrainStationi Data Scientisti karjäärijuhend aitab teil teha esimesi samme tulusa andmeteaduse karjääri suunas. Lugege edasi, et saada ülevaade, kas andmeteadlased peavad kodeerima ja millised programmeerimiskeeled on andmeteaduse jaoks parimad.
Hakka andmeteadlaseks
Rääkige õppenõustajaga, et saada lisateavet selle kohta, kuidas meie alglaagrid ja kursused aitavad teil saada andmeteadlaseks.
Klõpsates nuppu Esita, nõustute meiega Tingimused .
Esita
Ei saanud esitada! Kas värskendada lehte ja proovida uuesti?
Lisateavet meie Data Science Bootcampi kohtaAitäh!
Võtame varsti ühendust.
Vaadake Data Science Bootcampi lehte
Ühesõnaga jah. Data Scientists kood. See tähendab, et enamik andmeteadlasi peab teadma, kuidas kodeerida, isegi kui see pole igapäevane ülesanne. Nagu sageli korratakse, on andmeteadlane keegi, kes on statistikas parem kui ükski tarkvarainsener ja tarkvaratehnikas parem kui ükski statistik.
Programmeerimise (teise nimega kodeerimise) hulk sõltub aga nende rollist ja kasutatavatest tööriistadest. Mõned näited asjadest, mida andmeteadlased võivad programmeerida:
- Analüüsi skripte, tavaliselt R-is või Pythonis, eesmärgiga luua rakendatavaid teadmisi.
- Digitoodete prototüübid. Pythonit kasutades on eesmärk üldiselt tõestada uue toote või funktsiooni tõhusust, mis võimaldab arendajal selle luua.
- Tootmiskood. Väiksemates ettevõtetes on andmeteadlastel sageli selle eest täielik vastutus ja võib-olla tuleb selle saavutamiseks kasutada Ruby on Rails või Java (lisaks sagedamini kasutatavatele andmeteaduse keeltele).
Milliseid programmeerimiskeeli andmeteadlased kasutavad?
Andmeteadlaste jaoks on kõige populaarsemad programmeerimiskeeled Python, R ja SQL.
Vaatame lähemalt, kuidas andmeteadlased neid programmeerimiskeeli ja palju muud kasutavad.
Python
Hallatava õppimiskõvera ja peaaegu lõputuid rakendusi võimaldavate teekide hulgaga on Python parim programmeerimiskeel paljude andmeteadlaste jaoks, kes hindavad selle juurdepääsetavust, kasutuslihtsust ja üldotstarbelist mitmekülgsust. Tegelikult leidis BrainStationi 2019. aasta digitaalsete oskuste uuring, et Python oli andmeteadlaste jaoks üldiselt kõige sagedamini kasutatav tööriist.
Alates selle kasutuselevõtust 1991. aastal on Python loonud üha kasvava arvu teeke, mis on pühendatud tavapäraste ülesannete täitmisele, sealhulgas andmete eeltöötlusele, analüüsile, prognoosidele, visualiseerimisele ja säilitamisele. Samal ajal võimaldavad Pythoni raamatukogud, nagu Tensorflow, Pandas ja Scikit-learn, täiustatud masinõppe või süvaõppe rakendusi. Küsimusele Pythoni eelistamise kohta R-ile viitasid andmeuurijad Pythoni kalduvusele olla R-st kiirem ja andmetega manipuleerimiseks parem.
R
Tasuta avatud lähtekoodiga programmeerimiskeel, mis ilmus 1995. aastal programmeerimiskeele S järeltulijana, pakub R tipptasemel kvaliteetseid domeenispetsiifilisi pakette, mis vastavad peaaegu kõigile statistilistele ja andmete visualiseerimise rakendustele, mida andmeteadlane võib vajada. sealhulgas närvivõrgud, mittelineaarne regressioon, täiustatud joonistamine ja palju muud. Selle visualiseerimisteek ggplot2 on võimas tööriist ning R-i staatiline graafika võib hõlbustada graafikute ning matemaatiliste sümbolite ja valemite loomist.
Jah, Pythonil on kiiruse eelis R-i ees (ja R-l on järsem õppimiskõver kui paremini ligipääsetaval Pythonil), kuid konkreetsete statistiliste ja andmeanalüüsi eesmärkide jaoks annab R-i suur valik kohandatud pakette sellele väikese eelise. Väärib märkimist, et erinevalt Pythonist ei ole R üldotstarbeline programmeerimiskeel – see on mõeldud spetsiaalselt statistilise analüüsi jaoks.
SQL
SQL ehk struktureeritud päringukeel on olnud andmete salvestamise ja toomise keskmes aastakümneid. SQL on domeenispetsiifiline keel, mida kasutatakse andmete haldamiseks relatsiooniandmebaasides – ja see on kohustuslik oskus andmeteadlastele, kes tuginevad SQL-ile andmebaaside värskendamiseks, päringute tegemiseks, redigeerimiseks ja töötlemiseks ning andmete väljavõtmiseks. Kuigi SQL ei ole nii kasulik kui analüütiline tööriist, on see väga tõhus ja andmete otsimisel ülioluline. See muudab SQL-i eriti kasulikuks tööriistaks struktureeritud andmete haldamisel, eriti suurtes andmebaasides. Kuna SQL on põhioskus, on õnn, et selle deklaratiivne keel on üsna loetav ja intuitiivne.
Muud andmeteaduse programmeerimiskeeled
Kuigi Python, SQL ja R on kindlasti andmeteadlaste parimad programmeerimiskeeled, on mõned muud programmeerimiskeeled, mis võivad andmeprofessionaalidele kasulikud olla, järgmised:
Java
Java kui üks vanimaid andmeteadlaste kasutatavaid üldotstarbelisi keeli võlgneb oma kasulikkuse vähemalt osaliselt selle populaarsusele: paljud ettevõtted, eriti suured rahvusvahelised ettevõtted, kasutasid Java taustasüsteemide ja rakenduste loomiseks lauaarvutitele, mobiilseadmetele, või veebis. Java-oskus on üha atraktiivsem tänu Java võimele põimida andmeteaduse tootmiskood otse olemasolevasse andmebaasi. Seda hinnatakse kõrgelt ka selle jõudluse, tüübiohutuse ja platvormidevahelise teisaldatavuse poolest. Tasub mainida, et (tõesti) suurandmete arvutusrakendus Hadoop töötab Java virtuaalmasinas (JVM) – veel üks põhjus, miks Java on andmeteadlaste jaoks kohustuslik oskus.
Trepid
Kasutajasõbralik ja paindlik Scala on ideaalne programmeerimiskeel suurte andmemahtude käsitlemiseks. Kombineerides objektorienteeritud ja funktsionaalse programmeerimise, väldib Scala keerulistes rakendustes esinevaid vigu oma staatiliste tüüpidega, hõlbustab suuremahulist paralleeltöötlust ja pakub Apache Sparkiga paaristamisel suure jõudlusega klastri andmetöötlust. Scala, mis on loodud töötama JVM-is, suudab käitada kõike, mida Java töötab. See on muutumas eriti populaarseks inimeste jaoks, kes koostavad keerukaid algoritme või teostavad suuremahulist masinõpet. Scalal on küll järsem õppimiskõver kui mõnel teisel programmeerimiskeelel, kuid selle tohutu kasutajaskond annab tunnistust sellest, kui oluline on sellest kinni pidada.
Julia
Julia, mis on palju uuem programmeerimiskeel kui teised selles loendis olevad, on tänu oma lihtsusele, loetavusele ja välkkiirele jõudlusele siiski tugeva mulje jätnud. Arvanalüüsi ja arvutusteaduse jaoks loodud Julia on eriti kasulik keeruliste matemaatiliste toimingute lahendamiseks, mis selgitab, miks sellest on saamas finantssektoris arm. See on muutumas laialt tuntuks ka populaarse tehisintellekti keelena, mis on üks põhjusi, miks paljud suured pangad kasutavad nüüd Juliat riskianalüüsiks. Kuna aga keel on suhteliselt noor, puuduvad Julial praegu R-i või Pythoni pakutavad paketid.
MATLAB
See statistilises analüüsis laialdaselt kasutatav patenteeritud arvarvutuskeel on abiks andmeteadlastele, kes tegelevad kõrgetasemeliste matemaatiliste vajadustega, sealhulgas Fourier' teisenduste, signaalitöötluse, pilditöötluse ja maatriksalgebraga. MATLAB on tänu oma intensiivsele matemaatilisele funktsionaalsusele muutunud laialdaselt kasutuseks tööstuses ja akadeemilistes ringkondades. MATLAB võib samuti aidata vähendada andmete eeltöötlusele kuluvat aega ja aidata teil leida parimaid masinõppemudeleid, olenemata teie teadmiste tasemest. Sellel on ka mõned suurepärased sisseehitatud joonistamisvõimalused, mis teeb sellest väärtusliku andmete visualiseerimise tööriista.