Kuinka välttää koneoppimisen sudenkuopat?

22/03/2019 by Rami Juhela

Koneoppiminen tarjoaa yrityksille monia innovatiivisia keinoja tehostaa liiketoimintansa prosesseja, mutta projektien toteuttaminen osoittautuu usein odotettua vaikeammaksi. Lue mitkä ovat koneoppimisprojektien yleisimmät sudenkuopat ja miten ne voidaan välttää.

Maltti on valttia

Koneoppiminen on tekoälyn alaryhmä, joka tekee päätöksiä pohjautuen historialliseen dataan ja siitä johdettuihin malleihin käyttämättä tarkkaan määritettyjä toimintaohjeita. Oikein toteutettuna koneoppimista voidaan käyttää liiketoiminnassa tuottamaan lisäarvoa monin uudenlaisin keinoin. Aihe on ollut viime aikoina vahvasti esillä ja monet yritykset ovat innokkaita hyödyntämään sen luomia mahdollisuuksia saavuttaakseen kilpailuetua uusien, innovatiivisten ratkaisujen kautta. Vanhan sanonnan mukaan on taottava, kun rauta on kuumaa, mutta samalla on hyvä muistaa, että maltti on valttia. On ratkaisevan tärkeää ymmärtää mitä kaikkea koneoppimisprojekti vaatii onnistuakseen, ennen kuin sukeltaa pää edellä syvään päätyyn ja ensimmäisen pilottihankkeen kimppuun. Hätiköidyt tai puutteellisesti suunnitellut IT-projektit tuppaavat tekemään budjeteillesi ihmeitä – eivätkä lainkaan positiivisessa mielessä.

Ongelman ydin

Koneoppimisen hyödyntäminen liiketoiminnassa on prosessi, joka koostuu yleensä viidestä avainvaiheesta:

Keskeisten mittarien (KPI) määrittäminen
Datan kerääminen
Infrastruktuurin rakentaminen
Mallien optimointi
Integraatio

Ymmärtääkseen koneoppimisprojektia kokonaisvaltaisesti, on ensin ymmärrettävä jokaisen erillisen vaiheen luonne: millaista asiantuntemusta vaihe vaatii ja kuinka suuri se on työmäärältään? Näihin kahteen kysymykseen vastaaminen on elintärkeää, jotta voidaan ymmärtää millainen ROI (Return of Investment) koko projektilta on odotettavissa.

Ville Tuulos, Koneoppimisarkkitehti Netflixiltä toi esille monia loistavia huomioita koneoppimisprojektien toteutuksesta ja työmäärän jakautumisesta North Star AI:n Machine Learning & Data Science Conferencessa Tallinnassa muutama viikko sitten. Yksi Villen tärkeimmistä pointeista oli, että datatiede pyörii enemmän datan kuin tieteen ympärillä. Samoilla linjoilla oli myös André Karpištšenko, Taxifyn Head of Data Science, joka visualisoi hienolla tavalla koneoppimisprojektien työmäärän jakautumiseen liittyviä yleisiä harhaluuloja. Me Bluugossa olemme täysin samaa mieltä näistä huomioista ja onkin ilo huomata kuinka alansa suurimmat tekijät jakavat kanssamme samoja ajatuksia koneoppimisesta.

Alla näkyvä kuvassa on esitetty, miten useat yritykset hahmottavat koneoppimisprojektien eri vaiheiden työmäärän jakautuvan:

ml-projects-effort-allocation-perception

Todellisuudessa työmäärä jakautuu kuitenkin seuraavanlaisesti:

On melko yleinen harhaluulo, että koneoppimiseen liittyvästä työmäärästä suurin osa kuluisi teknisten mallien rakentamiseen ja optimointiin. Sen kun määrität tärkeimmät mittarisi, käytät muutaman viikon mallien optimointiin, syötät sisään läjän dataa ja hyvät tulokset ovat taattuja? Ei, ikävä kyllä homma ei toimi niin.

Data ja infrastruktuuri, koneoppimisen kulmakivet

Teknisten mallien ja algoritmien optimointi on olennainen osa jokaista koneoppimisratkaisua, mutta suurin osa työstä liittyy kuitenkin datan keräämiseen ja muokkaamiseen sekä toimivan infrastruktuurin rakentamiseen. Ennen kuin yhtäkään mallia voidaan optimoida, on ensin kerättävä riittävä määrä laadukasta, määritettyjen mittarien kannalta oleellista pohjadataa. Useimmissa tapauksissa pohjadata koostuu sadoista tuhansista riveistä.

Raakadatan kerääminen eri lähteistä ja sen jalostaminen laadukkaaksi pohjadataksi on prosessi, joka vaatii onnistuakseen rautaista ammattitaitoa sekä paljon työtunteja. Mikäli jokainen projekti aloitetaan täysin puhtaalta pöydältä, koneoppimisen tuoma potentiaali on sidottu suoraan projektien parissa työskentelevien asiantuntijoiden määrään. Välttääkseen tämän, on ensiarvoisen tärkeää rakentaa työskentelyn pohjaksi vahva infrastruktuuri, joka mahdollistaa jatkuvan tehokkuuden ylläpitämisen. Käytännössä infrastruktuurin rakentamisella tarkoitetaan yhtenäisten työskentelytapojen sekä työkalujen määrittämistä ja uudelleenkäytettävien dataputkien (pipeline) luomista, joita voidaan hyödyntää laadukkaan pohjadatan tuottamisessa monissa eri projekteissa manuaalisen datan jalostamisen sijaan. Luotujen dataputkien jatkuva monitorointi ja hienosäätäminen on myös tärkeää laadukkaan lopputuloksen takaamiseksi. Vahvan infrastruktuurin rakentaminen ja huoltaminen on pitkän aikavälin sijoitus, joka hyvin toteutettuna maksaa itsensä takaisin moninkertaisesti uudelleen ja uudelleen.

Älä unohda integraatiota

Tämä saattaa kuulostaa itsestäänselvyydeltä, mutta koneoppimisprojektia aloittaessa on tärkeää ymmärtää yksityiskohtaisesti, minkälaisia palveluita olet ostamassa partneriyritykseltäsi. Koska projektien suurimman työmäärän luullaan usein liittyvän teknisten mallien optimointiin, on luonnollista, että myös suurin osa huomiosta kiinnittyy sen ympärille. Pahimmillaan tämä johtaa tilanteeseen, jossa tuotetun ratkaisun integroiminen varsinaiseen liiketoimintaan jää projektin aikana huomiotta. On varsin helppoa uppoutua teknisten ratkaisujen pauloihin ja unohtaa hetkellisesti lopullinen päämäärä, eli business-hyödyn tuottaminen. Kehittyneistä, alansa parhaiden tekijöiden luomista ratkaisuista ei ole paljonkaan iloa, mikäli niitä ei pystytä integroimaan varsinaiseen liiketoimintaan ja käytössä oleviin alustoihin. Opi siis menneestä ja pidä katseesi tiukasti projektin todellisessa tavoitteessa!

Loppujen lopuksi, koneoppiminen ja sen tuottamat ratkaisut ovat ainoastaan työkaluja, joiden avulla liiketoimintaa voidaan parantaa – ilman konkreettista hyötyä ne eivät ole minkään arvoisia. Me Bluugossa ymmärrämme tämän ja olemme saavuttaneet koneoppimisen avulla loistavia tuloksia projekteissamme. Swissport Finlandille tuottamamme, koneoppimista hyödyntävä ratkaisu palkittiin viime syksynä kansainvälisellä innovaatiopalkinnolla Pride of Ground Handling Awards -tapahtumassa Göteborgissa.

Mikäli etsit luotettavaa, jalat maassa pitävää partneria koneoppimisprojektiin tai haluat kuulla lisää ratkaisuistamme, ota meihin yhteyttä.

Rami Juhela

CEO, Co-Founder

rami.juhela@bluugo.fi

Kuinka välttää koneoppimisen sudenkuopat?

Maltti on valttia

Ongelman ydin

Data ja infrastruktuuri, koneoppimisen kulmakivet

Älä unohda integraatiota

Rami Juhela

I'm helping our customers to unlock their full potential through digitalization. Throughout my career, I've been at the intersections of technology and its relationship to people and business.

Lue lisää:

Avoin hakemus

Kriittiset kuljetukset hallintaan – Tuomi Logistiikka ottaa käyttöön Tracking Cloudin

GS1 teknologiastandardien avulla EUDR ei ole rakettitiedettä