9.08.2017 / Mika Aho

Kävin toukokuussa Prosessipäivillä höpisemässä tietovarastoinnin ja tekoälyn/koneoppimisen yhteydestä. Nyt kun aihe on monella suunnalla aktiivinen, kirjoittelin siitä myös oman bloginsa.

Ajatuksena oli herätellä yleisöä pohtimaan ensinnäkin tekoälyn ja tietovarastoinnin nykytilaa, mutta ennen kaikkea mihin näitä kahta voisi yhdessä soveltaa. Alla varsinainen esitys sekä muutamia käyttötapauksia ja sovelluskohteita.

[slideshare id=75973994&doc=prosessipivt2017-korvaakotekolyperinteisentietovarastonnetti-170515055044&w=750]

Ei syvennytä tässä kirjoituksessa tekoälyyn tai moderniin tietovarastointiarkkitehtuuriin, vaan keskitytään enemmänkin neljään eri sovelluskohteeseen.

Tietomallinnus

Tietomallinnusta tehdään useammalla eri tasolla. Tyypillisesti luodaan jonkinlainen (ylätason) käsitemalli, ehkä pilotoidaan mallinnusta tietyssä liiketoiminnassa ja luodaan siitä osa-aluekohtainen käsitemalli, näistä edelleen looginen malli ja vielä fyysinen malli valittuun tietokantateknologiaan. Jokaisessa eri vaiheessa syntyy myös metatietoa, esimerkiksi tietovirtakuvauksia, rakennekuvauksia, käsitemääritelmiä ja niistä muodostettuja sanastoja.

Hyvän tavan mukaisesti mallinnusta tehdään tietomallinnusvälineessä (esim. ER/Studio, Enterprise Architect), jotta homma pysyy paremmin hanskassa, eivätkä hanskat huku toimittajan vaihtuessa.

Tämän lisäksi on olemassa erilaisia tapoja mallintaa tietoa. Perinteisesti tietovarastoja on mallinnettu Kimballin tähtimallin mukaisesti ja nykyisin entistä enemmän Lindstedin Data Vault -menetelmällä. Jälkimmäinen on hieman työläämpi, mutta siinä on omat etunsa ja tiettyjä vaiheita pyritään usein automatisoimaan.

tietomallinnus

Missä välissä koneoppiminen ja tekoäly sitten tulevat mukaan? Itse näen, että meillä on paljonkin mahdollisuuksia automatisoida mallinnusprosessia. Kone on mahdollista opettaa oppimaan rakenteita, muokkaamaan niitä lennossa, “ajattelemaan” kontekstia ja korjaamaan prosesseja. Oppiminen tapahtuu esimerkiksi loppukäyttäjän tekemien kyselyiden ja analyysien kautta.

Ei ehkä kovin kaukaista tulevaisuutta, että koneelta kysellään luonnollisella kielellä dataa ja se muodostaa tarvittavat tietorakenteet lennossa lähdejärjestelmiin perustuen. Tämän jälkeen tietovarastosta tuleekin enemmänkin musta laatikko, joka imaisee lähdejärjestelmien rakenteita sekä datoja ja muodostaa tuloksen loppukäyttäjän tarpeen mukaan. Ei meidän tarvitse sille tulevaisuudessa enää opettaa, että järjestelmän X taulun J8KA13KF sarake I0NYX5H1 pitäisi mapata tietovaraston F_SALES.SalesAmountEUR-kenttään.

Tällainen “tekoälykäs” tietoalusta pystyy toimimaan minimaalisella inhimillisellä ohjauksella, oppii kokemuksistaan ja tunnistaa piilossa olevia malleja tietovirroissa ja tietopyynnöissä. Se pystyy myös hakemaan itsenäisesti lisätietoa esimerkiksi datan laatua koskevan ongelman vahvistamiseksi tai vaikkapa tietojen hankkimiseksi vaihtoehtoiselta lähteeltä.

Datan laadunvalvonta

Datan laatu on ollut perinteisesti IT:n tehtäviä: on seurattu dataa, yritetty ymmärtää sen sisältöä (profilointi) ja luotu tietojen puhdistus- ja yhteensovitussääntöjä (standardointi). Koneoppimisella on paljonkin mahdollisuuksia datan laadun arvioinnissa.

Virheitä on ainakin kahdenlaisia:

  1. Järjestelmälliset virheet, jotka esiintyvät säännöllisesti tietyissä olosuhteissa
  2. Satunnaiset virheet, jotka tapahtuvat epäsäännöllisesti tietyissä olosuhteissa

Järjestelmälliset virheet ovat huonompi kandidaatti koneoppimiselle, sillä ongelman tunnistaminen vaatii tietämystä datan käytöstä. Käyttäjien onkin helpompi tunnistaa tällaisia virheitä, varsinkin jos ne esiintyvät usein.

Satunnaisia virheitä on puolestaan helpompi havaita tilastollisten menetelmien avulla. Tällainen voi olla vaikkapa äkillinen muutos datan arvoissa. Ihmisille tämän tyyppiset virheet helposti piiloutuvat suurien tietomäärien taakse varsinkin jos ne esiintyvät harvakseltaan.

Otetaan esimerkki. Meillä on runsaasti erilaisia dataa kerääviä järjestelmiä, kuten ERP, CRM, tuotanto, talous ja HR. Dataa integroidaan näiden järjestelmien välillä ja osa tiedoista siirretään myös tietovarastoon. Isossa organisaatiossa erilaisia automatisoituja datasiirtoja voi olla sadoista useisiin tuhansiin.

Miten varmistutaan, että dataa siirtyy oikea määrä?

dataaDW

Analytiikka seuraa siirrettävän datan volyymeja ja antaa varoituksen, jos dataa tulee liian vähän tai liikaa. Alla (ei niin kuvitteellinen) esimerkki myyntirivien seurannasta tuoteryhmittäin, jossa tässä tapauksessa tuoteryhmän myynti on tasaista ympäri vuoden. Dataa tulee yli sadasta eri kauppaliikkeestä ja joskus niiden latauksissa on ongelmia.

Tilastollinen malli luo automaattisesti luottamusvälit datavolyymin vaihtelulle. Mikäli toteutunut datavolyymi rikkoo luottamusvälin, niin siitä lähtee tiedote ylläpitoon. Alla esimerkkikuva oikeasta datasta laskettuna:

data_luottamusvälit

Punaisen raksin kohdalla osa tiedosta ei tullut lainkaan, joten volyymit putosivat. Usein tällainen virhe ei jää kiinni ETL-prosessissa, vaan se menee nätisti läpi, joskin pienemmillä datamäärillä. 

Pidemmälle vietynä tällainen malli ei pelkästään auta määrittämään ja parantamaan tiedon laatua, vaan tarjoaa myös älykkäämpiä suositeltuja toimenpiteitä tietojen laadulle sekä toiminnallisille parannuksille. Se pystyy myös luokittelemaan datan laatuongelman tyypin tai vakavuuden mukaan.

Datan standardointi

Kolmas hyvä sovelluskohde koneoppimiselle on datan standardointi.

Aika usein datan siivoamista tehdään käsityönä eli poistetaan duplikaatteja ja yhdistellään tietueita keskenään. Käsin tehtynä sääntöjen määrittäminen kestää, vaatii syvällistä ymmärrystä datasta ja on lisäksi kallista. Ymmärrettävästi tietolähteiden kasvaessa ja datan formaattien sekä tietotyyppien lisääntyessä sääntöjen rakentamisesta tuleekin äkkiä iso harjoitus. Lisäksi datan manuaalinen yhteensovittamisen tarkkuus on aina kyseenalaista.

Koneoppimisen avulla modernilla data-alustalla voidaan luoda matchaussääntöjä automaattisesti datasta. Järjestelmä myös oppii ja mukautuu käyttäjien käyttäytymiseen. Tämän tyyppistä toiminnallisuutta löytyy esimerkiksi Talendin Data Fabric -tuotteesta.

Datan paikkaaminen

Koneoppimista voidaan hyödyntää myös datan rikastamiseen tai paikkaamiseen ilman käyttäjän syötettä. On mahdollista laskea erilaisia segmentointiattribuutteja, arvioida asiakaspoistumaa, luottotappiota tai vaikkapa laskennallisesti täydentää asiakkaiden tietoja. Mika ja Ville ovat kirjoittaneet tästä aikaisemmin Louhian blogiin, kannattaa lukaista läpi.

Asiakkaiden tietojen täydentämiseen liittyen kannattaa muuten olla tarkkana. Kun seuraavan kerran törmäät Facebookissa tai vastaavassa kyselyyn, jossa sinua pyydetään vastaamaan “10 viattomaan kysymykseen”, kannattaa miettiä pari kertaa, vastaisiko. Silloin tällöin niissä taustalla olevat algoritmit muodostavat mallin, jotka pystyvät 10 vastatun kysymyksen perusteella ennustamaan ”100 syvällisen kysymykseen” liittyviä asioita. Tällöin sinusta tiedetäänkin aika paljon enemmän ja se iPhone jää kuitenkin saamatta.

voitaIphone


13.10.2016 / Juha Kostamo

Lauleskelee Hanna Ekola jo legendaariseksi viisuksi muodostuneessa kipaleessaan, josta on muuten Vesterinen Yhtyeineen tehnyt ihan mainion version.

Reilun kuukauden Louhia kokemuksen jälkeen muotoilisin kysymyksen tiedolla johtamisen maailmaan sopivaksi eli Vieläkö on tietovarastoja?

Vastaus on, että kyllä on ja niitä rakennetaan koko ajan lisää – fiksusti (ei siis 3 v, 3 miljoonaa ja lopputuloksena kasa tauluja, jotka eivät enää vastaa mihinkään valmistumishetken liiketoimintakysymykseen). Tietovarastointi ei tosiaankaan ole kuollut, päinvastoin. Tarve laittaa nykyinen tietopääoma järjestykseen ja mahdollistaa uusien tietolähteiden joustava tuominen tiedolla johtamisen piiriin kasvaa päivä päivältä. Klassinen talon rakennus vertaus: kannattaako talon perustusten rakentaminen tehdä helpoimman kautta ja luottaa siihen, että talon 2.kerroksen lattia kantaa ja seinät pysyvät pystyssä tai vielä suoraviivaisemmin toimien kannattaako talon rakennus aloittaa suoraan 2. kerroksesta? No ei kannata.

Aika monella ihmisellä on visuaalista silmää, tätä silmää  miellyttämään on tarjolla toinen toistaan näyttävämpiä ja käyttökokemukseltaan hyviä analytiikkaratkaisuja. Visuaalisuus ja käyttöönoton näennäinen helppous houkuttelee menemään helpoimman kautta. Jonkin aikaa kaikki onkin hyvin, mutta jossain vaiheessa alkaa lattia kallistua ja seinät halkeilla. Tiedolla johtamisen Spagetti Bolognese on valmis.

Tietovarastoinnin etuja on monia. Yksi yhteinen totuus lienee se yleisimmin tunnistettu –  keskitetty, harmonisoitu ja luotettava tieto johtamisen tueksi. Tietovarastointi mahdollistaa kokonaiskuvan saamisen yrityksen toiminnasta ja mahdollistaa niin alakerran tapettien (lähdejärjestelmät) kuin yläkerran kylppärin kaakelien (raportointijärjestelmien) vaihtamisen hallitusti – tiedot ovat tallessa.

Itselläni on tällä hetkellä olo kuin Väyrysellä, takki on kääntynyt. Vielä pari vuotta sitten olin melko voimakkaasti sitä mieltä, että tietovarastointiin käytetylle rahalle ja ajalle olisi parempiakin sijoituskohteita. Tähän on saattanut hieman vaikuttaa näkemäni huonot tietovarastohankkeet (maksaa, ei valmistu…). Näin ei kuitenkaan tarvitse enää olla. Tietovarastollakin tulee olla hyvä ROI ja sen pitää pystyä mukautumaan tulevaisuuden muutoksiin toimintaympäristössä. Data Vault voi olla yksi hyvä vaihtoehto toteutustavaksi.

 Long live tietovarastointi!

PS: Louhialta saa muuten hyviä palveluja tietovarastoinnin kehittämiseen (auditointia, määrittelyä ja rakentamista) eli kannattaa tsekata http://www.louhia.fi/palvelut/bidw-ratkaisut/


3.08.2016 / Ville Niemijärvi

Microsoft SQL ServerTeen kesän aikana jo toiselle asiakkaalle shortlistaa IT-toimittajista, jotka toteuttavat tietovarastoja, osaavat ETL-työvälineenä Microsoftin SSIS:ää ja mahdollisesti mallintaa data vaultilla.

Tarve on siis hyvin spesifille korkean tason osaamiselle, mielellään serfitikaattien kera.

Tunnen alan toimijat hyvin joten helppo homma?

Ei ihan.

Kukaan ei halua olla duunari

Nykypäivänä ainakin firmojen web-sivujen mukaan kukaan ei tee tietovarastoja. Se on passe. Suorituskyvyn johtamista, koneälyä, big dataa, integraatioratkaisuja, tiedolla johtamista, IoT:tä ja digitalisaatiota tuntuu tekevän kaikki. Mitä ne sitten ikinä tarkoittavatkaan?

Mutta harva asiakas ostaa yhden digitalisaation. Tai yhden integraation. Tai kaksi tiedolla johtamisen konsultaatiota ja yksi suorituskykyn johtamisen ratkaisu. 

Jopa sellaiset yritykset jotka tunnen erittäin hyvin ja tiedän heidän olevan maan huippuja tietovarastoinnissa ja esimerkiksi SSIS-työvälineen käytössä, vaikenevat verkossa täysin näistä taidoista.

Tällöin asiakkaiden on erittäin vaikea ostaa osaamista. Ja kaupat jäävät syntymättä.

Näissä parissa casessa olenkin joutunut kysymään Microsoftilta suoraan, ketkä suomalaiset IT-talot toteuttavat esimerkiksi tietovarastoja Azureen, keneltä löytyy SSIS-osaajia, ketkä hallitsevat teknologian X.

Ja näillä konkreettisilla hakusanoilla asiakkaat usein kumppaneita etsivät. Vaikka tuomiopäivän pasuunat muuta väittävät, tietovarastoja tehdään edelleen täyttä häkää. Ja isoja sellaisia. Ja paljon parempia, monipuolisempia ja fiksumpia kuin vuosikymmen sitten.

Firmat ajattelevatkin varmaan, että tietovarastojen toteutus on liian bulkkia, leimaa heidät duunareiksi.

IT-firmojen pitäisi ottaa mallia Timo Soinista

Kaikki tuntuu haluavan näyttäytyvän korkeamman tason digitalisaation sanansaattajina, oppaina ja konsultteina. Tunnustan: niin mekin.

Tämä ylätason huttu on kuitenkin juuri sitä ihteään. Huttua. Liian epämääräistä, liian korkealentoista, että sillä olisi oikeasti käyttöä. Viestintää joka menee täysin hukkaan.

Toisaalta kun kaikkien tuntema tietovarastoja sorvaava akselirasvaosaston IT-firma koittaa näyttää korkeamman jalostusasteen johdon konsulttifirmalta, Accenturelta, Mckinseyltä ja mitä lie, niin jossain vaiheessa siitä jää kiinni. Viimeistään silloin kun propellipää “konsultti” menee asiakkaan johtoryhmälle puhumaan biteistä ja pilvestä. Sieltä lentää äkkiä niskaperseotteella ulos.

IT-firmojen kannattaisikin ottaa mallia Timo Soinin selkokielenkäytöstä. Puhua. Yksinkertaisin. Lausein. Ehkä firmojen pitäisi popularisoida web-sivujensa viestintä. Kansanomaistaa se.

Olisikin ilahduttavan pirteää nähdä IT-firma, joka toteaa webissä etusivulla: me teemme tietovarastoja Microsoftin teknologialla.

Olen pommin varma, että tällöin tulisi kauppaa enemmän kuin diipadaapalla. Ei ehkä jytkyä mutta kauppaa silti.


Ps. Näihin pariin caseen shortlistit on luotu ja toimittajat on kontaktoitu tai tullaan pian kontaktoimaan. Mutta näitä toimeksiantoja tulee meille kuitenkin yhtä enemmän ja enemmän eteen.

Jotta helpotamme omaa työtämme ja palvelemme asiakkaitamme paremmin, lähdemme ylläpitämään listaa suomalaisista eri tiedolla johtamisen osa-alueille erikoistuneista yrityksistä. Toimimme puolueettomana konsulttina ja etsimme asiakkaalle parhaimman toteutuskumppanin.

Jos yrityksesi on siis erikoistunut tietovarastoihin, data science:en, business intelligenceen, raportointiin tai muuhun tiedolla johtamisen alueeseen, ja olet jatkossa kiinnostunut saamaan tarjouspyyntöjä isoista DW/BI/DataScience/IoT -projekteista, nakkaa vaikka maililla (ville.niemijarvi@louhia.fi)

Teknologioita on pilvin pimein ja kaikkia softia ja niiden osaajia emme ala listaamaan mutta aloitamme ainakin näillä, joista on tullut eniten kyselyjä:

  • ETL-työvälineet: SSIS, Informatica
  • pilviratkaisut: Azure, AWS
  • tietovarastot pilvessä, Paas-ratkaisut: Azure SQL DW, Amazon Redshift
  • big data -ratkaisut osana tietovarastointia ja raportointia, Hadoop etc.
  • data science ja edistynyt analytiikka (tästä olemme jo keränneet kattavan listan)

(Raportointituotteiden osalta peli on selkeämpi ja Tableau, Cognos, QlikView, Birst etc. konsultit löytyy helposti. Ehkä listaamme niitäkin mutta ei nyt)

Olisi kiva tietää:

  • mitä yllämainittuja osa-alueita yrityksenne toteuttaa?
  • hieman osviittaa montako toteutusprojektia on takana, mahdolliset referenssit?
  • osaajien lukumäärät, sertifikaatit plussaa?

Auta meitä auttamaan suomalaisia asiakkaita. Ja sinua siinä samassa.


23.10.2015 / Mika Laukkanen

Tiedolla johtamisen ratkaisut (analytiikka, raportointi, big data, tietovarastot, data science..) ovat teknologian osalta voimakkaassa murroksessa. Uusia innovaatisia tuotteita ja ratkaisuja tulee markkinoille rivakalla tahdilla.  Asiakkaalla on vaihtoehtoja enemmän kuin koskaan aiemmin, joten myös sopivan tuotteen valitseminen on tullut huomattavasti hankalammaksi.

Sen sijaan lupaukset em. ratkaisujen hyödyistä eivät ole kehittyneet ihan samassa tahdissa. Selailin taannoin erästä Data Mining kirjaa vuodelta 1999. Siinä oli jo suunnilleen samat lupaukset asiakasanalytiikan hyödyistä kuin mitä nytkin näkee markkinoilla. Isossa kuvassa dataa siis yhdistellään jatkossakin eri lähteistä johonkin purkkiin, josta sitä analysoidaan ja raportoidaan eteenpäin.

Teknisesti tämä kehittyy jatkuvasti helpommaksi ja halvemmaksi. Periaatteessa tämä tarjoaakin liiketoiminnalle loistavia mahdollisuuksia.

Teknologia kehittyy, mutta entäpä ihmiset ja organisaatiot?

Jotta nopea teknologinen kehitys tulisi hyödynnetyksi, niin myös ihmisten ja organisaatioiden tulisi kehittyä ajan hengessä. Realismia taitaa olla, että tämä kehitys ei ole kovin nopeaa. Ihmiset ja organisaatiot muuttuvat hitaasti ja usein vasta pakosta, esim. kriisien kautta. Vapaaehtoinen muutos ‘ihan-mukavassa-tilanteessa’ on harvinaista.

Millaiset muutokset sitten auttaisivat tiedolla johtamisessa? Tässä muutamia havaintoja.

  • Johdon olisi keskeistä ymmärtää miten tiedolla voidaan parantaa liiketoimintaa ja tulosta. Aika usein törmää siihen, että analytiikka tms. kehitysprojektia yritetään myydä ensiksi omalle johdolle sen sijaan, että se olisi sieltä lähtöisin. Kannettu vesi pysyy huonosti kaivossa.
  • Organisaatioiden siilomaisuus voi tuottaa hullunkurisia kannustimia. Esimerkiksi keskustelimme erään rahoituslaitoksen kanssa asiakaspoistuman torjunnasta. Teimme muutamia laskelmia ja spottasimme aika ison potentiaalisen hyödyn. Ongelma, asiakaspoistuman torjunta ei ollut (siiloissa) kenenkään tontilla. Myynti vastasi myynnistä, markkinointi markkinoinnista, talous taloudesta, jne. Monissa siiloissa siis pyöriteltiin asiakasdataa vain oman siilon näkövinkkelistä. Tällaisessa tilanteessa ‘Asiakas 360’ hankkeet jäävät kauaksi tavoitelluista hyödyistä. Eikä mikään teknologia korjaa ongelmaa.
  • Varsin harvassa yrityksessä on ammattilaisia analysoimassa tietoa. Ammattilaisuus tarkoittaa data-analyytikkoa (data scientist), jolla on vahva menetelmällinen työkalupakki analysoida tietoa tehokkaasti. Toisaalta ei ole mieltä kehittää tätä osa-aluetta ellei johto osaa ensiksi kysyä oikeita kysymyksiä, joihin data-analyytikko voi pureutua. Ilman relevantteja kysymyksiä data-analyytikon homma on lähinnä arvailua ja harhailua.
  • Saatavan tiedon (raportti, analyysi, mittari, tms.) pitäisi johtaa entistä useammin toimintaan ja sen mittaamiseen. Sehän on koko homman pointti. Ilman toimintaa on melko sama millä mittareilla johtaa.

Kokonaisuutena nämäkin asiat kehittyvät jatkuvasti parempaan suuntaan, joskin nopeudessa voisi kiriä. Ainakin näin konsultin näkövinkkelistä katsottuna.