13.06.2019 / Mika Laukkanen

Otsikon kysymys tulee eteen useimmille Data Scientisteille jossakin vaiheessa. Useammankin kerran olen ollut tilanteessa, jossa tekoälystä tai koneoppimisesta innostunut asiakas haluaisi ottaa helpon startin asiaan, ja esittää ko. kysymyksen.

En varsinaisesti ihmettele, että tällaisia keskusteluja syntyy, koska aiheen markkinoinnissa on useammin pää pilvessä kuin jalat maassa. Ei siis moitita kysyjiä.

Mutta eipä noista keskusteluista ole haittaakaan ollut, sillä ne ovat avanneet hyvän tilaisuuden jutella aiheesta tarkemmin.

Data on hyvä renki

Miksi ei sitten kannata edetä data edellä tekoälyprojekteihin? Tässä kolme pointtia.

Ensimmäinen pointti on, että tekoälyratkaisujen ”äly” perustuu (nykyisellään) koneoppimismenetelmiin, jotka eivät ymmärrä asioiden välisiä konteksteja. Siinä mielessä ne eivät ole laskimia älykkäämpiä. Kun meillä runsaasti dataa, niin osa muuttujista voi korreloida keskenään, ilman todellista syy-seurausyhteyttä. Dataa sokeasti louhimalla on hyvä mahdollisuus löytää ”jotakin”, joka ei siis ole oikeasti mitään.

Tässä pari kuvaa aihepiiristä.

 

Toinen pointti on, että vaikka datasta löydettäisiin aitoja yhteyksiä asioiden välillä (ei pelkkää korrelaatiota), niin niillä ei välttämättä ole juurikaan liiketoiminta-arvoa. Esimerkiksi tehdään ennusteita asioista, joita ei kukaan tarvitse tai niitä ei voi käyttää. Kerran keksimme eräässä projektissa ennustaa puuttuvia CRM tietoja asiakkaan ostojen perusteella. Malli toimi hienosti, mutta asiakas ei tarvinnut päivitettyjä tietoja. Samoin kävi myös päivystyskäyntiennusteille ja eräälle tilauskannan realisoitumisennusteelle. Ei tarvetta.

Kolmas pointti on, että datan sokeaa tutkailua voi pitää huonona ajankäyttönä. Paljon dataa, paljon tutkimista. Tutkailun tuloksena sitä lopulta keksii jonkin kysymyksen, esim. ennustettavan kohteen. Tämä jälkeen valmistelee datat, tekee mallit ja tulkitsee tulokset. Jos tulokset olivat huonoja, niin sitten toisen kysymyksen kimppuun. Jos ne taas olivat hyviä, niin silti pointin 2 riski voi realisoitua. Tämä ehkä sopii kesätyöksi opiskelijalle, jolle työnantaja ei keksinyt parempaakaan tekemistä.

Mahdollinen poikkeus

Data edellä eteneminen voi ainakin yhdessä tilanteessa olla perusteltavissa. Nimittäin silloin, kun Data Scientist on sen alueen asiantuntija, jonka dataa hänen tulisi tutkailla.

Esimerkiksi osakemarkkinoihin perehtynyt Data Scientist ymmärtää heti ko. alueen datat ja termit (esim. volatiliteetti, pe-luku, beta tai sharpen luku). Ja millaisia asioita näistä dataseteistä on yleensä järkevää etsiä.

Vastaavasti markkinointiin erikoistunut Data Scientist pystynee porautumaan erilaisiin markkinoinnin datasetteihin, ja tekemään niistä tuloksellistakin louhintaa.

Mutta näissä tapauksissa on hyvä huomioida, että Data Scientistin asiantuntijuus ko. alueella on jo lähtökohtaisesti rajannut tutkittavia vaihtoehtoja eikä se ole vain sokeaa hapuilua.

Kokonaisuutena tällaista louhintaa voi pitää innovatiivisena prosessina, jossa pyritään löytämään uusia lähestymiskulmia ja ideoita. Ei niinkään tiettyyn tulokseen pääsemisenä joissakin budjetti- ja aikatauluraameissa.

Minkä asian haluat ratkaista?

Reaalimaailmassa nuo budjetti- ja aikatauluraamit on kuitenkin huomioitava. Uskoisin että seuraavan muistilistan avulla on helpompaa päästä hyödyllisiin lopputuloksiin kuin vain dataa tutkailemalla ja parasta toivoen.

  • Identifioi minkä ongelman haluat ratkaista tekoälyn avulla. Mitä selvempi ongelma, niin sen parempi. Esimerkiksi, myyntiennuste tuotteille x, y ja z kaksi kuukautta eteenpäin. Tai onko tuotantolinjalla kulkeva tuote kuvan perusteella a) virheellinen, b) virheetön.
  • Mieti jos tekoäly jo toimisi, niin mistä sen taloudellinen hyöty syntyy (ROI)? Vähentävätkö uudet myyntiennusteet esim. hävikkiä? Tai paljonko rahaa säästyy, kun virheellisten tuotteiden palautukset puolittuvat?
  • Ennen projektin aloittamista varmista myös, että teillä on dataa, joka vastaa identifioituun ongelmaan ja sitä on saatavilla alkukokeilujen jälkeen myös tuotantokäytössä.
  • Hanki oikeat ihmiset mukaan eri vaiheisiin (kehittäminen, tuotantokäyttö)

Sinällään tässä postauksessa ei varsinaisesti ollut uusia asioita. Jo 1990-luvulla IBM:n kehittämä CRISP-DM kehikko aloitti Business kysymyksestä. Ja se pitää edelleen pintansa.


9.08.2017 / Mika Aho

Kävin toukokuussa Prosessipäivillä höpisemässä tietovarastoinnin ja tekoälyn/koneoppimisen yhteydestä. Nyt kun aihe on monella suunnalla aktiivinen, kirjoittelin siitä myös oman bloginsa.

Ajatuksena oli herätellä yleisöä pohtimaan ensinnäkin tekoälyn ja tietovarastoinnin nykytilaa, mutta ennen kaikkea mihin näitä kahta voisi yhdessä soveltaa. Alla varsinainen esitys sekä muutamia käyttötapauksia ja sovelluskohteita.

[slideshare id=75973994&doc=prosessipivt2017-korvaakotekolyperinteisentietovarastonnetti-170515055044&w=750]

Ei syvennytä tässä kirjoituksessa tekoälyyn tai moderniin tietovarastointiarkkitehtuuriin, vaan keskitytään enemmänkin neljään eri sovelluskohteeseen.

Tietomallinnus

Tietomallinnusta tehdään useammalla eri tasolla. Tyypillisesti luodaan jonkinlainen (ylätason) käsitemalli, ehkä pilotoidaan mallinnusta tietyssä liiketoiminnassa ja luodaan siitä osa-aluekohtainen käsitemalli, näistä edelleen looginen malli ja vielä fyysinen malli valittuun tietokantateknologiaan. Jokaisessa eri vaiheessa syntyy myös metatietoa, esimerkiksi tietovirtakuvauksia, rakennekuvauksia, käsitemääritelmiä ja niistä muodostettuja sanastoja.

Hyvän tavan mukaisesti mallinnusta tehdään tietomallinnusvälineessä (esim. ER/Studio, Enterprise Architect), jotta homma pysyy paremmin hanskassa, eivätkä hanskat huku toimittajan vaihtuessa.

Tämän lisäksi on olemassa erilaisia tapoja mallintaa tietoa. Perinteisesti tietovarastoja on mallinnettu Kimballin tähtimallin mukaisesti ja nykyisin entistä enemmän Lindstedin Data Vault -menetelmällä. Jälkimmäinen on hieman työläämpi, mutta siinä on omat etunsa ja tiettyjä vaiheita pyritään usein automatisoimaan.

tietomallinnus

Missä välissä koneoppiminen ja tekoäly sitten tulevat mukaan? Itse näen, että meillä on paljonkin mahdollisuuksia automatisoida mallinnusprosessia. Kone on mahdollista opettaa oppimaan rakenteita, muokkaamaan niitä lennossa, “ajattelemaan” kontekstia ja korjaamaan prosesseja. Oppiminen tapahtuu esimerkiksi loppukäyttäjän tekemien kyselyiden ja analyysien kautta.

Ei ehkä kovin kaukaista tulevaisuutta, että koneelta kysellään luonnollisella kielellä dataa ja se muodostaa tarvittavat tietorakenteet lennossa lähdejärjestelmiin perustuen. Tämän jälkeen tietovarastosta tuleekin enemmänkin musta laatikko, joka imaisee lähdejärjestelmien rakenteita sekä datoja ja muodostaa tuloksen loppukäyttäjän tarpeen mukaan. Ei meidän tarvitse sille tulevaisuudessa enää opettaa, että järjestelmän X taulun J8KA13KF sarake I0NYX5H1 pitäisi mapata tietovaraston F_SALES.SalesAmountEUR-kenttään.

Tällainen “tekoälykäs” tietoalusta pystyy toimimaan minimaalisella inhimillisellä ohjauksella, oppii kokemuksistaan ja tunnistaa piilossa olevia malleja tietovirroissa ja tietopyynnöissä. Se pystyy myös hakemaan itsenäisesti lisätietoa esimerkiksi datan laatua koskevan ongelman vahvistamiseksi tai vaikkapa tietojen hankkimiseksi vaihtoehtoiselta lähteeltä.

Datan laadunvalvonta

Datan laatu on ollut perinteisesti IT:n tehtäviä: on seurattu dataa, yritetty ymmärtää sen sisältöä (profilointi) ja luotu tietojen puhdistus- ja yhteensovitussääntöjä (standardointi). Koneoppimisella on paljonkin mahdollisuuksia datan laadun arvioinnissa.

Virheitä on ainakin kahdenlaisia:

  1. Järjestelmälliset virheet, jotka esiintyvät säännöllisesti tietyissä olosuhteissa
  2. Satunnaiset virheet, jotka tapahtuvat epäsäännöllisesti tietyissä olosuhteissa

Järjestelmälliset virheet ovat huonompi kandidaatti koneoppimiselle, sillä ongelman tunnistaminen vaatii tietämystä datan käytöstä. Käyttäjien onkin helpompi tunnistaa tällaisia virheitä, varsinkin jos ne esiintyvät usein.

Satunnaisia virheitä on puolestaan helpompi havaita tilastollisten menetelmien avulla. Tällainen voi olla vaikkapa äkillinen muutos datan arvoissa. Ihmisille tämän tyyppiset virheet helposti piiloutuvat suurien tietomäärien taakse varsinkin jos ne esiintyvät harvakseltaan.

Otetaan esimerkki. Meillä on runsaasti erilaisia dataa kerääviä järjestelmiä, kuten ERP, CRM, tuotanto, talous ja HR. Dataa integroidaan näiden järjestelmien välillä ja osa tiedoista siirretään myös tietovarastoon. Isossa organisaatiossa erilaisia automatisoituja datasiirtoja voi olla sadoista useisiin tuhansiin.

Miten varmistutaan, että dataa siirtyy oikea määrä?

dataaDW

Analytiikka seuraa siirrettävän datan volyymeja ja antaa varoituksen, jos dataa tulee liian vähän tai liikaa. Alla (ei niin kuvitteellinen) esimerkki myyntirivien seurannasta tuoteryhmittäin, jossa tässä tapauksessa tuoteryhmän myynti on tasaista ympäri vuoden. Dataa tulee yli sadasta eri kauppaliikkeestä ja joskus niiden latauksissa on ongelmia.

Tilastollinen malli luo automaattisesti luottamusvälit datavolyymin vaihtelulle. Mikäli toteutunut datavolyymi rikkoo luottamusvälin, niin siitä lähtee tiedote ylläpitoon. Alla esimerkkikuva oikeasta datasta laskettuna:

data_luottamusvälit

Punaisen raksin kohdalla osa tiedosta ei tullut lainkaan, joten volyymit putosivat. Usein tällainen virhe ei jää kiinni ETL-prosessissa, vaan se menee nätisti läpi, joskin pienemmillä datamäärillä. 

Pidemmälle vietynä tällainen malli ei pelkästään auta määrittämään ja parantamaan tiedon laatua, vaan tarjoaa myös älykkäämpiä suositeltuja toimenpiteitä tietojen laadulle sekä toiminnallisille parannuksille. Se pystyy myös luokittelemaan datan laatuongelman tyypin tai vakavuuden mukaan.

Datan standardointi

Kolmas hyvä sovelluskohde koneoppimiselle on datan standardointi.

Aika usein datan siivoamista tehdään käsityönä eli poistetaan duplikaatteja ja yhdistellään tietueita keskenään. Käsin tehtynä sääntöjen määrittäminen kestää, vaatii syvällistä ymmärrystä datasta ja on lisäksi kallista. Ymmärrettävästi tietolähteiden kasvaessa ja datan formaattien sekä tietotyyppien lisääntyessä sääntöjen rakentamisesta tuleekin äkkiä iso harjoitus. Lisäksi datan manuaalinen yhteensovittamisen tarkkuus on aina kyseenalaista.

Koneoppimisen avulla modernilla data-alustalla voidaan luoda matchaussääntöjä automaattisesti datasta. Järjestelmä myös oppii ja mukautuu käyttäjien käyttäytymiseen. Tämän tyyppistä toiminnallisuutta löytyy esimerkiksi Talendin Data Fabric -tuotteesta.

Datan paikkaaminen

Koneoppimista voidaan hyödyntää myös datan rikastamiseen tai paikkaamiseen ilman käyttäjän syötettä. On mahdollista laskea erilaisia segmentointiattribuutteja, arvioida asiakaspoistumaa, luottotappiota tai vaikkapa laskennallisesti täydentää asiakkaiden tietoja. Mika ja Ville ovat kirjoittaneet tästä aikaisemmin Louhian blogiin, kannattaa lukaista läpi.

Asiakkaiden tietojen täydentämiseen liittyen kannattaa muuten olla tarkkana. Kun seuraavan kerran törmäät Facebookissa tai vastaavassa kyselyyn, jossa sinua pyydetään vastaamaan “10 viattomaan kysymykseen”, kannattaa miettiä pari kertaa, vastaisiko. Silloin tällöin niissä taustalla olevat algoritmit muodostavat mallin, jotka pystyvät 10 vastatun kysymyksen perusteella ennustamaan ”100 syvällisen kysymykseen” liittyviä asioita. Tällöin sinusta tiedetäänkin aika paljon enemmän ja se iPhone jää kuitenkin saamatta.

voitaIphone


9.12.2016 / Mika Laukkanen

5.9.2018

Pian on kaksi vuotta kulunut tämän artikkelin kirjoittamisesta. Vaikka tuolloin oli jo kaikki merkit ilmassa, niin eipä olisi arvannut millaisiin mittasuhteisiin tekoälyasiat nousevat. Ennustaminen on vaikeaa. Kahden vuoden aikana on tapahtunut paljon edistystä, mutta edelleen ollaan pitkän tien alussa. Selvää vain on, että kelkasta poisjäänti ei ole vaihtoehto.


Tekoälystä on kirjoitettu viime aikoina todella paljon. Oikeastaan ei mene päivääkään ilman uutta tekoälyuutista. Kuulemma Slushissakin sijoittajien mielenkiinto kohdistui erityisesti tälle osa-alueelle. Erilaisia hypejä tulee ja menee, mutta tällä kertaa uskon, että kyse on enemmästä.  Asiasta joka muuttaa maailmaa vielä radikaalisti. Vaikka kehitystyö on kestänyt vuosikymmeniä, niin mielestäni ollaan edelleen alkutekijöissä – samassa tilanteessa kuin autoteollisuus oli 1900-luvun alkupuolella, kun ensimmäiset autot saapuivat kuluttajien iloksi.

Kannattaa myös huomata, että kehitys ei mene lineaarisesti. Tähän pisteeseen pääsy ehkä vei 60 vuotta, mutta lähivuosina kehitystä voi tapahtua enemmän kuin edellisenä 60 vuotena yhteensä.

Tässä blogissa tekoäly terminä kattaa erilaiset algoritmipohjaiset Machine Learningiin perustuvat ja automatisoidut ratkaisut. Niiden pohjaltahan nykyiset tekoälyt toimivat. Käytän myös termiä AI välillä tekoälyn sijasta, joten koettakaa pysyä mukana.

Miksi juuri nyt?

Ei ole sattumaa, että AI-ratkaisujen ja niiden uutisoinnin määrä on kasvanut reipasta tahtia. Ala on mennyt viime vuosina eteenpäin vauhdilla, jonka on mahdollistanut mm. seuraavat tekijät.

Big Data (pilvi) – oppiakseen algoritmit tarvitsevat dataa, jota on enemmän saatavilla kuin koskaan aiemmin. Aikanaan alan tutkijat joutuivat itse simuloimaan keinotekoista dataa, koska oikeaa ei ollut saatavilla. Olikohan niin, että vuonna 1980 gigan tallentaminen maksoin noin miljoonan? Ja vaikka dataa olisi ollut generoinut tai muuten saanut tuon gigan, niin mikään tietokone ei todennäköisesti olisi jaksanut pyörittää sitä riittävän tehokkaasti.

Laskentakapasiteetin kasvu (pilvi). Käytännössä AI-ratkaisujen ytimessä ovat erilaiset neuroverkot, joiden opettaminen vaatii merkittävää laskentakapasiteettia. Ei tarvita kummoistakaan ongelmaa ja big dataa, kun neuroverkon pyörittäminen tulee tehokkaallakin läppärillä mahdottomaksi.

Algoritmien ja niiden soveltamisen kehittyminen. Erityisesti Deep Learningiin perustuvat ratkaisut ovat tuoneet isoja harppauksia tekoälyn kehityksessä. Esimerkiksi seuraavissa kohteissa.

  • Kokeilepa Google haun puheentunnistusta, jonka AI-algoritmi vaihdettiin viime vuonna. Sen tarkkuus on aika uskomaton. Tuttuni sanoi, että se saa selvää 4 vuotiaankin puheesta. Eli rattiin ei ole asiaa, jos Google ei ymmärrä puhettasi.
  • Kuvien tunnistus on ottanut isoja harppauksia ja pari viikkoa sitten oli uutinen, että tekoäly lukee paremmin huulilta kuin ihminen. Kannattaa peittää se web-kamera, koska tekoäly lukee myös kasvojen ilmeitä. Tiedä vaikka tulevaisuudessa läppäri toimisi henkilökohtaisena psykologina. ”PC: Mikäs se nyt Mikaa harmittaa näin aamusta?” ”M: Ei mikään..” – ”PC: Nyt et taida nyt puhua ihan totta..”.
  • Kielenkääntäminen. Youtubesta löytyy videoita, joissa tekoäly kääntää lennosta esim. englanninkielistä seminaaria kiinaksi. Viivettä ehkä sekunnin verran. Tekeekö tämä vieraiden kielien opiskelusta jatkossa vain ahkerien huvia? Odotan tästä ratkaisua pakkoruotsin osalta.
  • Vielä parisen vuotta sitten AI-asiantuntijoiden käsitys oli, että GO-shakissa tekoäly voi voittaa parhaan ihmisen noin 10 vuoden kuluessa (normishakissa tämä tapahtui 1996). Kävi kuitenkin niin, että AlphaGo teki temput ja voitti parhaan ihmispelaajan alkuvuodesta 2016. Taustalla oleva tiimi oli tehnyt uskomatonta työtä yhdistellessään innovatiivisesti eri AI-metodeja taustalla.
  • Uutisten mukaan IBM-Watson päätyy 99%:sesti samoihin diagnooseihin kuin syöpälääkärit, mutta on löytänyt 30%:ia enemmän hoitovaihtoehtoja. Eikä niitä syötä kukaan Watsonille manuaalisesti. Se lukee kaiken alalla kirjoitetun materiaalin (julkaisut, tutkimustulokset, jne), jonka kehittäjät päättävät sille antavat. Sieltä se sitten poimii asiat ja pysyy ajan tasalla. Tri Housella on vakava kilpailija.

Kehitys on siis nopeaa ja AI-ratkaisut tulevat yhä useammalle alueelle. Usein emme kuitenkaan huomaa niitä, koska ne ovat ‘verhottuna’ ohjelmistojen ja palveluiden sisään. Ne ovat siis lähes näkymättömiä käyttäjille.

AI-ratkaisujen liiketoimintamallit?

Erityisesti meitä datan ja algoritmien kanssa puuhailevia kiinnostaa, että millaisia liiketoimintamalleja tekoäly tuo mukanaan. Tuleeko jostakin kaiken kattava yleinen tekoäly, joka osaa ratkaista lähes kaikki haasteet vai onko meillä miljoonia pieniä tekoälyjä, jotka hallitsevat jonkin kapean osa-alueen?

Itse uskon, että vastaus molempiin on kyllä, mutta aikaperspektiivit ovat erilaiset.

Ainakin seuraavat 10 vuotta tullaan kehittämään suppeita (narrow) tekoälyjä, jotka ratkovat jonkin spesifin osa-alueen haasteita (esim. optimoivat reittejä, ennustavat vikaantumista, kohdentavat mainontaa).

Yleisen tekoälyn (ratkoo mitä vaan haasteita) kehittämiseen tarvitaan resursseja, joita todennäköisesti löytyy lähinnä jättiyrityksiltä, kuten Googlelta, Microsoftilta, IBM:ltä tai Applelta. Ehkäpä nämä jätit poimivat parhaat palat noista suppeista tekoälyistä ja liittävät ne omiin kehitysprojekteihinsa. Aikataulu yleisen tekoälyn kehittymisen osalta voi olla pitkä, esim. kymmeniä vuosia. Sitä ei varmaan kukaan pysty arvioimaan tarkasti.

Liiketoimintamallien osalta on ainakin kolme päävaihtoehtoa (ml. asiakas ja AI-ratkaisun toimittaja).

  • Yritys hankkii oman tiimin tälle osa-alueelle ja sitoutuu pitkäaikaiseen kehitykseen. Tämä sopii hyvin isoille yrityksille, joiden liiketoiminnan kannalta datan hyödyntäminen on kriittistä. Tällaisia yrityksiä ovat esimerkiksi teleoperaattorit, rahoituslaitokset ja vakuutusyhtiöt. Tässä mallissa AI-ratkaisujen ulkoisella toimittajalla voi olla lähinnä konsultatiivinen rooli tai softan myynti.
  • AI-ratkaisujen räätälöity ostaminen toimittajalta. Tämä on ehkä tyypillisin skenaario. Asiakkaalla on ongelma X, johon toimittaja tarjoaa ratkaisua. Yleensä tämä tehdään projektina ja asiakkaan omistamaan ympäristöön. AI-ratkaisujen toimittajalle tämä tarkoittaa räätälöityjä projekteja.
  • AI-ratkaisun hankinta palveluna (pilvestä). Suomessa tällä osa-alueella on vielä varsin vähän tarjontaa, mutta maailmalta löytyy hyviä esimerkkejä. Itse näkisin niin, että (Microsoftia lainaten) tämä todella demokratisoi tekoälyn, eli tuo sen kaikkien ulottuville. AI-ratkaisujen toimittajan täytyy tässä vaihtoehdossa tuotteistaa palvelut pitkälle, koska projekteja ei voi täysin räätälöidä. Myös ansaintamalli poikkeaa räätälöidyistä projekteista.

Jokaisella vaihtoehdolla on omat plussat ja miinukset, mutta yksi asia on kuitenkin varmaa – aloittamatta ja tekemättä ei mikään valmistu, eli kannattaa selvittää AI:n potentiaaliset hyödyt.

Eräs pointti AI:n hyödyntämisestä

Usein yritykset lähtevät etsimään (AI) business caseja, joissa isot kertatuotot olisivat mahdollisia (~ miljoona lisämyyntiä). Joskus sellaisiakin löytyy, mutta ei aina. Tämä taas saattaa lannistaa ja luovutetaan jo ennen lähtölaukausta.

Edellä mainittu lähestymistapa ei kuitenkaan ole ainoa. Vaihtoehtoisesti voidaan etsiä pieniä ja maltillisia (AI) business caseja ratkaistavaksi, jotka kuitenkin tehostavat toimintaa. Esimerkiksi siirtäen manuaalisia työvaiheita AI-ratkaisun tehtäväksi.

Jälkimmäisessä lähestymistavassa on tärkeää huomata, että business hyöty ei välttämättä tule siitä, että tekoäly tekisi työn ihmistä tarkemmin tai paremmin. Se kuitenkin voi tehdä työn murto-osassa siitä ajasta mikä kuluu ihmiseltä. Kaksi esimerkkiä.

  • Talouspäällikkö laskee tuotealuekohtaisia budjetteja ensi vuodelle ottaen raportointijärjestelmästä viime vuoden lukuja pohjalle.  Työ kestänee tunteja. Kevyt AI-ratkaisu laskee tarkemmat ennusteet budjetin pohjaksi sekunneissa.
  • Hakemuksen käsittelijältä kuluu tunti tehtävässä, josta AI-ratkaisu suoriutuu silmänräpäyksessä. Tai sitten AI voisi ohjata hakemukset suoraan oikeille käsittelijöille, vaikeat kokeneille ja helpot aloittelijoille.

Kannattaa siis miettiä, että AI-ratkaisulla oikeasti tavoittelee ja millä aikajänteellä. Nopeita pikavoittoja on mukava saada, mutta pitkäjänteinen pienien etujen kumulatiivinen kerääminen voi kuitenkin olla se paras vaihtoehto.


3.02.2016 / Ville Niemijärvi

IT-ala on pullollaan teknistä jargonia. On jos jonkinmoista softaa, alustaa, platformia, tekniikka… Kehitys kehittyy huimalla vauhdilla. On vaikea pysyä mukana. Alkaa pelottaa.

Onneksi on konsultteja. Järjen ääniä, joiden tehtävänä on pysyä kartalla, tuoda kirkkautta pimeyteen ja ohjata kaaoksessa. Kertoa mikä on relevanttia juuri sinulle juuri tässä.

Tai siis näin se pitäisi mennä. Mutta ei mene.

Suurin osa konsulteista lietsoo pelkoa ja paniikkia. 

IT-Konsultit on kuin remonttireiskat. Ne haistaa asiakkaan pelon. Ne haistaa epäröinnin ja tietää, että nyt asiakas ei ole ihan kartalla mitä kaikkea tähän kuuluu. Siihen on hyvä iskeä. Nyt lyödään rahoiksi.

Miten luodaan pelon ilmapiiri ja rahastetaan sillä?

Näin juuri kuvan otsikolla: Big data landscape. Tässä: http://mattturck.com/wp-content/uploads/2016/01/matt_turck_big_data_landscape_full.png

Ja tähän liittyi LinkedIn postaus tässä. Kirjoitus oli ihan OK katsaus Big dataan, en ota siihen kantaa.

bigdatalandscape

On kiva, että joku jaksaa googletella mitä kaikkea teknologiaa maailmasta löytyy. Ryhmitellä niitä. Se voi auttaa toki asiakasta positioimaan oma teknologia-arkkitehtuuri ja omat tulevat tarpeet ja etsimään tietä.

Mutta useimmin tällaiset koosteet ja teknologian/yritysten/jargonin vyöryttäminen lukijalle ilman tulkintaa, aiheuttaa vain ylensyöntiä, sekaannusta ja lopulta pelkoa.

  • onko minulla varmasti kaikki tarvittavat teknologiat?
  • onko joku tosi tärkeä hype jossa en ole mukana?
  • mitä hittoa tällä tiedolla pitäisi tehdä?

Meidän konsulttien pitäisi tuoda tähän selvyys. Auttaa valitsemaan. Kertoa mitkä voit unohtaa ja mitä et.

Mutta tässä on ongelma, emme tee sitä kovin hyvin.

Suurin osa vain toistaa tätä samaa hypeä. Name-droppailee termejä ja teknologioita. Vyöryttää linkkejä somevirtaan, ilman että toisi mitään lisäarvoa. Aiheuttaa lisää kohinaa. Aiheuttaa lisää pelkoa.

IT-konsultin kolme syntiä

IT-konsulteilla on kolme lähestymistapaa

  1. Viljellään ylätasolla hyptermejä (IoT hybrid-cloud big data ja toistetaan em. kuvia)
  2. Knoppaillaan detailitasolla (…hei me teimme tämän käyttäen node.js docker hbase pig spark)
  3. Tarjotaan itse edustamaa tuotetta (kaikkeen on ratkaisuna tuotteemme X)

Miksi konsultit tekevät näin?

  1. Hypetermien heittäjät eivät yleensä itsekään tiedä mistä on kyse. Mutta pitää näyttää, että olen kartalla joten oksennan kaiken eteesi. Näin olen harjalla. Piikki paikalla. Jos olet kiinnostunut iot:stä, ota hei minuun yhteyttä.
  2. Propellipäät jotka knoppailee teknisillä termeillä, uskovat että kun puhun klingonien kieltä, asiakas häikäistyy osaamisestani ja ostaa varmasti minulta. Mutta ei se osta. Harva ostaa jos ei ymmärrä toisen puhetta.
  3. Vaa’assa painaa enemmän provikat päämieheltä kuin asiakkaan etu. Halutaan myydä lisenssi ja päästä tekemään toteutusprojekti juuri sillä omalla tuotteella. Sen sijaan, että autettaisiin asiakasta etsimään paras ratkaisu.

Vinkki IT-konsultille

Ensi kerralla kun tekee mieli jakaa sisältöä: linkkiä somevirtaan tai kirjoittaa blogia. Mieti:

  • aiheutanko tällä lisää sekannusta vai tuonko selkeyttä, lisäänko asiakkaan ymmärrystä?
  • luonko jotain lisäarvoa vai toistanko vain mölyä?

Ennen kaikkea: kokeile joskus esittää asia yleisestä yksityiseen tai yksityisestä yleiseen. Aloita hype-termistä ja tule sieltä alas konkretiaan. Tai aloita tekniikasta ja klingonikielestä ja nouse sieltä ylös lintuperspektiiviin.

Tällä tavoin osoitat, että todellakin tiedät mistä puhut. tiedät kokonaisuuden. Tällä tavoin myös tuot selkeyttä lukijalle, luot arvoa. Ja arvon luominen asiakkaalle tuo sinulle leipäsi.


Disclaimer: syyllistyn itse kaikkeen tähän, joka päivä. Joten pata kattilaa soimaa.

 


1.04.2015 / Ville Niemijärvi

Louhia on mukana vielä salaisessa big data IoT –hankkeessa, jossa yhdistetään vähittäiskauppojen asiakkaiden kuittidataa ja samojen asiakkaiden vakuutustietoja.

Terveysasiantuntijoiden mukaan korkea alkoholin kulutus korreloi selvästi heikomman terveydentilan ja ennenaikaisen eläköitymisen kanssa. Onkin epäreilua, että terveiden elämäntapojen noudattajat joutuvat maksamaan samansuuruisia vakuutusmaksuja kuin holtittomimmin elävät.

Nyt Louhian älykkäillä super-algoritmeilla segmentoidaan lähikaupan kuluttajat ja luokitellaan kaikki suomalaiset sen perusteella miten terveellisesti he elävät, perustuen heidän ostoskoreihinsa.

Oluen, tupakan, makkaran ja mellukoiden suurkuluttajat tulevat jatkossa saamaan korkeamman vakuutusmaksun kun taas salaatin ja luomuruuan pupertajat selviävät vähemmällä. Henkivakuutusta on turha hakea jos ostoskoriin eksyy einestä ja olvia.

 

Asuntolainaa on turha hakea jos elämäntavat eivät vakuuta

Paremman asiakaskokemuksen varjolla ja vapaakauppasopimuksen turvin olemme yhdistämässä myös kuluttajien luottotietoja ostotottumuksiin. 20 vuoden asuntolainaa, kulutusluotosta puhumattakaan on turha haaveilla, jos mittarit näyttävät että elinaikaa on korkeintaan kymmenen jäljellä.

Pankkien luottoluokittelijoilla onkin nyt aivan uudenlaiset välineet arvioida kuluttajan riskiä jättää laina maksamatta takaisin. Kulutustottumukset tullaankin huhujen mukaan ottamaan mukaan uuteen pankkisäännöstöön Basel IV:seen.

Holtiton sukupuolielämä voi nostaa lainamarginaaliasi

Voit huiputtaa mahaasi mutta lipidosi ei valehtele. Vaikka ostatkin vaimosi painostuksesta lähiruokaa ja koitat peittää alkoholiriippuvuuden ”keskieurooppalaisella” punaviinin tissuttelulla, jää holtittomat elintavat seulaamme viimeistään yksityisessä terveydenhuollossa.

Kun vielä mietit lääkärin odotushuoneessa hikikarpalo otsalle, miten paljon tippuritesti sattuukaan (paljon), on tietosi jo IoT-algoritmimme murskattavana. Väestörekisteristä tiedämme, että olet naimisissa ja ostokäyttäytyminen kertoo ilman älykästä syy-seurausalgoritmiakin, että tauti tuli Tallinnan risteilyn tuliaisena eikä vaimo ollut suinkaan mukana.

Palkintona lainamarginaalisi tulee nousemaan koska erotilanteissa on aina riski, että talo jää pankille. Mutta ei hätää, kohdennettu markkinointimme toimittaa sinulle kaupungin vapaat vuokra-asunnot suoraan kännykkääsi ennen kuin olet ehtinyt napittaa housujasi.

Katsaus konepellin alle

Koodinimellä ”Eteläranta kuuntelee”  kulkeva salainen hanke on propellipäiden märkä unelma, jolle NSA on kateellinen. Arkkitehtuuri rakentuu MungojerryDB ja Clown’dandy Noseql –tietokannoille ja data tallennetaan .jay-z formaatissa, yhdistelmä joka tuo äärettömän skaalautuvuuden ja mahdollistaa ennen kaikkea knoppailun nörttipalstoilla.

Ykstyisyyden suoja on… huomioitu.

Keskittäminen kannattaa aina.


20.03.2015 / Ville Niemijärvi

Järjestämme yhdessä Ari Hovin kanssa keväällä kaksi edistyneen analytiikan kurssia. Joten jos syväoppiminen, prediktiivinen analytiikka, data mining ja kaikki mikä näihin liittyy on sinulle ajankohtaista, suosittelen osallistumaan.

Ensimmäinen perustason kurssi 17.4.2015 on kattavin läpileikkaus analytiikasta mitä tällä puolen Atlanttia on tarjolla. Sisältäen tuotevertailun, tukkukaupalla soveltamiskohteita, sudenkuopat, big data, livedemoja, arkkitehtuuria ja paljon muuta. Eli todella tuhti paketti, selkokielellä.

Jälkimmäinen ennustavan analytiikan kurssi 20.5.2015 on hands-on tekemistä eli kädet saveen ja käytännön harjoituksia koko päivä. Opit tekemään siis itse ennustemalleja käytännössä. Miltä tuntuisi osata ennustaa asiakaspoistumaa tai asiakkaan ostotodennäköisyyttä tarjoamallesi tuotteelle? No se tuntuu hyvältä, se on selvää. Mutta vielä maireampi hymy tulee huulille kun näkee miten se vaikuttaa viivan alle kun pääset laittamaan analyysin tuotantoon.

Alla vielä linkit kurssiohjelmiin Ari Hovin sivuille. Sieltä onnistuu myös ilmoittautuminen.

Edistynyt analytiikka perusteet 17.4.2015

http://www.arihovi.com/edistynyt-analytiikka/

Ennustava analytiikka 20.5.2015

http://www.arihovi.com/ennustava-analytiikka/


 

Kouluttautuminen kannattaa aina vaikka Pete onkin alla videossa vähän sarkastinen asiasta. Hän ei käynytkään Ari Hovin ja Louhian kurssilla vaikka kova jätkä olikin.


15.02.2015 / Ville Niemijärvi

Teimme vuosi sitten teollisuusyritykselle vikaantumisen ennustamiseen liittyvän proof-of-conceptin (POC). Tehtävänämme oli osoittaa, että analytiikan menetelmin voimme ennakoida tuotteiden vikaantumista tuotantoprosessissa. Löytämällä vialliset tuotteet hyvissä ajoin tuotantoprosessin alkuvaiheessa, säästettäisiin isoja summia rahaa ja aikaa sekä parannettaisiin laatua.

Löysimme vikaantumista implikoivat eli ennustavat tekijät ja POC onnistui. Osoitimme, että tiedon louhinnan menetelmin vikaantuvat tuotteet voidaan löytää ennakkoon ja varmistaa, että tuotantoputkesta tulee priimaa.

Mutta se miksi kirjoitan aiheesta, liittyy mallinnuksessa tarvittavaan dataan. Sillä sitä tarvittiin yllättävän vähän.

Ymmärtääksesi maailmaa, sinun ei tarvitse mallintaa koko maailmaa

Asiakkaan tuotantoprosessit generoivat dataa kymmeniä teratavuja vuodessa. Mitattavia muuttujia oli n. 100. Se on siis jo sitä big dataa. Selvitimme asiakkaan pyynnöstä eri vaihtoehtoja tallentaa tätä määrää. Käytiin läpi hadoopit ja erilaiset appliance-ratkaisut eli suoraan tehtaalta toimitettavat palvelinkaapit järeään käyttöön (esim. Netezza, Teradata, Microsoft Parallel DW…). Hintalappu näiden osalta huimasi, varsinkin kun nyt tehtiin vasta poc:ia ja varsinaista todistettua business casea ei ollut. Sitähän oltiin vasta hahmottamassa.

Tuumailimme hieman ja päädyimme rakentamaan poc-ympäristön ihan perinteisen SQL Serverin päälle. Nykäisimme kevyet muutamat kymmenet gigat dataa sinne ja aloimme mallintamaan. Mallinnuksessa käytimme RapidMineria.

Mallinnus tehtiin iteratiivisesti, dataa muokaten, vaihtaen muuttujia, vähentäen ja lisäten dataa. Pääsimme koko ajan parempiin ja parempiin tuloksiin. Aina vain tarkemmaksi ja tarkemmaksi. Eli löysimme vikaantuneita tuotteita tarkemmin ja toisaalta vikaosumia tuli vähemmän.

Lopulta olimme tyytyväisiä. Noin 5 htp työ oli pikainen rykäisy mutta tarkkuus ei enää tuosta parantunut.

Ja millaisella datamäärällä tuosta kaikeasta kymmenistä teratavuista lopulta tarvitsimme meidän tarkimmassa mallinnuksessa?

Alle 0,5 gigatavua.

Mallimme tarkkuus ei parantunut merkittävästi vaikka dataa olisi ollut 10 gigaa tai 50 gigaa. Alle 0,5 giga edusti siis riittävästi koko todellisuutta. Lisäksi tuotantoprosessissa kertyvistä 100:sta sensoritiedosta ja muuttujasta, lopulta vikaantumista ennusti alle 15.

Tarvittava datamäärä suhteessa saatavilla olevaan dataan
Tarvittava datamäärä suhteessa saatavilla olevaan dataan

Less is more – älä hölmöile itseäsi rautakauppaan ennenkuin olet keskustellut asiantuntijan kanssa

Ja opetus tässä tapauksessa: olisi ollut pöljää rahan haaskausta lähteä rakentamaan raskasta appliance/big data arkkitehtuuria. Pelkästään hankinnoissa ja ympäristön pystyksessä olisi mennyt kuukausia.

Liian iso massa olisi myös tehnyt mallinnuksen erittäin vaikeaksi. Jo nyt RapidMiner luukutti 12h putkeen ja murskasi lukuja vaikka dataa oli aika vähän.

Tämä ei ollut poikkeustapaus. Useimmissa niin teollisuuden mallinnushankkeissa kuin asiakaskäyttäytymisen mallintamisessa, lopullinen mallintamiseen tarvittava datasetti on aika pieni. Joskus jopa vain muutamia tuhansia rivejä, vaikka koko populaatio olisi miljoonia.

Ja näinhän toimii nyt ajankohtaiset vaaligallupitkin. Ei TNS Gallupin tarvitse haastatella miljoonaa suomalaista tietääkseen mitä 5 miljoonaa suomalaista on mieltä. Usein otokseksi riittää jo muutama tuhat, kunhan se edustaa koko kansaa mahdollisimman kattavasti.

Ja mikä parasta: riippuen mallinnustavasta, saamme tulokseksi yksinkertaisen kertolaskun (regressiokaava), joka on yksinkertaistettuna tyyliä: IF muuttuja x > 50 AND muuttuja y < 100 THEN… Tämän kaavan voimme upottaa asiakkaan toiminnanohjausjärjestelmään ja näin meillä on implementoituna reaaliaikainen vikaantumisen ennustamisprosessi, joka ei tarvitse edes mitään analytiikkasoftaa tuotantokäytössä.

Kun lähdet tekemään prediktiivistä analytiikkaa, muista nämä:

  • Älä hölmöile ja lähde rautakauppaan kun kohtaat analytiikkahaasteen, kysy ensin neuvoa asiantuntijalta. Huom: softamyyjä on harvoin tällainen asiantuntija.
  • Less is more (useimmiten). Lisäksi iteratiivisuus ja ketteryys on mahdollista kun dataa on vähemmän. Ja nämä ovat tärkeimpiä ominaisuuksia alussa kuin äärimmilleen viety tarkkuus.
  • Mallinnuksen tuloksena saatavat kaavat voidaan usein upottaa tuotannon järjestelmiin eikä tuotantokäytössä edes tarvita analytiikkasoftaa.
  • teollisuuden vikaantumisen ennustaminen tai ennakoiva huolto ei tarkoita aina massiivista jättihanketta. Me todistimme business casen olemassaolon ja mallinnuksen toimivuuden noin 5 päivässä.

8.01.2015 / Ville Niemijärvi

Mitä tapahtuu liiketoiminta-analytiikan, tietovarastoinnin ja raportoinnin saralla vuonna 2015? Heitetään villi arvaus, jossa on taustalla vähän faktaa, paljon markkinatuntemusta ja ripaus markkinointiakin.

Ennakoiva-analytiikka: tasaista kasvua sitä myöten kun hyödyt kirkastuvat

Ennakoiva analytiikka, tarkoittaen tilastollisen mallintamisen ja algoritmien hyödyntämistä esimerkiksi liiketoimintatiedon ennustamisessa tai syy-seuraussuhteiden etsimisessä, ei ole vielä lyönyt isosti itseään läpi Suomessa. Maturiteetti ei ole ollut riittävän korkealla ja vuonna 2014 nähtiin lähinnä ”early adaptors” tyyppisten toimijoiden aktivoitumista.

Uusien projektien määrä tuplaantui kuitenkin vuodesta 2013, alalla on nähty paljon rekrytointeja ja headhunterit ovat soitelleet allekirjoittaneellekin yllättävistä yrityksistä. Toisin sanoen DW/BI-alan ulkopuolellakin toimivat yritykset ovat alkaneet rakentaa analytiikkaosaamistaan. Positiivista pöhinää on siis ollut ja tämä tulee konkretisoitumaan vuonna 2015.

Kasvu analytiikan osalta tulee olemaan DW/BI-alaan verrattuna selvästi suurempaa  mutta silti mitään rakettimaista nousua ei nähdä, puhutaan kaksinumeroista kasvuluvuista. Itse näen, että täsmällisiin liiketoimintaongelmiin kohdistetut tuotteet, kuten asiakaspoistumamallinnus tai ristiinmyynti, ovat ratkaisuja, joilla analytiikan hyödyt konkretisoidaan asiakkaille ja tehdään ostaminen myös helpoksi.

Teknologia edellä ei ala lyö itseään läpi ja pelkkää analytiikkakonsultointia tai softaa tarjoavat yritykset tulevat lyömään (edelleen) kirveensä kiveen.

Yllättävää kyllä, julkisen sektorin hankkeita oli meillä useampia ja voisi sanoakin, että monessa mielessä julkisen puolen toimijoilla on sekä visiot että käytännön toimet analytiikan hyödyntämisessä paljon pidemmällä kuin yksityisellä puolella.

Mielenkiintoista on myös se, että kaikki julkisen sektorin analytiikkahankkeet joissa olemme olleet mukana, näkevät ykkösprioriteettina ja analytiikan tärkeimpänä hyötynä paremman asiakaspalvelun sekä resurssien paremman kohdistamisen. Ylipäätään terminä asiakas + palvelu ovat nousseet keskiöön monessa julkishallinnon organisaatiossa. Mistä tämä kertoo? En tiedä mutta toivoisin saman näkyvän yksityisellä puolella koska siellä varsinkin asiakas on se joka sen palkan viime kädessä maksaa.

Self-service analytics – Analytiikkaa itsepalveluna

Louhian vuonna 2014 lanseeraama käsite, joka tarkoittaa ennakoivan analytiikan menetelmien ja työvälineiden tuomista lähemmäksi liiketoiminnan käyttäjää. Käytännössä tämä tarkoittaa analytiikka-algoritmien käskyttämistä esimerkiksi raportointityövälineen kuten QlikView:n kautta tai CRM:stä käsin. Näin liiketoiminnan asiantuntija voi tehdä itse ad hoc analyysejä ilman tilastotieteen osaamista ja raskaita ohjelmistoasennuksia.

Louhia_Azure_QlikView
Louhia self-service analytics – QlikView & Azure Machine learning

 

Uskomme, että itsepalveluanalytiikka tulee olemaan tuotteistuksen rinnalla yksi merkittävä tekijä joka helpottaa analytiikan käyttöönottoa vuonna 2015. Tästä kuulette lisää vielä tammikuussa.

Alla pari kuvaa itsepalveluanalytiikasta, jossa QlikView:llä kutsutaan saumattomasti joko R:ää tai Azure Machine Learningissä sijaitsevia algoritmeja. N. 100 000 tuotteelle tehdyn 12kk aikasarjaennusteen mallintaminen R:llä tai Azurella ja tulosten visualisointi takaisin Qlikiin kestää n. 2 sekuntia. 10 000 asiakkaalle tehty asiakaspoistumamallinnus ja tulosten vienti call centerille vie n. 15 sekuntia.

Ja tässä ei siis vain ajeta uutta dataa ennalta tehdyn mallin läpi vaan tehdään konepellin alla älykkäiden algoritmien avulla datan muokkaus, siivous, mallinnus, eri mallien tarkkuuden vertailu, parhaimman valinta, siirto takaisin QlikViewiin ja tulosten visualisointi. Vertailukohtana voi pitää 2-3kk projektia, vaatien etl-tekijän, data scientistin ja raporttiexpertin, joilla olen nähnyt päästävän samaan tulokseen. Okei, me tehdään se 2-3 viikossa mutta nyt tämä saatiin puristettua 15 sekuntiin ja tulokset ovat tuotannossa, ei tilastonikkarin koneella. Aika kova. Voitte olla siis varma, että kuulette tästä vielä.

Louhia Self-service analytics Time Series
Louhia Self-service analytics Time Series with QlikView

 

Louhia Self-service analytics Churn and retention analysis
Louhia Self-service analytics Churn modeling with QlikView
Pilvee, pilvee

Juice lauloi poliiseista, jotka tahtoivat vain pilvee. Nyt sitä on tarjolla myös tietovarastoinnissa kuten myös analytiikassa mutta se ei näytä vielä kelpaavan markkinoille. Erilaisia kokeiluja on tehty vuoden 2014 aikana mutta suuri yleisö on pitäytynyt on site-palveluissa eli softat omilla palvelimilla. Nyt tehdyt pilvikokeilut ovat lähinnä teini-iän ensimmäisiä pössöttelyjä. Todella isot lastit ja kunnon kama antavat odotuttaa itseään rajan takana.

Vuonna 2014 pilveen on mennyt CRM:t (esim. Salesforce), tuntikirjanpidot (mainio Harvest), projektihallinta (mainio Basecamp) ja sähköpostit ja toimisto-ohjelmat (Office 365). BI menee sinne kyllä kuten ERP:itkin aikanaan mutta ei vielä isosti vuonna 2015. Siirto tehdään pikkuhiljaa ja jokin tietty osa-alue kerrallaan (esim. raskaan lokidatan käsittely ja analysointi).

BI-softapuolella pilvipalvelua tarjoavat ainakin Tableau ja Micosoftin Power BI. Birst tarjoaa koko BI-putken pilvessä, sisältäen ETL:n, DW:n ja raportoinnin. Saattaa olla, että Birst nousee Gartnerin analyysissä leaders-kategoriaan uusimmassa katsauksessa. Uskon, että tällä alalla ensimmäisenä pilveen siirtyy käyttöliittymä eli raportointityövälineet. Vasta tämän jälkeen sinne menee datat eli tietovaraston sisältö ja etl.

Lue alkutalven katsauksemme BI-pilvipalveluista.

Analytiikan osalta oikeasti relevantteja ja mielenkiintoisia vaihtoehtoja ainakin meidän näkökulmasta ovat RapidMinerin Cloud -palvelu sekä Azure Machine Learning. Pilvialusta yhdistettynä edellä mainittuun self-service analytics -konseptiin, mahdollistaa tehokkaan suurten tietomassojen todella ketterän ja nopean analysoinnin – murto-osalla kustannuksista mitä vastaava vaatisi onsite lisenssihankintoineen.

Analytiikan pilvipalveluista ja itsepalveluanalytiikasta kuulette lisää esimerkiksi Louhian avoimissa ovissa perjantaina 6.2.2014 klo 14.00. Tästäkin lisää myöhemmin.

Big data, hadoop – Talk the talk but do ya walk the walk?

Big data ja hadoop odottavat itseään ainakin vuoteen 2016 asti. Tiedän, että alan evankelistat ovat eri mieltä.

Yhdeksi haasteeksi big data –ratkaisuiden leviämisessä näenkin juuri niitä levittävät ilon airueet. Aihepiiriä myydään puhtaasti teknologisena ratkaisuna. Sitä perustellaan sillä, että näin isot toimijat tekevät ameeriikoissa. Suomalaista syyllistetään hitaaksi hämäläiseksi ja vedotaan pelkoon jäädä jalkoihin. Osta nyt tai muuten kilpailija menee ohitse vasemmalta ja oikealta. Näillä keinoin ei liikahda kuin hölmöläiset.

Olemme tehneet muutamille isoille yrityksille big data -selvityksiä eli kartoitettaneet mikä on heidän tarpeensa esimerkiksi hadoopille. Sitä ei ole. Business casea ei ole. Datamassat ovat joko pieniä tai kohtuullisia ja data on lähinnä tai ainoastaan rakenteellista eli se sulahtaa normaaliin relaatiotietokantaan. Tähän evankelistat ja myyntimiesmynttiset vastaavat, että aina sitä voi maailmalta löytyä isoja tietomassoja strukturoimatonta tietoa – mutta entä sitten? Jos yritys ei sitä tarvitse niin se ei sitä tarvitse. Ei sitä dataa kannata väkisin lähteä maailmalta haalimaan.

Mutta hadoopille on paikkansa ja aikansa. Ja se koittaa vuonna 2016-2017 kun yritysten liiketoimintatarpeet ja maturiteetti on valmiina. Ja kun IT-talot oppivat myymään näitä ratkaisuja oikeasti asiakashyötyjen kautta eikä vain toitota samaa hypelaulua yhteen ääneen kuin känniset ääliöt.

Itse näen ketteryyden ja pienellä investoinnilla testaamisen olevan avainasemassa. Tässä Azure HD on mielenkiintoinen vaihtoehto. Käytännössä Azuren kautta yritys saa käyttöön hadoop-klusterin, jos sellaista todella tarvitsee. Oman palvelinfarmin rakentaminen konesaliin, ilman että on selvää liiketoimintatarvetta kun datamassatkaan eivät ole niin isoja, ei kuulosta hyvälle yhdistelmälle. Tähän Azuren tarjoaa nähdäkseni ketterän vaihtoehdon, kortti joka kannattaa ainakin katsoa ennen kuin laittaa luottokortin vinkumaan.

Data discovery – Qlik Sense, Tableau, PowerBI

Qlik julkaisi 2014 uuden tuotteen, Qlik Sensen. Se vie Qlikiä lähemmäksi Tableauta ja tavoittelee samaa sulavaa, helppoa käytettävyyttä. Sinänsä kumma juttu sillä lähtökohtaisesti ainakin Oracleen, Cognokseen ja Microsoftiin tottuneena QlikView itsessään edusti jo äärimmäistä helppokäyttöisyyttä.

QlikView:n suurin haaste on ollut keskitetyn metatiedonhallinnan lisäksi (vrt. Cognos Framework Manager, SAP Universe) vakioraportoinnin puuttuminen. Jos heillä olisi käytössä edes kohtuullinen raportointisofta ns. pixel-perfect vakioraportointiin ja raporttien ison mittakaavan jakeluun (sisältäen paremman portaalin ja jakelumahdollisuuden), olisi kombo aivan ylivoimainen. Siksi olinkin yllättynyt, että tuotekehitys ohjattiinkin aivan päinvastaiseen suuntaan – lähemmäksi vielä puhtaampaa self-serviceä.

Ja hei, hyvä näin. Kerrankin joku pitää päänsä, keskittyy vahvuuksiinsa eikä lähde tarjoamaan kaikille kaikkea ja tee sitä puolivillaisesti. Lue kun Yritykset ovat hukassa IBM Cognoksen kanssa. 

Cognos, SAP ja Oracle, muutamia mainitakseni, eivät vain pärjää Qlikille ja Tableaulle heidän vahvuuksilla, data discovery ja visualisointi osastolla. Microsoft yrittää kovasti ja on lähimpänä tätä poppoota.

Jos ketteryys, visuaalisuus, nopeus (=muistinvaraisuus) ja helppokäyttöisyys on valttia, käydään kamppailu Qlikin ja Tableaun välillä vuonna 2015. Tableau kiinnostaa asiakkaita mutta markkinaosuus ei tee suuria hyppäyksiä ja vaikka jenkeissä tuote onkin supersuosittu, Suomessa se jää tänäkin vuonna sivusta seuraajaksi kun Qlik vie potin.

Tietovarastointi – puheet kuolemasta ovat suuresti liioiteltuja

Tietovarastojen merkitys kasvaa entisestään tiedon määrän kasvaessa. Tiedon mallintamisen merkitys tulee kasvamaan. Hadoop, big data, pilvipalvelut, analytiikka… eivät tule poistamaan tietovaraston tarvetta vaan vahvistavat sitä. Kaikki ne tietovarastointiin liittyvät tekijät, joista tuomiopäivän pasuunat ovat väittäneet turhaksi, tulevat olemaan entistä suuremmassa roolissa jatkossa.

Näen kolmenlaista kehityskaarta tietovarastoinnissa. Kaikista näistä nähtiin merkkejä 2014 ja nämä tulevat vahvistumaan vuonna 2015.

  • Old-school DW:den modernisointi

Vuosituhannen alussa tehtiin isolla kädellä tietovarastoja ympäri härmää. Suurin osa meni pieleen. Tuolloin ala oli vielä nuorta, vauhti oli kovaa ja osaaminen ei aina riittävää, rekryjä tehtiin vähän etunojassa, annettiin junnujen oppia tehdessä virheitä. Tietovarastot tehtiin pääasiallisesti vesiputousmallilla. Joitain vuosia sitten näin tilaston, että 7/10 tietovarastoprojektista meni pieleen. Tuolloin se oli pahasti alakanttiin.

Lopputuloksena oli törkyisen kalliita EDW-viritelmiä, jotka a.) jäivät kokonaan kesken, b.) muodostuivat korttitaloksi josta ei uskalla liikauttaa pientä palastakaan koska koko homma saattaisi hajota ja ylläpito maksaa maltaita tai c.) tehtiin tukku siilomaisia ratkaisuja jotka eivät ole koskaan palvelleet kokonaiskuvan saamista ja nykypäivän tietotarpeita.

Teimme me pari hyvääkin tietovarastoa mutta sitten joku keksi, että tehdäänkin nekin uudestaan ja uudestaan

Nyt näitä rakennetaan uudestaan ja tällä kertaa ihan syystä. Osa on hylännyt DW-maailman (hetkellisesti) ja siirtyneet listani kakkososaan (QlikView viritelmät). Osa taas rakentaa modernia uuden sukupolven tietovarastoa. Modernit DW:t tehdään järjestään ketterän kehittämisen periaattein, vesiputous on passe.

Keskeistä moderneissa tietovarastoissa on siirtyminen pois siilomaisuudesta, parhaiden käytäntöjen hyödyntäminen (juniorit ovat nyt senioreita ja tietovarastojen laatu on teknisesti parempaa kuin aikanaan) ja asiakastiedon rikastaminen ja korostaminen raportoinnissa.

Tietomallinnuksessa data vault on saanut jalansijaa menetelmänä mutta edelleen konsulttitalot vielä harjoittelevat sen kanssa. Menetelmänä se on kallis. Erään sertifoituneen Data vault -mallintajan mukaan Suomesta löytyy kourallinen yrityksiä joille on järkevää tehdä tietovarasto data vaultille.  Kourallinen. Sitten on tuhat muuta. Tästä myöhemmin lisää pidemmän tarinan muodossa. Tunnen jo kuinka konsulttitaloissa korvat kuumenevat ja näppäimistöt sauhuavat. Bring it on!

  • QliKView viritelmien uudelleenrakentaminen järkevälle pohjalle (QlikView-tietovarasto hybridiratkaisu)

Ne yritykset ketkä eivät lähteneet aikoinaan isoihin tietovarastohankkeisiin mukaan ja varsinkin ne jotka lähtivät ja maksoivat kovan hinnan, innostuivat kun QlikView ilmestyi markkinoille. Nyt voitiin unohtaa kaikki se ikävä työnteko kuten tiedon mallintaminen ja keskittyä kaikkeen hauskaan kuten visualisointiin.

Ja näitä on nyt tehty sellaiset 3-5 vuotta. Ja nyt ympyrä sulkeutuu. Keskustelin viime vuonna lähes kymmenen yrityksen kanssa siitä, miten heidän QlikView on pelkkää spagettikoodia, arkkitehtuuri on hutera kuin korttitalo ja suorituskyky takkuaa. Uutta tietoa ei osata/uskalleta/pystytä lisäämään. Eli oltiin tehty liian nopeasti, liian halvalla, unohtaen olennaisen. Ja lopuksi asiakkailta tulee se kysymys: voitaisiinko tehdä tämä kaikki uudestaan mutta nyt tietovaraston kanssa? Niin kuin olisi pitänyt tehdä alunperin.

Voit lukea lisää QlikView:n sudenkuopista, Usain Bolt Jukolan viestissä, QlikView ilman tietovarastoa ja Mä haluun sen kaiken.

  • Lähdetään tyhjältä pöydältä

Edelleen löytyy yrityksiä, joilla ei ole varsinaista tietovarastoa tai QlikView-tyyppistä ratkaisua. Ja silti ne porskuttavat mainiosti, kannattavuus on mainiolla tasolla ja liikevaihto kasvaa markkinaosuuden lomassa.

Ja en puhu nyt pienistä nyrkkipajoista vaan keskisuurista ja julkishallinnon puolella erittäin suurista toimijoista. Eli miljoonan kaataminen tietovarastoon tai toinen raportointiin, big sitäjatätähypeen, ei tarkoita että maailma muuttuisi auvoiseksi.

Joka tapauksessa tänä vuonna olemme mukana ainakin kahdessa tai kolmessa miljoonaluokan tietovarastohankkeessa ja kourallisessa pienemmissä. Töitä tällä “perinteisellä” puolella riittää siis vuosiksi eteenpäin.

Yhtenä trendinä tietovarastoinnissa näen tuotteistuksen ja etl-prosessien automatisoinnin. DW:n rakentamisessa on paljon usein toistuvia manuaalisia työvaiheita, jotka voidaan automatisoida, nopeuttaa kehitystyötä ja säästää kustannuksia.

Isojen megaluokan hankkeiden lisäksi on paljon pieniä pk-sektorin yrityksiä, jotka haluavat parantaa raportointia ja tiedolla johtamista. Haasteena on, että jo 20 000€ investointi on heille liian suuri. Pienenkin tietovaraston rakentaminen maksaa tuon 20 000€, siihen päälle  lisenssikustannukset, palvelimet, ylläpito. Miten rakentaa siis parilla kympillä eheä raportointiympäristö? Ja onko siitä todella niin paljon liiketoimintahyötyjä vai pärjäisikö yritys pelkällä ERP:in raportoinnilla ja Excelillä? Näitä haasteita tulemme käsittelemään myös vuonna 2015 ja tähän BI-pilvipalvelut ovat etenkin kustannustehokas ja varteenotettava vaihtoehto.

Muistinvaraiset tietokannat, muistinvaraiset ERP:it

Tarvitaanko tietovarastoa kun ERP on muistinvarainen? Miksi ei kysellä suoraan ERP:in tietokannasta, vaikkapa SAP HANA:sta? Tai jos DW laitetaan muistinvaraiseen kantaan (Esim. IBM DB2 BLU, SQL Server 2014, Netezza…), voidaanko unohtaa olap-kuutiot? Voisiko joku teknologinen ratkaisu tehdä kaiken työn tarpeettomaksi ja minä voisin keskittyä surffaamiseen?

Lyhyt vastaus: muistinvaraisuus ei ole hopealuoti. Se, kuten mikään yksittäinen teknologinen innovaatio, ei ratkaise haasteita mitä liittyy tiedolla johtamiseen ja raportointiin. Tiedon laatu ei parane, tieto ei yllättäen ole yhteneväisessä muodossa. Et voi hylätä kunnollista arkkitehtuuria, tietomallintamista, vaatimusmäärittelyä, et voi hylätä tietovarastoa.

Et voi, tai sinun ei kannata, välttämättä hylätä edes OLAP-kuutioita vaikka koko tietovarasto olisi muistissa. Olap-kuutio ei ole vain suorituskykyä. Se on myös tietomalli, tapa järjestää tieto liiketoiminnan, raportoinnin ja johtamisen kannalta järkevään muotoon. Sinne on määritelty valmiit porautumiset (drill down/up), data summaamiset ja muut aggregoinnit, laskettu valmiiksi aikaan liittyviä lukuarvoja (YTD, MTD, QTD, vertailut edelliseen vuoteen)…

Jos sinulla ei ole OLAP-kuutiota, joudut joka kerta raporttia tehdessä miettimään nämä asiat uudestaan. Sillä et voi tehdä niitä tietovarastoosi. Etkä varsinkaan ERP:iisi.

Muistinvaraisuus tuo helpotusta. Esimerkiksi jonkun yksittäisen jättimäisen taulun, johon kohdistuu paljon kyselyitä, vieminen muistiin, voi helpottaa suunnattomasti raportointia. Muistinvarainen teknologia tulee helpottamaan raportointia, se mahdollistaa myös oikopolkujen käyttämisen. Mutta samalla se tuo lisävaatimuksia fiksuun arkkitehtuurisuunnitteluun: ennen toteutusta pitää miettiä mitä toteutetaan tietokannassa ja mitä kuutioissa/metamalleissa/raporteilla.

Mistä on hyvä tulevaisuus tehty?

Uudet innovaatiot tuovat kuitenkin helpotuksia. Pieninä erinä annosteltuna, kun ne suunnitellaan fiksusti, ketterästi käyttöönottaen, yhdistäen vähän vanhaa, vähän uuttaa ja paljon uudenlaista tekemisen meininkiä.

Toistan vielä: avainasemassa on pienellä riskillä ja investoinnilla mutta ketterästi ja rohkeasti toteutetut kokeilut. Kokeilut, jotka testataan asiakkailla (=loppukäyttäjillä) ja päätetään nopeasti edetäänkö tuotantoon vai tehdäänkö jotain muuta. Trendikkäästi start-up yrittämisen ja lean-filosofian hengessä.

Olemme olleet mukana kun pörssiyritys on tehnyt tuotekehitystä tällä tavalla ja tuupannut parissa kuukaudessa uutta tuotetta tuutista ulos. Oma missioni tulevana vuonna on tuoda tuota tekemisen meininkiä tietovarastointiin, raportointiin ja analytiikkaan.

Kaikkia tässä kirjoituksessa lueteltuja asioita pitäisi lähestyä samalla tavoin, oli se sitten hadoop, muistinvaraiset tietokannat, ennakoiva analytiikka, pilvipalvelut tai konsernitason EDW-ratkaisut. Näitä ei pidä nähdä mammuttihankintoina ja big bang -hankkeina. Ylätasolla tehdään kyllä abstrakti suunnitelma tai roadmap, joka ohjaa konkreettisen tason ketterää tekemistä, jossa yritys, erehdys ja oppiminen ovat parhaita neuvonantajia.

Mitä Louhia tekee vuonna 2015?

Ante up. Siinä kiteytettynä tulevan vuoden strategia. Lisäämme panoksia, nostamme hikeä niin itsellä kuin kilpailijoilla. Blogi tulee sisältämään vähän enemmän, vähän rohkeammin ja haastavammin kaikkea sitä mikä lukijoita kiinnostaa.

Tuomme asiakkaillemme tarjolle uusia mielenkiintoisia analytiikkatuotteita ja iskemme ne tiiviisti perinteisten business intelligence tai esimerkiksi CRM-tuotteiden kylkeen – tarjoten itsepalveluanalytiikkaa ensimmäisenä markkinoilla. Ja varmistamme, että ne tuottavat asiakkaillemme pätäkkää, tai sitten heitämme ne romukoppaan ja teemme jotain muuta.

Katsomme myös korttimme Azure Machine Learningin kanssa. Emme unohda myöskään vahvaa RapidMiner ja R osaamistamme, jota tulemme jakamaan säännöllisten analytiikkakoulutusten muodossa pitkin vuotta.

Ja siinä sivussa toteutamme muutaman maan parhaimman tietovaraston ja saatamme pari megahanketta liikkeelle.

Tuplaamme liikevaihtomme parantaen kannattavuutta. Vedämme kesällä vuosittaisen triathlonin ja ne työntekijät ketkä eivät pääse maaliin, saa palkanalennuksen. Vietämme aikaa enemmän perheen kanssa. Matkustamme.

Siinä nyt alkajaiseksi jotain pientä.


13.10.2014 / Ville Niemijärvi

Bandwagoniksi sanotaan ilmiötä kun väki lähtee mukaan johonkin hassutukseen ihan vain sen vuoksi kun muutkin ovat mukana.

“As more people come to believe in something, others also “hop on the bandwagon” regardless of the underlying evidence.”

Eli vaikka mitään järkiperäistä syytä ei olisi tarjolla, lähdetään mukaan huutoon. Ettei jäädä ulkopuoliseksi tai mistään paitsi. Ihan varmuuden vuoksi.

IT-alalla tämä on kovin yleistä koska teknologisia innovaatioita tulee jatkuvalla syötöllä. Joskus nämä jäävät elämään ja tuovat oikeasti miljoonille käyttäjille hyötyä ja iloa. Suurin osa kuitenkin osoittautuu humpuukiksi tai tähdenlennoiksi. Mutta rahastaa niillä yritetään silti. Helppoheikkejä maailmaan riittää.

Hyvä keino karsia humpuukimaakarit ja tyhjän jauhajat, on pyytää näyttämään käytännössä. Miten tämä tuo minulle rahaa? Kuka muu täällä härmässä käyttää tätä? Miten tämä ratkaisee liiketoimintaongelmani? Tiedätkö edes mikä minun ongelmani on vai oletko se kenties sinä joka syöt aikaani tyhjänpäiväisyyksillä?

Ajantasalla on hyvä pysyä mutta juntti ei tarvitse olla

Oman alan ilmiöitä on hyvä seurata, on hyvä pysyä ajantasalla. Joihinkin kannattaa sijoittaa, joissakin kannattaa odottaa ja katsoa tuleeko lihaa luiden ympärille vai onko tämä vain some-trollaajien leukojen länksytystä.

Homma menee vaaralliseksi silloin kun tarpeeksi moni huutaa tarpeeksi kovaa ja huuto kantautuu kulmahuoneeseen. Silloin kun Iso Pomo saa vihiä aiheesta ja ratas naksahtaa kohdalleen. Silloin palaa rahaa. Silloin istahdetaan Ison IT-talon kanssa käymään kauppaa niin kuin isännät konsanaan. Ja se ei ole nappikauppaa.

Joskus on hyvä valaa uskoa joukkoihin, luoda hypeä, luoda tunnelmaa. Joskus on hyvä huutaa joukon mukana. Esimerkiksi urheilukisoissa suosikkijoukkueellesi tsemppiä. Mutta liiketoiminnan ollessa kyseessä, huutamalla porukan mukana ilman oikeaa asiaa, saatat saada vain kännisen juntin leiman naamaan.

Oikean asiantuntijan ei tarvitse huutaa, häntä kuunnellaan vaikka puhuisi vähän hiljempaakin.