5.05.2016 / Lasse Liukkonen

Näin Vapun jälkeisissä simoissa ja munkkipöhnässä ajattelin kirjoittaa uudehkosta analytiikan pilvipalvelusta, Watson Analyticsistä. Miksi? Sana Watson on kantautunut näkö- ja kuuloaisteihini hyvin rytinällä viime kuukausien aikana: Koulutuksissa, Linkedin:ssä, vapputivolissa, nakkikioskin jonossa, referenssitarinoissa, lähes kaikkialla.

Tässä kirjoituksessa ei syvennytä palvelun infrastruktuuriin tai luetella kattavaa listaa kaikista nyansseista vaan kerrotaan rehdisti mikä oli näppituntuma ensimmäisen käyttökerran jälkeen, mikä ihastutti, mikä mätti, mitä jäi avoimeksi.

Analytics Watsonista on saatavilla 3 eri versiota: Free edition, Plus ja Professional. Karkeat erot eri versioiden välillä löytyvät täältä, https://www.ibm.com/marketplace/cloud/watson-analytics/purchase/us/en-us#product-header-top. Testasin palvelua Free editionilla, sillä lähteenä testissä oli csv-tiedosto, jonka koko ei päätä huimannut (~5000 riviä, 25 saraketta). Testiaineistoni ominaispiirteet ja mallintamisen ongelmakohdat tunsin entuudestaan, joten mielenkiintoista oli nähdä se, että onko Watsonilla data-analyytikon aivot. Seuraavat tarkastelut ja huomiot koskevat luokittelu-aineiston/ongelman mallintamista (esimerkkiaineiston mielenkiinnon kohteena 2-luokkainen vaste).

 

1) Tutustuminen Watson Analyticsiin esittelyvideon avulla

Ennen palvelun hands-on-testaamista katsoin youtubesta esittelyvideon, jotta varmistuin siitä, että minun todella kannattaa tutustua palveluun. Olin melko vakuuttunut ”myyntivideon” annista, joten seuraavaksi menin ja loin tilin (IBM-id) osoitteessa http://www.ibm.com/analytics/watson-analytics/us-en/. Tilin luominen oli suoraviivaista ja pian olin jo kirjautumassa palveluun. Sivuhuomiona mainittakoon, että sähköpostiini ei ole tullut yhtään spämmiä tilin luomisen johdosta, pisteet siitä IBM:lle.

 

2) Welcome to Watson Analytics – eli Mitä Watsonilla voi tehdä?

Palveluun kirjautuessa avautuu selkeä Welcome-näkymä, josta näkee pääpiirteittäin mitä eri asiakokonaisuuksia Watson Analyticistä löytyy:

(+) Add – Lataa aineistosi tai jokin Watsonin esimerkkiaineistoista tarkasteltavaksi (tai sovella jotain seuraavista komponenteista jo ladattuun aineistoon)

Explore – Tutki aineiston rakennetta: Aineiston laatu, metatiedot, jakaumat, korrelaatiot, aggregoidut jakaumat, …

Predict – Muodosta automaattisesti ennustemalli aineiston pohjalta: Ennustemalli, tulkinnat, merkittävät tekijät, korrelaatiiviset suhteet, …

Assemble – Rakenna oma raporttinäkymä löydöksistäsi (ei käsitellä kirjoituksessa)

Social Media – Hae sosiaalisen median generoimaa tietoa (Twitter) hakusanojen avulla vrt. Google Trends

Refine – Muokkaa palveluun lähettämääsi aineistoa

1_Watson

Lähtökohtaisesti näytti siltä, että Watson Analyticssä on kaikki mitä tarvitsen, kuinka sitten Watson onnistui toteuttamaan fantasiani aineiston tarkastelun ja mallintamisen suhteen? Seuraavassa askel askeleelta testisession eteneminen:

 

3) Refine – Latasin aineistoni palveluun, halusin kuitenkin tehdä pieniä muokkauksia ennen aineiston syvällisempää analysointia ja mallintamista

Watsonissa pystyi helposti luomaan rivi- ja saraketason filtteröintejä aineistoon, sekä luomaan uusia laskennallisia sarakkeita. Esimerkkinä loin 4 uutta saraketta, jotka olivat laskennallisia jo olemassa olevista sarakkeista (jakolasku). Lähdeaineiston muokkaus oli visuaalista ja helppoa, mutta melko rajallista vaativampiin muokkauksiin.

2_Watson3_Watson

6_Watson

 

Pystyykö Refine-komponentilla yhdistelemään aineistoja? Entä aggregoimaan raaka-aineistoa mallinnettavaan muotoon? Pystyykö määrittelemään sarakkeiden tyypit, ts. pystyykö numeerisilla arvoilla täytetyn sarakkeen luokiteltuna? Pienen tutkimisen jälkeen en ainakaan itse löytänyt vastauksia palvelun sisältä.

Pyri siis muokkaamaan mallinnettava aineistosi oikeaan formaattiin ennen Watsoniin lataamista. Kevyet rivi- ja saraketason laskennat voit hoitaa kuitenkin palvelun sisällä, kunhan aineisto on valmiiksi oikeassa formaatissa.

 

4) Explore – Ennen aineiston mallintamista halusin saada ennakkokäsityksen aineiston laadusta ja jakaumista

Explore-komponentissa sai tarkasteltua aineistoa helposti ja nopeasti eri näkökulmista. Explore-ominaisuuteen oli selkeästi panostettu Watsonissa, aineiston pyörittelyä saattoi kutsua jopa taivaalliseksi!. Niin sulavaa ja helppoa, R:ssä samojen tarkasteluiden tekemisessä olisi mennyt useita tunteja, mitä Watsonissa pystyi tekemään muutamissa minuutissa. Fantastico!

Lataa aineistosi Watsoniin tarkastelua varten, elä turhaan pyri laittamaan aineistoasi tiptop kuntoon yhdeltä istumalta Excelissä (tai millä ohjelmalla aineistoa ikinä muokkaatkin). Anna Watsonin kertoa missä kunnossa aineistosi on!

11_Watson

 

5) Predict – Kun oli päästy sinuiksi aineiston kanssa oli aika muodostaa ennustemalli

Ennen mallintamista aineistoon pystyi määrittelemään sarakkeiden roolit, ts. pystyi rajaamaan mitä sarakkeita mallin luomisessa tuli käyttää hyväksi ja mitkä piti jättää huomiotta (esimerkiksi identifioivat sarakkeet). Nopean sarakkeiden roolituksen jälkeen alkoi Watsonin aivot raksuttamaan. Mitä Watson teki ja mihin johtopäätöksiin päädyttiin?

13_Watson

 

14_Watson

 

15_Watson

 

Mallinnusmenetelmä

Mallinnusmenetelmäksi Watson valitsi päätöspuun, tarkemmin ilmaistuna CHAID Decision tree (Chi-squared Automatic Interaction Detection). Watson automaattisesti diskretisoi jatkuvat sarakkeet luokkiin ja muodosti luokitellun aineiston avulla päätöspuun. Entä jos aineistossani olisi ollut enemmän sarakkeita tai vastaavasti rivejä merkittävästi vähemmän, olisiko Watson hylännyt menetelmän ja esittänyt muun mallinnusmenetelmän tulokset? (tilanteet, joissa CHAID ”ajautuu” ongelmiin diskretisoinnista johtuen). Tiedän, että Watson kykenee muodostamaan myös logistisen regression (sisältäen muuttujien diskretisoinnin), ehkä siihen olisi päädytty mainitussa tilanteessa.

16_Watson

 

20_Watson

 

Mallin ennustetarkkuus

Mitä tarkalleen tarkoittaa Predictive strength? Tarkasteltavan aineiston osalta mittari näyttää 90.3%, onko kyseessä suoraan oikein ennustettujen osuus kaikista havaintoriveistä? Kyllä vain. Tämän osalta olisi suotavaa, että valittavana olisi useampia eri mittareita mallin tarkkuuden tarkastelemiseen. Mallin tarkkuus 90.3% kuullostaa melko hyvältä, Watson kuitenkin ilmoittaa, että mallin ”ennustevoima” on heikko. Selkeästi jotain muitakin tarkkuuden mittareita on käytössä, mutta ne pysyvät taustalla. Watsonissa on huomioitu se seikka, että vaste-sarakkeen jakauma voi olla hyvinkin vino, kuten esimerkkiaineistossa (asiakaspoistuma). Tästä johtuen on mahdollista tarkastella mallinnustuloksia myös eri näkökulmista.

28_Watson

 

27_Watson

 

Merkittävät selittävät tekijät ja mallin tulkinta

Watson antaa ainakin päätöspuun tapauksessa kaikki tarvittavat yksityiskohdat mallin tulosten tulkitsemisesta, jopa siten, että Watson tulkitsee sinulle valmiiksi kaikki oleellisimmat säännöt ja huomiot mallintamisen yksityiskohdista. Esimerkkiaineiston tapauksessa tulee selkeästi esille mitkä ovat poistumaan eniten vaikuttavat tekijät. Ihailtavan kattava yhteenveto!

 

18_Watson

 

Mitä muuta sain irti Predict-komponentista

  • Predict-näkymässä pystyi tarkastelemaan sarakkeiden välisiä korrelaatioita käden käänteessä, tämä on erittäin hyvä ominaisuus tulkinta vaiheessa, kun ihmetellään, että miksi joku sarake ui malliin mukaan ja toinen ei (syy saattaa löytyä sarakkeiden välisestä korrelaatiosta)
  • 19 saraketta sisältää poikkeavia havaintoja
  • 10 sarakkeella on vino jakauma
  • 2 luokiteltua saraketta on epätasapainoisia
  • Ennustetarkkuudelta parhaaseen malliin valittiin 9 selittävää saraketta

22_Watson

 

Watsonin luoma kokonaisuus mallinnuksen tuloksista on todella kattava, jopa niin kattava, että suurin osa testisession ajasta meni ihmetellessä tuloksia. Tämä on tietysti palvelun tarkoituskin. Kattavuudesta huolimatta minulle jäi joitakin kysymysmerkkejä ilmaan:

Mistä saa esille aineiston poistumatodennäköisyyksineen? Miten Watson otti huomioon ylioppimisen, käyttikö se hyväkseen testi-/opetusaineisto ideologiaa? Tuleeko Watsoniin ominaisuus, jolla luotua mallia voidaan käyttää ennustamiseen vai onko tarkoitus vain selvittää mitkä tekijät vaikuttavat vasteeseen ja millä tavalla?

Kaiken kaikkiaan olen melko vakuuttunut Watsonin kyvyistä mallintamisen suhteen, päädyin itse hyvin samankaltaiseen malliin tehdessäni vertailuanalyysin Rapidminerillä. Vaikuttaa siltä, että Watson analytics on rakennettu Explore-komponentti edellä ja Predict-komponentti tulee kehittymään vielä tulevaisuudessa, jotta päästään todella ennustamaan muodostetulla mallilla. Voin suositella kokeilemaan Watsonin luomaa mallia referenssimallina, vaikka lopullisen mallin tekisitkin jollain muulla välineellä, sillä Watson voi paljastaa jotain, jota et ehkä ole itse huomioinut.

 

5) Yhteenveto:

Watsonin vahvuudet:

Helppokäyttöinen – Matala oppimiskynnys

Visuaalisuus – Näyttävät ja monipuoliset graafit, sekä raportointimahdollisuudet pelkästään hiirtä klikkailemalla

Nopeus – Watson toimii yllättävän stabiilisti ja nopeasti pilvipalveluksi (ainakin testin aikana)

Tulosten tulkinta – Tuloksia tulkitaan valmiiksi käyttäjälle ja tuloksien auki perkaaminen on toteutettu todella kattavaksi

Watsonin heikkoudet:

Datan muokkaus – Vähänkään vaativammat datan muokkaukset eivät onnistu? (esim. datan yhdistäminen)

Itse ennustaminen – Ennustamisessa saadaan selville mitkä tekijät vaikuttavat kiinnostuksen kohteena olevaan sarakkeeseen, mutta muodostetulla mallilla ei ilmeisesti pysty (ainakaan vielä) ennustamaan uuttaa aineistoa (esim. nykyasiakkaita)

Ei räätälöitävissä – Ennustemallin toteuttaminen on tehty liiankin automaattiseksi, ei kauheasti mahdollisuuksia vaikuttaa siihen mitä mallinnuksessa tapahtuu

 

Entä miten Watson Analytics pärjää taistelussa Azure ML:n kanssa? Siitä seuraavassa kirjoituksessa lisää. Laitettiin nimittäin Niemijärvi mallintamaan, jotta palveluiden vertaaminen olisi tasavertaista. Päihittääkö Watson “ei-niin-kokeneen” datakemistin?


28.01.2016 / Lasse Liukkonen

“Deep learning”- termiin törmää nykyisin monessa yhteydessä, esimerkiksi lukiessaan kagglen kilpailujen tuloksia tai alan kirjoituksia (machine learning). Google Trendsistä tarkastettuna “deep learning” tai tuttavallisemmin syväoppiminen on alettu hypettämään 2012 vuoden lopusta lähtien ja termin viljeleminen internetissä on ollut liki eksponentiaalisessa nousukiidossa. Mistä oikein on kyse?

Syväoppimisen voi ymmärtää monella tapaa. Joillekin se voi merkitä ainoastaan perinteisien mallinnusmenetelmien soveltamista, askeleena raportoinnista kohti ennustavaa analytiikka. Omasta näkökulmasta ajateltuna kyseessä on joukko mallinnusmenetelmiä normaalia kompleksisempien datastruktuurien tai ilmiöiden mallintamiseen/ennustamiseen. Tekisi mieli sanoa, että syväoppiminen on suurilta osin erityyppisten neuroverkkojen (convolution, radial basis, recurrent, stochastic,…) tuunaamista ja optimoimista erilaisiin tavallista haastavampiin mallinnusongelmiin. Tälläisiä ongelmia ovat esimerkiksi käsialan (kirjainten ja numeroiden) ja puheen tunnistaminen, genetiikan mallinnusongelmat. Kyseiset mallinnusongelmat voivat olla tyypiltään supervised- tai unsupervised (mitä nämä ovat suomeksi? itseoppiva ja ei-itseoppiva?).

Vahvasti kuitenkin näyttää siltä, että myös ns. tukivektorikoneen (SVM) käyttöä voidaan pitää syväoppimisena, tämä on hyvin ymmärrettävää, sillä todellisuudessa suurin osa kyseisen menetelmän soveltajista ei oikeastaan tiedä yhtään mitään siitä, mitä mallinnuksen aikana tapahtuu matemaattisesti, enkä voi myöskään suosittele kaikkia ottamaan selvää asiasta, ainakaan kovin syvällisesti. Perusperiaatteen tunteminen yksinkertaisessa tapauksessa on tietysti suotavaa. Lisäksi todettakoon, että tukivektorikone ja neuroverkko eivät itseasiassa pohjimmiltaan eroa kovinkaan suuresti toisistaan, joten on perusteltua lisätä tukivektorikoneet samaan kategoriaan, kun rajoitetaan tarkastelu supervised-tyyppisiin syväoppimisen menetelmiin.

“Tavanomaisiin” mallinnusongelmiin (supervised & verrattain selkeä datan rakenne) käytettävissä neuroverkoissa on tavallisesti yksi, tai maksimissaan kaksi tasoa (hidden layers). Syväoppimisessa käytettävien neuroverkkojen tasojen määrä voi olla huomattavasti suurempi, joka mahdollistaa kompleksisemman datan rakenteen mallintamisen. Itseasiassa syväoppimiseen luokiteltavien neuroverkkotyyppien rakenne ja estimointimenetelmät mahdollistavat sen, että laskennan takana ei tarvita välttämättä yhtä paljon rautaa kuin saman mallinnusongelman ratkaisemisessa tavanomaisella neuroverkolla. Tästä syystä tasojen lisääminen ei välttämättä muodostu laskennallisesti mahdottomaksi.

Tein kenttäkokeita syväoppimiseen lukeutuvilla neuroverkoilla luokitteluongelmille, joihin business-maailmassa törmää usein ja vertasin tuloksia perinteisempien menetelmien (satunnainen metsä, boostattu päätöspuu) tuloksiin, tässä joitakin huomioita:

a. Neuroverkon parametrien optimointi (~15-20 parametria, mm. tasojen lkm, regularisointiparametrit, aktivointifunktioit.) muistutti läheisesti tietokoneen tweekkaamista, ts. laskenta-ajan mahdottomuus vs. luokittelutarkkuus. Joidenkin parametrien merkityksestä itse neuroverkon estimointiprosessissa ei itselläni ollut mitään hajua (laiskuus iski, en jaksanut selvittää ja/tai ymmärtää kaikkien syvällistä merkitystä!). Onneksi käyttämäni ohjelma kertoi arvioidun jäljellä olevan laskenta-ajan suhteellisen osuuden, joten joidenkin parametrikombinaatioiden osalta oli peli vihellettävä poikki hyvissä ajoin!

b. Satunnainen metsä ja boostattu päätöspuu suoriutuivat mallinnusongelmista yhtä hyvin kuin neuroverkko, pienemmällä määrällä parametrien säätöä. Neuroverkon laskenta-ajan käytin taustamuuttujien muunnoksien muodostamiseen ja muuttujien valintaan. Neuroverkkoihin syötin taustamuuttujat sellaisenaan.

c. Neuroverkon parametrien optimointi suoritettiin intensitiivisenä rinnakkaislaskentana, joten koneen käyttäminen laskenta-aikana oli liki mahdotonta. Tästä tuli mieleen tunnettu slogan “jää aikaa muuhunkin”. Ilman rinnakkaislaskentaa olisi mallinnukset kestäneet arviolta 3 kertaa kauemmin.

d. Enpä oikeistaan ymmärtänyt mitä neuroverkon opettamisessa tapahtui, täysin blackbox… No tulokset olivat kuitenkin yllättävän hyviä manuaaliseen iteroimisvaivaan nähden, rauta hoiti hommat. Tulokset olivat vahvasti sidoksissa parametrien optimointiin, joten optimointi oli välttämätöntä.

Yhteenvetona voisi todeta, että neuroverkkoa (syväoppimiseen lukeutuva/lukeutuvat) käytettäessä analyytikon manuaalinen iteraatiokierroksiin käytetty aika käytettiin laskenta-aikaan. Satunnaisen metsän ja boostatun päätöspuun parametrien optimointi tuntui varsin tylsältä ja yksinkertaiselta. Fiilis neuroverkon estimoinnin valmistumisesta ja tulosten tupsahtamisesta toi mieleen joulunajan odotuksen ja lahjojen avaamisen: aina ei piinallisen odottelun jälkeen lahja (mallin tarkkuus) ollut mieleinen tai vastaavasti joulupäivänä seuraavan jouluun (estimoinnin valmistuminen) odottaminen tuntui tolkuttoman pitkältä ajalta.

Omien kenttäkokeiden perusteella suurin osa supervised-tyyppisistä yritysmaailman mallinnusongelmista ei välttämättä tarvitse syväoppimisen menetelmien kirjoa, voi kuitenkin joskus olla järkevää jättää yöksi kone jauhamaan neuroverkkojen (ja tukivektorikoneiden) pariin saadakseen jonkin benchmark-tuloksen perinteisimmille, ehkä hieman tulkinnallisemmille menetelmille.

Itse en ole suuri neuroverkko tai tukivektorikone fani/spesialisti, mutta lupasin itselleni jatkossa hyödyntää koesession oppeja ja valmiita syväoppimisen aihioita päivittäisessä mallinnustyössäni enemmän. Syväoppimisen menetelmiin syvällinen perehtyminen ei siis välttämättä ole aivan tarpeen ellei työnkuvaasi kuulu unsupervised-ongelmien ratkominen, joissa tulet ennen pitkään törmäämään hypetettyyn käsitteeseen halusit sitä tai et.


12.01.2016 / Ville Niemijärvi

Aloitamme lyhyen blogisarjan miten tehdä analytiikkaa Azure Machine Learning:llä.

Sarja käydään läpi tehokkaasti vajaassa 3 viikossa, sisältäen 3-4 juttua. Sarja päättyy Talentum Eventsillä pitämääni asiakasanalytiikka koulutukseen, jossa koko prosessi käydään läpi.

Ei teorioita, ei jaaritteluja, pelkkää asiaa

Suun louskuttajia aina löytyy hype-termien tiimoilta ja olemme mekin varmasti syyllistyneet kliseiden toistamiseen.

Dilbert

Nyt onkin aika näyttää miten analytiikkaa todella tehdään. Käytännössä ja konkreettisesti. Alusta loppuun. Ja mitä se maksaa. Ei teorioita. Ei höpöhöpöä ja liirulaarumeita.

Toteutamme sarjassa koko prosessin liiketoimintaongelman määrittämisestä, teknisen ympäristön pystyttämiseen, datan muokkaamiseen, mallintamiseen ja tulosten visualisointiin sekä tuotantokäyttöön.

Käytämme juuri niitä samoja työvälineitä ja menetelmiä mitä käytämme todellisissakin projekteissa. Seuraamalla blogisarjaa, näet siis miten käytännössä analytiikka tehdään Microsoft Azure -ympäristössä ja voit toistaa sen omassa yrityksessäsi ja säästää konsultointikustannuksissa.

Noudatamme hieman modifioitua CRISP-DM metodologiaa. Sisältäen seuraavat vaiheet:

Vaiheet:

  1. Määrittele liiketoimintaongelma
  2. Kerää data
  3. Muokkaa, käsittele ja rikasta tietoa (ns. etl-prosessi) ja tallenna se tietokantaan
  4. Analytiikka eli erilaisten ennustemallien toteutus Azure ML:ssä
  5. Tulosten visualisointi (MS Power BI)
  6. Ennustemallien tuotantokäyttö eli kohta jossa naureskellaan matkalla pankkiin

Pelkkää pilveä: All-in-Azure

Rakennamme koko touhun ETL-prosessista (datan lataus, muokkaus ja käsittely), tietokantaan ja analytiikkamallinnukseen Azureen. Eli pilveen. Yhtään kilkettä ei asenneta omalle palvelimelle.

Otamme käyttöön Azure virtuaalikoneen jota käytämme lähinnä ETL-työhön (MS SSIS). Toinen vaihtoehto olisi hyödyntää Data Factoryä, Microsoftin pilvipohjaista integraatiotyövälinettä. Tämä ei ole kuitenkaan vielä läheskään valmis suorittamaan vähänkään vaativimpia datan muokkaus toimenpiteitä eli ns. etl-työtä. Tai se vaatii koodaamista. Näin on fiksummat opastaneet.

Otamme käyttöön Azure SQL -tietokannan, jonne datat tuupataan. Tällä yhdistelmällä voisimme rakentaa myös varsinaisen tietovaraston, aivan kuten rakentaisimme sen yrityksen omille palvelimille on-premise. Looginen arkkitehtuuri on aivan sama.

Lisäksi käytämme Azure Machine learning studiota analytiikkamallintamiseen eli mallinnamme dataa tarpeesta riippuen eri algoritmeilla. Teemme ainakin:

  • asiakassegmentoinnin
  • asiakaspoistumamallinnuksen
  • myyntiennusteen
  • lisämyyntiennusteen

Vaikkakin teemme nyt kaiken Azuressa, voisimme yhtä hyvin käyttää Amazonia tai analytiikkamallinnuksessa RapidMinerin pilveä. Käytämme nyt Azurea ja Microsoftin työvälineitä koska se on yksinkertaisesti tutuin vaihtoehto ja paljon kattavampi/monikäyttöisempi (virtuaalikoneet, blob-storage, SSIS, Power BI, ML) kuin esim. pelkkä RapidMiner.

Ja vaikka keskitymme nyt asiakasanalytiikkaan, voi samaa arkkitehtuuria ja algoritmeja hyödyntää toimialasta riippumatta ja vaikka tuoteanalytiikassa (esim. vikaantumisen ennakointi, tuotemenekkien ennustaminen).

Laitamme kaiken Lassen, maailman vahvimman analyytikon, luottokortille. Blogisarjan päätteeksi katsomme mikä on Lassen kortin saldo ja meneekö ensi kuukausi ylitöiksi. Toisin sanoen näytämme mitä tämä oikeasti maksaa ja voit arvioida mitä se maksaisi sinulle.

Jos sinua kiinnostaa tietää aihepiiristä lisää tai haluat, että näytämme/selvitämme jotain erityistä osa-aluetta tarkemmin, ole rohkeasti yhteydessä.

Voit nakata meille viestiä:

Aikaa on vähän joten Lasse, paras ryhtyä hommiin.


 

Jos haluat vähän makustella mitä asiakasanalytiikka tai asiakastiedon rikastaminen on, kannattaa tutustua seuraaviin juttuihin:

http://www.louhia.fi/tag/asiakasanalytiikka/


27.08.2014 / Ville Niemijärvi

ManAsiakaspoistuma-analyysi (eng. churn) tarkoittaa analytiikan prosessiketjua, jossa selvitetään mitkä asiakkaat ovat vaarassa poistua, millä todennäköisyydellä ja miksi. Poistuma tarkoittaa sitä kun asiakas lopettaa sopimuksen palveluntarjoajan kanssa tai yksinkertaisesti lopettaa asioimisen yrityksessä. Voidaan puhua myös asiakaspidosta (eng. retention).

Termi liittyy läheisesti myös asiakkuuden elinkaaren arvon määrittämiseen (customer life-cycle value) ja nykypäivän yhteen muotitermiin; customer journey. Itse näkisin kuitenkin, että kyseessä on enemmänkin yksinkertaisesti paremmasta asiakashallinnasta ja huolenpidosta…

Poistuma-analyysi sopii hyvin sopimusliiketoimintaan, esimerkiksi sähköyhtiöille, puhelin- ja internet operaattoreille, kuntosaliketjuille tai lehtitaloille. Mutta poistuma-analyysiä voidaan tehdä myös vähittäiskaupassa, jos vain asiakas tunnistetaan (kanta-asiakasjärjestelmän avulla). Tällöin pitää vain päättää milloin asiakas on poistunut? Mikä on riittävän pitkä aika, että asiakas ei ole käynyt kaupassa, jotta voidaan päätellä hänen vaihtaneen vakiokauppaansa.

Tässä ja parissa seuraavassa kirjoituksessa käydään läpi asiakaspoistuma-analyysiä ja miten se tehdään käytännössä. Lähestymme aihetta yleisestä yksityiseen. Lopussa näytämme kädestä pitäen miten homma tehdään alusta loppuun.

Asiakaspoistuma-analyysin tuotto on helppo laskea

Kaikessa analytiikkatyössä tulee laskea mitä saamme analyysistä irti, mikä on investoinnin roi, paljonko jää viivan alle. Jollei investointi tuota moninkertaisesti enemmän kuin analyysi ja tiedon keräys maksaa, ei sitä kannata tehdä.

Asiakaspoistuman osalta tämä on erittäin helppoa tehdä. Otetaan esimerkki sähkön myynnistä.

Sähköyhtiöllä on 100 000 asiakasta. Keskimääräinen laskutus per asiakas on 1000e/vuosi. Nopea selvitys sähköyhtiön sopimuskannasta kertoo, että keskimäärin vuodessa sopimuksen lopettaa 8% asiakkaista.

Tämä tarkoittaa, että asiakkaita poistuu 8000 kpl/vuosi. Rahassa tämä on siis 8000kpl*1000e=8 miljoonaa euroa. Tuo on se potti, jota lähdemme pienentämään ja sitä kautta tekemään asiakkaallemme lisää rahaa.

Osa näistä 8000:sta poistuu luonnollisen poistuman kautta, osa vaihtaa kaupunkia. Ja sitten on se osa joka vaihtaa palveluntarjoajaa koska yrityksen tuote, palvelu tai hinta ei ole riittävän hyvä. Tai kilpailijalla on parempi. Kutsuttakoon tätä laadulliseksi poistumaksi.

Kun menemme asiakkaalle, teemme aina vastaavan laskelman ja arvioimme asiakkaan kanssa yhdessä, mikä on tuon laadullisen poistuman osuus ja kuinka paljon on realistista saada pienennettyä sitä. Sähköyhtiöiden osalta voimme katsoa julkisesta datasta, esim. THL:ltä, mikä on muuttoliike kunnasta pois päin ja paljonko poistuu jalat edellä. Näin emme joudu arvailemaan vaan meillä on faktaa laskelmien taustalla. Sanottakoon esimerkkinä, että sähköyhtiön tapauksessa 3% on luonnollista/muuttopoistumaa ja loput 5% on laadullista poistumaa. Poistumaa, johon voimme vaikuttaa. Tähän iskemme kyntemme.

Entä jos voimme pudottaa tuota 5% poistumaa vaikka vain yhden prosenttiyksikön? Tämä tarkoittaisi 1000 asiakasta ja miljoonaa euroa vuodessa lisämyyntiä. Jos analyysi maksaa 20 000 euroa, on investoinnin tuotto aika huima. Se on jotain sellaista, jota kannattaisi kaikkien tavoitella.

Mitä dataa poistuma-analyysi tarvitsee?

Ensiksi otamme historiatietoa eli tietoa jo poistuneista ja ei-poistuneista asiakkaista. Toisin sanoen sähköyhtiön tapauksessa luemme sopimustietokantaa ja sähkönkulutustietoja (yhä yleisemmin tietovarastoa tai edistyneimmissä yrityksessä erikseen toteutettua analytiikkakantaa) ja haemme sieltä mahdollisimman pitkän historian, mahdollisimman monelta asiakkaalta. Mitä enemmän sitä parempi. Historia-aineistoon otetaan mukaan asiakkaiden taustatietoja sekä käyttäytymiseen liittyvää tietoa.

Taustatietoja ovat esimerkiksi

  • alue/kaupunki/postinumero
  • demografiatiedot (tulo- ja koulutustaso)
  • sukupuoli
  • ikä
  • asiakkuuden kesto
  • talotyyppi, koko, lämmitysmuoto jne. toimialaspesifistä tietoa

Käyttäytymiseen liittyviä tietoja ovat esimerkiksi:

  • kulutus- ja laskutushistoria (esim. keskimääräinen kulutus per kk)
  • ostetut tuotteet (eli millainen sopimus)
  • reklamaatiota, asiakaspalautteet, yhteydet asiakaspalveluun
  • maksuhäiriöt
  • muut toimialaspesifit tiedot
  • Ja lopuksi se tärkein tieto: onko asiakas poistunut vai ei (K/E)

Monilta yrityksiltä ei löydy kaikkia näitä tietoja, olen nähnyt yrityksiä joilla asiakkaista tiedetään käytännössä vain numero ja osoite. Ei edes nimeä tai sitä onko kyseessä yritys- vai henkilöasiakas. Ennen kuin analytiikkaa päästään hyödyntämään täysillä, on edessä usein systemaattinen tiedon keräämisvaihe ja mahdollisesti muutokset lähdejärjestelmiin/tietovarastoon.

Ennen analyysia emme tiedä mitkä tiedot ovat relevantteja ja vaikuttavat poistumisen takana ja sen selvittäminen onkin koko homman ydin.

Miten poistuma-analyysi tehdään?

Kun tiedot on kasassa, jaamme datan kahteen eri settiin: opetusdataan ja testidataan (esimerkiksi suhteessa 60-40). Opetusdatan avulla muodostamme ennustemallin, käyttäen liiketoimintaongelmaan sopivaa analytiikka-algoritmia (esim. logistinen regressio, naive-bayes). Parhaan mallin löytäminen vaatii useita iteraatioita.

Työ vaatii analytiikkasoftan mutta ei välttämättä lisenssihankintaa vaan työn voi ostaa usein palveluna. Markkinoilta löytyviä analytiikkaohjelmistoja on esimerkiksi: R, RapidMiner, SAS, SPSS ja löytyypä Microsoftin SQL Serveristä data mining -moduuli.

Muodostunutta ennustemallia testataan testidataa vasten. Koska testidata on historiadataa, tiedämme onko asiakas poistunut vai ei. Testin voisi ajatella siten, että peitämme tuon poistuma-tiedon ja kuvittelemme, että kyseessä olisi täysin uutta dataa. Annamme mallin tehdä ennusteen eli kertoa todennäköisyydet poistua kullekin asiakkaalle. Tämän jälkeen tarkastamme tuloksen ja arvioimme mallin tarkkuuden. Näin varmistamme toimiiko malli ja kannattaako sitä hyödyntää uutta dataa vasten vai pitääkö sitä parantaa.

Kollegani laittaa piakkoin step-by-step ohjeen miten kuka tahansa hiirtä ja näppäimistöä osaava käyttäjä voi tehdä asiakaspoistuma-analyysin omalla datalla käyttäen RapidMineria. RapidMiner on yksi käytetyimmistä analytiikkaohjelmistoista maailmassa ja kuuluu Gartnerin analyysissä leaders-kategoriaan. Rapidista saa ladattua ilmaisversion, jonka avulla voit testata ohjeitamme ja päästä alkuun analytiikan hyödyntämisessä.

Asiakaspoistuma-analyysin tulokset

Poistuma-analyysi tuottaa kaksi erillistä tulosta:

  1. Kaikki nykyiset asiakkaat listattuna poistumatodennäköisyyden mukaan
  2. Selittävät tekijät poistuman taustalla

asiakaspoistuma_tulos

Ensimmäinen tarkoittaa siis konkreettista listaa, jonka voit heittää myynti-/asiakaspalveluyksikölle tai soittokoneistolla ja käskeä kontaktoimaan heti aluksi akuuteimmat top 100 poistujaa.

Toinen tuotos eli selittävät tekijät antavat tulkinnan ilmiölle. Ne kertovat miksi asiakkaat poistuvat. Nämä tulokset on erittäin arvokasta tietoa niin asiakaspalvelulle, myynnille kuin tuotepäälliköille, liiketoiminnan kehittämiselle ylipäätään.

Analyysissä voi tulla esille, että hinta ei olekaan merkittävä tekijä poistuman taustalla vaan huono asiakaspalvelu tai tietylle asiakassegmentille sopimaton tuotepaletti (esim. sähköyhtiöltä puuttuu ekosähkö valikoimastaan).

Parhaimmassa tapauksessa analyysin tuotoksista voidaan generoida sääntökoneisto ja sisällyttää se esimerkiksi asiakaspalvelun työpöydälle tai CRM-järjestelmään. Säännöt voivat olla yksinkertaisuudessaan kertoimia ja IF-lauseita ja voidaan toteuttaa esimerkiksi SQL-komentoina. Analytiikan tulokset kirjoitetaankin usein takaisin joko operatiivisiin järjestelmiin tai tietovarastoon.

Analyysistä toimintaan

Analytiikan pitää johtaa toimintaan. Sen pitää tuottaa tulosta. Tämä erottaa sen perinteisemmästä raportoinnista ja business intelligencestä, jossa tuijotetaan enemmänkin raportteja ja taulukoita. Näytti käppyrät mitä tahansa, hommia jatketaan kuten ennenkin. Kunnes ollaan karilla tai kortistossa.

Poistuma-analyysissa toiminta tarkoittaa monta asiaa, esimerkiksi:

  • kontaktoidaan poistumariskissä olevat asiakkaat
  • pyritään pitämään heidät tai parhaimmassa tapauksessa tekemään lisämyyntiä
  • kehitetään asiakaspalvelun laatua
  • kehitetään tuotteita/palveluita vastaamaan paremmin kysyntää
  • ennakoidaan liikevaihdon muutos kun tiedetään ennuste tulevasta poistumasta

 

Miksi yritys ei tee asiakaspoistuma-analyysiä?

Olemme tehneet vuosien varrella valtavan määrän eri analytiikan sovelluksia ja projekteja. Asiakaspoistuma-analyysi on antanut näistä todennäköisesti parhaimmat tulokset, varsinkin jos mitataan euroissa asiakkaiden saamaa hyötyä. Menetelmä on helppo ja suhteellisen nopea toteuttaa, se on helppo ymmärtää ja tulokset ovat käsin kosketeltavat.

Silti yllättävän harva yritys todella hyödyntää sitä. Syyt ovat moninaiset lähtien tietämättömyydestä aina itsepetokseen.

Surullisin on itseriittoisen sinnikäs toteamus, että ei meidän asiakkaat poistu muuta kuin manan majoille tai hinnan perässä, ne pihit penteleet.

Yrityksen tuotteessa ei ole kuulema mitään vikaa. Palvelu on priimaa ja markkinaosuus olisi 100% jos vain kilpailijat eivät myisi arvelluttavan halvalla sekundatuotteitaan. Jostain syystä liikevaihto kuitenkin mataa.

Uuden asiakkaan hankinta on aina kalliimpaa kuin vanhan pitäminen. Parhaimmassa tapauksessa tekemämme asiakaspoistuma-analyysin tuloksena kontaktoiduille asiakkaille saatiin myytyä aivan pöljänä lisää tavaraa. Asiakkaat eivät aina ole siis tyytymättömiä palveluun, he ovat vain herkkiä myynnille. Sinun kannattaa olla silloin ensimmäisenä paikalla.


Ps. Viikon päästä konkretiaan: miten asiakaspoistuma-analyysi tehdään käytännössä RapidMinerilla. Käy lataamassa Rapidin ilmaisversio koneellesi ja testaa itse.


13.03.2014 / Antti Ollikainen

Moni yritys pohtii, mikä on sen markkinointiponnistelujen vaikutus myyntiin. Kysymyksen ratkaisemisella on suuri arvo, koska tehottomista kampanjoista haluttaisiin luopua ja tehokkaisiin panostaa lisää.

Tässä esitellään kaksi yleisesti käytössä olevaa tekniikkaa kampanjan vaikutuksen arviointiin sekä näytetään, kuinka harhaan ne voivat johtaa ja miksi näin käy. Lopuksi näytetään, kuinka aikasarja-analyysillä voidaan arvioida näitä tekniikoita olennaisesti tarkemmin ja luotettavammin kampanjan vaikutus myyntiin.

Lähdetään liikkeelle esimerkillä: alla on graafi, josta ilmenee (kuvitteellisen) ”Nisupulla” -tuotteen myynti ja hinta. Tehtävänä on arvioida, onko sen mainostaminen huhti-syyskuussa 2013 nostanut sen myyntiä vai ei ja jos on, niin kuinka paljon.

Aikasarja1

Yleisiä käytössä olevia tekniikoita tutkia asiaa ja sitä myötä näkökulmia on (ainakin) kaksi:

  1. Nisupullan myynti on laskenut kampanjan alkuun verrattuna. Ja heti kampanjan loputtua sen myynti on taas noussut dramaattisesti – surkea kampanja siis!
  2. Nisupullallahan on selvä kuuden kuukauden kausivaihtelu. Jos verrataan vuoden takaiseen myyntiin, on Nisupullan myynti noussut huimasti – loistava kampanja siis!

Alla on graafi, joka havainnollistaa tätä näkemyseroa:

Aikasarja2

Näkemykset ovat niin kaukana toisistaan kuin olla ja voi. Kumpi on oikeassa?

Ei kumpikaan.

Mikä meni pieleen?

  1. Kampanjan alkuun vertaaminen ei huomioinut kausivaihtelua: Nisupullaa ostetaan tavanomaista enemmän touko- ja marraskuussa. Tämä selittää sekä kampanjan aikaisen heikon myyntimenestyksen että kampanjan jälkeisen myynnin huiman nousun.
  2. Vuoden takaiseen vertaaminen ei huomioinut trendiä: Nisupullan myynti on kasvanut tasaisesti useita vuosia. Tämä nousu ei ole kampanjan ansiota, koska trendi on ollut olemassa jo kauan ennen kampanjaa.
  3. Kumpikaan tekniikka ei huomioinut hinnan vaikutusta: sen nousu kampanjan aikana selittää osittain myynnin laskun, kuten myös hinnan lasku avitti myynnin nousua kampanjan jälkeen.
  4. Kumpikin tekniikka sivuutti sen tosiasian, että Nisupullan myynti on osittain satunnaisilmiö, eikä satunnaisesti heilahtelevaa osaa myynnistä tule laskea kampanjasta aiheutuvaksi. Esimerkiksi kampanjan jälkeinen myynnin nousu selittyy osittain sillä, että lokakuussa 2013 on ollut pienehkö sattumanvarainen lisänotkahdus alaspäin ja marraskuussa niinikään pieni satunnainen lisänousu.
  5.  
    Kampanjan todellinen vaikutus tunnistetaan soveltamalla aikasarja-analyysiä myyntihistoriaan

    Ratkaisu edellä esitettyyn ongelmaan on analysoida kampanjan vaikutus aikasarja-analyysillä. Tämä on tavanomaisesta poikkeava tapa käyttää aikasarja-analyysiä, koska melkein aina sitä käytetään tulevan ennustamiseen eikä menneen analysointiin.

    Aikasarja-analyysi puree tähän ongelmaan, koska se pystyy samanaikaisesti tunnistamaan mikä osuus myynnin vaihtelusta johtuu:

    1. Kausivaihtelusta
    2. Trendistä
    3. Hinnasta
    4. Muista tekijöistä (esim. kilpailevan samankaltaisen tuotteen hinnasta)
    5. Sattumasta
    6. Kampanjasta
    7.  
      Aikasarja-analyysillä siis tunnistetaan, mikä on kampanjan itsenäinen vaikutus, kun myynnin vaihtelusta on poistettu kaikkien muiden em. luettelossa olevien tekijöiden vaikutus. (Teknisesti tämä tehdään siten, että arimax-malliin lisätään kampanjan vaikutuksen itseensä imevät apumuuttujat. Tämän kuvailu ansaitsisi melkeinpä oman bloginsa.)

      Palataan Nisupulla-esimerkkiin. Ao. kuvassa on tehty (MS SQL Server Analysis Service:llä) aikasarja-analyysi Nisupullan myyntihistorialle. Aikasarjamallin tuottama hintaennuste (keltainen) pystyy toistamaan erittäin hyvin myynnin (sininen) säännönmukaisena toistuvat vaihtelut, tärkeimpinä trendin ylöspäin, kausivaihtelut ja hinnan (punainen) vaikutuksen. Toteutuneen myynnin ja mallin ennusteen erotus tulkitaan satunnaiseksi myynnin vaihteluksi. Näistä yli jäävä osuus myynnin vaihtelusta on kampanjan aiheuttamaa (harmaa).

      Aikasarja3

      Havaitaan, että kampanjan todellinen vaikutus oli pienempi kuin vuoden takaiseen vertaamalla saatiin tulokseksi mutta suurempi kuin kampanjan alkuun vertaaminen näytti.

      Aikasarja-analyysi mahdollistaa myös sen todentamisen, että Nisupullan kampanjoinnilla on ollut tilastollisesti merkitsevästi positiivinen vaikutus sen myyntiin (mikä on toki eri asia kuin asiallisesti merkitsevä). Vuoden takaiseen tai kampanjan alkuun vertaaminen eivät tähän kykene.

      Aikasarja-analyysin rajoitteet

      Tämäkään tilastollinen tekniikka ei ole suinkaan täydellinen, kuten ei mikään tekniikka kampanjan vaikutuksen arvioimiseksi. Yleisesti voi todeta, että kampanjan vaikutuksen tunnistaminen onnistuu aikasarjamallilla sitä paremmin, mitä säännönmukaisempaa on myynnin vaihtelu muista kuin kampanjasta johtuvista syistä (kohdat 1-5 edellä). Jos myynti on aivan kaoottista kohinaa, on vaikea erottaa kampanjan vaikutusta. Tosin silloin ajautuvat ongelmiin muutkin tähän tähtäävät tekniikat.

      Toinen haaste on se, että aikasarjamalli tulkitsee kaiken em. kohtien 1-5 ulkopuolelle jäävän myynnin vaihtelun kampanjasta johtuvaksi. Jos kampanjoita onkin täysin samaan aikaan ollut vaikkapa kaksi, tunnistaa aikasarjamalli niiden yhteisvaikutuksen. Sama pätee, jos on tapahtunut jotain muuta myyntiin vaikuttavaa samanaikaisesti kampanjan kanssa. Nisupullan tapauksessa tämä voisi olla vaikkapa kampanjan ajankohtaan osunut uutinen Nisupullassa käytetyn elintarvikevärin haitallisuudesta terveydelle. Ja jälleen on todettava, että tämä toki tuottaa ongelmia muillekin kampanjan vaikutusta arvioiville tekniikoille.

      Yhteenveto

      Perinteisillä tekniikoilla saatetaan ajautua aivan hakoteille sen arvioinnissa, mikä on kampanjan vaikutus myyntiin. Esimerkin tapauksessa kampanjan alkuun vertaaminen tuotti aivan liian synkän kuvan ja vuoden takaiseen vertaaminen aivan liian optimistisen kuvan kampanjan vaikutuksesta. Molemmat tekniikat epäonnistuivat, koska ne eivät kyenneet huomioimaan kaikkia myynnin vaihtelun säännönmukaisuuksia. Niiden avulla ei myöskään voida arvioida onko kampanjan vaikutus tilastollisesti merkitsevä vai ei.

      Aikasarja-analyysi on olennaisesti parempi tekniikka, koska se pystyy arvioimaan, mikä osuus myynnin vaihtelusta johtuu kausivaihtelusta, trendistä, hinnasta, sattumasta, muista tiedossa olevista tekijöistä ja kampanjasta. Näin kampanjan vaikutus arvioidaan realistisesti. Samalla selviää, onko vaikutus tilastollisesti merkitsevä vai ei.

      Itse asiassa aikasarja-analyysillä voidaan tunnistaa tässä esitetyllä tavalla minkä tahansa tapahtuman tai toimenpiteen vaikutus mihin tahansa aikasarjan muodossa esitettävissä olevaan ilmiöön… Vaikkapa tulivuorenpurkauksen vaikutus lentoliikenteeseen.

      – Antti O.

      P.S. Lue myös Lasse Liukkosen blogi aikasarja-analyysin alkuaskeleista.


15.11.2013 / Antti Ollikainen

SASia on pitkään pidetty ”the” analytiikkatalona, jonka pitkää kokemusta ja kattavaa analytiikkanäkemystä on ollut vaikea päihittää. Nyt kuitenkin Dortmundista kisaan ilmoittautuu RapidMiner, joka on jo ennestään ollut KDNuggetsin mukaan maailman eniten käytetty analytiikkaohjelmisto. RapidMiner on päättänyt tallata suoraan SASin varpaille ottamalla raskaan sarjan pääomasijoittajat mukaan liiketoimintaansa kasvattamaan ja perustamalla toisen pääkonttorin Bostoniin – aivan SAS:in kotikentälle.

Onkin syytä verrata ohjelmistoja keskenään ja laittaa ne paremmuusjärjestykseen: pystyykö RapidMiner haastamaan SASin ja jos pystyy niin missä. Vertailuun otetaan mukaan mustaksi hevoseksi kolmas jenkkisofta, Microsoftin SQL Server. Musta hevonen se on siksi, että moni ei edes tiedä, että SQL Serverin Analysis Servicestä löytyvät data mining välineet.

Vertailua hankaloittaa hieman se, että Microsoftin ja RapidMinerin kohdalla on kyse yhdestä analyyttisestä ohjelmistosta, kun taas SASin tarjoomassa niitä on monta. Niinpä SASin osalta keskitytään pääasiassa yleiskäyttöisiin data mining-työkaluihin Enterprise Miner (EM) ja Enterprise Guide (EG), osin täydennettynä viittauksilla SAS JMP:n ja SAS Visual Analytics:in suuntaan.

Ohjelmistoja vertaillaan neljällä kriteerillä, joilla kaikilla on suuri merkitys tuloksekkaan analytiikan tekemisessä: käytön helppous, data mining-tekniikoiden määrä, hinta ja toiminta tuotannossa. Kunkin osion voittaja saa kolme pistettä, toinen kaksi ja kolmas yhden pisteen.

Käytön helppous

Vertailun kaikissa ohjelmistoissa analytiikkaa tehdään hiirellä klikkaillen, perustasolla ei tarvitse osata koodata. RapidMiner voittaa kuitenkin tämän osuuden, koska siinä pystyy tekemään helposti asioita, jotka muissa ohjelmistoissa vaativat koodaamista – alla esimerkkinä learning curve:n teko “Optimize parametrs” -operaattorilla:

SAS EM:ssa ja EG:ssa valmiita rakennuspalikoita on jo vähemmän, mutta niiden käyttö on toki sujuvaa. SAS:in visuaalisimmat datatyökalut ovat tosin harmillisesti pääasiassa JMP:n ja Visual Analytics:in puolella. Tällöin ne eivät auta EM:llä tai EG:llä työskentelyä. Sen sijaan monipuolisia graafisia tarkasteluja (esim. plot view ja  advanced charts) voi tehdä sujuvasti osana mitä tahansa RapidMiner:in analytiikkaprosessia ja vieläpä missä tahansa kohdassa analytiikkaprosessia. Tässä on toinen syy RapidMinerin voittoon SAS:ista käytön helppouden osalta.

SQL Server jää kolmanneksi, koska tekeminen muuttuu äkkiä vaikeaksi, jos halutaan mennä vähänkään perustoiminnallisuuksia pidemmälle. Microsoft on selvästi tavoitellut ”paina vain kerran nappia” –tyylistä analytiikkaa, jota ole ei tarkoituskaan mennä luovasti virittelemään. Alla on tehty aikasarjaennusteita SSAS:ssä:

Lisäksi SQL Serverissä tekniikoiden läpinäkyvyys on luvalla sanoen heikko: käyttäjälle ei näytetä, mitä konepellin alla tapahtuu. Kunnollista dokumentaatiota käytetystä tilastotieteestä ei myöskään ole. Tämä jättää käyttäjälle epävarman tunteen puseroon: mitä tarkalleen ottaen tulikaan tehtyä? Nämä kommentit koskevat myös MS SQL Server Add-ins for MS Officea (ja osin myös SAS Add-in for Microsoft Officea): peruskäyttö on helppoa, mutta pidemmälle menevä luova käyttö on haastavaa.

Tekemisen läpinäkyvyys on puolestaan SASilla loistokunnossa, jopa analytiikan teoreettinen tausta on dokumentoitu tarkkaan lähdeartikkeleita myöten (esim. proc mixed:in manuaali on puhelinluettelon kokoinen). Tähän ei RapidMiner harmillisesti yllä, dokumentaatio on lähinnä hyvää perustasoa, toki huimasti parempaa kuin Microsoftilla.

-> RapidMiner 3 pistettä, SAS 2 pistettä ja SQL Server 1 piste

Data mining –tekniikoiden määrä

Erilaisia data miningiin liittyviä tekniikoita ja työkaluja (operaattoreita) on RapidMinerissa satoja ja SAS EM:ssä ja EG:ssä kymmeniä. SQL Serverissä on vakiona yhdeksän mining-algoritmia. RapidMinerin perusoperaattoreilla pärjää todella pitkälle, etenkin kun lisätään R ja Weka laajennokset.

SAS:issa graafista analytiikkaa voi aina täydentää koodaamalla omaa SAS/STAT, SAS/ETS tai nykyään jopa aikasarjamoottori SAS/HPF:n koodia EM:n Code Node:en. Tämä avaa SAS-käyttäjälle niinikään satojen työkalujen pakin, kuten myös SASin data step –kielen toiminnallisuudet. RapidMiner kuitenkin voittaa SASin, koska siinä on valmiina tuntuvasti enemmän analyysejä vakiona.

-> RapidMiner 3 pistettä, SAS 2 pistettä ja SQL Server 1 piste

Toiminta tuotannossa

Hämmästyttävän usein yritykset mieltävät analytiikan vain tilastomatemaatikon koneella tapahtuvaksi puuhaamiseksi. Kuitenkin tuossa vaiheessa analytiikasta on koitunut vain kuluja  -ikään kuin kirjoittaisi pöytälaatikkoon. Todellinen ja iso hyöty syntyy vasta kun analytiikka otetaan käyttöön yrityksen tuotantoympäristössä ja sillä aletaan ohjata yrityksen liiketoimintaa. Esimerkiksi asiakaspoistumamalli siirretään osaksi yöllisiä eräajoja ja kampanjointi kohdistetaan päivittäin niihin asiakkaisiin, joilla on mallin mukaan suurin poistumavaara.

SAS on sisäistänyt tämän loistavasti, RapidMiner erittäin hyvin ja SQL Server kohtuullisesti. Tämä on myös osion paremmuusjärjestys. Esimerkkinä mainittakoon se, että SAS EM:ssa kehitetty malli voidaan tallentaa metadataan, josta sitä edelleen voidaan sujuvasti kutsua SAS Data Integraatio Studiossa osaksi datavirtaa (mining results transformaatio) vaikapa juuri laskemaan poistumariskejä osana eräajoja.

Vielä pidemmälle menee SASin Model Manager, jolla voidaan siirtää malli tuotantoon, seurata sen elinkaarta ja osumatarkkuutta ja vaihtaa tarvittaessa uusi malli. Samalla käytetyt mallit historioidaan, jotta ei keksittäisi pyörää uudestaan. Lisäksi uudelleenmallinnus tehdään juuri silloin kun tarvitaan (esim. auroc putoaa alle 0,7:n) eikä mallinnella turhaan vain varmuuden vuoksi. Tämä lisää tuntuvasti analytiikan tehokkuutta, puhumattakaan siitä että esimerkiksi finanssialalla tällainen läpinäkyvä mallinnushistorian audit trail on joissain tilanteissa viranomaisvaatimus. Alla seurataan tuotannossa olevien mallien osumatarkkuutta Model Managerin dashboardissa:

model-manager-dashboard_full

Vastaavat ominaisuudet löytyvät enimmäkseen RapidServeristä, RapidMinerin tuotantopuolesta vastaavasta osasta. Osa toiminnallisuuksista on suoraan olemassa olevia, osa saavutetaan vanhoja yhdistelemällä. Esimerkiksi edellä mainitut Model Managerin hyvät ominaisuudet on mahdollista saavuttaa yhdistelemällä RapidServerin ETL- ja raportointitoiminnallisuuksia. RapidMinerille siis kakkossija.

SQL Server on pakko jättää kolmossijalle. Ensinnäkin sen analyyttinen DMX-ohjelmointikieli on hankala käyttää. Eräs ongelma on se, että DMX:n prediction join:eja ei voi ketjuttaa siten kuin SQL-kielen joineja. On hankalaa esim. hakea SSAS:stä havainnon klusterin keskipiste ja yhdistää siihen pareittain muiden havaintojen mahalanobis-etäisyydet samaisesta keskipisteestä. Toiseksi, mallin tietojen (esim. parametriestimaattien) haku SSAS:n puurakenteesta on hankalaa. Vertailu erittäin toimiviin SASin Output Delivery System:iin ja RapidMinerin ”Apply Model” ja “Retrieve” operaattoreihin on paikallaan.

Ihmetystä aiheuttaa myös se, että oletusarvoisesti  DMX ei toimi, koska se ei saa ottaa dataa sisäänsä. Siksi joka instanssissa on erikseen asetettava SSAS:n security välilehdelle asetukset DMX:n salliviksi (AllowAdHocOpenRowsetQueries, AllowProvidersInOpenRowset ja AllowSessionMiningModels). Microsoftin ansioksi on kyllä laskettava se, että SSIS:stä toki löytyvät analyyttiseen tuotantotekemiseen tarvittavat peruskomponentit mallin päivittämiseen tuoreimmalla datalla (Data mining model training destination) ja uuden datan pisteyttämiseen (Data Mining Query Task), mutta SASin ja RapidMiner vievät voiton sujuvamman ja kattavamman toiminnan ansiosta.

-> SAS 3 pistettä, RapidMiner 2 pistettä ja SQL Server 1 piste

Hinta (hyötyyn suhteutettuna)

Ohjelmistojen hintavertailu on haastavaa, koska hinta riippuu ympäristöstä johon ohjelmisto asennetaan, ympäristöjen lukumäärästä ja käyttäjien määrästä. Silti voidaan todeta, että (absoluuttisen) hintavertailun yllätysvoittaja löytyy Microsoftilta. Tämä johtuu siitä, että jos yrityksellä vain on jo käytössä SQL Server (Enterprise ja BI editionissa on kaikki data mining-toiminnallisuudet, standardissa vain osa) niin sen data mining –työkalujen käyttö on ilmaista. Mitään lisenssilaajennoksia ei tarvita. Microsoftin BI-putki SSIS – SSAS – SSRS on niin laajasti käytössä, että tämä on tilanne todella monessa analytiikkaa harkitsevassa yrityksessä. Enin käyttöä rajoittava tekijä näyttäisikin olevan tietämyksen ja osaamisen puute. Absoluuttinen hinta tuo siis Microsoftille voiton, toki kapeampi kohderyhmä täytyy pitää mielessä.

Kakkossijan jakavat SAS ja RapidMiner. Molemmat saavat puolitoista pistettä, joskin hyvin eri perustein, eikä sijoitusta voi päättää ilman että suhteuttaa hintaa saavutettaviin hyötyihin. Perus- ja keskiraskaassa analytiikassa RapidMiner on monesti vahvoilla, koska se tarjoaa edullisesti todella laajan valikoiman valmiita työkaluja. Mutta mitä järeämpää analytiikkaa tehdään, sen vahvemmilla SAS useimmiten on, joskus jopa ainoa vaihtoehto. Absoluttinen hinta toki kasvaa kun analytiikkahaaste kovenee, mutta SASilla saavutettavat hyödyt kasvavat usein vielä voimakkaammin. Erityisesti SASin monet toimalaratkaisut kuuluvat tähän kategoriaan. Esimerkiksi retail-puolella Revenue Optimization tuotteella tähdätään satojentuhansien myyntiennusteiden tekoon joka tuotteelle, joka myymälään ja joka päivä. Samalla optimoidaan niiden hinnat ja kampanjat – ja tämä kaikki tarvittaessa jokaöisinä eräjoina.

Lopuksi on todettava, että mikä tahansa – ilmainenkin – ohjelmisto on kallis, jos se ei ratkaise yrityksen liiketoimintaongelmaa.

-> SQL Server 3 pistettä, RapidMiner 1,5 pistettä ja SAS 1,5 pistettä

Dortmund donkkaa tykimmin

RapidMIner voittaa vertailun 9,5:llä pisteellä, SAS tulee toiseksi 8,5:llä pisteellä ja SQL Server on kolmas kuudella pisteellä. Alla on esitetty taulukkona vertailun tulokset:

taul

RapidMInerin vahvuudet ovat sujuva ja intuitiivinen käyttö sekä laaja paletti valmiita työkaluja kohtuuhintaan. SASilla työkalujen määrä ja niiden sujuva käyttö ovat myös hyvällä tolalla, mutta se ottaa voiton sujuvassa toiminnassa tuotannossa.

SQL Serverilläkin on paikkansa. Se on vakavasti harkittava vaihtoehto niille yrityksille, joilla on jo käytössä SQL Server ja jotka aloittelevat data miningia. Tai joiden tavoitteena on ennemmin 80/20-analytiikka kuin pureutuminen jokaiseen epsiloniin akateemisella perusteellisuudella.

Mikä analytiikkaohjelmisto minulle sopii?

Viime kädessä kaikki tässä käsitellyt ohjelmistot ovat päteviä asiassaan ja erot niiden toiminnassa ovat ennemmin painotuksia kuin vakavia puutteita; kaikki selviävät valtaosasta analytiikkahaasteista. Jos voimakkaasti yksinkertaistetaan, voi ohjelmistoja suositella seuraavasti:

  • Jos analytiikkaohjelmiston on ehdottomasti oltava ilmainen, ja käytät jo valmiiksi SQL Serveriä, tee sillä myös analytiikkaa.
  • Jos haluat päästä edullisesti pitkälle valmiilla työkaluilla, valitse RapidMiner.
  • Jos tähtäät arvokkaan (esim. toimialaspesifin) liiketoimintahaasteen laajamittaiseen ratkaisuun tuotantoympäristössä, valitse SAS.

___________________________________________________________________________________________________

Antti Ollikainen on työskennellyt 5,5 vuotta SASilla seniorikonsulttina ja 2 vuotta Samcomin Microsoft-osastolla arkkitehtina SQL Server päätyökaluna. Lisäksi Antti on sertifioitu RapidMiner analyytikko. Tätä nykyä Antti konsultoi asiakkaita Louhialla ennakoivan analytiikan ja matemaattisen optimoinnin hankkeissa, kaikkia tässä mainittuja analytiikkasovelluksia asiakkaan tarpeen mukaan käyttäen.


30.08.2013 / Jani Liimatta

27.5.2014 Kannattaa lukea myös uudempi artikkeli Microsoftin PowerBI-tuoteperheestä http://louhiablog.wordpress.com/2014/05/20/microsoftin-voima-bi-uutta-kappyraa-ja-karttaa/

Elettiin vuotta 2005 kun Microsoft toi markkinoille SQL Serverin mukana uudistetun Business Intelligence-paketin.

Mukana tulivat täysveriset työkalut laajaankin Business Intelligence-projektiin. Integration Services on siitä lähtien ollut maailmalla yksi käytetyimmistä ETL-työkaluista. Toiminnallisuudeltaan se on täysin verrattavissa oleva muihin markkinoilla oleviin hinnakkaisiin välineisiin, kuten esimerkiksi Business Objects, SAS, Informatica tai IBM. Suurin käytännön ero muihin työkaluihin verrattuna on hinta. Tätä ei osa asiakkaista vieläkään huomioi – kun hankit SQL Serverin, tulee jo tietokannan mukana aivan kelvolliset Business Intelligence-välineet.

Itse asiassa mukana tuleva OLAP-kuutio (Analysis Services) on markkinoiden parhaita OLAP-kuutioita – mitä tulee vaikka skaalautuvuuteen, kielikäännöksiin, tietoturvaan sekä joustavuuteen. OLAP-kuution perusajatus on summata suuresta tietomassasta dataa valmiiksi – mikä helpottaa ja nopeuttaa asioiden yhdistelyä sekä tarkastelua eri näkökulmista hurjasti verrattuna perinteiseen tietokantaan.

Raportointityökaluna Reporting Services (SSRS) on aivan kelvollinen, jopa monipuolinenkin työväline staattisten raporttien tuottamiseen. SSRS:llä pystyy mielikuvitusta käyttämällä luomaan loppukäyttäjälle jopa analysointimahdollisuuksia staattisten listaraporttien sijaan.

Eikä siinä vielä kaikki. Yksi mielenkiintoisimmista sekä vähiten hyödynnetyistä tuotteista, joka tulee SQL Serverin mukana, on Data Mining. Helppo ja halpa tiedon louhintaväline, joka on markkinoiden kypsymättömyyden ja konsulttien osaamattomuuden takia jäänyt hyvin vähälle käytölle. Mielenkiintoiseksi Microsoftin tuotteiden joukossa Data Miningin tekee sen mahdollisuudet upottaa analytiikan tekninen puoli käyttäjän silmiltä piiloon. On mahdollista tehdä analytiikka lennossa ja esittää käyttäjälle vain lopputuotokset helposti ymmärrettävässä muodissa.

Muita mielenkiintoisia matkan varrella mukaan tulleita tuotteita ovat Master Data Services sekä Data Quality Services. Näihin palataan tuonnempana.

Microsoft Business Intelligence ydintuotteiden akilleen kantapäät

Vuosien varrella näihin kolmeen perustyökaluun on tullut lähinnä kosmeettisia päivityksiä. Toki paljon pientä, sekä kehittäjää että loppukäyttäjää helpottavaa ominaisuutta on tuotu uusiin versioihin, jopa pieni grafiikkapaketti 2008 R2-versioon – mutta voi perustellusti sanoa että nämä kolme perustuotetta ovat pysyneet hyvin samanlaisina versiosta 2005. Tänä aikana Gartnerin tutkimusten mukaankin Microsoft on noussut nollasta yhdeksi johtavista Business Intelligence-toimittajista.

Pahimmat puutteet kilpailijoihin verrattuna näissä kolmessa perustuotteissa ovat olleet samat vuodesta 2005 alkaen:

1)      Koko tuotepaketin päältä puuttuu yhteinen tietomalli (vrt. Cognos FrameWork Manager), jota vasten raporttien kehittäminen onnistuisi ilman SQL/MDX-osaamista.

2)      Analyysikuutiosta puuttuu selainkäyttömahdollisuus. Microsoft on osin ymmärrettävistä syistä, toisin kuin kilpailijansa, keskittynyt Excel:in tarjoamiseen tähän tarpeeseen.

3)      Oletusjulkaisualusta raporteille on SQL Server Reporting Services-portaali. Tämä on ulkonäöltään ja muokattavuudeltaan lievästi sanottuna kökkö. Järeämpänä ratkaisuna Microsoft tarjoaa SharePoint serveriä. SharePoint on pelkkään Business Intelligence-käyttöön liian järeä (=kallis) työkalu. Eikä SharePoint ole Business Intelligencen julkaisussakaan markkinoiden paras työväline.

4)      Loppukäyttäjälle ei ole ollut tarjolla oikein järkevää tapaa tehdä omia raportteja ja analyyseja. Onhan siellä ollut Report Builder, mutta sen käytännön hyödyntäminen on erinäköisistä syistä (mm kohta 1.) jäänyt käytännössä todella vähälle. Lisäksi tuotepaletista löytyy SharePoint-tuoteperheen alta PerformancePoint Server, jonka kehityskäyttöliittymä on tällä hetkellä aika mahdoton sekä loppuasiakkaalle että konsultille. Sitten on tietysti Excel, kaikessa hyvässä ja pahassa.

Quo Vadis, Microsoft BI?

Koska 2008 R2-version päivitykset olivat kosmeettisia, markkinoilla odoteltiinkin jännittyneinä, mitä tulee ulos seuraavaksi. Edellä mainituin osin kilpailijoilla oli jo valmiiksi etumatkaa, ja etumatka oli kasvanut edelleen käytettävyyden suhteen (esim. QlikView ja Tableau). Oltiin alettu jo puhua Self-Service BI:stä, millä tarkoitettiin helppokäyttöistä analysointia ja joissain tapauksissa yksinkertaista käyttäjän oman datan liittämistä yrityksen muuhun dataan.

Tässä vaiheessa Microsoftilla koettiin ahaa-elämys. Meillähän on Excel! Uuden PowerPivot-tuotteen myötä Excelin Business Intelligence-ominaisuuksiin alettiin panostaa, tosin vain uusiin ominaisuuksiin.

Kuinka moni loppukäyttäjä suuressakaan yrityksessä pystyy ja haluaa itse tehdä PowerView:llä tietomalleja? Entä yhdistämään tietomalliin omaa dataansa? Mitä tähän sanoo yrityksen tietohallinto ja tietoturvapolitiikka?

PowerPivot:in ja PowerView:n mainoslauseeksi jalostettiin ’Bring self-service Business Intelligence for Everyone!’. Tietoturva- ja hallittavuusongelmien vuoksi PowerPivot:in Vertipaq-moottori upotettiin myös Analysis Serviceen.

Samaan aikaan kun kehitettiin uusia tuotteita tavallaan taustalle, ei itse Excel-peruskäyttöliittymään tehty mitään päivityksiä. Käytännön ongelmat konkretisoituvat esim. ottamalla yhteys Microsoftin oman AdventureWorks-kuution, ja avaamalla Pivot-taulun.

Pivot

Normaalikokoisella näytöllä tilanne näyttää tältä. PivotTable Fields oikeassa reunassa pystyy näyttämään vain pienen osan kuutiosta kerralla. Measuret ja dimensiot ovat kaikki samassa pitkässä listassa. Loppukäyttäjän on hyvin vaikea hahmottaa mitä kuutio pitää sisällään. Kenttien selailuun saa todella käyttää aikaa, jotta haluamansa asiat saa poimittua näytölle. Kokonaisuuden hahmottaminen on vaikeaa. Hyvin pienellä kehityspanostuksella käytettävyyttä voitaisiin parantaa huikeasti – mutta PivotTable on pysynyt vuosikaudet käyttöliittymältään samana.

On melkein tragikoomista, että kehittäjien käyttämän Microsoft Visual Studion puolella kuution selailukäyttöliittymä on paljon käyttäjäystävällisempi, kuin loppukäyttäjille tarkoitetussa Excelissä:

DataTools

Toinen hassu juttu tähän samaan kuution selailuproblematiikkaan liittyen on versiossa 2012 tapahtunut uudistus. Aiemmissa versioissa oli kehittäjäpuolella käytössä Office Web Component-pohjainen kuution selain. Tässä selaimessa pystyi kehittämisen aikana helposti näkemään esim. välisummat sekä dimensioiden hierarkiat.

SQL Serverin versiosta 2012 tämä tuiki tarpeellinen ominaisuus jätettiin pois – ja tilalle tuotiin keskentekoinen kuution selaintyökalu. Tällä uudella työkalulla kuution näkee vain yksitasoisena listana – ilman kuution käytön kannalta oleellisia hierarkioita ja välisummia. Tämä on kuution kehittäjän kannalta aivan kummallinen siirto.

Mietteitä PowerPivotista, OLAP-kuutioista ja SQL Serveristä

PowerPivot on hieman kummallinen tuote. En aivan ymmärrä sen kohderyhmää. Täytyy myöntää että ensimmäisen kerran PowerPivot:ia testatessani olin innoissani. Into on sittemmin hiipunut realismin myötä. Toiminnoiltaan PowerPivot on periaatteessa hyvin lähellä perinteistä OLAP-kuutiota. Toki VertiPaq-moottori pystyy käsittelemään suurempia datamassoja kuin OLAP-kuutio. Lisäksi PowerPivot-tietomallin rakentamisesta on tehty jouhevampaa kuin SSAS-OLAP-kuution. Pääidea on lienee siinä, että loppukäyttäjä pääsee liittämään tietomalliin omaa dataansa, esimerkiksi Excel-muotoista budjettidataa.  PowerPivot:ista on kuitenkin jätetty pois useita oleellisia SSAS-kuution ominaisuuksia, kuten kielikäännökset. Toiminnoiltaan PowerPivot on vielä raakile SSAS-kuutioon verrattuna.

Väitän, että Microsoft ei ole ymmärtänyt oikein, mitä Self Service BI pohjimmiltaan tarkoittaa. Se ei tarkoita sitä että loppukäyttäjä pääsee itse tekemään tietomalleja ja lisäämään välttämättä dataakaan. Self Service BI tarkoittaa intuitiivista ja yksinkertaista käyttöliittymää, jonka avulla on helppo valmiista tietomallista muodostaa analyyseja – sekä julkaista valmiita raportteja.

PowerPivot ja PowerView eivät ainakaan vielä ole todellisia kilpailijoita esimerkiksi QlikView:lle ja Tableau:lle. Microsoft kilpailee näitä tekijöitä vastaan perus-BI-palikoillaan, eli Integration, Reporting ja Analysis Serviceillä. QlikView:sta ja Tableau:sta puuttuvat vielä nämä Business Intelligencen peruspilarit, joiden kehittämisen Microsoft on toistaiseksi unohtanut.

Samalla Microsoft otti seuraavan riskin. Jo ennen PowerPivot:ia Microsoftin BI-kehittäjän piti osata SQL:ää, MDX:ää (kuutioiden yhteydessä) sekä DMX:ää (Data Mining-mallien yhteydessä). Nyt tuotiin vielä uusi kyselykieli, DAX. Käytännön projekteissa on nähty, että alku DAX-kielen kanssa on helppoa. Asiat tuntuvat luistavan. Mitä monimutkaisemmaksi ongelmat käyvät, sitä hankalammaksi työskentely PowerPivot:in ja DAX:in kanssa käy. Konsultin aikaa ja asiakkaan rahaa alkaa palamaan. Oltaisiinko OLAP-kuutiolla päästy samaan lopputulokseen –  halvemmalla?

Näyttää siltä että OLAP-kuutiot eivät ole kuolemassa. Alkuinnostuksen jälkeen pahin PowerPivot-huuma on hiipumaan päin.

Entä seuraavaksi? SQL Server 2014 tuo mukanaan muistinvaraisen OLTP-tietokannan. Servereiden muisti halpenee jatkuvasti. Pystytäänkö OLAP-kuutiota vastaava nopeus ja toiminnallisuus toteuttamaan tulevaisuudessa muistinvaraisen tietokannan avulla? Tähän en osaa vielä vastata, mutta se on aika todennäköistä. Mikä on SSAS-OLAP-kuutioiden ja PowerPivot:in tulevaisuus?

Mitä ihmettä, ampuuko Microsoft seuraavaksi omaan jalkaansa?

PowerPivot-tuotteen pystyi lataamaan ilmaiseksi Office 2010:een. ’BI for everyone’. Sitä ladattiin, testattiin ja opeteltiinkin suurella innolla. Kuinka ollakaan, Office 2013-version tultua markkinoille siirrettiin PowerPivot ja PowerView sisältymään vain Professional Plus-lisenssiin! Eli – jos olet hankkinut jonkun järkevähintaisista Office 2013-lisensseistä, ei PowerPivot ole siihen edes saatavana! Professional Plus-versiota ei pysty kaupan hyllyltä noin vain ostamaan, vaaditaan sopimus Microsoftin kanssa.

Aiheesta voi lukea kärkeviä kommentteja esim. tästä blogista:

http://www.powerpivotpro.com/2013/02/hey-who-moved-my-powerpivot-2013-cheese/

Tällä päätöksellä koko uusi Power BI-tuoteperhe siirtyy harvojen ja valittujen käyttäjien iloksi (PowerPivot, PowerView, PowerQuery, PowerMaps).

Miksi näin? Onko Microsoftilta tulossa taas jotain aivan uutta, halutaanko PowerBI-tuotteet haudata saman tien? Yritetäänkö tässä epätoivoisesti lisätä Professional Plus-version myyntiä? Siirtyvätkö asiakkaat suosiolla käyttämään muita yhtä lailla maksullisia, mutta käyttäjäystävällisempiä ja valmiimpia käyttöliittymiä datan käsittelyyn, kuten QlikView tai Tableau?

Itse en tällä hetkellä pääse edes tekemään kehitystyötä PowerBI-tuotteilla, pienellä yrityksellä kun ei ole Volume Licensing-sopimusta, Microsoftin kumppanuusohjelman ehtoja näin pienellä porukalla on mahdotonta täyttää, en tarvitse täyttä MSDN Subscription-tilausta – eikä Office 2013:sta ole olemassa edes kehittäjälisenssiä, kuten SQL Serveristä on.

Summa summarum

Microsoftilla on käsissään yksi markkinoiden parhaista Business Intelligence-paketeista. Viime vuosien kehitys on kuitenkin heittänyt paljon avoimia kysymyksiä ilmoille. Kilpailijoihin verrattuna tuotekehityksestä tuntuu puuttuvan kokonaisnäkemys.

Koska Microsoftin Business Intelligence-tuotepaketti koostuu ominaisuuksista usean eri tuotteen sisällä, on ilmeistä että lopputuotos, toisin kuin kilpailevilla tuotteilla, on usean itsenäisen tiimin tuotosta. BI-kokonaisuus on itse asiassa kooste tuotteista SQL Server (SSIS, SSAS, SSRS, DQS, MDM, Data Mining), Excel (PowerPivot, PowerView, PowerMap, PowerQuery, Pivot) sekä SharePoint. Ehkä pahiten tämä näkyy BI-kokonaisuuksien asennusprosessissa. Esimerkiksi PowerPivot 2008 R2 for SharePoint-asennusohjeen pituus on 35 sivua.  Jo asennusohjeen pituudesta näkee, ettei kyseessä ole yksinkertainen juttu. Asennus ei yksityiskohtaisista ohjeista huolimatta aina etene kuten pitää, ja koko tuotepaletin toimimaan saaminen voi viedä aikaa huomattavasti. Jos vielä samalla törmätään suorituskykyongelmiin käyttöoikeuksiin liittyen – Kerberoksen virittelemiseen – voidaankin olla jo tilanteessa jossa kysytään kärsivällisyyttä niin asiakkaalta kuin toimittajaltakin.

Pähkinänkuoressa, mitä itse toivoisin Microsoftin BI-tulevaisuudelta?

  • Business Intelligence-strategian kirkastamista
  • Hetkeksi tuotekehityksen keskittymistä BI ydintuotteisiin, Microsoftin todellisiin kilpailuvaltteihin.
  • Aikaa BI-kokonaisuuden pohtimiseen ja hahmottamiseen, panostuksia integraatioiden parantamiseen eri tuotteiden välillä
  • Selkeää tulevaisuuden visiota. Vuosien mittaan on nähty melkoista poukkoilua tuotepaletin suhteen, hyvänä käytännön esimerkkinä tästä on PerformancePoint Server

27.08.2013 / Ville Niemijärvi

Kuluvan viikon keskiviikkona tulee kuluneeksi 50 vuotta Martin Luther Kingin suuresta ‘I have a Dream’ puheesta. Nyt onkin hyvä paikka miettiä, mitä kukin on itse tehnyt taistelussa maailman vääryyttä vastaan.

Oma puolen vuoden daavidin ja goljatin taisteluni on kohdistunut paikallista uimahallia vastaan, joka soittaa kuntosalillaan hieman vaihdellen radio Novaa, Aaltoa tai Voicea. Toisin sanoen rautaa pumpatessa kunnon rokkenrollin sijaan voimaa pitää imeä Eros Ramazottista, Bryan Adamsista ja Lauri Tähkästä. Olisin vaihtanut kuntosalia heti ensimmäisellä kerralla kun kuulin Roxetten Joyriden tai Toton Afrikan mutta valitettavasti tykkään käydä kuntosalin jälkeen uimassa ja toista sellaista yhdistelmää tarjoavaa puulaakia ei ole kotioveni kupeessa tarjolla.

Olen lähestynyt uimahallin työntekijöitä siivoojista aina ylimpään johtoon saakka, pitänyt protestia kaupunginjohtajan kotiovella ja laittanut palautetta keksityillä nimillä vasemmalla kädellä kirjoittaen, jotta näyttäisi siltä, että tärkeän asian taustalla on oikea kansanliike (niin kuin pitäisikin olla). Pyyntöni on ollut maltillinen, koska Suomen parasta radiokanavaa, Radio Helsinkiä ei saada nettiradiota lukuunottamatta kuulumaan leveysasteillamme, olisin tyytyväinen Radio Cityyn, Bassoradioon tai vaikka Radio Suomeen (Pirkka-Pekka Petelius Luontoillassa on huikea).

Kaupungin uimahalleista vastaava johtaja vastasikin kerran palautteeseeni ja totesi tylysti: “musiikkiasiat ovat mielipiteitä.” 

Eräs työntekijä, jota piinasin palautteellani, sanoi, että “kuntosalilla soivan musiikin pitää kelvata mahdollisimman monelle.”

Eikä pidä. Musiikki on toki makuasia mutta sen pitää maistua nimenomaan kuntosalin kohderyhmälle. Ei kaikelle kansalle. Ei perhevolvo miehille, jotka syövät kananmunansa ylikypsinä ja ottavat ulkomaille omat serlat mukaansa.

Lisäksi musiikin pitää sopia tilanteeseen. Nova toimii varmasti kun olet Lacosten villaneule päällä kynttiläillallisella puolisosi kanssa, Volvo parkkeerattu turvallisen lähiösi autokatokseen ja tenavat peiteltynä unikkokuosiin. Silloin bryan adamsit tai eros ramazottit voi toimia, mutta ei nyt ihmeessä urheiluhallilla sentään.

Miten uimahallini kuntosalin johtajan pitäisi lähestyä tilannetta? Samalla tavalla kuin mikä tahansa yritys voi tutkia analytiikan avulla omaa liiketoimintaansa ja miten muuttuja X vaikuttaa siihen.

1.) Tilastollinen analyysi asiakkaista – etsi oikea hehtaari ja kohdista siihen.

Tutki millainen on asiakaskuntasi jakauma. Montako prosenttia on miehiä ja naisia, mikä on alueellinen jakauma, tulotaso, ikäjakauma jne. Näin saat hehtaarin mihin tähdätä. Jos kuntosalin asiakaskunnasta 80% on 20-35 -vuotiaita miehiä, ei lehtihyllyä kannata täyttää Me Naisilla tai radiosta laittaa Classic FM:ää.

Radio Suomi on Suomen kuunnelluin radiokanava. Mutta jos menet oikealle kuntosalille, on se siinä kohderyhmässä todennäköisesti Radio Rock.

Useat katsastuskonttorit muistuttavat minua autoni katsastuksesta 4kk ennen virallista määräpäivää. Kuka katsastaa autonsa 4kk ennen? Sama tyyppi, joka käyttää henkseitä ja vyötä samalla kertaa? Jos laitamme asiakkaat jakaumaan, havaitsemme, että kenties 5% käyttää autonsa katsastuksessa ensimmäisenä mahdollisena päivänä kun laki sen sallii. Toinen  5% on aina myöhässä. Suuri massa on todennäköisesti jossain 0-2 viikon kohdalla ennen määräpäivää. Siihen mainonta kannattaa keskittää ja saat moninkertaisen konversion (toki analytiikan avulla voimme kohdentaa tämän kullekin asiakkaalle erikseen ja saavuttaa aivan eri tarkkuuden, mutta se on toinen juttu).

2.) Ota tutkimustieto apuusi

Rock-musiikki parantaa suorituskykyä ja siitä on tutkimustulosta asian tueksi (http://yle.fi/uutiset/rokki_parantaa_treenia_ja_tulosta/6768041). Tämähän on itsestään selvä asia mutta kaikki ei aina tiedä itsestäänselvyyksistä (Moni ei esimerkiksi tajua, että Kingston Wallin II on maailman paras levy).

Vähittäiskaupan puolella on tutkittu esimerkiksi sitä, miten pienempi valikoima tuotetta x, tekee ostajan ostopäätöksen helpommaksi ja lisää näin myyntiä ja asiakasuskollisuutta (ks. Harward Business Review 05/2012).

Ihmiset myös ottavat mielummin asioita ilmaiseksi kuin saavat alennusta. Vaikka alennus olisikin heille kannattavampi (Ks. Huffington Post).

Tämänkaltaisen tutkimustiedon soveltaminen tai edes testaaminen omaan liiketoimintaan näppituntuman sijaan ei ole vaikeaa. Parhaimmassa tapauksessa se saattaa muuttaa koko liiketoimintasi suunnan.

3.) Selvitä asian todellinen vaikutus liiketoimintaasi

Miten muuttuja X vaikuttaa myyntiisi? Miten muutos y vaikuttaa asiakaspoistumaan? Analytiikka-algoritmien (esim. regressiomallinnnus) avulla voimme selvittää miten aurinkoinen sää tai hinnan alentaminen vaikuttaa tuotteen myyntiin. Eräässä analyysissa selvitimme, että asiakkaan yhteydenotto asiakaspalveluun nosti asiakaspoistuman todennäköisyyttä 11 kertaiseksi.

Kuntosalin tapauksessa se voisi helposti selvittää kuinka Radio City houkuttelee kävijöitä verrattuna Novaan, samoin kuin vähittäiskauppa voi selvittää miten taustamusiikki vaikuttaa asiakkaiden ostokäyttäytymiseen (iltalukemiseksi Paco Underhill, Why we buy).

“Musiikkiasia” voi olla mielipide mutta myynnin lasku tai asiakaspoistuma ei ole. Tai itseasiassa onhan se. Se on sinun asiakkaasi ilmaisema äärimmäinen mielipide palvelustasi. 

En tiedä mitä on tapahtunut kesän aikana. Onko uimahallin johto vaihtunut, onko kaupunki ottanut tiedon louhinnan ja älykkään johtamisen menetelmät käyttöönsä? Vai onko siivooja kääntänyt viritin nupin toiseen asentoon? Joka tapauksessa viime viikolla saapuessani kuntosalille, sain kunnella koko tunnin Kinksiä, Rollareita, Hendrixiä ja jopa Sex Pistolsia. Taisteluni oli voitettu. Harmi, että Martin Luther Kingin aloittama työ on edelleen pahasti kesken.


7.06.2013 / Ville Niemijärvi

Data mining -yhteisö KDNuggets:in vuosittaisen analytiikka ja tiedon louhinta -ohjelmistojen kyselytutkimuksen voittoon nousi tänä vuonna RapidMiner. Toiseksi erittäin tiukassa kisassa tuli R.  Katso tulokset kokonaisuudessaan täältä.

Louhialla iloitsemme myös tuloksista sillä kärkikaksikko on myös meidän keihäänkärkemme ja ykkösvalintoja toteutettaessa analytiikkahankkeita. Unohtamatta Wekaa/Pentahoa, joka oli nelossijalla.

Hadoop marginaalissa -> Big data ei ole analytiikkaa

Tutkimuksen mukaan vain 14% kyselyyn vastanneista käyttivät ns. big data -työvälineitä kuten Hadoop. Tämä osoittaa, että Hadoopin kaltaiset suurten tietomassojen käsittelyyn erikoistuneet ohjelmistot pysyvät edelleen marginaalissa ja että analytiikkaa/tiedon louhintaa tehdään pienillä ja keskisuurilla datamassoilla.

This suggests that Real Big Data remains isolated among a select group of web giants, government agencies, and similar very large enterprises, and most data analysis is done on “medium” and small data.
KdNuggets.com

Perinteiset BI-välineet eivät sisällä analytiikka/tiedon louhinta ominaisuuksia

Tutkimuksen häntäpäästä löytyy myös perinteisiä BI-, raportointi- ja tiedon visualisointivälineitä kuten Qlikview, Cognos ja SAP. Vaikka nämä ovat kaikki mainioita BI-softia ja täyttävät raportointitarpeet – tutkimus osoittaa, että ne eivät ole analytiikkasoftia eikä niillä pysty tekemään tiedon louhintaa ja tilastollista mallintamista.

Poikkeuksen joukkoon tekee erittäin monipuolinen Microsoft SQL Server, joka tarjoaa myös tiedon louhinta -ominaisuudet ja onkin tänä vuonna sijalla 11.