“Boring data”, nová vetva analytiky

Verní čítatelia portálu mocnedata.sk sa možno na tento článok už tešia, lebo bol avizovaný v hneď dvoch nedávnych blogoch (konkrétne tu aj tu). V posledných mesiacoch sa dostávam čoraz častejšie do kontaktu s dátami, ktoré sa nápadne podobajú. To, čo ich spája, je veľmi netypické. Pracovne by sme ich mohli nazvať Nudné dáta (boring data). Svojou povahou a spôsobom spracovania sa zatiaľ odlišujú od bežných typov dátových zdrojov a preto je možné, že sa čoskoro pretavia do samostatnej línie analýzy dát. Boring data sú dostupné bežne aj tu okolo nás, tak prečo tomu nevenovať samostatný blog a nezoznámiť sa s nimi?

Big Dáta Hype

Žijeme v dobe, keď okolo fenoménu Big Dáta sa točí už dnes takmer každá odborná konferencia a väčšina inovácií, ktoré vznikajú. Napriek tomu, že táto téma priniesla už niekoľko vtipov (poznáte ten o teen age sexe ?), či dokonca nie veľmi presvedčivých anti-téz (pozri napríklad Small dáta alebo Fast Dáta), postupne sa skutočne začínajú profilovať pod-témy a zákutia Big Dáta, ktoré si zaslúžia samostatnú pozornosť. Aby však nešlo len o generovanie ďalších buzz-wordov, nové zákutia Big Dát by mali skutočne byť odlišné buď svojou povahou alebo aspoň spôsobom ich analyzovania. Nudné dáta, podľa mňa, spĺňajú obe tieto podmienky, veď posúďte sami …

Všetky dáta sú nudné

Tento článok asi poteší tú časť populácie, ktorá prácu s dátami považuje za nudnú už vo svojej podstate. Za viac ako 14 rokov, ktoré sa venujem práci s klienstkými dátami som Výsledok vyhľadávania obrázkov pre dopyt nie radsej knihunarazil na početný zástup marketérov, manažérov a obchodníkov, ktorým husia koža naskakuje už pri 3000-riadkovom exceli. Áno, pre určitú skupinu ľudí sú všetky dáta nudné, tak na čo vytvárať ešte samostatný pojem pre nejakú ich podskupinu?

Boring data, čiže Nudné dáta, sú však naozaj špecifickou odnožou Big Dát. Od iných typov dát sa líšia tým, že zobrazujú (pravidelné) opakovanie toho istého javu a zväčša tak robia za veľmi dlhé obdobie. Keďže na prvý pohľad sú len opakujúcimi sa cyklami toho istého javu (odtiaľ aj názov “Nudné”), v očiach mnohých vlastníkov (a analytikov) dát nemajú zatiaľ príliš veľkú hodnotu (a tak by sa dali pomerne lacno kúpiť). Špecifickosť Boring data je aj v tom, že na ich analyzovanie treba najprv špecifické predspracovanie (zväčša autokorelácie alebo dekompozícia časových radov).  V skutočnosti označenie “nudné” je trochu úmyselné, lebo Boring data svoju neatraktivitu len vhodne maskujú tým, že bežný človek v nich nič zaujímavé nevidí. Nudné dáta pri hlbšom pohľade naopak prinášajú veľmi prekvapivé a užitočné závery. Ale o tom až za chvíľu …

Kde prísť k “nudným” dátam

Možno si kladiete otázku, kde a či vôbec možno prísť k nejakým Nudným dátam (na ktorých by sa ich nudnosť dala reálne overiť). Dobrou správou je, že nudných dát je v našom okolí naozaj pomerne dosť. Väčšina dát z digitálnych meračov spotreby elektriny, vody alebo plynu má práve povahu Nudných dát. V nedávnom 4. kole CRM hádaniek ste sa mohli presvedčiť, že zaujímavou formou Nudných dát sú napríklad záznamy cestujúcich verejnou dopravou. Silným zdrojom budúcich Boring data budú aj údaje samospráv alebo akékoľvek senzory v rámci Internet of Things. Aby toho nebolo málo, povahu Nudných dát spĺňajú aj dostatočne dlhé časové rady nákupu jednej konkrétnej komodity, napríklad benzínu alebo minerálok v nejakej dostatočne veľkej sieti potravín. Zdrojov Boring data bude teda naozaj v mnohých odvetviach hospodárstva dosť, najdôležitejšiu úlohu však budú hrať v odvetví Utilít a preto tejto téme je venovaný samostatný blog.

doprava_mhd  Súvisiaci obrázok

Za ktorú končatinu to zvieratko uchopiť

Výsledok vyhľadávania obrázkov pre dopyt stonožkaAko už bolo uvedené pri predstavení tohto konceptu, podstatným odlíšením Boring data je aj skutočnosť, ako je ich potrebne spracovávať. Tým, že ide o zachytenie opakujúcich sa cyklov, pre analýzu nie sú dôležité jednotlivé dátové body, ale ich vzájomné súvislosti a trendy. Tie je však možné skúmať až potom, čo v dátach zohľadníme (resp. očistíme) prirodzenú sezónnosť. (tá môže mať aj niekoľko úrovní, ktoré treba rozpliesť samostatne). Ak sa napríklad pozriete na spotrebu energie domácnosti, tak bude mať nejaký denný pravidelné sa opakujúci priebeh a navyše v rámci týždňa budú pracovné dni vyzerať inak ako víkendy a v lete bude potreba konkrétnych elektro spotrebičov iná ako v zimných mesiacoch). Teda prvým nástrojom analytika vrhajúcim sa Nudné dáta bude dekompozícia časových radov. Následne pre analýzu bude potrebné vyrobiť pomerne veľké množstvo príznakov (data flagov), lebo ak chcete napríklad odčítať správanie klienta (pozri úlohu č. 4 v tomto článku), musíte číselné hodnoty previesť akokeby do inej dimenzie, ktorá popisuje správanie. Viac na túto tému v doplnkovom extra blogu k tejto téme.

**** Na prezeranie doplnkových materiálov je potrebné heslo, ktoré obdržia len členovia komunity mocnedata.sk. Jej členom sa však zadarmo môžeš stať tu. ***

Klamanie telom

Nudné dáta vo svojej podstate nie sú vôbec tak nudné, ako pôsobia na nezasvätených divákov. Poviete si: “Čo už by sme mohli zistiť z počtu minerálok, ktoré nakupuje daná domácnosť v rámci roku?” No tých záverov je pomerne dosť (kedy ste boli na dovolenke, v ktorom týždni ste mali oslavu či viac náštev a mnoho iných nenápadných záverov.) Vo všeobecnosti analýza Boring data prináša 4 rôzne typy informácii, o ktorých sa dočítate viac tiež v extra blogu k tejto téme. Pre analytiku najviac používana kategória z týchto 4hoch je Stopa individuálnych odklonov, lebo práve z nej pochádza najväčšie množstvo behaviorálnych príznakov o klientoch. Z väčšiny dátových sád typu Nudné dáta je v rozpore s ich označením možné vydolovať niekoľko desiatok vzorocov správania klientov. Teda narážka na nudnosť dát je v skutočnosti tak trochu klamanie telom.

Odvrátená strana mince

Aby sme dali za dosť vyváženosti, práca s Boring dáta má aj svoje nepríjemnejšie stránky. Okrem faktu, že na ich spracovanie potrebujete špecifický tréning alebo software, za závažnú nepríjemnosť Nudných dát možno považovať ich nespratnosť. Inými slovami, na ich zmysluplné spracovanie často potrebujte veľmi dlhé časové rady, ktoré zaberajú pomerne veľa pamäte aj priestoru na diskoch. Istou prekážkou je aj fakt, že dáta sami o sebe nenesú so sebou informáciu o kontexte, teda čo sa dialo v danom momente. (Ak nájdete v dátach náhly výkyv v spotrebe energie, bez doplnenia externých súvislosti nemusí byť vôbec zrejmé, k čomu sa výkyv viazal.) Nudné dáta je tak často potrebné obohacovať o chronológiu externých udalostí, ktoré jednotlivým cyklom (alebo výnimkam z nich) dajú hlbší zmysel. Vo všeobecnosti však všetky tieto obtiaže už majú odskúšané “protiopatrenia”, takže až narazíte na nejaké Nudné dáta, môžete sa z chuti pustiť do ich analýzy.

Ak máte svoju vlastnú skúsenosť so spracovaním nejakej formy Nudných dát, neváhajte sa s nami na tomto fóre o ňu podeliť. (môžme jej venovať aj samostatný guest-blog). Ak vás táto téma zaujala a chcete sa dozvedieť viac o tom Čo konkrétne výstupy prinášajú Nudné dáta ALEBO Aké nástroje použiť na ich analyzovanie, preklinite sa na doplňujúci materiál k tomuto blogu.

**** Na prezeranie doplnkových materiálov je potrebné heslo, ktoré obdržia len členovia komunity mocnedata.sk. Jej členom sa však zadarmo môžeš stať tu. ***

Téme Nudných dát je venovaná aj jedná úloha z 5. kola CRM hádaniek, do riešenia ktorých sa môžeš už aj ty zapojiť. Ako pretaviť Nudné dáta do produktov sa dozvieš tu.


Publikované dňa 23. 1. 2017.