Myslím to vážne: Data cleaning zomiera

Nedávno som na odbornej konferencii povedal, že Big Data budú mať za následok niekoľko zásadných zmien, napríklad aj to, že úplne zabijú služby Data cleaningu. Po konferencii sa mi ozvalo niekoľko ľudí: “že to snáď nie, že to som možno trochu prehnal.” Nuž vedzte, že neprehnal a skúsim si pomôcť parafázou Galileo Galileia “A predsa zomierajú”. Keďže však táto téma stále vyvoláva istú kontroverziu, povedal som, že kde už o tom napísať blog, keď nie práve na portáli, ktorý sa vola Mocné dáta ? 🙂

Prečo má pacient negatívnu prognózu?

Len pár viet pre uvedenie do deja tých čitateľov, ktorí na danej konferencii nemali šancu byť. Blok prednášok, v ktorom som vystúpil na danej konferencii, sa zameriaval na to v čom bude dátová analytika vyzerať inak v dobe Big Data oproti štandardným data analytickým postupom. Vysvetlil som, že pre niektoré odvetvia bude Big Data éra požehnaním a naopak pre niektoré bude umieračikom. Ako príklad tých, ktoré Big Data časy neprežijú, som uviedol aj služby Čistenia dát (data cleaning). Pre niektorých to možno znie trochu protichodne. Veď predsa Big Data znamenajú oveľa väčší objem dát a tým zákonite aj oveľa viac neporiadku? Teda dopyt po upratovaní dát by mal predsa rásť a nie klesať, či dokonca úplne zaniknúť, nie? Prečo má teda “náš data cleaning pacient”, také zlé vyhliadky do budúcnosti ?

Ako to naozaj je s tým čistením dát

Hneď na začiatok treba povedať, že Big Data skutočne prinesú väčšie objemy dát a všetko nasvedčuje tomu, že budú podobne nekvalitné ako tie, čo sme používali pri klasickej dátovej analytike. Teda základná premisa sedí. Realita budúcnosti sa však začína vzďaľovať od data cleaningu cez fakt, že Big Data nebudú potrebovať externé funkcie/služby na čistenie dát. Oni, totiž, (pozor prekvapenie!) sú schopné sa očistiť samé. Zakiaľ pri tradičných dátach išlo iba o malé vzorky údajov, kde nebolo zrejme, čo je správne a čo chyba, pri Big Data nastáva zlom. Big Data totiž neobsahujú len nejakú podmožinu/vzorku všetkých možných údajov, ale často obsahujú všetky údaje. A tam, kde sú na jednej kope aj správne aj nesprávne hodnoty, tam je cesta ako stroj sám pochopí, ktoré su ktoré. No a kde je cesta tam je vôla, … či ako to vlastne bolo, Mikuláš?

Koala alias BigData čistotné

Aby princíp, o ktorom hovoríme bol zrozumiteľnejší, skúsim to vysvetliť na niekoľkých príkladoch. Predstavte si, že máte databázu kliento, napríklad veľkej banky alebo poisťovne a v nej aj dátove pole Mesto v rámci bydliska klienta. Ak by ste zobrali nejaký komplikovanejší názov obce (napr. Liptovský Mikuláš), tak je pravdepodobné, že zopár klientov bude mať v meste preklep (či už z ruky samotného klienta alebo zamestnanca, ktorý dáta do systému zadával.) Keď som v minulosti čistil databázu jednej zo spoločností, tak v ich dátach klienti napísali Liptovský Mikuláš 27 rôznymi spôsobmi. V minulosti by sa k riešeniu tohto problému pristupovalo tak, že by sa zobral číselník miest a PSČ a podľa jedného údaju by sa upravoval ten druhý (teda buď na základe PSČ oficiálny,úradný názov mesta alebo z mesta správne PSČ). V dnešnej dobe je to však inak.

Je možné, že konkétny jedinec sa  môže netrafiť pri vyplňaní nejakého formuláru, ale ruku na srdce, aká je pravdepodobnosť, že sa v tej istej kolonke pomýli rovnakým spôsobom 10 000 ľudí? Ak teda máte dostatočne veľa záznamov (klientov) s týmto údajom, tak veľa z nich to bude mať správne. V skutočnosti správna možnosť bude celkom určite aj najpočetnejšou hodnotou, ktorá sa v danom poli bude nachádzať. A tu prichádzame k pointe. Ak dáte stroju dostatočne veľký počet záznamov, v ktorých sú správne hodnoty aj ich chyby, tak počítač dokáže sám pochopiť, ktorá možnosť je správna. Ak teda klient zadá niečo iné ako je očakávaná správna podoba, stroj dokáže sám chybu rozpoznať a opraviť.

Asi najčastejšie sa s týmto fenoménom stretávame (bez toho, že by sme si to uvedomovali) v prípade vyhľadávania na Googli. Už počas toho, ako píšeš svoje zadanie pre vyhľadanie, Google na pozadí prechádza najčastejšie vyhľadávané spojenia slov a ponúka Ti ich ako zrýchlenú možnosť. Ak sa náhodou aj tak preklepneš, tak ťa upozorní cez “Mysleli ste …” že zásadne častejšie sa hľadá niečo podobne vyzerajúce ako to vaše. (mimochodom, len málo ľudí vie, že Google to robí aj z oveľa zistnejšieho dôvodu ako je váš komfort: totiž pre všetky napovedané možnosti Google má relevantné odpovede, takže ak si vyberieš niektorú z odporúčaných možností, tak Google má istotu, že si našiel/-a to, čo potrebuješ. A teda s vyhľadávaním budeš spokojný, čo v konečnom dôsledku zlepšuje image Google medzi ich používateľmi).

Jama je ešte hlbšia ako vyzerá

Poviete si dobre, ale to musím vedieť aspoň základné údaje o tom poli, ktoré sa má dátovo čistiť a opäť teda je potrebný nejaký ľudský vstup. Obávam sa, že ťa znovu sklamem a naledujúci príklad pekne vykreslí prečo. Predstav si, že chceme vedieť z dát telekomunikačného operátora zistiť, ktorí z pravidelných účastníkov Pohody vynechali tento ročník. Problémom však je, že ani nemáme dátumy, počas ktorých sa jednotlivé ročníky festivalu konali. Má význam takúto neúplnú úlohu vôbec zadať počítaču? Nuž moc Big Data je naozaj fenomenálna. Počítaču totiž stačí povedať, GPS súradnice Trenčianskeho letiska. On vyhľadá v histórii dni, kedy boli na vykrývačoch, ktoré “dočiahnu” signálom na daný bod najväčšie počty ľudí (Okrem Pohody na danom mieste zrejme nebývajú desaťtisíce ľudí v tom istom momente 3 dni po sebe). Vyhľadá tie dni, keď boli “početné” dni bezprostredne za sebou, overí v koľkých rokoch ste boli so svojim telefónom aspoň jeden deň v danej lokalite dostatočne dlhý čas, oddelí príležitostných návštevníkov od skalných a pozrie sa, kto zo skalných tam v tomto roku nebol. To všetko len s jedným GPS údajom, zvyšok je strojové učenie (Machine learning). Fascinujúce nie?

Ak vás ani tento príklad nepresvedčil, tak len dodám, že obdobne sa dá spočítať koľko blízkych vám zomrelo za posledných 5 rokov (a to ste im nemuseli ísť ani na pohreb) alebo koľko ľudí, ktorí bývajú s Vami na tej istej ulici, prišli v poslednej dobe o prácu.

– – – Súčasťou portálu Mocná dáta je aj sada inštruktážnych blogov [Ako na to], v ktorých popisujem ako konkrétne techniky použiť v praxi. Od dnešného dňa si teda môžu registrovaní užívatelia prečítať prvý diel [Ako na to] Nájsť a opraviť anomálie v dátach. Ak ešte nie si registrovaným užívateľom, môžeš sa ním zadarmo stať tu. Pre čerstvo registrovaných užívateľov príde heslo k [Ako na to] článku do 24 hodín od registrácie. – – –

A predsa zomiera

Vyššie uvedené príklady dokumentujú, že je čas sa zmieriť s tým, že stroje dokážu efektívnejšie odchytiť a vyriešiť chyby v dátach ako ľudia. Paradoxne, to jediné, čo k potrebujú k tomu, aby upratali, je ešte viac neporiadku. To znamená, že Data cleaning bude mať šancu prežiť tam, kde nie je dosť záznamov rovnakého charakteru. Všade inde si stroje opravia dáta sami. No a keďže sa rútime do doby, keď bude digitalizované azda všetko, je zrejmé, že ľudskému čisteniu dát naozaj zvoní umieračik. Nie je to však dôvod pre všeobecný smútok (teda ak vás náhodou data cleaning doposiaľ neživil). Big Data totiž prinesú aj niektoré nové príležitosti.

Ak vás zaujíma, aké zaujímavé zistenia sa dajú vydolovať z dát, pozrite si niektorý zo starších blogov (sekcia CRM v rôznych odvetviach). Prečítať si môžete aj o použití dát v športe alebo preskúšať svoje myslenie na CRM hádankách.


Publikované dňa 4. 12. 2016.