Aj som sa preľakol trochu … [strojmi k mentálnej obezite]

Pár týždňov dozadu som sa trochu spotil. Narazil som na článok analytického guru, Toma Davenporta (okrem iného autora skvelých kníh Competing on Analytics alebo BigData At Work ), v ktorom rozoberá, ako sa na prestížnej zahraničnej analytickej konfrencii viacerí poprední odberatelia analytického software priznali, že spoliehajú na to, že budú môcť nahradiť v rámci digitalizácie pracovných miest aj analytikov. Po dočítaní daného článku som sa trochu preľakol …

O tejto téme totiž už rozmýšľam asi 2 roky. Každému, kto čítal aspoň jeden IT odborný časopis za posledné 2-3 roky, je zrejmé, že prežívame ďalšiu (priemyselnú) revolúciu. Po vynáleze pary, následne elektriny a spaľovacích motorov, sme na prelome doby digitálnej. Informačné toky prepojili pred tým izolované ostrovy výroby (a aj prepravy), teda my ľudia máme opäť menej povinností. Či vlastne príležitostí?

Výsledok vyhľadávania obrázkov pre dopyt industrial revolution

Aké joby prežijú?

Najprv sme odovzdali strojom lopotu manuálnej práce, ale nechali sme si na pleciach aspoň povinnosť zostaviť tie stroje, čo za nás budú robiť. Neskôr sme rozvinuli strojárstvo a tak stroje mohli vyrábať iné stroje. My, ľudia, sme sa opäť stiahli a zostali sme “len” riadiť (výrobu strojov, čo robí) stroje. S priemyslom 4.0 prichádza tzv. autonómna výroba, kde stroje dokážu riadiť iné stroje, ktoré vyrábajú stroje. Vyzerá to trochu nenápadne, ale tým sa v podstate kruh výroby uzavrel. Lebo ak stroje môžu plne riadiť výrobu iných strojov, tak si dokážu “rozkázať” výrobu aj svojich vlastných súčastiek (prípadne vylepšení). V dnešnej digitálnej dobe, keď stroje môžu ovládať aj autonómne autá na prepravu iných strojov, tak vôbec nie je sci-fi zreťaziť plnohodnotnú autonómnu výrobu fabriky, ktorá nielen vyrabá koncový produkt, ale aj svoju vlastnú údržbu.

Keď som sa snažil extrapolovať túto situáciu o pár rokov dopredu, začala ma trápiť otázka, aké ľudské povolania (joby) vlastne tento trend prežijú? Ak príjmeme premisu, že akýkoľvek výrobný a prepravný proces môže riadiť automat, nezostáva toho až tak veľa. Zopár inžinierskych jobov, ktoré budú kresliť špecifikácie pre nové formy strojov, ITčkárske joby (ktoré budú programovať algoritmy pre stroje), analytické joby (ktoré budú vyhodnocovať dáta zo strojov) a profesie, ktoré sa venujú životu a rozvoju človeka (kultúra, lekári, učitelia, …). Tep a krvný tlak sa mi opäť vrátili k mediánovým hodnotám, veď môj job už niekoľko rokov spadá do jednej z tých kategórii, ktoré prežijú. Teda až kým som si neprečítal daný článok od T. Davenporta.

Umelo umelá inteligencia

Uvedený článok ma donútil sa nad témou nahradeniu ľudskej práce umelou inteligenciou zamyslieť ešte trochu hlbšie. Začal som detailnejšie analyzovať, ktoré časti (dnešnej) Analytickej práce je možné do akej miery prenechať strojom. Tu je krátky sumár môjho skúmania:

Očistenie a príprava dát. Prvým krokom v analytickej práci je očistenie dát a ich príprava na ďalšie analyzovanie. Detailnejšie skúmanie tejto oblasti ma prieviedlo k presvedčeniu (a rovnomennému blogu), že odvetvie Data cleaning zomiera. Nástroje ako Ataccamma a mnoho iných totiž dokážu plne vyčitiť dáta. Rovnako takmer každá štandardná databáza so sebou nesie možnosť tvoriť data procedures alebo dokonca analytical pakcages, ktoré umožňujú aj dynamicky nastaviť formu a povahu dát, ktoré majú byť analyzované.

Vytvoriť dostatok parametrov. Hneď ako sú data očistené sa analytik vrhne do tvorby parametrov, ktoré majú slúžiť ako prediktory. Na túto oblasť som spoliehal najviac ako na hrádzu proti útoku strojov. Stroj predsa nemôže vedieť, čo je predmetom modelovania a teda ťažko bude vyberať vhodné parametre. Nedalo mi to však a začal som hlbšie študovať Genetické algoritmy. Táto téma je tak fascinujúca, že jej už čoskoro zasvätím samostatný blog, tak v tomto momente poviem len toľko, že pokročilejšie genetické heuristiky dokážu jednoduché parametre vystaviť testu a z neho pochopiť, ako modifikovať jednoduchšie príznaky do komplikovanejších. Výsledkom je, že počítač začne s jednoduchými parametrami a postupne vypreparuje poriadne sofistikované s oveľa väčšou informačnou hodnotou. Taký zrýchlený Darwinizmus.

Zostaviť prediktívny model nad históriou prediktorov. Ak v predchádzajúcom bode som mal pochybnosti, v časti tvorby prediktívnych modelov v tom mám jasno. Machine learning je dnes mainstreamová záležitosť a ak podhodíte analytickým službám dáta, dokážu už samostatne vytvoriť model na predikciu daného javu. Po príklady nemusíme chodiť ani ďaleko, autonómnej tvorbe modelov sa venujú aj u nás v SR napríklad chlapci z Exponea alebo z Black Swan Rational. Táto časť už dnes reálne nie je (plne) v rukách ľudí. Do budúcna to bude už len horšie.

Testovanie modelu a jeho verifikácia. Každý analytik, ktorý tvoril nejaký komerčne užitočný prediktívny model vie, že verifikáciu modelu väčšinu analytikov odovzdáva nástrojom ako ROC selector alebo CCC overenie. Navyše, ak ste niekedy pracovali s Ensemble modelmi, viete, že stroj už dnes vie zobrať alternatívne vyvinuté modely a vybrať z každého z nich to najlepšie do supermodelu, ktorý porazí v súboji každý z pôvodných modelov. 

Pretaviť výsledok do ľudsky zrozumiteľných záverov. Takmer všetky hlavné analytické spoločnosti spoliehajú na to, že Vizualizačné softwary na seba zoberú rolu zobrazenia výsledku do ľudsky zrozumiteľnej podoby. Každý rok však narazím na Infografiku alebo formu grafiky, ktorá bola prekvapivo zrozumiteľná. Kým stroje nebudú točiť filmy, nad ktorými budeme hýkať, ľudia budú mať navrch. Problém však vidím v niečom inom: Skeptici prediktívnych modelov zatlačili na analytikov s argumentom, že prediktívny model je black box, nevieme prečo sa tak rozhodol a preto ho nevieme skontrolovať. Odpoveďou analytikov bol tzv. Explanatory assessment, ďalšia vlna AI, ktorá transformuje prediktívne pravidlá do zrozumiteľných vysvetlení. Na tento trend tlačia hlavne regulátori v Zdravotníctve alebo bankovom Risk manažmente, keď požadujú, aby modely nielen predikovali správne rozhodnutie, ale pridali aj vysvetlenie, prečo sa tak “rozhodli”. Ak sa touto cestou vyberieme hlbšie, za niektorou z ďalších zákrut už bude ľudský element zbytočný. AI bude poskytovať aj vysvetlenie prečo koná tak, ako koná.

Ako náš krátky exkurz ukázal, v 3,5 z 5 nutných krokov analytickej práce už dnes stroje dokážu držať krok s človekom a situácia sa rapídne zhoršuje. Davenportová provokačná otázka sa teda javí celkom na mieste. Na nemalú časť analytických a dátových prác proste nebude treba človeka. Opäť sa ma zmocnila analytická úzkosť. Dožijem ešte dôchodku v tejto brandži alebo pôjdem rozbíjať stroje, tak ako to robili húfy robotníkov pri prvej vlne industrializácie?

Prečo by sa to (ne)malo diať?

To, že existuje teoretická možnosť nahradenia ľudí, ešte nepredurčuje, že sa tak stane. Veď počítač nás už porazil v šachu aj v Go, ale ľudia sa napriek tomu neprestali hrať ani jednu z týchto hier. Sú teda nejaké skutočné faktory, ktoré by mali akcelerovať nahradenie ľudí strojmi aj v analytickej oblasti? Myslím si, že dnes existujú 2 takéto dôvody:

Množiace sa dáta. Určite ste počuli, že produkcia dát rastie exponenciálne. Ak by sme aj našli metódy na ich efektívnejšie analyzovanie, zníženie nárokov na ich spracovanie bude mať podobu derivácieBig data describes the exponential growth and availability of data, both structured and unstructured. This data are from e.... A ako tí zasvätenejší vedia, derivácia exponenciálnej funkcie je stále exponenciálna funkcia. Narastajúci objem dát teda aj napriek zdokonaľovaniu metód ich spracovania bude otvárať nožnice medzi
analytickými potrebami a dostupnosťou pracovnej sily na tento účel. K potrebe strojov na analyzovanie dát nás tak paradoxne stále väčší dopy po analýze samotných dát.

Analógia s retailom. Nedávno som sa rozprával s top manažmentom jednej zo siete maloobchodných predajní. Intenzívne pracujú na zavedení samoobslužných pokladníc. Keď som sa ich spýtal na dôvody tohto rozhodnutia, nedostalo sa mi odpovede, že by sa chceli priblížiť Amazon Go konceptu. Nie, skutočným dôvodom bolo, že sa stáva neudržateľné platiť ľudí (čo i len) s minimálnou mzdou a všetkými príplatkami za večer a víkend za skenovanie tovarov. Cenu IT riešení permanentne znižuje Moorov zákon a cena práce naopak kontinuálne rastie. Je len otázka času, kým cena automatizovaného modelu podlezie jednotkovú cenu človeka. Nechať si urobiť prediktívny model človekom bude teda raz rovnaký luxus ako zaplatiť si na povýsavanie upratovačku, napriek tomu, že vlastníte Roomba robota. 

Keď som konfrontoval spomínaný članok s niekoľkými expertmi v data miningu, niektorí z nich sa chlácholili, že to nemusím vidieť tak čierne. Že, áno, základný Machine Learning možno zvládne aj RAMkou a CPU nabúchana “plechovka”, ale na riadenie kvality DeepLearningových modelov alebo clustrovacích algoritmov stále bude treba ľudskú hlavu. Ako ľudia navyše máme kreativitu a tak, keď nám začne prihárať opäť vymyslíme niečo, čo nás “udrží v hre”.

Ako to vidíte vy? Na ktorú stranu sa prikloníte? Spustil som k tejto téme krátke hlasovanie, tak prosím zahlasujte, čo si myslíte.

Čo dodať na záver?

Prekvapivo podnetný vstup do diskusie ohľadne obavy o nahradenie ľudských pracovných pozícii Umelou inteligencou vniesla pomerne nečakane moja manželka, ktorá sa, chúďa, dátovou analytikou musí zaoberať, lebo ju danou témou otravuje jej bláznivý manžel. Rozoberali sme spolu, že naše deti zrejme už nebudú môcť robiť žiaden z jobov, ako ich my poznáme. Tieto joby proste nebudú existovať. Lámali sme si hlavu, ako teda ďalšiu generáciu pripraviť na ich povolanie. V čom ich viac rozvíjať, aby mali uplatnenie?

Po pár minútach, čo sme prebrali spoločenské dopady tohto trendu (masívna nezamestnanosť našej generácie, ktorá sa už nestihne preorientovať; môžu stroje pomocou VR prevziať aj úlohu kultúry? …) z jej úst zaznela skutočne zamyslenia hodná veta: “Nerozumiem, prečo ľudstvo investuje také enormné peniaze, aby ľudia získali lepšie riešenia tak, že ich bude vymýšľať niečo iné ako ľudia. Keby sme rovnaké, enormné peniaze investovali priamo do rozvoja ľudského potenciálu, neboli by sme na tom lepšie?” Musím uznať, že tento druh uvažovania naozaj má niečo do seba. To, že nám príde prirodzené investovať radšej do výskumu AI ako do zlepšovania ľudských schopností, len dokumentuje, akou bizarnou cestou sa ako ľudstvo uberáme.

robocop

S trochou odľahčenia by som však dodal, že trend nahrádzania ľudského rozmýšlania strojmi je v podstate pochopiteľný. Ak si spomeniete, bola to práve ľudská lenivosť, ktorá poháňala vznik strojov. Keď sa dnes obhliadnete okolo seba, ľudia sú  lenivý skôr premýšlať ako vydávať fyzicku námahu (odtiaľ aj známe príslovie: “Kto nemá hlave, má v nohách”). Je to paradoxné, ale viac ľudí marketingom zblbnete, aby začali športovať, ako aby začali čítať odborné knihy. Vývoj systémov, ktoré budú za nás myslieť, tak mnoho ľudí považuje za službu ich pohodliu.

Asi len málo z nás si však uvedomuje, že v dôsledku toho nás čaká mentálna obezita. Áno, prestaneme si cybriť mozgové závity a tie nám postupne atrofujú, podobne ako svaly “tučka”, ktorý sa prestal hýbať. V pesimistickom scenári, tak ľudia budú postupne hlúpnuť a stroje sa zdokonalovať. Raz sa tak možno narodí generácia, ktorá nebude vedieť stroje “preprogramovať”, čo by mohlo mať fatálne následky pre našu civilizáciu. Kým sa tak však stane, trápiť by nás malo skôr, akú hodnotu budeme mať pre nejakého zamestnávateľa, keď budeme slabší a pomalší v myslení ako hardware. Prípadne aké nové druhy profesií by sme si mali vytvoriť, aby až raz prestaneme byť (tak nedostatkovými) Data Scientismi, sme mali čo robiť. Tak skúste nad tým popremýšľať prietalia, minimálne ako prevenciu proti mentálnej obezite.

Akýkoľvek komentár k tejto tému uvítam od vás tu.

PS: ten pôvodný Davenportov článok si nájdete tu, ak by vás to zaujímalo. 

 

Riešenia 5. kola CRM hádaniek

Čas letí ako voda a tak sme sa ani nenazdali a minulý týždeň uplynul termín na riešenia 5.kola CRM hádaniek. Nastal teda čas vyhodnotiť si riešenia a oceniť najlepších riešiteľov. Poďme sa teda najprv pozrieť na riešenia samotných úloh. Ak ste medzi časom zabudli podrobnosti, môžete si osviežiť ešte pred tým zadania úloh.

Výsledok vyhľadávania obrázkov pre dopyt mliečne výrobky jogurt

Úloha 5.1 – Jogurty

Pri riešení tejto úlohy si bolo potrebné uvedomiť, že hoci nemáte úplne presné položkovité údaje z bločkov, tak máte k dispozícii META-dáta (kedy sa nákup udial, koľký v poradí to bol pre daného klienta nákup za týždeň, či mesiac, …) Niektorí sa dobrovoľne vzdali tejto dimenzie, niekoľkí riešitelia na ňu ako si pozabudli.

Druhým dôležitým (a často prehliadaným) aspektom bol fakt, že máte k dipozícii nákupy 1 mil domácnosti (z 1,8 mil v SR), teda v podstate poznáte správanie aj celej populácie, lebo 56% vzorka populácie je už určite reprezentatívnym obrazom reality). Dôležité pri uvažovaní teda bolo skúmať nielen absolútne hodnoty klienta, ale aj relatívne hodnoty voči zvyklostiam celej populácie.

Od tohto momentu ďalej to už bolo o tom, ako dokážem nákupné správanie (absolútne, či relatívne) pretaviť do behaviorálnych príznakov. Nebudem v tomto ohľade chodiť okolo horúcej kaše, táto časť riešenia je o prístupe k analytickému mysleniu, na ktorý možno mať talent, ale dá sa získať aj praxou. Istú výhodu mali teda riešitelia, ktorí sledujú náš seriál dlhodobo. Preto, ak si chcete do budúcna zlepšiť svoje šance pred ďalším kolom, odporúčam prečítať si zadania a riešenia predcházajúcich kôl CRM hádaniek. (4.kolo, 3.kolo, 2.kolo, 1.kolo).

Pri každom navrhnutom parametri sa posudzovalo, do akej miery je dôležitý pre modelovanie správania a zároveň do akej miery je unikátny (ponúka náhľad, ktorý nenapadol väčšinu iných riešiteľov). Celkovo bolo možné získať za jeden parameter od 0 do 4 bodov, plus 10 bodov za kompaktnosť riešenia a zohľadnenie faktorov popísaných v prvých dvoch odsekoch vyhodnotenia tejto úlohy. Celkovo tak bolo možné za úlohu získať až 50 bodov. Pre inšpiráciu prinášam niekoľko faktorov identifikovaných riešiteľmi:

Menej významné, bežne spomínané faktory: Frekvencia nákupu, vernosť konkrénej značke, timing nákupu v rámci týždňa, celková bonita klienta, podiel jogurtov na celkovej strave, cenová citlivosť klienta, …

Menej významné, ale originálne faktory: Laktózové intolerancie, Odhad dovolenkového odbobia, Zmena v stravovaní, Postoj k cukru, Miera podpory regionálnych produktov, problémy predajní so zásobovaním, timing nákupu v rámci dňa, …

Dôležité, aj keď bežne citované faktory: Odhad počtu členov domácnosti, Prítomnosť a počet detí v rodine, Chute človeka (odvodené od typov ochutených jogurtov), Reakcia na akciové ponuky alebo reklamu, Postoj k prémiovým značkám, Stabilita nákupov, …

Dôelžité a zároveň unikátne: Postoj k privátnej značke, vlastníctvo auta, vzájomné kombinácie jogurtov, vývoj klienta vzhľadom na vývoj celej kategórie, ochota testovať novinky, typ zamestnania klienta, Miera dochádzania/cestovania klienta, …

Rebríček TOP 3 riešiteľov tejto úlohy (ktorým blahoželám ku kvalitným nápadom) je:

Šimon M.

Kristína K.

Vladimír H.

Súvisiaci obrázok

Úloha 5.2 – Dobrovoľný pád z výšky

Druhá úloha je (úmyselne) dosť iná, ako ostatné CRM hádanky doposiaľ. Jej odlíšenie však predstavuje smerovanie, ktorým sa analytika aktuálne posúva ďalej. Ak doposiaľ išlo v BI hlavne o spracovanie štrukturovaných, číselných parametrov, na LinkedIn profile ide primárne o texty a ich zmysluplné vyťažovanie. Bežné (excel) analytické zvyky sú tu málo použiteľné a na tvorenie behaviorálnych príznakov treba ovládať aspoň základné postupy analýzy textu.

Je mi ľúto, ale tradičné prístupy, ktoré očakávajú, že klienti budú mať priamo medzi záujmami uvedené zoskoky padákmi alebo lietanie a podobne sú naivné a bez reálneho efektu. Pre správne vyriešenie tejto úlohy treba v skutočnosti hľadať nepriame behaviorálne príznaky z textov, ktoré profil ponúka. Práve o tom, ako odlišný je tento druh analytiky, budeme hovoriť aj v prvom bloku konferencie Biznis Analytika, tak sa prípadne príďte prípadne pozrieť, ak vás to zaujíma.

Pri posudzovaní riešenia som skúmal 4 oblasti:

a) do akej miery riešiteľ popísal základné demografické vymedzenie potenciálnych klientov

b) ako dobre riešenie popisuje psychologický a behaviorálny profil potenciálnych klientov

c) negatívne vymedzenie, koho nedáva vôbec zmysel osloviť

d) kompaktnosť riešenia, jeho stabilitu v čase a mieru významnosti navhrnutých parametrov pre odhad záujmu o tandemový skok

Väčšina riešení pomerne dobre popísala demografický profil klientov (najvhodnejší vekový interval, bonitu klienta podľa jeho zamestnania, typ pracovnej činnosti (manuál vs. duševná práca), …). Rovnako pomerne precízne sa snažili jednotliví riešitelia odhadnúť psychografické faktory klienta (postoj k riziku, miera osobnej dynamiky cez priemerné trvanie zamestnania, postoj k rýchlosti alebo sociálnu blízkosť k niekomu, kto už zoskok realizoval, …)

Naopak, Achillovou pätou drvivej väčšiny riešení bolo negatívne vymedzenie. Až na zopár výnimiek, riešitelia sa zamerali len na to, ako spresniť popis klienta, nie ako zároveň aj vylúčiť beznádejné prípady. Pritom, ako sme si v minulosti už ukázali, negatívne vymedzenie je neraz dôležitejšie ako pozitívne definovanie klienta. Pri tých pár riešeniach, kde negatívne vylúčenie bolo uplatnené zaujali okrem geografického prístupu (viď nižšie), najmä aktuálnosť údajov (ktorá je na LinkedIne kolísavá a preto dôležitým faktorom, skúste oslovovať niekoho, kto naposledy updatol svoj profil pre 3 rokmi). Veľmi zaujímavým prístupom bolo a vymedzenie odvetví, ktoré so zoskokom asi búdu mať problém (zdravotníctvo) alebo naopak toho budú presítení (letectvo).  Nenápadným, ale dôležitým negatívnym vymedzením je aj vylúčiť zamestnancov všetkých konkurentov k LIFE_IS_LIFE firme.

Medzi zaujímavými a inovatívnymi návrhmi bolo určite vymedzenie vzdialenosti od letiska. Zoskoky sa musia diať na určitom type letísk a teda geografická vzdialenosť  od najbližšieho takého letiska určite zohráva rolu. Pozoruhodným bolo aj cielenie na jubilantov (má čoskoro okrúhle narodeniny), lebo pre väčšinu ľudí ide o zážitkový (a pomerne drahý) darček, ktorý sa hodí skôr na významnejšie narodeniny. Čerešničkou na torte bolo detegovanie miery extrovertnosti z analýzy profilovej fotky, čo som si skúšal testovať na svojom okruhu LinkedIn connections (ktorých mieru extrovetnosti poznám) a myslím, že by to fungovalo celkom dobre. Vypichol by som rád aj nenápadný, ale účinný spôsob ako vymedziť matky detí (buď priamo zo sledu zamestnaní ale aj cez dvojité priezviská žien, prípadne cez zmenu priezviska za posledné časové obdobie) ako súčasť negatívneho vymedzenia, lebo tento druh ľudí má oveľa menší apetít skákať ako ľudia bez rodinných záväzkov.

Rebríček TOP 3 riešiteľov tejto úlohy (ktorým tiež blahoželám ) je:

Šimon M.

Matúš B.

František B.

Odmenenie víťazov

Tak ako bolo už avizované, za každú z úloh najlepšie riešenie vyhráva VOĽNÝ VSTUP na odbornú, tohto roku programom nabitú konferenciu Biznis analytika v cene 180 EUR na osobu. Nakoľko Šimon M. bude speakrom na danej konferencii, urobil veľmi športové gesto a ponúkol svoje vstupenky na konferenciu ďalším v poradí. Tými štastými teda sú Kristína Ka Matúš B., ktorým touto cestou srdečne blahoželám k výhre a teším sa na osobné stretnutie na konferencii !

Len pripomíman, že ako odmena za snahu, každý, kto sa zapojil získava od portálu Mocnédata.sk 15 EURový VOUCHER na zľavu z účastníckeho poplatku danej konferencie

Okrem toho, za najlepší úhrný výsledok oboch úloh dokopy (súčet bodov z prvej úlohy + z druhej úlohy) som sa rozhodol udeliť mimoriadnu (knižnú) cenu Šimonovi M. Zo Šimonovho analytického rastu mám radosť. Pár rokov dozadu bol v tejto oblasti úplne na začiatku a vidieť jeho postupný odborný rast v čase. Aktuálnemu kolu suverénne dominoval a v analytickej oblasti mu nedávno vyšiel aj prvý blog, tak vidieť, že sa čoraz aktívnejšie hlási aktívne o slovo v našej analytickej komunite.

[Pohľad iných] Kvóty na slovenskú hudbu začínajú meniť vkus poslucháčov

Ak ste čítali moje dôvody prečo som založil portál mocnedata.sk, tak už viete, že mojim cieľom je ponúknuť priestor na tomto portáli aj iným autorom, resp. aj iným pohľadom na dáta a prácu s nimi.

Prvou lastovičkou v tomto ohľade bol listing iných ľudí v CRM oblasti, ktorých názor by som vám rád dal do pozornosti. Druhou líniou zapojenia širšieho okruhu autorov sú recenzie zaujímavých kníh od expertov z tohto odvetvia (prvú časť cyklu [Čo čítajú CRM exeperti] otvoril blog Milana Schnorrera, pričom ďalší diel už je na spadnutie

V neposlednom rade by som však chcel našej komunite sprostredkovať aj ucelené pohľady na témy, ktorým sa venujú iní detailnejšie ako ja. Prinášam Vám preto blog Šimona Malého, ktorý sa hlbšie pozrel na to, čo dáta o počúvanosti skladieb hovoria na zavedenie kvót na slovenskú hudbu v rádiách. Nebudem vás však okrádať o pointu tohto zaujímavého počinu, postup analýzy aj jej závery si môžete prečítať priamo v jeho blogu.

 

PS: Šimon sa detailnejšie venuje analýze priemyselných dát. Ak by ste si ho chceli vypočuť na túto tému ,tak najbližšie bude vystupovať na tejto akcii.

Najčastejšie analytické chyby – Korelácia

Dobré inštruktážne video alebo školenie sa pozná aj podľa toho, koľko chybných krokov vám popíše. Keď totiž s niečím novým začíname, je nejaký druh chyby oveľa pravdepodobnejší výsledok nášho snaženia ako bezchybný priebeh na prvý krát. Je teda vhodné sa chyby naučiť rozpoznávať čím skôr.

Horšie je, keď nejaká chyba beží na pozadí s nami aj niekoľko rokov. Nie sme už greenhorni, ale aj tak sa necháme “nachytať na hruškách.” V bežnej analytike a Machine Learningu je azda najčastejšou chybou (naraz ťažko rozpoznateľný) rozdiel medzi Koreláciou a Kauzalitou. Niektorí z vás možno pregúľajú očami, že veď ide o triviálnu chybu hodnú prvého ročníka VŠ, ale úskalia tejto chyby potrápia často aj veľmi skúsených analytikov. Aby ste mi verili, rád to vysvetlím na svojom vlastnom príbehu.

Škorpióni za volantom

Výsledok vyhľadávania obrázkov pre dopyt scorpios zodiacV minulosti som bol súčasťou teamu, ktorý pripravoval predikčný model na predpovedanie pravdepodobnosti dopravnej nehody pre rôznych vodičov. Ako správni Data Scientisti (aj keď vtedy sa nám nadávalo ešte do klasických analytikov) sme si pokorne zostavili pomerne rozsiahlu sadu možných prediktorov (parametrov ovplyvňújúcich pravdepodobnosť nehody). Je mojim dobrým zvykom do takýchto analýz vkladať aj žolíky, ktoré na prvý pohľad nemajú nič spoločné s danou témou. Teamy, ktoré to nerobia, si tak zvyčajne iba potvrdia niektorú z pôvodných hypotéz a nič nové o danom správaní klienta sa zväčša nedozvedia. Jedným z mojich žolíkov bolo aj znamenie zverokruhu daného klienta. Áno, znie to šialene, ale nechali sme v serióznej, komerčnej aplikácii otestovať, či ZODIAC (horoskopove znamenie) naozaj má vplyv na to, ako klienti búrajú svoje autá. Môj team sa vzbúril a povedal, že na takej somarine sa odmietajú z princípu podieľať. Tak som spolu s ešte jedným štrajko-kazom ten model nakoniec dokončili sami. No a zostali sme v nemom úžase. Zverokruh bol v TOP 3 najsilnejších faktorov. Konfrontoval som výsledky so zvyškom teamu, vysmiali ma, že manipulujem výsledok, aby som sa im pomstil. Poskytol som celý kód k dispozicii a vyzval som ich, nech teda nájdu v tom chybu, ak si myslia, že som podvádzal. Uznali, že tam chyba nie je, že zverokruh je naozaj silne korelovaný s búraním áut (mimochodom najlepší šoféri sú Škorpióni). Incident však upadol na pár mesiacov do zabudnutia, až kým …

Poviete si WOW, ale kde je tá sľubovaná chyba? Tak ešte jeden odsek, prosím, vydržte pointa už sa blíži …

Magické čísla domov

Výsledok vyhľadávania obrázkov pre dopyt popisné číslo domuV podobnom čase sa iný team snažil o predikciu pravdepodobnosti nákupu istého produktu. Zozbierané opäť boli pomerne rozsiahle údaje o klientoch a začalo sa hĺbanie v dátach, ktoré z faktorov a do akej miery popisujú tendenciu nakúpiť daný produkt. Paradoxne, trochu z nedbanlivosti sa podarilo odhaliť jednu neuveriteľnú koreláciu. Pri kódovaní adresy klienta totiž analytickému teamu uniklo, že trvalá adresa klienta je rozkúsovaná na samostatné polia. A tak sa medzi prediktormi objavilo omylom aj číslo domu. Čo čert nechcel, z modelu zrazu vypadlo, že všetci ľudia žijúcich v párnych číslach domov sú pravdepodobnejší na nákup daného produktu  ako tí z nepárnych čisiel. To znie samozrejme ako riadna blbosť (teda minimálne rovnaká ako ten horoskop), ale skutočne to tak fungovalo. Pri hlbšom zamyslení si však uvedomíte, že ulice sú koncipované tak, že jedna strana má párne čísla a druhá nepárne. Okamžite sa rozvírilo niekoľko argumentov za aj proti tejto predikcii. Nech sme sa na to však pozerali akokoľvek, model mal proste pravdu. Nuž ako to už býva(lo) v tej dobe, Sales oddelenie sa nakoniec rozhodlo ignorovať zacielenie modelu a urobilo kobercový nálet na klientov s ponukou daného produktu. Takže model zapadol na niekoko mesiacov do zabudnutia. Až kým …

Kdepak soudruzi z NDR udelali chybu?

Dôvod prečo som Vám rozpovedal tieto dva príbehy, s ktorými som sa osobne stretol, je fakt, že v oboch vystupuje korelácia dvoch faktorov (v 1. prípade Zverokruh vs. nehodovosť, v 2. prípade Číslo domu vs. Nákup produktu), ktoré vyzerajú na prvý pohľad neuveriteľne, ale predsa majú preukazateľnú koreláciu. Dôvod prečo som tieto príbehy však nechal nedopovedané je, že len jeden z nich skutočne má aj kauzálny vzťah (predikcia funguje v realite), zakiaľ druhý nefunguje a je typickým príkladom toho, že ide len o koreláciu, nie Kauzalitu. (bližší popis tejto chyby v odseku nižšie). Schválne, uhádnete ktorý z dvoch príkladov je skutočný a ktorý sa ukázal ako blamáž?

Rozuzlenie oboch príbehov je predmetom rozšíreného materiálu k tomuto blogu, ktorý je prístupný po zadaní hesla registrovaným čitateľom portálu. Ak teda si registrovaným užívateľom a chceš vedieť ako to dopadlo, použi heslo, ktoré Ti prišlo emailom, a príbehy dočítaj tu. Ak chceš poznať riešenie dilemy Zverokruh vs. Čísla domov a nie si ešte registrovaným čitateľom mocnedata.sk komunity, môžeš sa hneď teraz zaregistrovať bezplatne tu. Heslo Ti príde do 24 hodín od registrácie. 

ListPlot of the simulation data

Uvedené dva príklady nám služia na ilustrovanie rozdielu medzi dvoma podobnými, ale v skutočnosti podstatne rozlišnými typmi vzťahu:

Korelácia dvoch faktorov (javov) je taká situácia, kde hodnoty (alebo zmena hodnoty) jedného z faktorov sa premieta do zmeny hodnoty druhého faktora. Ľudovo povedané, zmeny daného javu sú v takej (dátovej) súvislosti, že ak viem hodnoty jedného, viem pomerne presne odhadnúť akú hodnotu nadobúda ten druhý. Pričom pre výpočet korelácie je jedno, čo skutočne spôsobuje daný vzťah, proste to matematicky funguje.

Kauzalita dvoch faktorov (javov) je taký druh vzťahu, kde dané faktory sú v príčinnej súvislosti. Teda správanie/zmena jedného faktoru má priamy a neodškriepiteľný vplyv na faktor druhý. Ľudovo tento stav pomenúvame, že jeden z faktorov je príčinou a druhý je dôsledkom toho prvého. Ide o reálny (veľmi často aj pomerne jasne vysvetliteľný) vplyv týchto dvoch faktorov, väčšina kauzálnych vzťahov si ľudia pretvárajú do pravidiel (alebo prírodných) zákonov.

Už zo samotných definícií je pomerne zrejmé, že je možné tieto dve veci ľahko zašmodlichať do jedného klbka, v ktorom nie je na prvý pohľad jasné, či ide o kauzalný alebo korelačný vzťah.  Na tomto mieste nie je dosť priestoru do hĺbky vysvetliť dôvody, prečo sa táto chyba tak často objavuje. (doplnil som ich však rovnako do rozšíreného materiálu k tomuto blogu)

Niekoľko ďalších riadkov však skúsim venovať aspoň tomu, ako sa nenechať nachytať na Kauzálno – Korelačnú pascu. Zradnosť toho, že dve veci sú korelované, je v tom, že sa pozeráme na vzťah iba javu A verzus javu B. Napríklad je preukázané, že je veľmi silne korelované to Koľko zmrzliny sa predá (faktor A) s tým, na Koľko ľudí sa utopí v bazénoch sprostredkovany_vztah (faktor B). Táto korelácia však nie je poplatná nejakému vzťahu zmrzliny vs. topenia sa. V skutočnosti sú oba faktory spojené s tým, ako je v danom mesiaci teplo (faktor C). V praxi tak A a B majú len sprostredkovaný vzťah, ktorý vyplýva z postupnosti B->C->A. Zákerné je to preto, že pri sprostredkovaných koreláciach totiž často jav C, cez ktorý sa vzťah medzi A a B skutočne odvíja, vôbec nie je v množine skúmaných parametrov. Inými slovami, existuje na pozadí nejaký ďalší parameter, ktorý tvoj model neskúma, ale ktorý má podstatný vplyv na celé fungovanie. Podstata tejto chyby je o to nebezpečnejšia, že na to, aby sme mohli potvrdiť, že korelácia je aj kauzálnym vzťahom, museli by sme otestovať a vylúčiť vplyv všetkých ostatných pridružených vplyvov. To samozrejme nie je vo väčšine prípadov možné, lebo ani nevieme, čo všetko by otestované byť malo. Je z tohto bludiska teda nejaká cesta von ?

V skutočnosti existujú 4 veci, ktoré môžeš ako analytik urobiť, aby si znížil riziko, že si sa dopustil tejto krutej analytickej chyby:

A) otestovať súvislosť javov na iných (ideálne podstatne väčších) vzorkách. Ak sa ten istý vzťah zopakuje vo viacerých navzájom nesúvisiacich súboroch dát, výrazne sa zvyšuje šanca, že ide o skutočný kauzálny jav a nie “len” o koreláciu dvoch premenných.

B) dopriať si veľmi veľký počet rôznych parametrov na vstupe do modelu (400+ parametrov napríklad), ktoré prejdu testom vzájomnej korelácie. Týmto krokom sa výrazne znižuje pravdepodobnosť, že existuje nejaký sprostredkovaný vzťah (o ktorom nevieš). Začať preto budovanie prediktívneho modelu s veľkým množstvom parametrov nie je roztopaš, ale cesta ako nepodľahnúť tejto korelačnej pasci.

C) Pokúsiť sa popísať obe strany (aj A aj B) inými parametrami (v našom prípade napríklad objem plnenia z poistenia v nezamestnanosti vs. počet dní na dovolenke za posledných 24M) a otestovať, či aj takto upravené faktory majú stále dostatočne silný vzťah. Ak áno, tak to znižuje šancu na váš kauzálny omyl, ak upravené parametre nedosahujú ani zďaleka rovnaké korelácie, na pozadí úradujú zrejme nejaké sprostredkované vzťahy premenných.

D) otestovať štatistické rozdelenia u oboch faktorov (strednú hodnotu, obor hodnôt, štatistickú odchyľku v pomere k priemeru, šikmosť, strmosť rozdelenia, …). Dva javy sa totiž môžu javiť ako korelované, ak majú podobné rozdelenie (mne sa napríklad stalo v minulosti, že pomerne vysokú koreláciu mi hlásilo na dvoch parametroch len preto, že mali oba podobný rozsah hodnôt (0 až 1). Ak teda dva javy majú len veľmi podobné rozdelenia (ale žiadny vecný súvis), tak ich korelácia je pomerne podozrivá.

Tak či onak, Korelácia a Kauzalita dvoch javov je (a zrejme aj zostane) najčastejšou chybou v analytike, nevyhýbajúcou sa ani tým najskúsenejším harcovníkom. Toto krátke pojednanie o analytických chybách si dovolím zakončiť skvelou analytickou anekdotou:

Ako vyššie uvedený graf dokumentuje, Rozvodovosť rodín v štáte Maine má 99.3% koreláciu s predajom margarínu na národnej úrovni. Mali by teda americké úrady úplne zakázať predaj margarínu? 🙂 V skutočnosti ide o krásny príklad spostredkovaného vzťahu, kde na pozadí hrá rolu úplne iná premenná, ktorá je rovnako korelovaná s oboma popisovanými javmi, čím spôsobuje zdanie vzájomného vzťahu. Čo myslíte aká ?

Ak si chcete pozrieť viac vtipných korelácii, nájdete ich rovnako v rozšírenom materiáli k tomuto blogu.

Rozšírené materiály k blogom,sú prístupné len po zadaní hesla. Ak teda si registrovaným užívateľom a chceš vidieť doplnenie, použi heslo, ktoré Ti prišlo emailom, a doplňujúci materiálu si otvoriš tu. Ak nie si ešte registrovaným čitateľom mocnedata.sk komunity, môžeš sa hneď teraz zaregistrovať bezplatne tu. Heslo na odomknutie doplňujúcich blogov Ti príde do 24 hodín od registrácie.

Držím Vám palce, aby ste Korelačnej pasci odolali vždy, keď budete stáť na jej okraji 🙂

3 konkrétne návody pre Teba

Verím v silu diskusie. Keď každý dokáže priniesť k stolu svoj vlastný názor (a rešpektuje názor ostatných), vznikajú nové inšpirácie. Ak si vážim tú druhú stranu, je možné diskusiu pustiť aj do porovnania, či priam konfrontácie názorov. Lebo viem, že tá druhá strana to myslím rovnako dobre ako ja. Tento druh diskusie sa snažím podporovať cez portál www.mocnedata.sk. A presne takúto diskusiu budeš mať možnosť zažiť aj ty osobne …

Nasledovné video prezradí prečo:

Každý sme v niečom dobrý. Väčšina z nás mala šancu pracovať pre firmu, kde tá či iná CRM téma riešila intenzívnejšie. Niekde dominovali kampane ako hlavný CRM nástroj, inde zas bolo treba primárne hasiť spokojnosť a odchodovosť klientov. Málokedy však máme možnosť mať priamu skúsenosť so všetkými CRM oblasťami. Preto, keď zmeníme job, stojíme pred novou CRM témou v podstate ako začiatočník. S veľkým elánom … a mnohými chybami, ktoré už urobili iní pred nami.

Keď zájdete na bežnú odbornú konferenciu, firmy neradi odkryjú všetky karty. Ak sa aj objavia prípadové štúdie, tak len matne (a s veľa zabielenými sumami a názvami) popisujú, čo sa skutočne dialo. Veľa chvastania, málo užitočných rád. Na prípadoch vytrhnutých z kontextu sa totiž toho veľa divák nenaučí, najmä ak na celá prezentácia je tak na 20 minút. My sme sa rozhodli na konferencii Biznis analytika postaviť toto nemilé pravidlo prípadových štúdii úplne na hlavu:

3 konkrétne návody. To je už 2. dôvod prečo prísť

NAVODY_1Vo väčšine firiem sa CRM systémy zavádzajú pre jeden z 3 základných cieľov. Marketingová obdoba “Postav dom, zasaď strom a sploď syna” je však skôr “Segmentuj, aby si mohol oslovovať priamym marketingom a riadiť spokojnosť klienta“.

Pripravili sme preto pre Vás blok, kde na každú z týchto tém dostanete KONKRÉTNY NÁVOD. Žiadne: “.. zvyšok si domyslíte”.  Jasný postup od A po Z. Každej téme preto venujeme osobitne 40 minút, aby sa dalo isť naozaj do hĺbky. Súčasťou bloku je aj dodatočná panelová diskusia, kde autori prisľúbili zodpovedať akúkoľvek otázku z publika.

Preto, ak sa hodláte naštartovať niektorú z týchto troch 3 tém (alebo sa v nej posunúť na vyššiu úroveň) , prihláste sa na konferenciu a príďte si vypočuť návod ako na to. Ak je Vaša situácia špecifická, spýtajte sa o radu v panelovej diskusii alebo počas neformálnych prestávok medzi blokmi.

 

POZOR! Ak vás program konferencie zaujal, tak neprehlúpte a využite do 12.2.2017 ešte rýchlo zľavnenú early bird cenu za registráciu. Po tomto termíne sa cena vráti na plnú hodnotu a každý, kto zaváha bude musieť z vrecka vytiahnuť o pár desiatok EUR viac.

Chcete dodatočnú zľavu ?

Stačí sa zapojiť do aktuálneho kola CRM hádaniek a každý (aj neúspešný) riešiteľ získa od portálu MocnéDáta dodatočnú zľavu 15 EUR z účastníckeho poplatku. O spôsobe využitia tejto zľavy budete informovaný emailom po zaslaní svojho riešenia CRM hádaniek. Navyše prví dvaja najlepší riešitelia získajú vstup na túto konferenciu úplne zadarmo !!!

Stále váhate ?

BATTLE

Pozrite si viac info o Unikátnom Analytickom Battle, ktorý sa na konferencii udeje.