Súkromie klientov vs. dátová analýza. Naozaj nemožné?!

Otázka súkromia v aktuálnej digitálnej dobe zväčša pendluje medzi 2 extrémami. Na jednej strane ľudia bezstarostne odovzdávajú svoje údaje (takže taký mobilný operátor vie o vás viac ako vy sami) alebo priam nakupujú tovar výmenou za svoje Facebook statusy. Výsledkom sú potom takéto nástroje, ktoré slúžia ako jadrové zbrane marketingu a vyvolávajú škandály.

Na strane druhej existujú početné sily aktivistov, ktorí majú pocit, že už sme dátovo nahí a ktorí (najmä v EU) presadili najtvrdšie pravidlá ochrany súkromia na svete. (aj keď GDPR implementácia priniesla zopár humorných momentov). A tak sa ochrana digitálneho súkromia stáva čoraz viac rozdeľujúcou témou.

Šípkové kráľovstvo dátových analytikov

sipove_ruzeOblasť dátovej analytiky by sa síce mohla tváriť „Ja nič, ja muzikant“, ale tento postoj by bol pomerne cynický a ťažko uveriteľný.  Väčšina osobných údajov, ktoré sa v biznise svete ukladajú, sú zbierané práve za účelom dátovej analytiky. Preto stáť opodiaľ by pre dátových analytikov bolo ako keby sa Báthorička tvárila, že nevie prečo sa jej napúšťa voda do vane.

V obhliadnutí späť si preto myslím, že odpoveď dátovej analytiky „si dala celkom na čas“. Analytika sa potácala sa medzi čierno-bielym videním dátového súkromia a až nástup novej generácie dátových analytikov priniesol poznanie, že Machine learning modely je možné tvoriť aj citlivo voči dátam klientov. Toto „pánske huncútstvo“ sa však objavilo len vo veľkých spoločnostiach, ktoré určovali trendy na trhu (a zaoberať mali dosť kapacity zaoberať sa vôbec niečím tak „banálnym“ ako súkromím klientov). Vo väčšine firiem, sa táto téme nedostala na „jedálny lístok“. To je aj dôvod prečo GDPR regulácia bola tak tvrdá, lebo pred jej zavedením vládla vo firemnom sektore ignorancia práv klientov (či prinajmenej ich absolútna neznalosť).

A pritom to ide …

Ako každé systematické úsilie, aj cielené implementovanie ochrany súkromia do procesov strojového učenia dátových modelov si vyžaduje viac ako kozmetické zmeny v postupoch práce. Akbeh_do_kopca nemáte v teame niekoho, kto k tomu v zahraničí pričuchol, dúfať, že sa vám podarí ich správne nastaviť len tak, spontánne, je naozaj naivné. Som preto rád, že „veľkí“ sa rozhodli pomôcť malým a vznikajú tak vzdelávacie kurzy o tom Ako robiť analytiku citlivo k súkromiu. (môžete sa aj vy prihlásiť zdarma). Tí, čo naozaj chcú robiť dátovú analytiku (spoločensky) zodpovedne, tak môžu zaviesť do svojej práce to najlepšie, čo na svete existuje pre rešpektovanie digitálneho súkromia.

Ak pracujete v analytike už aspoň 3-5 rokov, nebudem prekvapený, ak vás v doterajšom priebeh tohto blogu trochu „tlačí v topánke“ otázka „Čo vlastne možno pre ochranu súkromia urobiť až pri ich samotnom analyzovaní?“ Podobne ako vy, na začiatku svojej kariéry som predpokladal, že dáta sa majú chrániť primárne pri zbieraní, teda ešte ich analyzovaním. Tvorbu prediktívnych modelov som pokladal za „nevyhnutné zlo“ biznisu s primeraným zásahom do súkromia koncového klienta. Čo sa dá teda robiť ešte počas modelovania inak?

Tri oriešky pre … ochranu dát

tri-orieskyTak ako lieky majú svoje nežiaduce vedľajšie účinky, aj trénovanie prediktívnych modelov (a iné analyzovanie dát klientov) má 3 základné neduhy, ktoré negatívne vplývajú na dátové súkromie:

Zdanlivo nenápadným vedľajším efektom dátovej analytiky je fakt, že pre posúdenie vzájomných vplyvov jednotlivých faktorov správania klienta je potrebné ich zhromaždiť na jedno miesto. Aspoň tak si to predstavovala pôvodná metodika dátového modelovania, ktorá zhŕňala všetky možné faktory do Analytických profilov (klientov), ABT tabuliek a iných „zdrojov“ modelovania. Často tak citlivé údaje (ako RČ) boli vo vedľajšom stĺpci od triviálnych údajov ako dátum prvého nákupu. Kumulácia vstupných parametrov, často aj tých, ktoré pre daný model priamo nepotrebujete, je pritom jednou z najhrubších foriem zásahu do súkromia klienta. Analytik, ktorí realizuje analýzu potrebného správania, totiž má k dispozícií údaje aj o mnohých iných návykoch klienta, na ktoré možno klient ani nedal súhlas na skúmanie. GDPR robí spoločné „skladovanie dát“ niektorých typov dát priam nezákonným a preto čoraz intenzívnejšie sa o slovo hlási Federated learning. Tento postup umožňuje držať jednotlivé oblasti správania klienta v oddelených „skladoch“ a pre účely modelovania len „prepožičať“ hodnoty bez odhalenia iných, nesúvisiacich javov alebo skupín klientov.

Jedným z vážnych problémov diskusie o digitálnom súkromí je fakt, že samotné súkromie je pojem prudko subjektívny. Niekomu nevadí ísť na nuda pláž, iná sa skôr cíti na jednodielne plavky. Rovnako je to s digitálnym súkromím: Ťažko ho chrániť, keď vlastne nie je objektívne definované, čo to je. Tomu nedostatku (často vydávanému za lacnú výhovorku na ignorovania digitálneho súkromia) odzvonila oblasť poznania s názvom Differential privacy. Dala si zacieľ objektívne (matematicky) popísať úrovne súkromia (a jeho narušenia). Čo na prvý pohľad môže vyznievať ako akademická diskusia o počte zrniek piesku na zemi, má v skutočnosti podstatné praktické dopady. Akonáhle máte objektívnu metriku súkromia, môžete porovnať dva postupy z hľadiska miery ich invazívnosti do súkromia. Rovnako si môžete stanoviť nejaký firemný cieľ, o koľko by ste chceli zlepšiť ochranu súkromia svojich klientov. Jednotka ochrany súkromia vám nakoniec umožní aj dať do súvisu 1 EUR dodatočných tržieb s mierou dodatočného zásahu do súkromia a tak samoregulovať mieru nevhodných zásahov.

V dobe, keď dáta putujú najmä internetom, cloudovými službami alebo spoločnými úložiskami, ich ochrana pri presune naberá na významnosti. Zakiaľ na kryptované PDF, Excely, či iné prílohy emailov sme si už zvykli, počas dátovej analýzy zostávajú dáta väčšinou v surovej, nechránenej povahe. Vzniká tak odvetvia analytiky, ktoré sa volá Encrypted Computation a ktoré si za cieľ kladie práve zabezpečiť ochranu dát „pred nežiaducim odpozorovaním“ pri príprave dát na modelovanie alebo počas samotného trénovania modelov. Metódy ako Secret sharing, či NoSQL Encrypted Access,  vám priblížia ako rozumne zladiť dodatočné nároky kryptovania s efektívnym trénovaním modelov.

Práve okolo týchto troch neduhov sa točí aj vyššie citované školenie, na ktoré sa môžete aj vy zadarmo prihlásiť. Pomôže vám tak možno položiť prvé kamene pre spoločensky zodpovednú dátovú analytiku. Buďte však pripravení na to, že vo svojom okolí budete rovnako početní (a braní vážne) ako aktivisti Greenpeace alebo zástancovia migrácie. Biznisy totiž príliš dlho bačovali s dátami klientov neobmedzene. A väčšina GDPR implementácií sa zamerala skôr na to, ako „zlegalizovať“ už bežiace postupy, než rozmýšľať nad tým, či by sa to celé nedalo robiť inak. Nebojte sa však byť v tejto téme prvou lastovičkou. Vzdušné prúdy vyspelých trhov jasne ukazujú, že túto tému čoskoro privanie aj na Slovensko. A to vás zoberie na cestu od Zero ku Hero.

KNIHA pre ľudí, čo rozmýšlajú o (svojej) BUDÚCNOSTI

Pár týždňov späť som narazil na knihu AI SUPERPOWERS od čínskeho autora KAI-FU LEE. Myslím si, že je to (necelých) 250 strán, ktoré by si mal prečítať každý, kto pracuje v oblasti dátovej analytiky (alebo nad tým aspoň rozmýšľa). Je to jedna z tých kníh, ktoré je najlepšie, keď si prečítaš sám. Preto sa pokúsim moju recenziu udržať v rozumnom balanse medzi navnadením a pocitom, že už aj tak viete, o čom vlastne kniha pojednáva.

Dielo AI SUPERPOWERS ponúka mnoho bodov na zamyslenie, sám som napočítal minimálne 20 (a to už je čo povedať) myšlienok, pri ktorých som sa prichytil, že takto som sa na to ešte nepozeral. Ešte než vám však niektoré z nich načrtnem, patrilo by sa povedať, kto je samotným autorom. Kai-Fu Lee je pôvodom Taiwančan, ktorý pracoval 35 rokov v oblasti umelej inteligencie. Rozbiehal hlasovú analytiku pre Apple, zakladal výskumné centrum Microsoftu v Ázii a v roli CEO Google of China čelil dileme ako etablovať Google v krajine, ktorá jeho existencii nepraje. Riadi  aj venture kapitál fondy na rozvoj AI riešení. Je vzácnou kombináciou skúsenosti s najmodernejšími AI prístupmi zo Silicon Valley a typického ázijského „pohľadu nad vecou“, ktorý neprijíma skratky a nemá potrebu vytvárať kult Americkej výnimočnosti. Pochváli, kde vidí skutočné majstrovstvo a tvrdo pomenuje pozlátka a nepodložené stereotypy.

Dôvod, prečo si myslím, že by ste si túto knihu mali prečítať každý sám(a), je,  že medzi oficiálnymi riadkami textu pravdepodobne nájdete svoje inšpirácie (ako to bolo aj u mňa). Kniha je totiž košatým stromom, pri ktorom si každý môže vybrať „koľko si posedí“ na jednotlivých konároch. Vo svojej podstate je kniha koktailom troch prúdov, ktoré sa navzájom dopĺňajú, a z ktorých niektoré by ste podľa názvu knihy od tohto diela neočakávali:

Prvá línia, ktorá je najviac v súlade s názvom knihy, popisuje vývoj na poli umelej inteligencie. Kontrastuje ako rozličné boli cesty k piedestálu sofistikovanej analytiky pre USA a Čínu. Taiwan a Hong Kong síce majú väzbu s Čínou, ale ich vzťah nie je zrovna optimálny. (Mám kolegu z Hong Kongu, ktorý mi o tom podrobne rozpráva.) Postoj Kai-Fu Leeho teda nie je ružovou ódou na čínsky model. Práve naopak, ponúka veľmi vyváženým pohľadom na to, v čom je Čína v oblasti AI perspektívou a kde naopak menej. Zažil si obe prostredia a preto jeho porovnanie je cennou protiváhou propagandy za alebo proti Číne.

Druhou líniou je autorova osobná spoveď o tom, ako vďaka rakovine, ktorú sa mu podarilo prekonať, zmenil pohľad na smer, kam by sa umelá inteligencia mala uberať. Príbeh ťažko chorého, ktorý na sklonku života precitne v iné zmýšľanie, pokladáme v našej kultúre už takmer za klišé. Ale ak budete menej cynickí, privriete oči a skúsite sa pri čítaní tejto časti venovať skôr záverom, ku ktorým sa dostal (než procesu ako k nim dospel), je to inšpiratívne čítanie.

Tretia línia, ktorá kniha ponúka, bola pre mňa trochu prekvapením. Rozhodne však príjemným prekvapením. Autor sa pokúsil extrapolovať trendy AI a popísať, čo všetko nás čaká. Zameraním je táto časť podobná (pre mňa famóznej) knihe SuperIntelligence. Keďže však AI SUPERPOWERS vyšla neskôr, tak sa už pozerá na niektoré aspekty budúcnosti AI bohatšia o prvé experimenty (napr. s UBI) a teda konkrétnejšie.

Aby sme však nezostali len na povrchu, skúsim vám ponúknuť niekoľko konkrétnych inšpiratívnych myšlienok, ktoré táto kniha priniesla mne. Verím, že budú tým správnym „teaser“-om, aby ste si danú knihu prečítali:

Kopírovacia Čína. Kniha jasne popisuje, že Čína sa dostala na vrchol svojej produktivity tým, že kopírovala výrobky zahraničia. V priemyselnej výrobe a dizajne hmotných vecí teda určite nie je svetovou veľmocou, ale skôr „trápnym kopírovačom“. Vývoj v online službách, AI  a dátovej analytike však bol úplne iným príbehom. Preto aktuálne pokrokové riešenia stoja trochu v tieni „kopírovacej nálepky“ z minulosti. Pre svet je teda pošetilé až nebezpečné, aby sa tejto v ilúzii kopírovacej Číny učičíkal.

Od cashu priamo k App-pay. V niektorých častiach Afriky dlho zaostávali v budovaní siete pevných liniek, takže mnohé oblasti boli komunikačne odrezané od sveta. Potom náhle,  s príchodom mobilných sietí, však mohli preskočiť štádium pevných liniek a získať dostupnosť (internetu) priamo z mobilnej siete. Podobná epizóda sa odohrala v Číne v oblasti platieb. V Číne sa totiž nikdy poriadne nerozšírili kreditné karty ako spôsob platby a pri nástupe e-commerce sa trh priamo prehupol do in-app platieb ako We-chat alebo Alibaba.

4 prepdoklady AI rozvoja. Ako každé snaženie, aj rozvoj umelej inteligencie má svoje faktory, ktoré ho dokážu akcelerovať či brzdiť. V prípade AI sú to nasledovné 4 dimenzie: a) výpočtová sila v podobe HW, b) dostatok ľudského talentu, c) objem a kvalita dát, ktoré máte na trénovanie AI, d) podnikateľské podhubie pre implementáciu vyvinutých riešení. Miera, ako má tieto 4 faktory naplnené jednotlivá krajina, zároveň predurčujú akú rolu by mala daná krajina zaujať v zavádzaní AI. Tieto poznatky som použil aj pri príprave AI stratégie pre Slovensko, ktorej tvorby som sa mal tu česť práve zúčastniť.

Stav baterky vášho telefónu. Pri predikovaní javov by ste mali používať všetky dostupné vstupy a dať si pozor na to, či náhodou nelimitujete možnosti AI svojimi vlastnými predsudkami. Kniha uvádza niekoľko štavnatých príkladov na túto tému, z ktorých najviac sa mi páčilo, ako zvyčajný stav vašej batérie na mobile, súvisí s vašou disciplínou splácať finančné záväzky. Pravidelní čitatelia vedia, že som silným propagátorom Feature engineeringudátových rébusov, takže túto časť som si naozaj užíval.

Asi takto, pán sudca. V nejednej oblasti bude AI slúžiť ako radca človeku. Často sa diskutuje medicína, ale taká spravodlivosť je zatiaľ Tabu. Umelá inteligencia pri tom môže byť nápomocná aj v tejto citlivej oblasti a to bez toho, že by o nás priamo rozhodovali stroje. Existujú už systémy, ktoré prehľadávajú historické súdne záznamy, aby odhalili nepravdivé výpovede svedkov v kontraste s informáciami z predchádzajúcich procesov. Rovnako môže AI poskytnúť vstupy pre kalibráciu prísnosti trestov za tie isté skutky (prehľadné scatter-ploty medzi jednotlivými priťažujúcimi/poľahčujúcimi okolnosťami a dĺžkou vymeraného trestu, aby bolo vidno či je navrhovaný trest príliš prísny alebo naopak zmierlivý).

Autonómne car(t)s. Diskusia o samohybných vozidlách je primárne v rovine autonómnych áut (cars). Pri tom existujú oveľa jednoduchšie implementácie, ktoré nie sú tak nebezpečné a majú okamžite oveľa masovejšie použitie. Ide napríklad o autonómne nákupné vozíky (carts). Mohli by byť naprogramované tak, aby vás nasledovali (a zastali vždy keď sa vy pri niečom pristavíte), alebo aby dokonca na základe nákupného zoznamu sami vytýčili najrýchlejšiu cestu supermarketom, podľa toho, kde sa nachádzajú položky vášho zoznamu.

Vydržte, posielam Vám dron. Druhou implementáciou samohybných vozidiel, ktorá je jednoduchšia ako autá, sú letiace veci. Nie, toto nie je hype, ohľadne dronov. Vo vzduchu je viac priestoru a menšia pravdepodobnosť zrážky ako na cestách. Ani si asi to neuvedomujeme, ale lietadlá mali skôr autopilotov ako majú v praxi autá. Rovnako máme už bezpilotné útočné lietadlá, ale zatiaľ nie bezpilotné tanky či vojnové lode. Preto jedným z blízkych spôsobov využitia AI budú bezpilotné záchranné zložky, ktoré budú môcť ísť hasiť či zachraňovať do exponovaných terénov, bez toho, že by ohrozovali životy samotnej posádky vrtuľníka či lietadla.

o2o, kľúč k úspechu platformy. OnlineToOffline (o2o) je koncept, kde začnete službu v online prostredí, na jej konci je hmotné plnenie vo fyzickom svete. Príkladom takýchto služieb je E-commerce, Uber či Booking.com. Trhoviská, ktoré ponúkajú o2o produkty sú pre ľudí uchopiteľnejšie ako čisté virtuálne služby (samovzdelávacie kurzy, online obchod so softwarom). Ľudia totiž cítia fyzický rozmer takejto služby. Preto sme za takúto službu (napr. doručenie pizze) ochotní aj niečo zaplatiť, kdežto služby ako online daňové poradenstvo zatiaľ len pomaly zbierajú svojich nadšencov.

Čo je tento raz inak? Minulé priemyselné revolúcie sa často používajú ako príklad toho, že ľudstvo sa vysporiadalo s prudkými zmenami na trhu práce. Optimisti tak hovoria, že ani AI nebude pohromou pre pracovné miesta (mimochodom tu pár slov, prečo ani samotný Kai-Fu Lee nie je optimistom na túto tému). Táto kniha prináša však jeden zaujímavý pohľad na túto problematiku, v podobe Deskillingu. Pozornejším čítaním histórie totiž zistíme, že pracovné miesta, ktoré nahradili po priemyselnej revolúcií pôvodných pracovníkov mali povrchnejšiu znalosť o danej veci (tkáč vs. operátor tkáčskeho stroja, matematik vs. človek s kalkulačkou, …). tento jav sa volá Deskilling. Otázkou teda zostáva, či sme pripravení si pripustiť takýto proces v prípade zdravotníkov či učiteľov. Jednou vetou: V AI priemyselnej revolúcii prichádzajú na rad povolania, kde kredibilitu povolania si spájame piramo s ľudským faktorom.

Väčší dozor, nie menší. Kvôli kumulovaniu dát (a iným faktorom) majú AI služby väčšiu tendenciu ku vzniku monopolov, ako je tomu v ostatných odvetviach. (viď napríklad Google search) Je preto dôležité, aby nad AI odvetviami bol skôr silnejší než slabší (protimonopolný) dohľad ako nad tradičnými odvetviami. Tu však štáty zaostávajú nielen legislatívne ale aj kompetenčne. Nie je jasné, ako regulovať služby ako Facebook, a verejná moc ani nemá dostatok vzdelaných ľudí na ich prípadné účinné dohliadanie. Je to takmer ako keby na Úrade pre dohľad nad zdravotnou starostlivosťou nebol nik s medicínskym vzdelaním.

Ak vás niektorá z tém zaujala, neváhajte a prečítajte si celú knihu. Naozaj stojí za to. Ak ešte stále váhate, či je to dobrá investícia, pozrite si video Kai-Fu Leeho, kde o niektorých častiach tejto knihy priamo hovorí.

– – –

Na záver mi dovoľte jeden záver, ktorý je v knihe len nepriamo spomínaný, ale vysvetľuje aktuálne dianie aj u nás na Slovensku. Ide o fenomén voličov, ktorí podporujú nesystémové strany. Ak budete čítať knihu medzi riadkami, pochopíte, že títo ľudia sú skupina populácie, ktorá začala zaostávať za hlavným prúdom. Ich životná úroveň nerastie napriek tomu, že ekonomike ako takej sa darí. Vidiac, že väčšina okolo nich sa má lepšie, skúšali dorovnať svoj životný štandard (k tomu, čo vidia okolo seba) pomocou úverov. Preto rapídny nárast dlhu v najmenej finančne gramotných skupinách a preto diskusia o exekučnej amnestii. Sú to často skupiny ľudí, ktorí nemajú vhodné vzdelanie na aktuálne zaujímavé pracovné pozíciea, by sa vymanili zo svojej situácie a sú ako morča v bežiacom kolotoči. Skúšajú bežať rýchlejšie, ale nehýbu sa z miesta. Väčšinou nemajú dosť peňazí na to, aby si odložili niečo na dôchodok a teda ich budúcnosť je ešte temnejšia ako ich (už aj tak mizerná) prítomnosť. Nájde niekto chuť urobiť štúdiu mieru korelácie medzi rozdielmi v spoločnosti (napr. Gini koeficient) a podpory nesystémových strán v danej krajine?

Dva BigMacy a jedny Big Data, prosím.

Konečne sme sa dostali na rad. „Dva Big Macy a jedny Big Data k tomu, prosím“, prehodí nonšalantne kolega. Dievča za pultom je viditeľné zaskočené, skáče pohľadom striedavo po každom z nás. Balansuje niekde medzi tým, či prepočula druhú časť objednávky alebo si ešte nedostatočne naštudovala celé menu reštaurácie. Jemné sa zapýri a potom prikývne. S veľkou námahou zadržiavame smiech, aby sme sa neprezradili.

– – –

McDonalds_BigMacTakto vyzeral žartík, o ktorí sme sa pokúsili pár rokov dozadu pri jednej z návštev McDonaldu. Dávať do súvislosti Big Mac a Big dáta bola naozaj roztopašnosť. Koniec koncov, ako to celé dopadlo sa dočítate úplne na konci tohto blogu. To, čo vtedy vydalo na drobný žartík, však dnes už nie je na smiech. Aj tak priamočiary biznis ako nepochybne fast-food je, totiž začína objavovať zákutia dátovej analytiky a práce s umelou inteligenciou. Jednoznačným dôkazom tohto trendu je nevídaná akvizícia, ktorú sa sieť reštaurácií McDonald’s rozhodla realizovať.

Podľa informácií od portálu WIRED, tento obor v oblasti rýchleho stravovania sa rozhodlo kúpiť izraelskú firmu Dynamic Yield, ktorá sa špecializuje na machine learning algoritmy pre podporu predaja a zákazníckeho servisu. Ak vám už samotná podstata správy nedvihla obočie, pridám, že ide o najväčšiu akvizíciu akú McDonald’s urobil za posledných 20 rokov. Zákulisné informácie naznačujú, že cena Dynamic Yieldu predstavuje viac ako 300 mil USD, čo predstavuje približne 7% celosvetového cash-flow McDonaldu alebo 5% celosvetových tržieb za minulý rok! Pre porovnanie je to asi toľko, čo ich stojí vybudovať reštaurácie pre všetky škandinávske krajiny dohromady. Asi Vám rovnako ako mne preblesne hlavou: Čo si na umelej inteligencii tak McDonald’s váži, že je ochotný do nej „vraziť“ také peniaze?

Keďže produkty McDonaldu sú tak štandardizované, že neraz sú považované ja základný kameň jednoduchosti, ak by ste položili otázku, čo treba na biznise McDonaldu tak hĺbkovo analyzovať, zrejme by vám odpovedali niečo o optimalizácií logistiky zásob alebo mieru efektivity praženia hamburgerov, či hranoliek. Takto totiž vnímame McDonald’s my, zákazníci, spoza pultu. Možno vás preto prekvapí, že ten skutočný dôvod, prečo sa fast-food hrnie do sofistikovanej analytiky, sú práve zákaznícke dáta. Keďže však McDonald’s je stále výrazne limitovaný fyzickým počtom rôznych produktov, ktoré vám môže ponúknuť (na rozdiel od napríklad Amazonu), dáta klientov neslúžia na vymýšľanie modifikácií či stále nových verzií burgerov. Spôsob akým ohlásili, že použijú technológie od Dynamic Yieldu, je naozaj prekvapivý.

Pomyselnou bonanzou dátovej analytiky pre McDonald’s je proces drive-thru obsluhy. ( … , ktorý na Slovensku nie je ťažiskom tržieb, ale na západných trhoch predstavuje dôležitý podiel na celkovom výsledku. Big Data žartík sa teda v našich krajoch bude dať použiť ešte nejaký ten mesiac, ale v USA by ste užMcDonalds_DriveThrough mohli naraziť). Možno ste si všimli, že väčšina ponúk a pútačov v reštauráciách tejto siete sa za nedávne obdobie premenila na digitálne displeje. Táto zmena umožňuje nie len efektívne urýchliť výmenu nových ponúk za tie staré, ale umožňuje aj personalizovať ponuku pre konkrétneho zákazníka. Iste, pri štandardnom objednávaní priamo pri pulte v reštaurácií to zmysel nemá, lebo „personalizovaná“ ponuka by miatla okolo stojacich. Ale pri drive-in to možné je. Ako to celé teda bude fungovať?

Pri príjazde do drive-in sa pokúsi systém najprv rozpoznať, o ktorého zákazníka vlastne ide. Bude mať k dispozícií hneď niekoľko alternatív: rozpoznanie ŠPZky auta, beacon na vaše mobilné zariadenie, údaje o platobnej karte alebo pri najhoršom kombinácia produktov, ktoré si objednáte. Na základe rozpoznania (alebo odhadu) Vašej identity, následne systém využije čas, ktorý čakáte v rade na objednávku, doplní k vašej histórii nákupov údaje o miestnom počasí, eventoch v okolí a aktuálnej popularite položiek, ktoré ste si spontánne nevybrali, u ľudí ako ste vy a … ponúkne vám dodatočné, personalizované kupóny (ktoré stačí jedným dotykom premeniť na skutočný nákup). Ak vás systém dokáže rozpoznať ešte pred objednávkou zakomponuje dokonca aj faktory ako trvanie prípravy jednotlivých produktov (pre ulahodenie tým, čo majú naponáhlo) či relatívna dĺžka radu oproti štandardu pre danú hodinu v rámci dňa.

Nech vám to znie akokoľvek „prízemné“, vhodne personalizované up-sell (dopredaj) ponuky bežne dosahujú úspešnosť okolo 3-7%.  McDonald’s denne v priemer obslúži 68 miliónov klientov. Ak sa k tomu pridá fakt, že by zrýchlením obsluhy mohol McDonald’s predísť tomu, aby sa časť zákazníkov namrzene otočila pri pomaly hýbucom sa rade áut, je ľahké si predstaviť, že návratnosť investovaných 5% tržieb môže byť takmer okamžitá. Navyše s rastúcim počtom ponúk klientom sa systém ešte viac “vycibrí“ a ponuky budú čoraz adresnejšie (a teda aj častejšie úspešné). Aké prínosy prinesie umelá inteligencia pri obsluhe „nemotorizovaných“ zákazníkov priamo vo vnútri reštaurácie, bude dodatočným žolíkom v tomto projekte. (face regnition systémy sú však už dnes v retaili štandardom, takže na seba zrejme nenechajú dlho čakať). Umastená pásová výroba rýchleho jedla, ako neraz McDonald’s vnímame, sa tak posúva do novej éry. Kto by to bol ešte pár rokov dozadu bol povedal?

– – –

Smiech nás nakoniec porazil. Držali sme sa statočne, ale keď pristála pred nami tácka s objednávkou, už sa to nedalo vydržať a vybuchli sme. Vedľa dvoch veľkých hamburgerov ležali veľké hranolky. Rýchlo sme chmatli po burgeroch a tak objednávajúcemu zostali namiesto obedu len dlhé, zemiakové Big Data. Nuž veď tak mu treba. Objednal si Big Data o pár rokov príliš skoro.

 

Dáta opäť prehovorili: AKÉ SÚ ŠANCE ŠEFČOVIČA na OBRAT?

Pred 5 rokmi, medzi prvým a druhým kolom prezidentských volieb som zanalyzoval dostupné dáta a pokúsil sa ponúknuť voličom aj iný pohľad ako, prepáčte mi, otrepaný pohľad na mapu okresov, kde ktorý kandidát zvíťazil. (Analýza je stále dostupná tu). Mal som vtedy na analýzu (až prekvapivo) pozitívne ohlasy, dokonca ma citoval vo svojom vystúpení aj Marián Leško z TRENDu (pozdravujem Marián, dávam Vám šancu na repete 😊 aj tohto roku). Rozhodol som sa preto tento počin zopakovať a prinášam Vám niekoľko pohľadov, ktoré nenájdete v žiadnych iných médiách. Verím, že by Vám mohli byť užitočné pri rozhodovaní v 2. kole  prezidenstkých volieb.

 

Na volebné dáta sa dá pozerať z veľkého množstva uhlov pohľadu. Ešte než sa pustíme do samotného obsahu, dovoľte mi jeden krátky odsek o tom, prečo som vybral práve nižšie uvedené informácie. Keďže výsledok prvého kola bol pomerne jasný, väčšina výskumných agentúr sa rozhodla nerealizovať (verejné) prieskumy o tom, ako sa nálady menia po prvom kole. Zuzana Čaputová spolu s Marošom Šefčovičom mali spolu necelých 60% platných hlasov, zostáva teda 40% hlasov, ktoré sa (teoreticky) môžu prikloniť na ľubovoľnú stranu. Jediné indikácie o tom, kam by sa mohli presunúť, ponúkla Markíza v povolebnom štúdiu, ale aj tie pochádzali z vyjadrení voličov ešte pred prvým kolom. Ako voliči sme teda v informačnej tme, čo sa môže udiať s týmito 40%. Pritom ide o tak veľký balík, ktorý môže spôsobiť aj opačné poradie ako v prvom kole. Druhou podstatnou témou pre výsledok druhého kola je účasť na hlasovaní. Musím priznať, že mi dvíha dekel, ako povrchne sa diskutuje v médiách o tejto téme. Pritom dáta jednoznačne ukazujú, komu účasť prispela už v prvom kole a čo to znamená pre mobilizáciu druhého kola. Posledným fenoménom, ktorý sa vo volebných analýza hodne fláka, je pri akej úrovni sčítanosti už možno “otvoriť šampus“. Pridám preto jasnú odpoveď na túto tému, ktorá by mohla prísť vhod, keď si budete obhrýzať nechty z prvých predbežných výsledkov v sobotu v noci.

1] Ku komu inklinujú voliči kandidátov, ktorí nepostúpili do druhého kola

Jedna z vecí, ktoré ma ako voliča trápili, že pomerne veľká časť voličov (kontrétne cca 40%) je v nejasných rukách. Pritom je to balík tak závažný, že by dokázal zvrátiť celkový výsledok volieb. Medzi prvým a druhým kolom pritom nevyšiel žiaden prieskum, ktorý by monitoroval presun týchto voličov. Média to odbili komentárom, že títo voliči budú frustrovaní (a k voľbám nepôjdu) alebo sa uspokojili s výsledkami prieskumu Focusu, ktorý bol prezentovaný na TV Markíza ihneď po uzavretí volebných miestností. Problémom však je, že spomínaný prieskum bol vyhotovený ešte pred samotným prvým kolom a teda validita jeho odpovedí na to, čo by urobili sklamaní, nie je príliš veľká, keďže (minimálne voliči Harabina) to mohli brať ako hypotetickú otázku, nakoľko verili v postup svojho kandidáta.

Nedalo mi to a rozhodol som sa detailne zanalyzovať výsledok prvého kola. Pre seba a pre všetkých, ktorých to rovnako trápi. Preskúmal som, ako boli kandidáti najčastejšie podporovaní podobnými skupinami obyvateľstva a s ktorými inými kandidátmi majú v tejto podpore najväčšiu podobnosť. Celkovo bolo analyzovaných viac ako 15 dimenzií tejto podobnosti, ale pri premietnutí do 2D zjednodušenia pre 3 najsilnejších kandidátov, sa nám naskytne tento pohľad o vzájomnej podobnosti voličov jednotlivých kandidátov:

VZDANIE sa_2

 

Hneď niekoľko zistení je pritom veľmi zaujímavých. V prvom rade, podpora pre Kotlebu sa vyrázne viac podobala na podporu pre Šefčoviča ako pre Harabina. Myslím teda, že keby sa bol Kotleba vzdal v prvom kole bez odporúčania pre svojich voličov, mnohí by boli prekvapení, že náskok Šefčoviča by bol paradoxne ešte vyšší. Pomerne prekvapivým je aj zistenie, že voliči Mikloška sa svojim rozložením v spoločnosti najviac podobali na voličov Štefana Harabína, nie Zuzanu Čaputovú, ako sa všeobecne traduje. (Postrehli ste zmätočné vyjadrenie dvoch Mikloškovcov?). Keďže však František Mikloško jasne vyzval svojich voličov uvidíme, ako toto vyjadrenie prekryje oficiálnu doktrínu biskupov, ktorí drukujú Šefčovičovi. Aj keď Béla Bugár blúznil o tom, že jeho voliči radšej volili proti extrémizmu (a preto mal patetických 3.11%), v skutočnosti sa aj tí, čo mu hlas dali, veľmi silno zhodovali s tými, ktorí už v prvom kole volili Zuzanu Čaputovú. To bol koniec koncov zrejme aj dôvod, prečo rebelsky v druhom nepodporil vládneho kandidáta. Zrejme sa obával, že by tým reputačne uškodil samotnému Mostu-híd. A keďže on už nemá o čo hrať, je tento jeho krok aspoň výkrikom pudu sebazáchovy.

2] Čo to znamená pre druhé kolo

Ak vyjmeme z daného pohľadu sudcu Harabina a “donútime” model, aby sa vyjadril o elektoráte len na základe podobnosti s kandidátmi postupivších do druhého kola, mapa kandidátov prvého kola vyzerá nasledovne:

VZDANIE sa_3

 

Z uvedeného je vidieť, že hoci len mierne, ale predsa, väčšina voličov kandidátov nepostupujúcich do druhého kola sa viac podobá na voličov Maroša Šefčoviča ako na voličov Zuzany Čaputovej. Pre druhé kolo sú tak dôležité dva faktory: 1] Ako novootvorené témy (alebo silnejší akcent už otvorených tém), dokáže mobilizovať ktorú časť voličov? Bez toho, že by som v tejto analýze priamo drukoval niektorému z kandidátov je potrebné pripomenúť, že Zuzana Čaputová skôr témy opakovala, zakiaľ Šefčovič hral všetkými farbami tém v druhom kole. 2] Druhým podstatným faktorom bude, akú mobilizáciu k účasti sa podarí jednotlivým táborom dosiahnuť. A o tom viac už hneď v najbližšom bode.

3] Akú úlohu hrala účasť už v prvom kole (a čo to hovorí pre kolo II.)

Oba tábory kandidátov druhého kola sa vyjadrovali k účasti. Opäť som však na túto tému nepostrehol v médiách žiadnu relevantnú analýzu. Naštastie o tomto aspekte hovoria výsledky prvého kola veľmi presne. Účasť sa pohybovala v jemnom nadpriemere 1. kôl prezidenstkých volieb, teda žiadna hypermobilizácia ala “zastavme mečiarizmus” sa v prvom kole voľby nekonala. Nekonala sa však v priemere. Výsledky niektorých kandidátov, naopak, viac či menej ťažili z účasti už v prvom kole. Konkrétne, keď sa detailne pozrieme, ako účasť korelovala s relatívnym výsledkom jednotlivých kandidátov , zistíme nasledovné:

UCAST_1

Výsledok Zuzany Čaputovej nebol priamo závislý od účasti v jednotlivých okrskoch. Za to výsledok pánov Harabin, Mikloško, Chmelár a prekvapivo aj Šefčoviča už v prvom kole boli “na steroidoch účasti”. Nadpriemerne sa im darilo v okrskoch, kde bola vyššia účasť a naopak podpriemerný výsledok dosahovali v okrskoch, kde aj účasť bola podpriemerná. Zaujímavé sú výsledky kandidátov Krajniak a Bugár, ktorí zjavne podcenili mobilizáciu svojho elekorátu k voľbám. Uvedeným pánom sa naopak darilo iba tam, kde bola účasť hlboko pod priemerom a v okrskoch, kde prišlo veľa ľudí voliť si táto kandidáti “neškrtli”.

Oveľa dôležitejšie je posolstvo tohto grafu pre odhad výsledku druhého kola. Keďže ani kandidáti Harabin, Chmelár a Kotleba nedali odporúčania pre svojich voličov a na to, aby ich samotných volili, museli použiť pomerne silnú motiváciu, je vysoko pravdepodobné, že títo voliči sa druhého kola nezúčastnia. Naopak náskok Zuzany Čaputovej vznikol napriek veľmi nízkému vplyvu mobilizácie. Vo veľmi nelichotivej situácií je štáb Maroša Šefčoviča. Už výsledok prvého kola bol “vydretý” a teda na čo i len obhájenie výsledku prvého kola bude potrebné burcovať k účasti. Navyše ich hlavné zdroje potenciálneho zlepšenia v druhom kole (elektoráty pánov Chmelár, Harabin a Kotleba) bude treba mobilizovať ešte mohutnejšie  ako v prvom kole. To je naozaj pekelne ťažká úloha. Ako relatívne cenný naopak môže byť “dar” Bélu Bugára. Ak jeho voliči dajú na jeho odporúčanie, tak prídu k voľbám aj bez prudkej mobilizácie.

[Uvedená analýza vychádza z miery korelácie medzi výsledkom kandidáta v danom okrsku vzhladom na svoj priemerný zisk a mierou účasti v danom okrsku v porovnaní s celoslovenským priemerom. ]

4] Kedy možno otvrárať šampus ?

Jedna z vecí, ktoré ma ako dátového analytika iritujú asi najviac, sú bláboly o tom, ako treba počkať na sčítanie väčšieho počtu hlasov. Stalo sa z toho klišé, ktoré každý prijíma bez toho, že si dal námahu preveriť, ako to naozaj je. (Pritom ak rozdiel kandidátov je viac ako 15% a sčítaných je viac ako 34% hlasov, pravdepodobnosť, že sa to ešte obráti naopak, je asi taká ako na pád dopravného lietadla.) V jednej z dnešných analýz by som rád preto dal zadosť aj tejto téme. Veľkou pomocou v nastolenej otázke je fakt, že nemalá časť okrskov sa dnes už sčítava priamo za pomoci počítačov z volebných miestností. Kedysi museli predsedovia volebných komisií utekať s papierovou verziou zápisnice na obvodný úrad (ktorý bol neraz aj desiatky km ďaleko) a keď na úrad prišli, zaradiť sa do fronty s poslami z ostatných volebných miestností. Celkové sčítavanie tak malo veľa náhodnosti. Pri druhom kole prezidentských volieb však hlavný  faktor toho, keby bude okrsok započítaný, hrá počet voličov , ktorí v danej miestnosti hlasovali. Totiž otvoriť, prezrieť a spočítať hlasy z 200 obálok trvá minimálne 2krát toľko ako zo 100 obálok. (v skutočnosti je závislosť takmer kvadratická, aj keď ovplyvňuje ju aj počet členov komisie). Keďže však účasť nekolíše radikálne medzi regiónmi, počet odovzdaných obálok je silne korelovaný (konkrétne na 99%) s počtom voličov v danom okrsku. To znamená, že sa dá pomerne presne zosimulovať proces sčítavania hlasov. (ak niekde nevypadne elektrina alebo nezasiahnu iné vážne vplyvy)

Šanca zvrátiť postupne sa vyvíjajúci trend výsledkov s postupným pribúdajúcimi okrskami sa riadi nasledovnými pravidlami:

a] Výsledky kandidátov majú určitú spoločnú tendenciu, je veľmi zriedkavé, že ak v jednom dosatočne veľkom okrsku je pomer hlasov pre kandidátov 30:70, tak vo vedľajšom okrsku je naopak 70:30. Keďže sčítanie prebieha paralelne vo všetkých regiónoch, je zabezpečená relatívne silná reprezentatívnosť priebežných výsledkov. Jediným faktorom, ktorý sa otvorene priznáva je faktor väčších miest, kde väčšina okrskov má nadpriemerný počet voličov a teda sa do sčítavania dostávajú ako posledné. (Reálne prezrieť a sčítať vyše tisíc obálok vždy bude trvať zásadne viac ako 300 obálok).

b] Áno, niektorí kandidáti veria stále v zmenu aj po definitívnom sčítaní všetkých hlasov , matematika však nepustí. S pribúdajúcimi sčítanými okrskami totiž na zvrátenie potrebujete čoraz bizarnejšie výsledky v tých zatiaľ nesčítaných okrskoch.

c] Napriek tomu  že medzi podporou kandidátov v jednotlivých regiónoch existujú rozdiely, zisky jednotlivých kandidátov sú celoslovensky korelované. Napríklad dáta hovoria, že keby ste mi  povedali výsledok Zuzany Čaputovej v nejakom orsku a účasť v danom okrsku, v 49% prípadov (!) by som vám vedel povedať zisk Štefana Harabina v danom okrsku (s presnosťou na 5 hlasov). Ak by ste mi dali toleranciu plus mínus 30 hlasov, moja úspešnosť v hádani Harabinovho počtu hlasov by sa zvýšila na vyše 70% percent.

Kombinácia vyššie uvedených faktorov v skutočnosti umožňuje pomerne presne simulovať výsledky volieb: Takto napríklad vyzerali krivky volebného zisku dvoch najsilnejších kandidátov podľa postupného sčítania hlasov, pričom na x-vej osi je počet sčítaných hlasov v daný moment:

MODEL_UCASTI_1

 

Na dobrý odhad bodu, kedy možno už otvárať šampus, je teda možné použiť metódu na západe ľudovo nazývanú Point of No Return (PoNR, poďa rovnomenného fyzikálneho javu, odborne ide o progresívne binomické rozdelenie). Podstatou tejto metódy je, že sa pýta, ako by voľby dopadli, keby vo všetkých ostatných (zatiaľ nesčítaných) okrskoch hlasovanie dopadlo PRESNE NAOPAK, ako ukazujú doposiaľ sčítané okrsky. Táto metóda je skutočne vhodná, lebo požaduje veľmi radikálnu zmenu v sčítavaní okrskov. V skutočnosti sa zmeny zo 60:40 na 40:60 prakticky nedejú a teda šance na reálne zvrátenie výsledku sú ešte menšie ako prípúšťa  PoNR. Pozrime sa, aké hranice PoNR predpovedá pre model Slovenských volebných okrskov pre rozdielne hladiny náskokov jedného z kandidátov:

MODEL_UCASTI_2

Aby ste nemuseli v grafe sliepniť, prezradím vám, že bod, keď už výsledky sú bezpečné je v mieste, kde jednotlivé farebné krivky pretínajú šedú čiaru. Ak priebežné výsledky ukážu 15% náskok prvého kandidáta, tak bezpečná hladina na závery je už pri 34.2% sčítanosti hlasov. Pri 10% náskoku je potrebné si počkať do takmer 38% sčítanosti. Aj pri tesnom náskoku 2%, ak nie je rozkolísaná účasť v krajine, sú výsledky silne smerodajné pri sčítaní cca 60% hlasov. Jediné, čo by mohlo ešte zamávať istotou PoNR metódy je ak by druhý kandidát mal zásadne silnejšiu podporu veľkých miest. Graf prvého kola však ukazuje, že vo veľkých mestách výrazne dominuje Z. Čaputová, takže tento faktor zostáva len v teoretickej rovine.

Na záver jeden kratučký komentár k blogu, ktorý som napísal k prvému kolu. Hovoril som v ňom, že podpora Harabina stúpa a že v nepriamych metrikách už preskočil aj kandidáta Ševčoviča. Po výsledku prvého kola sa niektorí s úškrnom pýtali, kde je teda Harabin v druhom kole. Ak ste mali šancu sledovať v blogu načrtnuté metriky úplne do konca kampane pred prvým kolom, za posledných 5 dní od zverejnenia blogu do samotných volieb sa v mnohých metrikách Šefčovič opäť dotiahol alebo dokonca predčil Harabina. Team Šefčoviča naozaj „robil možné aj nemožné“ posledné dni, aby ho prepasíroval do druhého kola. (Spomeňte si na tancujúceho Eurokomisára z mítingu v Bratislave.) Aj keď sa nevyhýbam kritike, že nepriame metriky zrejme slabšie pokrývajú off-line svet, treba povedať, že celkový výsledok Šefčoviča z prvého kola sa od indikácií z posledného dňa pred voľbami líši približne o 1.7%, čo je pod hranicou štatistickej chyby aj reprezentatívnych prieskumov. Preto si myslím, že tento druh analýz má zmysel aj do budúcna.

PREČO by sa DÁTOVÉ POZÍCIE mali OBÁVAŤ nástupu AI?

Blížiaca sa vlna automatizácie nepochybne zmetie niektoré profesie a tie zaniknú. Nahradené budú umelou inteligenciou a intenzívnym využívaním dát a senzorov. Na prvý pohľad to teda vyzerá, že triasť by sa mali bežné, manuálne profesie a naopak povolania pracujúce s dátami vyjdú z tejto vlny víťazne. Prečo by sa teda „dátové“ povolenia vôbec mali obávať?

Ak sa pozriete hlbšie …

Problémom tejto diskusie je, že sa (mylne) predpokladá, že čokoľvek, čo obsahuje dáta, automaticky stojí na správnej strane rieky. Keď si však dáme pár krokov späť a pozrieme sa na danú tému bez predpojatosti, uvedomíme si, že:

A] veľká časť úkonov, ktoré dnes dátoví analytici robia, má povahu monotónnej, opakujúcej sa  a algoritmizovateľnej práce. Zakiaľ som pôsobil na Slovensku všetky tieto kroky v team, kde som pôsobil naozaj robili ľudia. V zahraničí, kde pôsobím teraz, sa 9 z 12 najbežnejších úkonov analytikov už realizuje automatizovane. Prichádzajúca vlna AI na tento postup ešte intenzívnejšie zatlačí.

B] Platové ohodnotenie Dátových analytikov (Data Scientist) na západe zaznamenávalo vysoké rasty niekoľko rokov. Za posledné dva roky 2017-2018 už začali platy týchto vychýrených pozícií už stagnovať, či dokonca mierne klesať. Nie je to preto, že by trh potreboval menej Dátových scientistov, to skôr naopak, dopyt je stále vysoký. Cena práce však už dosiahla hranicu, ktorá je pre zamestnávateľov rentabilná. Firmy teda začínajú rozmýšľať, ako prácu Dátových scientistov kompenzovať alebo aspoň zlepšiť efekt za jednotku nákladu u týchto zamestnancov.

C] Vo všeobecnosti každá hospodárska kríza vedie k rušeniu pracovných miest, to je bežný cyklus ekonomiky. Po zotavení sa z krízy, naopak, sa spravidla pracovné miesta opäť vrátia na trh práce. Aktuálna hospodárska kríza, ktorá už naplno začína (v krajinách ako Nemecko, Čína, či Veľká Británia), bude trochu iná ako tie predošlé. Mnoho pracovných miest, ktoré táto kríza zruší už totiž nikdy nebudú obnovené. Dôvodom pre tento postup bude fakt, že zamestnávatelia, ktorí budú po doznení krízy potrebovať opäť navýšiť kapacity, budú mať na výber nahradiť dané miesto strojom alebo človekom. Vzhľadom na vysoké mzdy v daných profesiách sa rentabilita strojov v mnohých odvetviach prichýli k strojovému riešeniu.

D] Mylná ilúzia stability dátovo spracujúcich pracovných miest sa opiera aj o optický klam, že keď aktuálne je po Data Scientistoch taký dopyt, tak je to predsa bezpečné zamestnanie, po ktorom bude dopyt aj naďalej. Nech tento pohľad vyzerá akokoľvek vierohodne, história nás upozorňuje na príklady z minulosti, ktoré poukazujú, že to je to len sebaklam. Ako najrukolapnejší príklad by som chcel uviesť pozíciu pokladníkov v supermarkete. Patria dnes medzi najťažšie obsaditeľné pracovné pozície. Vyústením však nie je pokračujúci dopyt po nich, ale naopak nedostatok sa maloobchodné siete rozhodli nahradiť časť pokladníkov pomocou samoobslužných pokladničných zón. Nedostatok teda neraz môže viesť aj k menej intuitívnym riešeniam.

Ak sa vyššie uvedené faktory skombinujú, téma ohroziteľnosti samotných dátových pozícií sa stáva reálnou témou. S prekvapením musím konštatovať, že po tejto téme naozaj už existuje (nielen v zahraničí) aj veľký dopyt medzi komunitou dátových analytikov. Pretože, keď som dohadoval témy vystúpení na niekoľko najbližších konferencií, vo všetkých prípadoch si organizátori vyžiadali hovoriť práve o tejto téme.

Tak tomu bolo aj v prípade aktuálneho ročníka SOFTECON konferencie 2019, ktorá sa venovala umelej inteligencii. S organizačným výborom som sa dohodol, že prednesiem príspevok na tému „Ktoré časti dátovej analytiky prežijú (prvý) útok robotov?“. Sľúbené som dodržal a tak prikladám sumár mojich slidov z tohto podujatia:

SLIDY Z PREZENTACIE >>>> SOFTECON_2019_FILIP_VITEK_Ktoré časti Dátovej analytiky prežijú útok robotov

Nájdete v nich nielen vyššie uvedené premisy, ale zároveň aj dôležité odpovede na otázky ako: Čo by som mal ja, dospelý, robiť, aby ma vlna umelej inteligencie nezmietla? Aké zručnosti zaručia väčšie šance „na prežitie“? Čo robíme nesprávne (a tým znižujeme latku pre robotov)? Čo by ste mali poradiť svojim deťom, aby študovali pre dobu, ktorá prichádza? Akú úlohu by v tomto procese mal zohrať štát?

Keďže ide o pomerne kontroverznú tému, ktorá sa navyše stále vyvíja, budem rád za akýkoľvek názor alebo spätnú väzbu.

Ak vás táto téma oslovila, mohlo by Vás zaujímať:

AKÚ ALTERNATÍVU k AI vlastne ako ľudstvo máme?

5 dôležitých VIDEÍ O AI (ktoré by ste mali vidieť.)

Táto kniha bude Biblia 21. storočia

Vedci objavili oblasti, kde stroje nestačia na ľudí

Prezidentské voľby: ŠEFČOVIČ už je TRETÍ!

Na volebné moratória existujú rozmanité názory. Na Slovensku prevážila obava, že “pofidérne” prieskumy tesne pred dňom volieb by mohli strhnúť na svoju stranu určité skupiny voličov (ktoré chcú voliť víťaza). A tak sa posledné dva týždne pred konaním volieb nesmú zverejňovať prieskumy verejnej mienky. Ako voliči sme tak ukrátení o sledovanie výsledkov boja kandidátov. A pritom úplne zbytočne …

Nefunkčná ochrana

Zákon totiž zakazuje 14 dní pred a počas priebehu volieb zverejňovať výskumy verejnej mienky. Avšak uvedené ustanovenie je bezzubé hneď z troch dôvodov:

A] zakazuje zverejňovať len prieskumy verejnej mienky priamo o kandidátoch. Ak by ste zrealizovali výskum s otázkou, na ktorej adrese sa budú podľa viac najviac tešiť z výsledku volieb na prezidenta a uvideli adresy jednotlivých kandidátov (odhliadnime od toho, že ich ľudia nepoznajú), tak nejde o prieskum verejnej o kandidátoch.
B] zákon zakazuje zverejňovať len prieskumy, ale vôbec nezakazuje zverejňovať kľudne iné indikátory, ktoré napovedajú o podpore kandidátov (ako návštevnosť ich stránok, postupný vývoj v sume darovaných peňazí pre jednotlivých kandidátov, súčet ľudí, ktorí boli na meetingu jednotlivých kandidátov, …)
C] Zákon sa vzťahuje iba na územie SR, na ktorom platí naša jurisdikcia. Ak sa nejaký občan Nigérie, Číny, či Nového Zélandu rozhodne urobiť si prieskum o tom, ako dopadnú Slovenské prezidentské voľby a zverejniť tento prieskum vo svojej krajine, nik mu v tom nebráni. Jediné, čo sa nesmie stať, nik z lokálnych médií nesmie takúto správu zo zahraničia prevziať. Uvedený prieskum však môže byť kľudne verejne dostupný na zahraničnej internetovej stránke.

Ochrana pred manipuláciou prieskumami je teda zjavne iba formálna. To, či sa človek dostane k informáciám o zmenách v podpore kandidátov teda závisí iba od šikovnosti konkrétneho občana. Myslím si, že nadchádzajúce voľby budú veľmi dôležité. Preto ľudia, ktorí sú bližšie spätí s dátami by mali pomôcť dorovnať Vaše šance zostať informovaní o vývoji v podpore kandidátov aj počas posledných 14 dní pred voľbami. Kvalitnú robotu v tomto ohľade už urobil Gabo Tóth na tejto stránke, kde monitoruje denno-denne zmeny v duchu vyššie uvedeného bodu B], odporúčam vám si to pozrieť. Ja sa pridám a pridám ďalšie pohľady typu B] (t.j. metriky podpory kandidátov iné ako prieskumy)

Šefčovič rozhodne už tretí

Zakiaľ posledné, legálne zverejnené prieskumy ukazovali poradie Čaputová, Šefčovič, Harabin, aktuálne príznaky poukazujú na tom, že zrejme prišlo k radikálnej zmene. Ak si zoberieme dáta z Google trends (stránka monitorujúca ako veľa ľudí si hľadá informácie o jednoltivých kandidátoch), zistíme, že hoci po vyhlásení kandidatúry jasne predčil Maroš Šefčovič kandidáta Štefana Harabina, aktuálne sa pomer radikálne obrátil. Špeciálne vývoj posledných pár dní je prekvapivý, až šokujúci:

HARABIN_1

Mráz po chrbte prináša aj pohľad na ďalší ukazovateľ, konkrétne Alexa Page rank, ktorý zostavuje priamo Google a slúži na porovnanie celkového záujmu o danú stránku na základe návštevnosti a odkazov iných webov na danú stránku. V tejto metrike dokonca Štefan Harabin predčil aj Zuzanu Čaputovú a jeho stránka je podľa oficiálnych štatistík Googlu 703tia najžiadanejšia stránka v Slovenskej Republike (Čaputová = 882 a až Šefčovič = 3390).

HARABIN_2

Ak sa až tak v Slovenskom internete nevyznáte a potrebujete si to k niečomu prirovnať, tak vedzte, že Automobilka Škoda alebo UPC sú niekde okolo čísla 500 – 600:

HARABIN_3

Pre korektnosť treba povedať, že Alexa Page rank metrika zvýhodňuje do istej miery stránky, ktoré existujú dlhšie, pretože neumožňuje nováčikovi vyletieť z nuly hneď na výslnie. Harabin svoju stránku prevádzkuje (pôvodne ako svoj blog) už oveľa dlhšie, čomu nasvedčuje aj fakt, že za posledné týždne sa jeho Alexa skóre už menilo len jemne, zakiaľ skóre Čaputovej raketovo rástlo. (čo sa o Šefčovičovi vôbec nedá povedať). Ale aj tak, je to zdvihnutý výstražný prst.

Čo spôsobuje túto prekvapivú zmenu?

Možno si kladiete otázku, čo spôsobuje túto prekvapivú zmenu. Navonok totiž stránky Štefana Harabina nie sú ani pútavejšie ani presvedčivejšie. Nahliadnuť do zákulisia nám umožňuje pohľad na ďalšiu zaujímavú metriku, konkrétne Intenzitu vyhľadávania na Youtube. Ak sa pozrieme, ako sa v tejto rovine darí vyššie uvedeným trom kandidátom, naskytne sa nám nasledovný pohľad:

HARABIN_4

Pritom dátumovo sa prudké nárasty Štefana Harabina na YouTube zhodujú s vypustením dvoch videí: Kazačok tohto kandidáta na pesničku speváka zosnulého v minulom týždni (z osobných dôvodov sem nebudem dávať priamo link) a videa z rozhovoru tohto kandidáta s redaktorkou SME. Niektorí môžu namietať, že obi dve videá mohli v skutočných volebných preferenciách skôr ublížiť ako pomôcť, lebo z nich vyšiel prinajmenšom neseriózny. Nuž, pre týchto neveriacich Tomášov pripájam ešte jedno poučné porovnanie.

Aj negatívna reklama, žiaľ, je reklamou

Ak existuje na Slovenskom poli niekto, kto je prototypom toho, že videá na YouTube mu oveľa viac škodia ako pomáhajú, tak to určite je …. (áno, mnohí ste správne uhádli) kpt. JUDr. Andej Danko. Myslím, že nech už zvolíte ľubovoľné video z YouTube o našom predsedovi NRSR, iste sa zhodneme, že nezvyšuje jeho morálny kredit ani mu nevytvára širšiu voličskú základňu. To je však užitočné pre naše porovnanie, lebo zároveň to dokumentuje aká časť Slovenského internetu sa na YouTube zabáva na politických videách bez toho, že by daného politika nutne volila. Preto, keď preložíme mieru záujmu o jeho videá a videá kandidáta Harabina, odhalí sa dôležitý trend:

HARABIN_5

Do začiatku kampane sa ich sledovanosti pohybovali na približne rovnakej úrovni. Obaja boli terčom len posmechu. Za posledné týždne však modrá krivka Š. Harabina začala výrazne stúpať a za posledný týždeň boli videa prezidentského kandidáta vyhľadávane na YouTube 10x častejšie ako pána kapitána. Iste. Môžete namietať, že Harabín sa „zhovadil“ 10x viac ako Andrej Danko, ale nepochybne uznáte, že latka predsedu parlamentu je v tejto disciplíne tak vysoko, že toto nie je realistické vysvetlenie.
Ostáva teda priznať si druhé možné vysvetlenie, že videá Š. Harabin sa nepozerajú len pre výsmech, ale pre reálny záujem o tohto kandidáta.

Čo nám z toho plynie?

Zo všetkého vyššie uvedeného sa dá o mnohom polemizovať, ale jedno je nad nebo jasnejšie. Kandidát Maroš Šefčovič už je v aktuálnych náladách voličov jasne na treťom mieste. Zároveň súboj o prvé a druhé miesto, postupujúce do ďalšieho kola volieb nie je vôbec nezaujímavý. Netreba zabúdať, že všetky hlasy Šefčoviča a Kotlebu sa len veľmi ťažko budú „guľať“ smerom k Z. Čaputovej v druhom kole. Rovnako, už spomínané metriky z blogu Gaba Tótha ukázali, že raketovo letiaca podpora Čaputovej doznala po útokoch cez “ liberálne témy“, “Milosť Kiskovi“ a “neskúsené dievča“ určité korekcie. Rozdiel medzi prvým a druhým kandidátom sa tak neustále stenčuje.
To je dôvod, odložiť všetky pseudo povinnosti (na ktoré bude nespočetne mnoho iných šancí počas 5 ročného mandátu najbližšieho prezidenta) a vybrať sa voliť už v prvom kole. To je aj dôvod, prečo my celá rodina cestujeme na Slovensko hodiť do schránky náš hlas. Urob tak prosím aj ty!

Pýtajte sa ľudí okolo

Na záver dodám, že podľa dlhodobých štatistík až niečo viac ako 20% voličov sa rozhoduje posledných 24 hodín pred samotnou voľbou (vrátane pár minút za samotnou plentou). Skúste sa ľudí na pracovisku, na tréningu, či káve najbližší týždeň spýtať, či už vedia, koho pôjdu voliť. Nemusia Vám povedať to meno, len či už sú rozhodnutí. Ak povedia, že nie, naznačte im dôvody, pre ktoré chcete voliť vy svojho kandidáta. Keď sa spýtajú na konkrétne meno, nechám to na vás, ako otvorení budete chcieť byť. Ak však naozaj chcete pomôcť svojmu kandidátovi, povedzte im, koho budete voliť vy. Možno ich tým ušetríte sobotného tipovania. Pevnú ruku na urnou, prajem!

Mohlo by vás ešte zaujímať:

Dáta UKÁZALI PRAVDU o prezidentských kandidátoch

Voľby sú ako HADOOP

5 NAJDôLEŽITEJŠÍCH analýz o prezidentských voľbách