NECHOĎTE pracovať do GOOGLU, skúste RADŠEJ …

Ak to so svojou kariérou dátového analytika myslí človek vážne, prirodzene ho začne priťahovať myšlienka pracovať pre jedno z odvetví, kde je rast dát najrýchlejší. Tam sa totiž „pečie“ koláč budúcnosti. Presne preto boli „magnetické“ najprv telekomunikačné firmy a banky v 90tych rokoch, po roku 2000 E-commerce a za posledné desaťročie najmä sociálne siete. Viete však čo je “v trúbe“ na to najbližšie obdobie?

Mnohí by možno odpovedali, že najlepšie miesto pre vybláznenie sa „dátového analytika“ musí byť predsa Google. Veď, ruku na srdce, čo vlastne o nás Google nevie? (odpoveď TU, 16min:40sek ) Nuž, možno by vás prekvapilo, že keby sme zobrali jednotlivé služby Google samostatne jednu po druhej, tak existujú firmy, ktoré majú oveľa viac dát ako tieto produkty Google. Začínate krútiť hlavou? Možno čas poopraviť si mienku.

Fenomén Búrka

Ak chcete správnu odpoveď uhádnuť sami, tak tu sú pre vás ešte dve indície (otca Furasa z veže): 1) Skupinové aktivity generujú vždy viac dát ako obsah generovaný jednotlivcom; 2) Dáta o pohybe (video) poskytujú oveľa viac premenných ako statické obrázky, zvukové stopy alebo len čistové textové údaje. Ak si trúfate uhádnuť, čo za odvetvie to je, tak sa nachvíľu tu zastavte v čítaní (ďalší odsek odkrýva správnu odpoveď). My ostatní ideme priamo na to.

Digitálnymi hrami aktuálne máva fenomén Fortnite. Táto hra má aktuálne približne 200 miliónov pravidelných používateľov (MAU = monthly active users) a v každej sekunde sa ju hráfortnite_logo približne 8.5 milióna hráčov súčasne po celej planéte. Keďže ide o multi-player hru, jej tvorcovia (štúdio EpicGames) musia dôkladne ukladať, čo každý z hráčov urobil. Pretože práve vzájomné interakcie hráčov sú to, čo rozhoduje o tom, či Vaša  postava prežila alebo ste z hry vypadli. Vo Fortnite totiž (pod rúškom prichádzajúcej kataklizmickej búrky) sa neustále zužuje herný priestor a tak prichádza k nevyhnuteľným stretom jednotlivých postáv (hráčov) a potvrdeniu, že Darwin sa predsalen nemýlil.

Práve potreba dokumentácie pohybu všetkých postáv a ich vzájomných interakcií robí z hry neskutočného chŕliča dát. Predstavte si to ako (dátové zakódovanie) videa pohybu 8.5 milióna ľudí súčasne. Fascinujúce, nie? Podľa informácií Amazon Web Services (AWS), ktorí spravujú dátové úložiská pre túto hru, objem dát dosahuje hodnotu 95 PetaBytov (a stále rastie). To je veľkosť porovnateľná s Google Indexom na vyhľadávanie všetkých dostupných stránok internetu. Napadlo by vám, že hra môže byť väčšia ako Google. Áno, vyhľadávanie je len jedna zo služieb Google, ale Fortnite je rovnako len jedna z desiatok tisíc digitálnych hier. (Aj keď uznávam, momentálne asi najväčšia)

Nové magnetické odvetvie

Online hry sú naozaj fenomén. Len v Spojených Štátoch Amerických rástli v 2018 tržby v hernom priemysle úctyhodným tempom 18% za rok (podľa údajov asociácie Entertainment Software Association (ESA) ). Vďaka tomuto rastu patrí herný priemysel medzi jedny z najrýchlejšie rastúcich odvetví vôbec a len v USA zamestnáva viac ako 200 tisíc ľudí. Ako dokáže toto odvetvie tak rýchlo napredovať?

Po niekoľko desaťročí sa herný priemysel správal podobne ako filmárske štúdia. Veľký počet navzájom (nepriamo) súťažiacich filmových teamov vychrlilo na trh stovky filmov s nádejou, že niektoré z nich budú hitmi. Väčšina sotva zarobila na výrobné náklady (a honoráre pre hercov). Ale zopár z nich boli zásahy do čierneho, ktoré zarobili stovky miliónov dolárov a tak pokryli diery „po prepadákoch“. Áno, aj herné štúdia produkovali ročne stovky až tisíce hier rôznych žánrov. A potom sa modlili, aby si hry našli dostatočné publikum. Herný priemysel tak v tomto období bol odkázaný na vzostupy a pády, ich ekonomické výsledky pripomínali skôr húsenkovú dráhu, než stabilný rast, aký vidíme dnes. Ako to, že dnes vykazuje dlhodobo rast a navyše rast ekonomicky tak nadpriemerný?

Tou podstatnou ingredienciou, ktorá sa zmenila, sú práve dáta. Počítačové hry sú totiž dnes dizajnované tak, že pre výrobcu uchovávajú informácie o tom, ktoré časti hry boli pre používateľov atraktívne či nudné, príliš (až nezdolateľne) náročne alebo naopak nezáživne ľahké. Postupným sledovaním preferencií hráčov sa vývojári naučili nakalibrovať vývoj príbehu v hre tak, aby udržala hráčov pred obrazovkou čo najdlhšie. Tým dokázala zvýšiť celkové publikum hráčov. Z dúfania v hity sa stala cielená fabrika na úspešné hry. Tento jav zarovnal „kopce a doliny“ v úspechoch herných štúdií. (Teda minimálne tie doliny, kopce ako Fortnite sa stále kde tu objavia). To však nebol jediný efekt dát v hernom priemysle. V skutočnosti dáta priniesli tomuto odvetviu dva ešte podstatnejšie tromfy.

Ďalšie dva tromfy

Pôvodný biznis model sa snažil celú hodnotu hry skasírovať od potenciálneho hráča pri kúpe samotnej hry. To je však, ako keby ste museli zaplatiť za dom bez toho, že by ste sa v ňom detailne poprechádzali, prípadne strávili pár nocí. Tento prístup podnecoval softvérové pirátstvo, lebo na to, aby ste sa hru mohli hrať do životne vám stačilo dostať sa iba k jej cracknutej verzii. (Predstavte si, že by sa dom aj s pozemkom stáli doživotne vašimi iba tým, že by ste si od zámočníka nechali urobiť falošnú kópiu kľúču. Mnoho ľudí by tomuto zjavnému pokušeniu neodolalo. A tak to bolo aj s hrami).

Zbierané dáta o tom, ako napredujú hráči v jednotlivých častiach hry, však umožnili herným štúdiám do častí príbehu, kde uviazlo viac hráčov, umiestňovať „platené skratky“. Za pár eur vám hra ponúkla nápovedu, chýbajúce zdroje na ďalšie budovanie alebo nejaký predmet či schopnosť pre Vašu postavu. Zrazu sa celá šachová partia okolo speňaženia hry otočila: Bolo to v záujme hráča samotného zadovážiť si túto platenú pomoc. Je to, ako keď chcete pred letom do domu namontovať klímu. Prežijete aj bez nej, ale v horúcom lete Vás to bude stáť viac síl. Klimatizáciu si však už nemôžete pričarovať sfalšovaným kľúčom, tú už musíte riadne nechať nainštalovať a zaplatiť. Tento druhý dátový vplyv sa ukázal ako omnoho podstatnejší, lebo ako aktuálne štatistiky ukazujú, že až 43% z celkových príjmov hier bežiacich na mobiloch či tabletoch generujú práve rozšírenia a položky dokúpené priamo v aplikácií počas hrania.

Tretím tromfom, ktorý priniesli dáta do herného priemyslu, je tvorba a testovanie nového obsahu. Mať úspešnú hru ako Angry Birds, či niektorý z podobných hitov, znie ako požehnanie. Milióny ľudí sa hrajú vec, ktorú ste vy raz naprogramovali, a na účte vám doslova len cinkajú nové a nové peniaze.

ANGRY_BIRDS_dream_blastTakto ružovo to vyzerá však iba ak ste majiteľom firmy. Už menej optimistický odtieň to pre vás má, ak ste vývojárom, ktorý musí danú hru programovať. Podľa údajov zverejnených na konferencii NOAH LONDON 2019, obrovský dopyt desiatky miliónov hráčov hry Andry Birds Dream Blast  spôsobuje, že firma musí vytvoriť každý týždeň ďalších 40 nových levelov hry. Ak sa vám z toho netočia ešte panenky, tak vám to skúsim rozmeniť na drobné: Priemerný pracovný týždeň má 5 x 8 = 40 pracovných hodín. Developerský team tejto hry musí každú pracovnú hodinu vymyslieť, naprogramovať, otestovať a nasadiť nový level. Každú pracovnú hodinu! Iste môžete mať armádu programátorov, ktorí dokážu pracovať paralelne tak, aby stihli novú úroveň hry za danú hodinu vymyslieť a naprogramovať. Ale ako dokážete v rámci danej hodiny aj hru dôkladne otestovať, keď jedna hra daného levelu si môže vyžadovať niekoľko minút hry? Aj keby ste mali armádu 100 testerov, spolu s vývojom hry by si ju stihli zahrať do hodiny tak možno 500-600 krát, čo je pramálo na to, aby ste pochopili, ako budú vnímať hru milióny rozličných používateľov. A tak prišla opäť na rad úloha dát.

Keďže herné štúdia majú k dispozícií obrovské zásobníky dát o histórii hrania tejto hry (a iných podobných), vedia vyprofilovať typické profily hráčov, ktoré sa nachádzajú v celej enkláve fanúšikov hry. (Niekto hrá len pre pocit, že dokáže zdolať daný level, niekto sa neuspokojí kým nedosiahne čo najväčší počet bodov, niektorým vôbec nejde o ukončenie levelu, len sa zabávajú na rôznych nezdarných riešeniach hlavolamu, …) Pre každý typ fanúšika hry následne herné štúdio natrénuje neurónovú sieť (pomocou reinforcing learning), ktorá dokáže simulovať hranie práve daného typu užívateľa. Následne sa v cloud prostredí (ako AWS) vytvorí mnoho kópií virtuálnych hráčov (tisíce pre každý typ hráča), ktorým sa odovzdá novo nadizajnovaný level hry a spustí sa ich hranie. Firma tak získa obrovský počet spätných väzieb o tom, akú odozvu bude mať práve navrhnutý nový level hry pre jednotlivé skupiny hráčov. Čo je podstatné, že takéto digitálne dátové testovanie je prudko škálovateľné, keďže nie ste limitovaný tým, koľko rôznych typov hráčov máte alebo koľko rôznych levelov ste vytvorili.

Tak čo vy?

Tým sa sled dátových vplyvov na herný priemysel uzatvára do silnej, čoraz viac sa rozpínajúcej špirály. Je teda jedno, či túžite robiť dátovú analýzu hráčov, jednotlivých komponentov hry alebo vás viac fascinuje hľadanie vhodných škáročiek na in-app nákupy, či parametre nových úrovni hry. V hernom priemysle sa naozaj aktuálne črtá mnoho zaujímavých analytických príležitosti. Preto, ak pracujete v niektorom z dátovo už nudných sektorov (banky, utility, poisťovne, …) možno je čas rozhliadnuť sa aj po hernom sektore.  A vôbec nemusíte baliť kufre, veď len na Slovensku pôsobí viac ako 20 herných štúdií  a ročne u nás vychádza viac ako 70 nových hier. Firmy ako PIXEL FEDERATION si pomaly získavajú rešpekt aj ostatných odvetví a predstavujú dotyk s Európskou špičkou herného priemyslu. Ak by ste predsa boli ochotní zbaliť ten kufor, za hranica sú možnosti takmer neobmedzené. Tak čo? Idete sa radšej pohrať s dátami alebo s Googlom?

Vianočné darčeky nás učia dôležité ponaučenia

Množstvo ľudí v biznise, a to najmä z radov manažérov, si po zavedení GDPR nie sú istí, akými úkonmi dosiahnuť, že uchovávanie údajov nebude zasahovať do súkromia klientov. Pseudonymizácia, anonymizácia či depersonalizácia? Kto sa má v tom orientovať? Našťastie sa dá táto oblasť “po lopate“ vysvetliť práva na príklade Vianočných darčekov. Nebojte, ešte som dnes, nepil. Tie dve témy naozaj spolu súvisia:

Darčeky samozrejme nosí Ježiško, na tom sa nič nemení (už stáročia). Ale tí z našej rodiny, ktorých Ježiško poprosil o pomoc, sa každoročne snažili urobiť všetko preto, aby sa neprezradilo, kto Ježiškovi pomáhal s konkrétnym darčekom. Rodina kúpila niekoľko roliek toho istého baliaceho papieru, takže všetky darčeky boli v tom istom papieri. Menovky sa zásadné písali paličkovými písmenami, aby pisateľa neprezradil rukopis. (OK, v rodine grafológa toto môže byť komplikované, ale možno sa dajú menovky natlačiť)

Keď sa na to pozriete s dostatočným odstupom, v podstate sme sa snažili utajiť osobné údaje toho, kto jednotlivé darčeky pod stromček (samozrejme s poverením od Ježiška) uložil. Aký stupeň ochrany osobných údajov sa nám však darí pri darčekoch dosiahnuť? Je čas na kúsok teórie:

Depersonalizácia je postup, v ktorom zbavím údaje zjavných, osobu stotožňujúcich údajov alebo odkazov na ne. Údaje však zostávajú stále nechránené a je možné z nich vyčítať dôležité informácie alebo dokonca priamo stotožniť danú osobu. Ide len o zneplatnenie evidentných ukazovateľov na danú osobu.

Pseudonymizácia je proces, ktorý narába s osobnými údajmi tak, že údaje nie sú ešte anonymnými, ale už nie sú ani priamo identifikujúce. Ide o spracovanie osobných údajov takým spôsobom, že údaje už nemožno pripísať konkrétnej dotknutej osobe bez použitia ďalších informácií. Pseudonymizáciu už možno považovať za techniku, ktorá zvyšuje ochranu osobných údajov, ale je dostatočnou iba pre niektoré typy spracovania dát.

Anonymizácia je úplne odstránenie osobných údajov alebo čo i len príznakov, ktoré by viedli (aspoň) k nepriamej identifikácii daného človeka. Po anonymizácií by nemal byť schopný stotožniť dáta dokonca ani ten, kto anonymizáciu realizoval. Odstránenie osobných údajov je trvalé a nevratné, teda stotožnenie nie je možné ani v budúcnosti a to ani na základe dodatočných informácií.

Fíha, že sa Vám to trochu prelína a pletie?  Nuž poďme si teda postupne vysvetliť, za pomoci Vianočných darčekov, ktorá metóda ako v praxi funguje:

Rodina, kde sa darčeky nebalia do žiadneho baliaceho papiera a ľudia si ich nedávajú pod stromček s menovkami, ale priamo odovzdávajú (áno, aj také rodiny poznám) neprichádza k žiadnej „ochrane osobných údajov.“ Rovnako to by bolo aj keby ste si darovali vouchery zakúpené cez web na konkrétnu email adresu alebo ste zabudli v balení darčeku účtenku s číslom karty, ktorou ste to zaplatili. Hoci mnohí by namietali, že neviem predsa číslo karty všetkých rodinných príslušníkov, v očiach zákona je to jednoznačný identifikátor.

Xmax-PresentsV rodine, kde by ste zahodili všetky účtenky a vyčiernili časť emailových adries (napr. fer__nand.vitek@email.com) z webových nákupov, ale neriešili baliace papiere, menovky a iné záležitosti, dosiahli by ste len depersonalizované darčeky. Formálne teda nie je explicitne napísané, kto daný darček kúpil, ale v skutočnosti je to aj tak identifikovateľné, lebo napríklad Ferdinand je jeden z možných pôvodcov darčeku. (viac o tom nižšie). Depersonalizácia údajov je pomerne naivný spôsob, ktorý používajú televízie a dokonca aj prokuratúra a policajti, (napr. obvinený Marián K.) a ktorý z hľadiska GDPR vôbec nemusí (a zväčša ani nie je) dostatočný pre skutočnú ochranu osobných údajov.

Ak by ste chceli dosiahnuť aspoň pseudonymizovaného Ježiška pod stromčekom, potrebujete mať aspoň spoločný baliaci papier darčekov. Ak by totiž mal každý svoj vlastný baliaci papier, dá sa jednoducho určiť, koho je koho (stačí sa pozrieť ktorý zo vzorov baliaceho papiera daná osoba nemala na žiadnom darčeku a to je osoba, od ktorej nič nedostal. Keby mal každý práve jednu takú osobu, je jasné, kto je kto). Okrem toho by bolo potrebné mať aj menovky na darčekoch predtlačené alebo štandardizované, aby neprezradili Christmas tree with lots of presents under the tree, lights andadresáta. Ak by sme chceli byť striktní, tak by musel ešte prísť sused a poprehadzovať darčeky tak, aby nik nevedel, kto v akom poradí darčeky pod stromček položil.

V reálnom živote môže byť presudonymizácia dostatočným opatrením pre prenos dát, ale nie je dostatočnou ochranou pre uchovanie dát alebo dodržanie niektorých špecifických GDPR požiadaviek klienta (napr. právo na zabudnutie).Dáta totiž možno stotožniť aj nepriamo, pomocou kombinácie informácií z ktorých žiadna sama o sebe neurčujú konkrétnu osobu, ale ich vzájomná kombinácia už áno. Napríklad vysoký ústavný činiteľ, obyvateľ Popradu ani aktívny politik nie sú samé o sebe jasne určujúce. Ale ak viem o tom istom, človeku, že je momentálne aktívnym politikom zastávajúcim vysokú ústavnú funkciu a žije v Poprade, už je to presne určená osoba. Ak teda v praxi chcete obstáť v teste, že údaje sú plne anonymizované (viď čochvíľa), musíte dosiahnuť, že nech zoberiete ľubovoľnú kombináciu údajov o niektorej osobe vo Vašej databáze, vždy existujú aspoň dve osoby, ktorú majú takúto kombináciu, teda nie je možné z kombinácie určiť o koho presne ide. (napr. premiér zo SMER-SD). Aby ste tento stav dosiahli, musíte postupne škrtať (rozumej vymazať) údaje, u ktorých neexistujú aspoň dvaja s rovnakou kombináciou príznakov. Keďže sa pochopiteľne snažíte splniť požiadavku anonymizácie tak, aby ste zároveň zachovali čo najviac údajov, zabúdať je potrebné postupne, preto sa táto metóda anonymizácie volá Postupné zabúdanie.

xmas_presents_3.jpgDosiahnuť anonymizované Vianoce by bolo v praxi takmer nemožné. Tak, ako v reálnej dátovej praxi, aj pri Vianociach sú požiadavky na anonymizované údaje príliš prísne. Balíčky by museli byt približné rovnako veľké, aby sa nedalo zistiť, že ten najväčší alebo najmenší bol od niekoho. Darčeky by museli byť aj približne rovnakej finančnej hodnoty, aby nebolo jasné, že majetnejší rodičia kúpili drahšie darčeky deťom alebo naopak. Rovnako by muselo byť anonymizované poradie v akom darčeky budú pod stromčekom uložené, čo by musel byť dosiahnuté tým, že ich niekto po tme bude vyťahovať náhodne z vreca. Podmienka Anonymizácie je však splnená iba ak ani samotní autori by nevedeli zrekonštruovať, kto je strojcom ktorého z darčekov. A to je v skutku krutá požiadavka. To by si totiž  vyžadovalo, aby bolo z každého darčeka aspoň 2 rovnaké kusy, aby nebolo zrejmé, ktorý z tých dvoch kusov bol od koho. Takto okyptené Vianoce by teda zrejme skončili ako masívna ponožková smršť alebo súbor obálok s rovnakou sumou peňazí. V oboch prípadoch pomerne smutné Vianoce.

Ilustračný príklad Vianočných darčekov som si vybral aj preto, lebo dokumentuje ako nezmyselná môže byť ochrana osobných údajov. To, čo pôvodne mala byť snaha o „zatajenie Ježiškovho pomocníka“ sa pri dotiahnutí do plnej anonymizácie stáva kontraproduktívnym a potláča aj niektoré základné princípy Vianoc. Podobne to totiž je aj v reálnom živote. Pôvodne dobre mienená ochrana údajov neraz v praxi prerastá do bizarných situácií (ako rodičia školopovinných detí nemôžu osloviť rodičov spolužiakov ich dieťaťa bez GDPR súhlasu, …). Je teda pravdepodobné, že podobne ako nebudeme stáť o anonymizované Vianočné darčeky, aj v prípade GDPR nastane určitá korekcia vzad. Dovtedy Vám však prajem, celkom personalizovane, príjmené Vianočné sviatky a PF 2019!

Mohlo by Vás ešte zaujímať:

Dáta o Vianociach

Najzábavnejšie GDPR citáty

Viete, čo je XAI? Ej veru, mali by ste.

Vianočné dáta & Dáta o Vianociach

Štatistika a práca s dátami je často považovaná za suchú a nezáživnú. Prehrabávať nuly a jednotky je predsa riadna nuda, nie? Tento stereotyp sme sa snažili vyvrátiť už minule niekoľkými analytickými vtipmi. To, že dáta môžu analyzovať aj veľmi zvláštne a zábavné veci dnes potvrdíme sériou dátových analýz na Vianočnú tému.

Aby naše bádanie malo patričný spád, skúste si najprv  v hlave odpovedať na nasledovné otázky:

1] Žijeme v dobe, keď umelé stromčeky vytláčajú prírodné alebo naopak zažívame renesanciu živých vianočných stromov v našich domovoch?

2] O koľko percent priškrtil priemerný spotrebiteľ výdavky na Vianočné darčeky rok po finančnej kríze (2008) oproti predchádzajúcemu roku (2007)?

3] Má hodnota darčekov pozitívny alebo naopak negatívny vplyv na študijné výsledky detí v nasledujúcich mesiacoch?

4] Koľko rokov si priemerne ľudia nechajú umelý vianočný stromček?

5] Akou priemernou rýchlosťou by museli ísť Santove sane, aby stihol obísť všetky domácnosti?

6] Akú pokutu by dostal Santa za porušenie GDPR pravidiel o uchovávaní osobných údajov?

7] Aký je svetový rekord v počte vianočných prianí, ktoré zaslal ten istý človek (ako fyzická osoba) ?

Možno vás niektoré z vyššie uvedených otázok rozosmiali, ale na všetky existujú skutočné dátové analýzy, tak si ich poďme spolu pozrieť jednu po druhej:

Vianočné stromčeky

Hoci sa nám ekonomicky darí a v ekonomike míňame čoraz viac peňazí, v otázkach Vianočných stromčekov sme relatívne šporovliví. Percent ľudí, ktoré slávia Vianoce s umelým stromčekom, síce pomaly, ale predsa, rastie. Napríklad v Amerike si umelý stromček doma postaví až 3x viac ľudí ako ten živý. Zaujímavé pritom je, že ani živé ale ani tie umelé stromčeky sa neovplyvnil nástup e-commerce, čo robí z vianočných stromčekov jeden z najodolnejších produktov vo vojne kamenné predajne vs. E-shopy. Zakúpený Vianočný stromček si ľudia nechajú v priemere 6 až 10 rokov. Ak vás zaujíma viac stromčekových štatistík, nájdete ich tu.

Sú Vianoce imúnne voči kríze?

Medzi ľuďmi sa často hovorí, že Vianoce proste v nejakej podobe budú, aj keby sme sa ocitli v núdzi. Veď koniec koncov sa oslavovali aj počas vojny. Niektorí tvrdia, že krízy dokonca Vianociam pomáhajú, lebo ľudia sa tešia aj z menších vecí a nevládne taký Vianočný ošiaľ. Ale je to naozaj tak?! Ak porovnáme priemerný nákupný košík (dáta z USA trhu), tak v porovnaní rokov 2007 (posledné Vianoce po kríze) a 2008 (prvý rok po kríze), klesli Vianočné výdavky o 29%. Zaujímavosťou je fakt, že na úroveň 2007 sme sa dodnes (známe sú výsledky len do minulých Vianoc) ešte nevrátili. Ak však chcete z Vianoc urobiť aj ekonomický ukazovateľ, výdavky na darčeky naznačujú (ako mnoho iných ukazovateľov), že sa k ďalšej kríze výrazne blížime. Ak vás táto téma zaujíma, pozrite si podkladové dáta.

Vplývajú darčeky na učenie detí po Vianociach?

Aj takto kontroverznú analýzu  sa odhodlá niekto z dátových analytikov realizovať. Len pre ozrejmenie poviem, že boli použité dáta zo štandardných testov (PISA, Monitor, …), ktoré sa realizujú každý rok pravidelne mesiacoch po Vianociach, a do súvislosti boli dávané s výdavkami na predvianočné nákupy. Preukázaná (to je asi príliš silné slovo) bola pozitívna korelácia medzi týmito dvoma veličinami (čo samozrejme ešte nič neznamená, ako sme si vysvetlili tu). Podstatné však je, že odmeny deti naozaj stimulujú. A tie staršie už vedia, že darčeky zrejme nenosí Ježiško. Tak Vianočné darčeky berú aj ako isté referendu rodičov o tom, ako napredujú vo svojom rozvoji (a teda aj škole).

Santova rýchlosť

Ak však u Vás nosí darčeky stále Ježiško, Dedo Mráz alebo Santa, tak potom Vás zrejme bude zaujímať, ako to môže stihnúť. O tejto téme sa vedie veľa detských aj dospeláckych polemík. Vedci vypočítali, že aby stihol navštíviť všetky domácnosti, jeho sane sa musia pohybovať rýchlosťou  3 765 865 km/h. Vedci však ihneď dodali, že požiadavky na rýchlosť by sa dali výrazne zredukovať, keby zohľadnil v plánovaní segmentáciu domácností, podľa toho, kde deti neposlúchali (alebo kde na jeho príchod neveria).

Pokuta, avšak nie za rýchlosť

Keď už sme pri tom Santovi, prezradím Vám, že v najbližšej dobe zrejme dostane mastnú pokutu. Nie však za rýchlosť, lebo vyššie uvedenú rýchlosť by mu aj tak žiaden radar nenameral. Pokuta ho čaká za porušenie pravidiel GDPR. Na svojom zozname má totiž všetkých obyvateľov planéty a povedzme si úprimne, od mnohých z nich nemá na spracovanie ich osobných údajov žiaden súhlas. Keďže jeho ročný obrat je astronomický, týkať sa ho bude rovno pásmo okolo hornej hranice pokuty, ktorá môže dosiahnuť až 20.000.000 EUR. Situácia jemne podcenil mysliac si, že keď má sídlo mimo EU, tak sa ho GDPR netýka. Realita je však taká, GDPR sa vás vzťahujú, aj keď máte sídlo mimo EU, ale dodávate produkty klientom v EU. Istou záchranou mu je fakt, že nie je zrejmé, ktorý z národných regulátorov krajín EU by mal prípad riešiť. (O slovo sa hlási intenzívne Fínsko.) Ak by to právnici Santu neuhrali na použitie legitímneho záujmu na doručovanie darčekov, na budúci rok sa bude musieť vzdať doručovanie darčekov v EU krajinách, doručovať len tým, ktorý ho k tomu vyzvú priamo listom alebo jednoducho do rozpočtu pridať aj 20 mil EUR na GDPR pokutu.

Napíšte blízkym. Nech ich máte hocikoľko

Písanie vianočných pohľadníc trochu vychádza z módy. Veď poslať SMSku alebo dokonca email, či messenger správu. (o význame messengrov v našich životoch viac tu) Niektorí z nás sú však napriek tomu staromódni. Svetovým rekordom v počte Vianočných pozdravov odoslaných jednou fyzickou osobou je totiž chlapík s neuveriteľným počtom 62 894 pozdravov za jediné Vianoce.  Ak sa o niečo také chcete pokúsiť, musíte si nielen pripraviť tučný rozpočet na samotné pohľadnice a poštovné. Odporúčal by som Vám si aj poctivo aktualizovať kontaktnú databázu. Totiž, podľa štatistík, približne 9% adries je v databázach neaktualizovaných, čo znamená, že sa vám vráti späť aspoň 5661 pohľadníc, čo by mohla byť pre Vašu schránku skutočne zaťažkávajúca skúška.

[podkladové dáta k odsekom Santova rýchlosťNapíšte blízkym nájdete na tomto mieste]

Na záver dodám, že ja už som od Vás tohto roku Vianočný darček dostal. A bol naozaj krásny. Pred pár dňami sa prehupla celková čítanosť obsahu na www.mocnedata.sk cez 100.000 videní! Naozaj od srdca Vám ďakujem a budem sa snažiť zásobovať Vás aj naďalej kvalitným obsahom, aby sme sa spolu prehupli aj cez ďalšie méty. Na záver pripájam niekoľko blogov z roku 2018, ktoré si zaslúžia Vašu pozornosť a na ktoré si možno nájdete čas počas sviatkov:

Akú máme vlastne alternatívu voči Umelej Inteligencii?

Ktorý typ Dátového analytika ste Vy? A, V, I alebo B ?

Neznáme algoritmy – Small Data pravdepodobnosti

Najlepšie hlášky, ktoré prinieslo GDPR?

5+1 zaujímavých videí o AI

Šéfe si úplne mimo! 4 druhy manažérov, čo nerozumejú analytike

Prehľad blogov na pokračovanie na mocnedata portáli

Neznáme algoritmy II. – Small data pravdepodobnosti

V dnešnej dobe väčšinu analytického diskurzu zaberá BigData, pri ktorých prestáva zmysel hovoriť o vzorkách. Často máte k analýze dispozícií celú históriu javu. Pre odhad pravdepodobnosti nejakého javu v BigData stačí pozrieť ako často daná situácia už v minulosti nastala. V bežných, civilných životoch však zriedka máme k dispozícií viac než zopár opakovaní procesu. Napriek tomu však musíme byť schopní odhadnúť pravdepodobnosť daného javu. Ako nestrieľať odboku a správne odhadnúť svoje celkové šance napríklad v lotérií, z ktorej máme len zopár žrebov?

Tento blog je súčasťou seriálu o Menej známych algoritmoch v dátovej analytike. Ak si chcete prečítať aj iné články z tohto seriálu, nájdete ich tu. Ak ešte nie ste členom MOcnedata.sk komunity zadarmo sa zaregistrujte tu a budete dostávať aj rozšírene materiály k týmto blogom.

Predstavte si nasledovnú úlohu. Milujete stieracie žreby, máte radi to vzrušenie, keď zotriete polia a zistíte, či ste niečo vyhrali. Ako váš dobrý priateľ vám chcem urobiť radosť. Dám vám k dispozícii 100 EUR, za ktoré si môžete kúpiť žreby (jeden stojí 2 EUR) a vždy keď niečo vyhráte, môžete výhru opäť premeniť na ďalšie stieracie žreby. Aby príklad nebol zbytočne komplikovaný, povedzme, že na výherných žreboch sa dá vyhrať iba vždy tá istá suma = 50 EUR. Koľko žrebov celkovo zostierate, kým sa vám minú peniaze odo mňa a z potenciálnych výhier?

Úloha by bola celkom jednoduchá, keby ste vedeli pravdepodobnosť výhry. (aj tu by bola odpoveď závislá od šťastia, s akým vyberáte žreby, ale pri dostatočne vysokých počiatočných sumách na nákup žrebov, by ste sa trafili pomerne presne). Ako to už však v lotériách chodí, pravdepodobnosť výhry konkrétneho žrebu nepoznáte (väčšina lotérií je postavených tak, že jej prevádzkovateľ v konečnom dôsledku zarába aj po vyplatení všetkých výherných prémií,  takže sa pravdepodobnosťou výhry príliš nesnaží chváliť). Ako teda odhadnúť skutočnú pravdepodobnosť celkovej výhernosti v danej lotérií, keď máme iba limitovaný počet pokusov?

Aj keď ide o pomerne komplikovaný výpočet, matematikom BayesoviLaplaceovi sa už v stredoveku podarilo prísť na veľmi jednoduchý vzorec ako výpočet realizovať. Ako to už v stredovekej vede chodí, jeden o druhom navzájom nevedeli a dopracovali sa k tým istým záverom. Iróniou osudu je, že hoci väčšia časť práce by sa dala pripísať Laplacovi, do dnešného dňa nesie táto oblasť štatistiky meno práve po Bayesovi. Avšak späť k samotnému výpočtu pravdepodobnosti, ktoré znie nasledovne:

                              P = (m+1) / (n+2)

Kde p = pravdepodobnosť javu, m = počet priaznivých pokusov (v našom prípade výhier), a n= celkový počet opakovaní procesu. Ak teda máte 10 stieracich žrebov, z ktorých 4 vyhrali, tak celková pravdepodobnosť lotérie je približne 5/12 = 42%. Všimnite si, že bežný človek by predpokladal len 40% na základe histórie. Práve šírka skúsenosti s lotériou je tu mne vo vzorci premietnutá. V odbornej verejnosti sa ujal pre tento výpočet názov Laplacovo pravidlo.

Teraz však späť k lotériovej otázke z úvodu. Ak vám dám 100 eur, kúpite si zopár (napr. 10) žrebov. Na základe výsledku budete vedieť solídne odhadnúť, aká je pravdepodobnosť výhry, teda budete vedieť, koľo žrebov si budete môcť kúpiť za výhry (a následne žrebov dodatočne bude možné kúpiť z druhej, tretej, … vlny výhier).  Ak si dáte to pomeru aj (primernú) výhru k cene nového žrebu viete pomerne presne dohadnúť, koľko žrebov vlastne budete môcť zotrieť.

Toto pravidlo má však aj oveľa praktickejšie využitie ako spomínané stiracie žreby. Môžete pomocou neho totiž odhanúť šance akéhikoľvek javu, ktorý sa v živote deje často, ale vy s ním nemáte doposiaľ (skoro žiadnu) skúsenosť. Ako presné sú príchody vlakov, ak ste sa presťahovali do novej krajiny a doposiaľ ste v nej vlakom šli len zopár krát? Ako spoľahlivý je finančný partner, ktorý vám doposiaľ uhrádzal len niekoľko platieb? Ako dochvílny bude nový kolega na základe niekoľkých stretnutí, ktoré ste mail? Všade tam, kde máme málo skúsenosti, ale potrebujeme odhad pravdepodobnosti, Laplacovo pravidlo nám výborne poslúži,

A predsa sa točí…

presypacie_hodinyPravdepodobnosť určitého javu však nie je jedinou vecou, ktorú musíme v bežnom živote odhadovať z pomerne nízkeho počtu vstupných dát. Osobitnou oblasťou ľudských odhadov je snaha o odhad budúceho trvania, najmä pre veci ktoré už bežia. Koľko bude nízka nezamestnanosť, ktorú teraz máme? Koľko rokov bude žiť ešte Kim-Čong-Un? Ako dlho bude ešte fungovať Facebook?

Aj tejto otázke sa pokúšali stredovekí matematici dať ľudstvu nástroj na jednoduchý odhad. Hoci pravidlo je porovnateľne jednoduché, otvorene treba povedať, že aj výrazne menej presné.  Tzv Kopernikovo pravidlo znie:

Ak nemáte žiadne iné údaje o podstate daného javu, tak potom najpresnejší odhad trvania je predpokladať, že jav sa nachádza aktuálne presne v polovici svojho celkového trvania a teda, že celkovo bude trvať ešte toľko, koľko už trval doposiaľ.

Ak si okamžite vybavíte 75 ročného človeka, takáto rada pre odhad dĺžky jeho života je zrejme až tragikomická. Problémom v tomto ohľade je, že odhad, že 75 ročný človek by mal žiť ešte ďalších 75 rokov nám príde absurdný len preto, lebo niečo vieme o strednej dĺžke života človeka. Ak by na zemi pristáli Marťania a stretli 75 ročného človeka, pre nich by naozaj najpresnejším odhadom dožitia človeka bolo predpokladať ďalších 75 rokov. Prečo je to však vlastne tak? Prečo predpokladá Koperníkovo pravidlo, že človek má ešte raz toľko pred sebou?

Pre ľudí znalých štatistiky je odpoveď pomerne jednoducho uchopiteľná. Pointa je, že keď Marťan stretne pozemšťana v našom vyššie uvedenom prípade, nevie v ktorej časti života sa človek nachádza. Keďže stretol náhodného človeka, to v akej fáze života ho stretol podlieha normálnemu, Gaussovému rozdeleniu. V tom však platí, že najpravdepodobnejšia hodnota je hodnota presne uprostred. Z toho aj plynie, že ak stretávate ľudí, tak najviac ľudí štatisticky stretnete v ich strednom veku. Ak teda neviete nič o (štandardnom) trvaní javu, na ktorý sa pozeráte, ale potrebujete odhad toho, koľko trvá, nuž predpokladajte, že ešte raz toľko ako doposiaľ.

— Tento blog je súčasťou seriálu o Menej známych algoritmoch v dátovej analytike. Ak si chcete prečítať aj iné články z tohto seriálu, nájdete ich tu. Ak ešte nie ste členom MOcnedata.sk komunity zadarmo sa zaregistrujte tu a budete dostávať aj rozšírene materiály k týmto blogom. —

Úloha z pohovoru: V ktorej krajine ste?

Pohovory na dátové pozície sú opradené zaujímavými mýtusmi. Niektoré zo zaujímavých aspektov už sme zhrnuli v jednom z blogov. V každom prípade najštavňatejšie časti výberových konaní sú práve analytické úlohy. Preto som sa rozhodol ponúknúť vám jednu novú zaujímavú, na ktorú som natrafil a ktorú sme zaradili do repertoáru pre naše výberové konanie. Ak vás úloha zaujme, môžete mi poslať svoj návrh riešenia na info@mocnedata.sk. Najpresvedčivejšie riešenie odmením zaujímavou vecnou cenou. Tak poďme na to:

Zadanie Úlohy

Ako dátový analytik, pracujúci pre firmu pôsobiacu vo všetkých krajinách sveta, ste dostali zanalyzovať dáta z poznávacích značiek (ŠPZ) áut. Dostali ste kompletnú vzorku o veľkosti 100 tisíc áut, o ktorej viete, že je reprezentatívnou vzorkou z danej krajiny. Problémom však je, že neviete z ktorej krajiny. Ako by ste len na základe 100tisíc značiek prišli na to, z akej krajiny vlastne pochádza?

Pravidlá riešenia

Dáta ste dostali v elektornickom zozname, takže neviete ako značky naozaj vyzerajú. Máte len textové reťazce týchto značiek. Nemáte možnosť googliť, aké formáty ŠPZ majú jedlnoité krajiny, teda riešenie nie je založené na tom, koľko akých typov znakov má tá či oná krajina v značke. Ako by ste napriek tomu uhádli pre ktorú krajinu sú dané značky?

Kam zaslať riešenie

Ak máte nejaký nápad, ako vyriešiť túto úlohu, neváhajte mi ho nápísať na info@mocnedata.sk. Ako som už spomínal vyššie, najlepšie riešenie odmením cenou. Teším sa na Vaše nápady!

Ak sa nechcete zapojiť do súťaže a len vás zaujíma správna odpoveď, nájdete ju TU.

Ak vás téme zaujíma, tu nájdete viac takýchto úloh, na ktorých sa môžete otestovať. Či už vás čaká v blízkej dobe pohovor alebo nie, pozrite si aj trendy v analytike dát na tento rok.

EXTRA: Autonómne autá rozobrané na detail

Koľko musí počítač chodiť do autoškoly?  — Ako bezpečné sú jednotlivé značky samo jazdiacich áut? — Prečo nástup áut bude tak rýchly? — Čo musí mať autonómne auto navyše oproti bežnému autu?

Toto je doplnkový blog k téme Autonómnych áut, pre ľudí, ktorí majú aj hlbší záujem o túto tému. Vtesnať všetky fakty do jedného blogu, by bolo pre “menej nadchnutých ” zrejme úmorné, tak som detailnejšie fakty posunul do tohto doplnkového blogu. Výnimočne som sa rozhodol odomknúť doplnkový materiál aj pre bežného návštevníka. Ostatné doplnkové blogy sú zamknuté iba pre členov Mocnedata,sk komunity. Dobrou správou však je, že členom komunity sa môže stať bezplatne každý, za menej ako 2 minúty svojho času.

Prečo tak rýchlo?

Pôvodný blog nám vysvetlil jednotlivé štádia (stupne) autonómnosti áut a pridal odhad, kedy je pravdepodobné, že sa objavia prvé autonómne autá aspoň stupňa 4. Keďže však aktuálne po cestách jazdia iba autá stupňa dva, niektorí si môžu klásť otázku, ako je možné, že z 2. na 4. sa podarí preskočiť tak rýchlo? Človek by predsa očakával, že ak čochvíľa majú jazdiť autá stupňa 4., už by predsa mali bežne chodiť po svete vozidlá 3. stupňa automatizácie.

google-autonomous-car-prototypeNech táto úvaha znie akokoľvek logicky, nie je v skutočnosti pravdivá. Ak sa opätovne začítate, do popisu stupňov autonómnosti, zistíte, že stupeň 3 je v podstate dosť neprakticky. Auto totiž jazdí samo, až kým nenastane situácia, ktorú nevie vyriešiť. V takom prípade, upovedomí vodiča, že musí prevziať riadenie vozidla a auto-pilot sa vypne. Ak človek nezareaguje, správa sa to podobne, ako keď dnes čítate SMSku alebo nejak inak nevenujete pozornosť riadeniu, teda často tragicky. Pre človeka na mieste vodiča by to bola medvedia služba, lebo auto by nepožadovalo jeho permanentnú pozornosť, ale ak by sa niečo zomlelo, stále by za situáciu zodpovedal človek. V odborných kruhoch sa tento jav popisu aj ako “Eyes-off, Brain On” (nesledujem, ale som čulý zareagovať). V praxi by takýto postup staval vodiča do nevýhody alebo bol ešte oveľa vyčerpávajúcejší ako bežné šoférovanie, každá interakcie človeka by bola len “v problémovej” situácií na ceste.

Z tohto dôvodu sa väčšina firiem vyjadrila, že nebudú vyvíjať modely úrovne 3, lebo by po nich nebol skutočný dopyt a vyvolali by len vlnu nevôle medzi užívateľmi. Po tajme teda (takmer) všetky spoločnosti pracujú priamo na úrovni 4 a vyššie. To, že po svete ešte nebehajú sériovo vyrábané autá Stupňa 4. teda nemá žiaden vplyv na príchod verzií stupňa 4. Mimochodom, ak vás zaujíma, ako sa jednotlivým automobilkám darí v patentovaní autonómnych áut, tu nájdete odpoveď.

Ako dlhá je autoškola pre počítač?

V blogu sme rozoberali, že bežný študent autoškoly, než dostane vodičský preukaz, najazdí menej ako 1000 km. Koľko je teda táto hranica pre počítačový algoritmus? Ako to už býva, pri počítačových algoritmoch naše nároky (občas aj trochu pokrytecky) oveľa vyššie nároky. Podľa výskumu RAND corporation, vedeného Nidhi Kalra, Susan M. Paddock, by na preukázanie rovnakej nehodovosti ako dosahujú ľudia bolo potrebné, aby autonómne vozidlo v testovaní odjazdilo aspoň približne 30 miliónov míľ. Ak by sme si však dali za cieľ obhájiť iba rovnaký (alebo nižší) počet zranených, postačilo by  auto odjazdilo aspoň 800.000 míľ. Pre porovnanie uvediem, že keď aktívny vodič odjazdí 25 000 km (= 16000 míľ) ročne, tak rovnako prísny vodičák by dostal po 50 rokoch autoškoly, teda zrejme v posledných rokoch svojho života. Pričom počas celých 50 rokov by bol v skúšobnej dobe, teda ak by spôsobil nejakú nehodu, vodičák by ani nedostal. Graf z danej štúdie dokumentujúci tieto čísla pripájam nižšie:

Autonomous driving SAFETY km needed

Samozrejme, bolo by asi zbytočne lacné žiadať, aby autonómne autá boli “len” tak dobré ako ľudia. V skutočnosti práve znížená nehodovosť je jedným zo zásadných argumentov pre zavedenie autonómnych vozidiel. Vyššie uvedený graf teda zároveň dokumentuje, koľko míľ by muselo autonómne auto najazdiť v testoch, aby preukázalo zníženie nehodovosti na polovicu alebo štvrtinu ľudskej chybovosti. Pre preukázateľné zníženie úmrtnosti na o -60% percent by muselo auto absolvovať podľa danej štúdiu miliardu míľ, ak by sme chceli ísť na -90% ľudskej úmrtnosti, muselo by auto odtrénovať až 20 miliárd kilometrov. (Osobne som si nie istý, či autori správne posúdili efekt toho, že ak budú jazdiť autonómne vozidlá v premávke s inými autonómnymi vozidlami, tak počet kilometrov na preukázanie nehodovosti bude nižší, lebo stroje sú k sebe, žiaľ ohľadu plnejšie ako sme k sebe my ľudia.

Ak zoberiete do úvahy, že priemerná rýchlosť (mix obce a mimo obce) je niekde okolo 70km/h, ak by firma použila 10.000 áut jazdiacich paralelne a testujúcich nonstop, takýto test by si stále vyžadoval 1909 dní, teda 5 aj štvrť roka.  Ak si aj odmyslíme samotnú cenu vozidiel a analytickej práce na vyhodnotenie testov, len samotné palivo na takýto test by stálo miliadru EUR. Nakoniec v počte kilometrov bude zohrávať rolu aj to, na ktorej strane cesty má autonómne auto jazdiť. Prečo je to dôležité, vysvetľujem tu.

Drobná dátová komplikácia

Ako popisuje jeden z odsekov nižšie v tomto blogu, prevádzka autonómného auta bude generovať veľký objem dát. Nie síce tak enormné ako lietadlá, ale predsa dosť veľké, aby boli problémom sami o sebe. Podľa odhadov EU môže jeden autonómny plug-in hybrid generovať až 25 GB dát za každú hodiny prevádzky. Spočiatku sa dáta budú zrejme ukladať do nejakej dočasnej pamäte priamo v aute, ale pre účely auditu a zlepšovania riadiacich programov samojazdné dáta budú nemalú časť tohto objemu určite posielať aj do centrálnych serverov. Ak si predsatvíte, že len VolksWagen vyrobí 1 milión nových áut ročne, infraštruktúra výrobcu bude musieť byť schopná uchovať záznamy pre desiatky miliónov áut, čo pri 2 hodinách priemernej jazdy auta denne predstavuje 500 000 TB dát. Aj keby sa prenášala len 5% zo všetkých zaznamenaných údajov, stále sa bavíme o presení vzduchom, uchovaní a zanalyovaní 25 000 TB dát každý jeden deň. To, čo znie ako “vedľajší efekt”, v skutočnosti bude výzva sama o sebe.

Čo musí mať autonómne auto navyše oproti bežnému autu?

V pôvodnom blogu sme nemali príliš priestoru detailne rozobrať, čo vlastne musí autonómne vozidlo mať nad rámec bežného auta. Táto otázka je však kľúčová pre pochopenie, prečo sa príchod autonómnych vozidiel tak nezadržateľne blíži. Dovoľte mi dať teda tejto veci zadosť práve v tomto doplnkovom blogu. Nad rámec bežného auta je teda pre autonómnu jazdu potrebné mať nasledovné:

Prvotným predpokladom je, že auto bude schopné replikovať naše zmysly. Teda potrebuje senzory, aby videlo (aspoň toľko), čo vidí človek. Keďže však ľudský zrak sníma všeličo iné (okrem iného aj sexi stopárku pri ceste), na miesto izolovania zrakových vnemov výhrade pre šoférovanie priamo zo simulovaného zraku, rozhodli sa autonómne vozidlá zabezpečiť si niekoľko rôznych systémov nahrádzajúcich zrak. (napr. radar pre vzdialenosti iných áut, kamery pre snímanie značiek, kamery pre snímanie blízkeho okolia auta (napríklad chodci, prekážky pri cúvaní, …)).

Na rozdiel od človeka, stroju nestačí vidieť, lebo stroj musí videné ešte stotožniť s nejakým reálnym objektom. Ak na ceste leží objekt kvádrového zjavu, človek okamžite vidí, či je to prázdna krabica alebo kus žuly a vi sa podľa toho či riskovať prudký výhybný manéver alebo objekt proste ignorovať. Rovnako musí rozoznať, že tá lesklá časť vozovky je v skutočnosti vodná hladina výtlku. Okrem senzorov na videnie, tak potrebuje autonómne riadenie aj software na rozpoznanie objektov na a vedľa cesty.

Okrem toho samozrejme musí auto vedieť kde je a kam ide, takže súčasťou systému musí byť veľmi presná lokalizácia. Byť o pol metra niekde inde ako som si myslel, že som, môže znamenať, že zišli z cesty. klasické GPS z navigácie tu teda neobstojí. Navyše musí mať palubný počítač k dispozícií aj mapové podklady a vedieť zareagovať aj v situácií, keď optické videnie signalizuje, že nie sú aktuálne. (napríklad jeden pruh cesty sa pred chvíľou prepadol kvôli erózie pôdy, hoci na mape je cesta krásne dvojprúdová).

Málokomu by napadlo, že ak má auto riadiť samé, musí byť už vo svojej primitívnej podstate ovládateľné strojom, teda točenie volantom alebo brzdenie musí byť manuálne vykonateľné strojom. Stroj musí zároveň byť shopný vivinúť aj rôznu intenzitu tlaku na plynový, či brzdný pedál. Keďže vozidál stupňa 4. stále budú pripúšťať existenciu situácií, kde musí to isté riadenie prevziať človek, auto stále musí fungovať aj po ľudsky (človek musí mať nejakú formu ako urobiť to isté, čo by dokáže stroj) a dokonca vymedziť, kedy ľudský protipohyb voči strojovému preberá kontrolu a kedy naopak nie. (Ak sa auto rúti na stenu z betónu, auto by nemalo dovoliť vodičovi pridávať plyn, aj už je na hranici brzdnej dráhy, inokedy však môže ísť o výhybný manéver.)

Keďže autonómne riadenie nie je súbor natvrdo naprogramovaných vzorcov správania, ale musí byť schopné vyhodnotiť aj situáciu sk torou sa doposiaľ nestretlo, musí obsahovať palubná jednotka rozhodovací modul, zrejme na báze neurónovej siete. Navyše tento rozhodovací modul, musí byť priebežne verifikovaný (z externého prostredia), by sa nenaučil niektoré zlozvyky. Na tento účel sa budú zrejme výsledky rozhodovania priebežne odosielať do nejakého centrálneho strediska, ktoré bude v reálnom čase hľadať nedokonalosti systému a aktívne ich opravovať vo všetkých ostatných autácu tej istej značky.

Keď už sa rozhodovací modul rozhodne, čo v danej situácii robiť, musí existovať nejaký fyzikálny model, ktorý pretlmočí rozhodnutie do súboru pokynov pre samotné ovládanie auta (podraď o jeden stupeň, vyhoď smerovku, vykloň sa do protismeru a prudko pridaj, aby si stihol predísť pomalšie auto pred Tebou). Úlohou tohto modelu bude zvoliť vždy čo najvhodnejšiu kombináciu možných úkonov.

Vykonávanie niektorých vyššie uvedených úkonov si vyžaduje prítomnosť osobitného hardwaru (samostatný procesor, pamätový čip na ukladanie dát), ktorý navyše musí zvládať bezpečnosť tak, aby nebol priamo napadnuteľný (alebo aspoň toto riziko výrazne potáčal). Toto je dôvod prečo si mnohí myslia, že príchod autonómnych áut je daleko, lebo väčšina dnešných áut takýmto hardware nedisponujú. V skutočnosti však ide o veci pomerne malých rozmerov, na ktorých domontovanie v karosériách dnešných áut je dostatok priestoru. Teda, ak bude treba, aby tam takéto zariadenia boli, miesto pre ne už exsituje, stačí ich domontovať.

Zdanlivo triviálne pôsobí aj požiadavka, že auto bude musieť mať svoj vlastný operačný systém. Už menej humorne pôsobá predstava, že by sa tejto role ujal niektorý, v PC z bežne používaných operačných systémov. (napríklad modrá WIN obrazovka počas autonómnej jazdy). Teda je zrejmé, že operačný systém pre auto bude musieť byť budovaný úplne inak a navyše bude musieť “zniesť” operačné systémy iných zariadení, ktoré s nim budú komunikovať (smart semafóry, iné autá, …).

V neposlednom rade musí existovať ďalšia vrstva systému, ktorá dáva pozor na súhru všetkých vyššie menovaných elementov. Tá napríklad musí byť schopná rozoznať, že signály, ktoré posiela senzor sú “čudné” a teda je možné, če je špinavý alebo poškodený a neuviesť tak celé auto do tragického omylu. To je zároveň jednotka, ktorá ohlási človeku, kedy auto nie je schopné viesť auto a musí buď zastaviť alebo odovzdať riadenie človeku.

Sumár všetkých vecí ponúka aj nasledovná infografika:

 ELEMENTY autonómneho auta

Ako bezpečné už sú prototypy jednotlivých značiek?

Iste si kladiete otázku, od koho si teda kúpiť autonómne auto. Aj keď množstvo výskumu (a stým súvisiacich patentov) určite je dôležité kritérium, určite by “bodlo vedieť” aj to, ako sa darí jednotlivým prototypom. V dnešno monitorovanom svete samozrejme exsitujú informácie aj o tejto stránke pokroku. Na základe štatistík štátu California (kde sa väčšina autonómnych áut vyvíja) teda FT zozbierala štatistiky, ako často muselo autonómne vozidlo v testovaní vzdať sa riadenia o požiadať o intervenciu človeka (tento počet samozrejme obsahuje v sebe už aj nehody, lebo to boli situácie, keď ani ľudský zásah nehode nezabránil). Keďže každý team najazdil odlišný počet km so svojimi prototypmi, výsledky je potrebné realitizovať voči nejakej spoločnej báze (napr. na 1 km jazdy). Čísla sú to naozaj zaujímavé:

Autonomous driving RESULTS

Okrem iného štatistika dokumentuje, že navrch majú tie teamy, ktoré robia najväčší počet kilometrvo testov, lebo -podobne ako u ľudí – čím viac skúseností, tým viac naučených pravidiel ako reagovať aj na menej bežné javy. Najnižší počet incidentov, kde  bolo treba zásah človeka má Google (cez svoju platformu Waymo), iba 1 zásah za približne 5000 míľ. Tesla aj Bosch, ktorí vlastnia veľa patentov v tejto oblasti zjavne však nemajú ešte nabehaných toľko KM a teda požiadavky na zásah človeka sa objavujú aj častejšie ako každú tretiu míľu. (čo by zjavne zatiaľ asi neobstálo).  Z bežných značiek ešte výborné čísla dosahuje BMW alebo Ford, aj keď u nemeckého výrobcu je možné, že testy prebiehajú vo veľkej miere aj v Európe, takže nie je zrejmé, či ich Kalifornská časť je reprezentatívnym obrázkom celkového výkonu.

A budú vôbec ľudia chcieť cestovať autonómnymi autami?

Autonomous-driving-trustKeďže povedomie o príchode autonómných áut je u nás na Slovensku, žiaľ, pomerne slabé., občas dostávam aj otázku: A kto vlastne bude chcieť tými samojazdnými autami cestovať? Dôverujú vôbec ľudia tomuto vynálezu? Solídny výskum na Slovensku zatiaľ nebol realizovaný (alebo minimálne zverejnený), ale čo to napovie postoj iných krajín. Pre mňa zaujímavé  je, ako rozličné sú postoje naprieč kontinentami. Európa je zatiaľ chladnejšia k tejto téme ale treba povedať, že Európa má zase jednu z najnižších nehodovostí áut na svete, takže argument záchrany ľudských životov tu nie je až tak plastický (alebo je pre neho latka postavená veľmi vysoko).  Štúdia pochádza od spoločnosti CISCO a bola realizovaná už v roku 2013, približne v čase, keď Tesla predstavila Model S:

Krajiny ako India, Čína a Brazília sa vyslovene pachtia za implementáciou autonómnych áut. V skutočnosti to však môže predstavovať (najmä v odľahlejších častiach Brazílie a Indie) väčší problém ako v iných tradičných krajinách. V Nemecku idea samojazdiacich áut nadchýňa iba každého tretieho človeka. Celosvetoto však podpora už prekročila 50% a teda je predpoklad, že s príchodom áut stupňa 4, vznikne rýchlo aj početný dopyt.

Ostatné doplnkové blogy pre členov Mocnedata.sk komunity:

Najčastejšie chyby v emailoch – Ako ich nájsť a opraviť

Čo by mal vedieť Dátový analytik? [veľký prieskum]

Špeciálny nástroj k meninovým kampaniam