Moderné trendy: AKO SPRÁVNE pomocou dát ANALYZOVAŤ ZAMESTNANCOV?

Analyzovanie dát o zamestnancoch vždy bola (a ešte dlho asi aj bude) kontroverznou témou. Keď sa detailne analyzujú dáta klientov, tak sú to neznámi tam niekde vonku. Keď sa však majú preosiať dáta „našich tu vo firme“, sú z toho nesvoji tí za klávesnicou aj tí analovaní. Moderné výskumné teamy preto priniesli nové metódy, ako sa analyticky pozerať na kolegov okolo nás. Poďme si ich predstaviť.

Umelá inteligencia je ako pŕhľava. Nik si nedá námahu aktívne ju preventívne potláčať, lebo vie, že je to Don Quitský boj. Prehliadame teda jej prítomnosť, až kým sa nedotýka priamo nás samotných. Keď sa však dátová analytika a umelá inteligencia vyberú analyzovať nás, kolegov, staviame sa na zadné. Z vreciek vyberáme formulky o ochrane súkromia, či osobných údajov. Keď to nepomôže, snažíme sa poukázať na to, že analýza je neobjektívna. Zrazu nám nevadí, že podľa rovnakých postupov sme sypali hordu emailov na neborákov tam vonku. Dátová analytika zamestnancov to teda má o poznanie ťažšie. Poznáte to: Ako keď dieťa učiteľa je merané vyššími štandardmi, len aby si niekto náhodou nemyslel, že sa mu kolegiálne nadržiava.

Nedostatky doposiaľ

PEOPLE_watching_EMPLOYEESSúčasťou trpkého dojmu z analytiky interných zamestnancov boli aj chyby, ktoré sa v tejto oblasti diali. Medzi najbežnejšie patril fakt, že analyzovanie zamestnancov nebolo verejne priznané. Zopár zasvätených, či neraz dokonca externá firma, aby to nerobilo zlú krv, podrobovala analýze dáta nič netušiacich zamestnancov. Hoci tento postup už z prvého pohľadu vyzerá ako „vydridušstvo“ zamestnávateľa, treba si uvedomiť, že prvé analýzy boli často práve v oblasti prevencie interného podvodu alebo bezpečnosti systémov a klientskych dát. Je pochopiteľné, že keby zamestnanci s nekalými úmyslami mali presné info o tom, aké typy správaní sa monitorujú, kontroly by, čuduj sa svete, nič neodhalili. Je to ako keby dopravný podnik zverejnil zoznam liniek, do ktorých pošle revízorov.

Druhým problémom tejto oblasti bol fakt, že objednávateľom podobných analýz boli zriedkakedy oddelenia HR, ale skôr interné audity, oddelenia bezpečnosti alebo tvrdou rukou vládnuci línioví manažéri. Tieto témy však nemaj v úmysle vyzdvihnúť pozitívne aspekty správania zamestnanca, len odhaliť negatívne. Nik vás hold nepochváli za to, že ste sa nikdy nepokúsili ukradnúť dáta svojho zamestnávateľa. Nepriamo sa tak budovalo rovnítko medzi analyzovaním zamestnancov a problémami so zamestnávateľom. Pre férovosť treba povedať, že boli aj firmy, ktoré boli pioniermi v pozitívnej analytike zamestnancov. (napr. o IBM sa to dá dočítať v knihe Numerati, recenzovanej tu).

Nepochybným problémom bol aj fakt, že údaje vzájomných interakcií majú exponenciálnu povahu. (Ak máte čo i len 20 zamestnancov, tak potrebujete 400 parametrov vzájomných postojov: A má rád B, ale B nemusí A, obaja však uznávajú C, ktorý je však narcis a má ich oboch v paži.). Pri firmách o tisícoch zamestnancov boli toľké interakcie proste nemerateľné. Analýza zamestnancov sa preto bodovo zameriavala iba na individuálne hodnoty konkrétnych jedincov. Dozvedeli ste sa tak napríklad, že členovia teamu X chronicky nespĺňajú termíny svojich úloh. (nie však aj to, že je tomu tak preto, že už samotné vstupy do ich úloh boli doručené spravidla po danom termíne od predchádzajúcich teamov). Tento druh analýz nielenže budoval individualizmus (výkon jednotlivca dôležitejší ako výkon teamu), ale umožňuje zohľadniť iba demografické dáta jednotlivcov a ich (jednoduché) výkonové ukazovatele.

Ako z bahna von

MUDDY_ROADAni tí najlepší výskumníci nedokážu navrhnúť metódu, ktorá by sa páčila zamestnancom, bez toho, že by o nej vedeli. Pokiaľ teda manažment nemá guráž otvorene a korektne hovoriť so zamestnancami o ich analyzovaní, inovácie metód tu veľa nezmôžu. Prvý problém z minulosti teda zostáva na ramenách samotných manažérov. V otázke toho, kto je dnes objednávateľom analýz interných zamestnancov sme sa ako spoločnosť posunuli medzi časom výrazne vpred. Dnes už tento druh činnosti nemôže prebiehať aspoň bez spoluúčasti HR a v solídnych spoločnostiach teda je postarané o to, aby závery analýzy neboli len bičom tyranského zamestnávateľa, ale aj na prospech samotného zamestnanca. (výnimky vždy budú existovať, ale hovorím o celkovom trende). Pre inovátorov postupov tak primárne zostala otvorená tretia oblasť toho, čo všetko a ako analyzovať o zamestnancoch, aby to dávalo naozaj ucelený obraz.  A práve tejto oblasti nastal zásadný prielom, o ktorý sa chcem s Vami podeliť.

Team výskumníkov z okolo Paula Leonardiho z University of California a Noshira Contractora z Northwestern University v Decembrovom vydaní Harvard Business Review zverejnili výsledky unikátnej štúdie, ktorá sa snaží na zamestnancov nazerať primárne cez prizmu vzájomných interakcií. Zaujímavé pri tom je, že sa nielen snažia prelomiť kliatbu obmedzeného nazerania len na individuálne KPI hodnoty zamestnancov, ale modeluje aj niektoré individuálne prejavy ľudí (ako kreativita či efektívnosť) cez hodnoty sieťovej analýzy vzájomných vzťahov zamestnancov.

Vo svojej štúdií zdôrazňujú, že pozícií, kde človek dokáže “prebiť“ kultúru alebo nepriaznivé nastavenie teamov ako takých svojimi individuálnymi super schopnosťami, je čoraz menej. Aj individuálne výkony tak v dnešnej dobe viac závisia od interakcií s okolím, než od individuálnej geniality. Na rozdiel od iných článkov, ktoré o tom iba teoretizujú, menovaní výskumníci poskytujú 6 konkrétnych dimenzií, ktoré z výskumu vyšli ako najdôležitejšie.

6 dimenzií zamestnanca priamo z jeho interakcií

Hneď prvá dimenzia, Kreativita, nás núti zamyslieť sa nad silou metódy. Tento svätý grál pokroku je totiž často považovaný za ťažko, či možno priam až ne-merateľný. O to viac prekvapí, že sa dá dobre odčítať z mapy vzájomných interakcií. Výskum preukázal, že najviac neokukaných nápadov prichádza práve od ľudí, ktorí majú interakcie s čo najväčším počtom rozličných teamov. Tieto závery sú ilustrované aj na príklade veľkej elektroniku vyrábajúcej firmy z US,  kde realizovali detailné preskúmanie tejto techniky. Z tradičných individuálnych ukazovateľov dosahovala aspoň nejakú koreláciu s kreativitou len seniorita zamestnanca a aj tá dosahovala len nízky stupeň korelácie. Zo sieťových parametrov však jasne kreativitu predikovalo počet distinct teamov, s ktorými má daný zamestnanec aspoň občasnú komunikáciu. (v hantírke sieťových analýz sa tejto metrike hovorí low constraint) Hold, v dnešnej fragmentovanej dobe, ak sa rozprávate iba s ľuďmi z jednej oblasti, ťažko budete myslieť out-of-the-box.

PEOPLE_networkAk máte dobrý nápad, ešte to neznamená, že sa vám ho podarí aj presadiť. Preto druhým dôležitým aspektom zamestnancov je ich Vplyv v rámci organizácie. V rozpore s tradičnými názormi, formálna moc z hľadiska služobného zaradenia má oveľa menší vplyv na realizáciu nových nápadov, ako jej mnohí prisudzujú. Aj top manažéri (okrem tých kamikadze typov) sa totiž musia poradiť s rešpektovanými, kľúčovými zamestnancami, než zatrúbia konkrétnu zmenu kurzu. Iste si spomeniete na projekty, ktoré mali sýto zelenú na semafóre top managementu, ale nikdy sa neudiali, kvôli pasívnemu odporu, či ignorancii zo strany middle managementu.  Dôležitou metrikou vplyvu vo firme je stupeň premostenia, teda ako zosieťované sú tie moje ohnivká komunikácie, pre ktorých som ja mostom do zvyšku firmy. Sú to totiž práve styční dôstojníci medzi teamami, ktorí neraz formujú interný názor celých teamu (metrika high aggregate prominence). Treba sa však vyhnúť skratkám, akej sa dopustila aj v štúdií citovaná firma na vývoj medicínskych prístrojov, ktorá sa snažila nové bezpečnostné pravidlá primárne presadiť cez ľudí najobľúbenejších v kolektíve. Po niekoľko mesačnom fiasku sa ukázalo, že najobľúbenejší nie sú najčastejšie príkladom na zmenu (lebo sami sa snažia žiť „skupinové pravidlá“, aby zapadli do kolektívu).

Pre metrike akou je Efektívnosť možno nadobudnete pocit, že pohľad cez vzájomné interakcie je predsa len nejakou nadstavbou na individuálne hodnoty. Koniec koncov, ak robíme hiring správne, produktivitu zamestnancov by sme mali byť schopní odhadnúť priamo z individuálnych zručností a systému práce. V skutočnosti však aj vybrúsené zručnosti a ťah na bránu nemusia byť zárukou efektivity. Relačná analýza zamestnancov poukazuje na to, že Efektívnosť práce zamestnanca je primárne podmienená vysokou hustotou interakcií bezprostredne v teame (high internal density) a viasstupňovým dosahom na externých expertov (meraným metrikou external range). Na dlhodobú produktivitu totiž potrebujete dobre vzťahy s tými, ktorý sa s vami na riešení bezprostredne podieľajú a možnosť konzultovať s expertmi iných teamov (, ktorí bývajú zvyčajne ukrytý v útrobách ostatných teamov).

Naopak teamy hyper-produktívnych zamestnancov nebývajú podľa sieťovej analýzy zväčša pioniermi v zavádzaní inovácií vo firme. Pre úspech inovácií je síce, podobne ako pri efektívnosti, potrebný dosah na kľúčových expertov (high external range). Ak totiž navrhujete „novotiny“, musíte ma istotu, že sú domyslené do dôsledkov aj pre ostatné teamy. Na rozdiel od efektivity však presne naopak potrebujete mať pomerne riedke interakcie priamo v teame, kam ste zaradený. Prečo je tomu tak? Nuž, časté interakcie s kolegami z tej istej oblasti vedú k zbližovaniu názorov na vec a tak si postupne teamy vytvárajú „svoje svety“. Z nich je potom ťažké uniknúť k inovatívnym myšlienkam. Tým skôr, keď vám status quo betónujú pravidelne interakcie s ostatnými, ktorí si myslia to isté, čo si myslíte vy. Aj preto sú najlepšie poradné zbory zložené z ľudí, ktorí sa navzájom príliš nepoznajú a vzájomne sa málo ovplyvňujú.

Uzavretosť teamov (silo) je prirodzeným dôsledkom rozdelenia úloh, vzniká v istej podobe v každej firme, nech už je akokoľvek nenávidená top manažmentom. Dobrou správou však je, že analýza vzájomných interakcií zamestnancov dokáže spoľahlivo predpovedať vznik tohto javu. Slúži na to metrika Stupeň Modularity, ktorá je v sieťovej analýze definovaná ako pomer interakcií vo vnútri teamu k vonkajším interakciám mimo daného teamu. Teamy, v ktorých rastie hodnota modularity prechádzajú procesom vytvorenia Sila. Výskum dokonca preukázal, že pokiaľ interná komunikácia prevažuje pomerom 5:1 voči externej, ide už o kontraproduktívnu uzavretosť. Pomocou tejto hodnoty tak možno poľahky odhaliť ohniská uzavretosti aj vo firme, kam ste prišli ako nový manažér, bez znalosti historického vývoja uzavretosti.

Poslednou metrikou citovanou štúdii je Zraniteľnosť. Aj keď komunikácie a vzájomné interakcie sú vo väčšine prípadov  pozitívnym javom fungovania firmy, existujú špeciálne prípady, kde je potrebné intenzitu vzájomnej komunikácie podrobiť väčšiemu drobnohľadu, aby sme posúdili, či ide stále o pozitívny jav. Dôležitou metrikou sieťovej analýzy je robustnosť siete zamestnancov, ktorá je definovaná ako koľko percent prepojení medzi jednotlivými teamami by zostalo aj tak zachovaných, ak by sme zo siete vynechali konkrétneho zamestnanca. Ak niektoré procesy stoja a padajú na prítomnosti konkrétnej osoby, je to veľký bod zraniteľnosti pre firmu. (neraz až existenčného ohrozenia). Túto analýzu možno pretransformovať aj do siete medzi zamestnancami a témami, ktoré riešia. Ak uvidíte príliš veľa tém, ku ktorým vedie linka iba od jedného (a toho istého) zamestnanca, máte jasné ohnisko zraniteľnosti spoločnosti.

PEOPLE_watching_EMPLOYEES_2

Výskumy v tejto oblasti jednoznačne ukazujú, že oveľa hodnotnejšie poznanie individuálneho aj skupinového správania je možné odvodiť z transakčných dát vzájomných interakcií ako kto s kým a ako často  komunikuje, než z analýzy individuálnych KPI jednotlivcov. (To je mimochodom pravda aj pri väčšine vzťahov s klientmi.) Navyše transakčné dáta sa „zbierajú sami“ a tak nie je potrebné vytvoriť samostatný dotazník alebo proces na ich získanie. Vysvetlenie zistení na základe oficiálnej komunikácie (na ktorej sa podieľajú minimálne 2ja) menej vzbudzuje dojem neférového posudzovania. Niet preto pochýb, že analýza zamestnancov sa posúva výrazne do sféry analýzy sieťových grafov (v odbornom význame tohto slova). Ak teda rozmýšľate nad systémom analyzovania svojich teamov (alebo už taký team prevádzkujete) odporúčam dotknutých analytikov doškoliť na metódy analýzy grafových databáz. Ináč by sa mohlo stať, že vlak relačnej analýzy zamestnancov vám nenávratne ujde. A to by bola škoda.

Ako dátovo nahí sme v skutočnosti?

Písal sa Október 2016 a pre väčšinu užívateľov služby AdultFriendFinder (sexuálna zoznamka) to nebolo zrovna najpríjemnejšie obdobie. V jednom z najväčších hackerských útokov histórie boli ukradnuté údaje 412 miliónov používateľov tejto služby, vrátane ich erotických preferencií. Situácia bola o to pikantnejšia, že okrem celebrít (o autenticite ktorých sa dá polemizovať, predsa s účtom Bread Pitt máte na takejto zoznamke podstatne vyššie šance 🙂 niekoľko tisíc týchto účtov bolo registrovaných z emailových adries oficiálnych vládnych predstaviteľov (.gov prípona). Pred celým internetom zrazu stáli, nuž veru doslova, nahí.

Niektorými z vás možno zalomcoval bôžik škodoradosti, iní si pomysleli, že ide predsa o kriminálny čin. A tak dáta získané a zverejnené na základe trestnej činnosti sú podobne mrzuté (a nevyhnuteľné) ako vreckárom ukradnutá peňaženka s dokladmi. Asi vás preto prekvapí, že nedobrovoľne zostať úplne nahí pred celým internetom, môžete aj celkom legálne. Je to možné vďaka nepriamemu stotožneniu. Poďme si pozrieť niekoľko príkladov:

Target_logoTehotenstvo. Asi prvou legendárnou kauzou na vážny zásah nepriameho stotožnenia do súkromia bol prípad tehotenstva u mladej ženy “odhalený” sieťou potravín Target. Na základe určitých špecifických tovarov (olejov a vitamínových doplnkov), ktoré si kupovali ženy v tehotenstve (a výpadku iných tovarov ako dámske hygienické vložky), bola americká sieť potravín Target schopná predikovať tehotenstvo u svojich klientok. Keď tak urobila a rozposlala kupóny na tehotenské produkty, prišiel sa sťažovať otec jedného z dievčat, ktoré ponuku dostali, že jeho dcéra je príliš mladá na tehotenstvo a ako si to dovoľujú ich otravovať takýmito ponukami. Manažéri Targetu sa ospravedlnili, že mohlo prísť k nejakej chybe a ziapajúceho otca radšej slušne vyprevadili z obchodu. O týždeň neskôr tento chlapík prišiel znovu. Tento krát sa však ospravedlniť, že jeho dcéra je naozaj tehotná.

Netflix dáta. Osobitného zreteľa je hodný príbeh Netflixu. Táto pokroková služba s predplatným na online filmy a video streamy je známa veľmi sofistikovaným prístupom k analýze dát, pretoženetflix-logo-grey odhadnúť, čo ďalšie by si mali ich klienti pozrieť je esenciou ich podnikania. (Dnes dokonca na základe týchto dát sami točia filmy so stámiliónovými USD rozpočtami) Do povedomia sa firma Netflix v medzi dátovými analytikmi dostala v roku 2009 najmä kvôli Netflix Prize, súťaž s hlavnou cenou 1 mil dolárov, ktorú vypísali pre verejnosť a v ktorej ktokoľvek na základe reálnych dát  480 189 Netflix užívateľov o (pozeraní a) hodnotení 17,770 filmov mohol navrhnúť čo najlepší algoritmus na predikovanie záujmu o film. Napriek tomu, že firma neuviedla žiadne osobné údaje a dáta boli anonymizované (aspoň sa tak javili), teamu výskumníkov Arvin Narayanan a Vitaly Shmatikov z University of Texas v Austine, USA sa podarilo stotožniť rozsiahlu podskupinu týchto klientov. Ako sa im to, do pekla, podarilo? Nuž dáta Netflixu naozaj boli poctivo zbavené akýchkoľvek údajov o samotných používateľoch. Problémom však bolo, že  skutoční filmoví fajnšmekri sa o svoje dojmy z filmov nedelili len s Netflixom, ale svoje hodnotenia filmoc pridávali aj medzinárodný portál Internet Movie Database. Porovnaním hodnotení (ľudia nemajú dôvod chváliť film na jednom portáli a zatracovať ho na inom) na IMDB a Netflix dát sa podarilo odanonymizovať totožnosť ľudí v Netlflix vzorke. Mementom by tento prípad mal byť pre všetky Hackatony a podobné súťaže.

ConservativesVoličské preferencie. Keď som spolupracoval na politickom marketingu pre Konzervatívnu stranu v Anglicku zostal som zaskočený, že zoznam voličov strany dostávajú voľne k dispozícií. Ak totiž bývate v okrsku, kde konzervatívci vyhrali 80:20, viem o vás, že s 80% pravdepodobnosťou, ktorú stranu ste volili. Tým sa však nebezpečie volebných zoznamov nekončí. V USA sa dá totiž zoznam voličov priamo kúpiť a obsahuje meno, pohlavie, dátum nerodenia a PSČ daného voliča. Pritom Latanya Sweeney vo svojej výskumnej práci dokázala, že až 87% percent Američanov je možné stotožniť len na základe ich demografických údajov. (neskoršie výskumy popísali worst-case scénar ako 67% zhodu). Ak teda vlastníte volebné zoznamy, môžu byť kľúčom pre odanonymizovanie značnej časti USA klientely.

Mamine prsia. Kvôli svojej práci pre bezpečnostné zložky som musel prejsť previerkou na stupeň Tajné. Súčasťou tohto procesu bol tak detailný dotazník o živote mňa a mojich blízkych, že keď som požiadal Mamu, aby mi vyplnila niektoré časti, tak sa ma spýtala, či chcú vedieť aj číslo jej podprsenky. Nuž existujú firmy, ktoré majú túto informáciu. S podobným problémom sa totiž potýka Amazon, ktorý samozrejme využíva každú príležitosť, aby navýšil svoje tržby. Pár rokov dozadu teda mal akciu, kde ku dňu matiek ponúkal špeciálne zľavy na kolekcie oblečenia a spodného prádla. Ak klient takúto akciu využil a nechal darček doručiť priamo mame (alebo na doručovacej adrese Amazon  registruje dámu s rovnakým priezviskom a primeraným vekom, aby bola matkou daného zákazníka, vie o nej aj jej konfekčné veľkosti a to napriek tomu, že ona u nich nikdy oblečenie nenakupovala. Amazon dokonca pre účel označenia darčekov pre iné osoby zaviedol aj osobitné tlačidlo pri objednávke (aj keď ich motiváciou bolo skôr vylúčiť tieto položky z vašej nákupnej histórie, aby nedoformovali odporúčania pre vás samotných).

Medicínske dáta. Pri zavádzaní GDPR pre jedného z mojich bývalých zamestnávateľov som strašne breptal ohľadne toho, ako prísne sa na anonymizáciu dát regulátor pozerá. Neskôr som však na prípade zdravotných dát zo štátu Massachusetts pochopil, že EU postoj je v skutočnosti opodstatnený. Pre účely verejného výskumu vplyvov životného prostredia na výskyt určitých chorôb, zverejnili orgány štátu Massachusetts anoanymizovanú dátovú sadu, ktorá obsahovala diagnózy a predpísané lieky či poskytnutú liečbu pre vzorku občanov daného štátu. Istej skupine vedcov sa však podarilo na základe kombinácie nepriamych príznakov prelomiť anonymitu tejto vzorky. Výsledkom bolo, že zverejnili zdravotnú dokumentáciu osoby, o ktorej s určitosťou vedeli potvrdiť, že je aktuálnym guvernérom daného štátu. Výskyt niektorých javov (napr. chorôb) môže byť tak zriedkavý, že dokáže priamo identifikovať dotknutú osobu. Ak máte k dispozícii dlhší časový rad, aj kombinácia bežných chorôb dokáže plne identifikovať človeka.

jadrova_bombaJadrová bomba marketingu. Na princípoch nepriameho stotožnenia je postavená aj asi najväčšia kauza zneužitia klientskych dát v spoločenskom kontexte v podaní Cambridge Analytica. Pikantné je to, že v nej boli použité dáta sociálnej siete Facebook a je preukázané že medzi nimi boli aj účty zo Slovenska. Svetoznámou sa stala táto kuaza po tom, čo sa prevalilo, že zrejme stála za volebným výsledkom Donalda Trumpa ako aj za kampaňou pri hlasovaní za Brexit. Práve tieto dve udalosti z nej urobili jadrovú bombu marketingu, o čom si viac môžete prečítať tu. Tento škandál nakoniec spôsobil, že americký kongres si predvolal Marka Zuckerberga (zakladateľa Facebooku) na verejné vypočutie o spôsobe ochrany osobných údajov.

Ako je to možné?

Najčastejším spôsobom ako v nepriamej identifikácií prichádza je nedbanlivosť na strane tých, ktorí o vás citlivé informácie skladujú. Nazdávajú sa, že tým, že zamlčali (časť) vašich osobných údajov, vytvorili anonymný záznam, ktorý na vás už nepoukazuje. Smutné je, že tejto chyby sa u nás dopúšťajú priamo aj polícia, čí súdy, ktoré by mali práve dbať na ochranu osobných údajov. Ak totiž hovorca povie, že obvineného Gustava H. sa pri domovej prehliadke našlo veľa hotovosti, nemá overené, či daná osoba náhodou nie je jediný Gustav H. v danej obci. (pri menších dedinách by dokonca aj Gustav mohlo byť dostatočné identifikovanie osoby). Paradoxne tak môže dávať zlodejom námet na krádež, lebo keď boli pri peniazoch, určite sa u nich doma nájde ešte niečo hodnotné, čo polícia nemala dôvod zadržať (napr. obrazy alebo nový OLED televízor).

Okrem flagratných porušení, kde oznamujúca strana priamo zanedbá svoje povinnosti na ochranu osobných údajov, sa však čoraz častejše objavujú prípady, kde Vaša identita sa dá pozbierať z rôznych “kúskov”. Pozrime sa spolu na výrok” “Advokátka sa dostala do právneho sporu ohľadne skládky odpadov so známym podnikateľom z Pezinka.” Na prvý pohľad anonymná veta. (aj keď všetci vieme, o ktoré osoby ide) Verejné zdroje ako ORSR, register súdnych konaní a súdnych rozhodnutí, verejné petície za/proti niečomu, pod ktoré sa podpisujeme celým menom, vyjadrenia do médií (ktoré sú digitálne dohľadateľné) a mnoho iných možných zdrojov dáva možnosť postupne zúžiť okruh ľudí, ktorí spĺňajú všetky tieto podmienku na človeka, teda vás.

Aby sme boli trochu vyvážení, nie všetky využitia nepriameho stotožnenia sú nutné zavrhnutia hodné.  Táto metóda  má v dátovej analytike aj konštruktívne využitie, keď sa používa na spresnenie odporúčaní produktov pre klientov. Niekoľko krát ste sa o tom mohli sami presvedčiť pri našich CRM hádankách na mocnedata.sk. Nepríjemnou sa stáva teda až vtedy, keď sa použije na nesprávne ciele. Podobne ako sekera, či kuchynský nôž.

Pre tých z vás, ktorí sa chcú o tejto téme dozvedieť ešte o čosi viac, pripájam odkaz na niekoľko starších blogov (napr. o zdraví, vašich partnerských vzťahochosobných preferenciách ale aj ako zamedziť nepriamemu stotožneniu). Nepriame stotožnenie je zväčša nepríjemným javom. V rukách šikovného analytika nás necháva naozaj nahých. A kľúčová dierka, cez ktorú nás možno vidieť je voľne dostupná komukoľvek. Teda presnejšie komukoľvek, kto si dá dostatočnú náhodu. Pamätajte na to pri registrovaní do on-line služieb alebo e-shopov.

Nádej pre ľudí? Vedci objavili oblasti, kde stroje ľuďom nestačia

V spoločnosti sa téme budúcej úlohy umelej inteligencie v našich životoch venuje čoraz viac priestoru. Aj v blogoch na mocnedata.sk som ponúkol pohľad na svetlejšiu aj tu nebezpečnejšiu stránku tohto problému. V ostatnom období sa objavili opäť nové pohľady expertov na túto tému, ktoré znejú povzbudzujúco. Zostanú teda ľudia “pánom tvorstva” ?

V špeciálnom Decembrovom čísle WIRED magazínu z roka 2018 sa objavil séria zaujímavých článkov. Vo všeobecnosti tento magazín je známy pozitívnym postojom k inováciám, snaží sa v nových veciach vidieť primárne to dobré. O to viac ma zaujala skupina článkov na tému toho, ako umelá inteligencia narazila na oblasti, kde napriek výraznej výpočtovej sile, nedokáže konkurovať ľudským schopnostiam. V čom teda ľudské pokolenie má navrch? A bude naša výhoda trvale udržateľná alebo je len otázka času, kedy stroje prevezmú aj v týchto oblastiach žezlo? Téme bolo celkom venovaných 22 strán daného vydania, pokúsim sa však hutne zosumarizovať pre vás hlavné princípy “ľudskej nádeje” :

(Ešte než sa pustíme do skúmanie týchto oblastí jedna dôležitá poznámka: Ak má Umelá Inteligencia fungovať univerzálne pre akúkoľvek situáciu, nemôže sa spoliehať na pevne zadefinované pravidlá. Skutočná AI teda potrebuje nájsť pre všetko, čo my ako ľudia vieme, spôsob ako sa to naučiť sama, bez inštrukcií od ľudí. A to je práve jadro problému pre nasledovné oblasti.)

Pochopenie základných princípov (Common sense intelligence)

Čo sa stane s loptou, keď ju vyhodím do vzduchu? Odpoveď, že spadne opäť na zem, by zvládol zrejme už aj predškolák. Umelá inteligencia však nemá koncept gravitácie ako poznať, niekto by jej ho musel vysvetliť. Možno vám napadne, že to nie je tak ťažké (veď rovnice o páde telies sa preberajú už na základnej škole). Skúsim však váš optimizmus pribrzdiť ďalším príkladom: Čo sa stane, keď vyhodím do vzduchu (héliový) balón? Alebo: Čo sa stane, keď vyhodím do vzduchu (živú) holubicu? Umelá inteligencia by sa začudovala, prečo zrazu gravitácia už nie je vhodný koncept na správnu odpoveď. Tomuto okruhu schopností sa hovorí common sense inteligence alebo aj “sedliacky rozum“. Väčšina z nás má tieto zručnosti prirodzene odvodené od skúseností bežného života alebo poznanie princípov (aj keď ste sami nikdy živého vtáka do vzduchu nevyhodili, viete si predstaviť, čo by sa dialo). Stroje v nich hlboko tápajú.

Okrem všeobecných pravidiel prírody (ktoré by sa dali aspoň teoreticky strojom “naprogramovať”), existujú oblasti Common sense inteligencie, ktoré sa dajú získať len z interakcie s ľuďmi. Ak by ste sa niekoho v domácnosti spýtali “Máme ešte jogurty?”, zrejme by sa šiel pozrieť do chladničky (alebo komory). Umelá inteligencia by však nevedela ako sa k tejto otázke postaviť. Aby stroje vedeli, že zásoba jogurtov sa nachádza niekde inde ako zásoba klincov, či toaletného papiera, museli by s nami žiť v domácnostiach. Do tejto skupiny schopnosti spadajú aj základné psychologické interakcie medzi ľuďmi. Umelá inteligencia by sa napríklad musela naučiť, že ak do niekoho vrazíte na ulici, povedie to k zvýšenej agresivite na strane toho, do koho ste vrazili. (pevne verím, že by sme nechceli, aby sa to stroje učili z vlastných skúseností)

Problém vzájomných vzťahov objektov

Asi nám to nepríde ani na um, lebo to pokladáme za samozrejme. Avšak jednou z vecí ktoré mi ľudia robíme oveľa efektívnejšie je posudzovanie vzájomných súvislostí objektov. Napríklad nik nám nemusel povedať, že dom je väčší ako človek. Preto vieme posúdiť, že človek sa zmestí do domu, ale dom sa nezmestí do človeka. Ak si myslíte, že toto by predsa zvládla aj umelá inteligencia (keby sme jej povedali rozmery jednotlivých objektov), tak vám skúsim uviesť ešte niekoľko iných príkladov. Lietadlo má oveľa väčšie rozmery ako rodinný dom (až na pár výnimiek), ale nik z ľudí nezaváha na otázku, či dom vmestí do dopravného lietadla. Ako sa zmení Vaša odpoveď, keď poviem, že je to nafukovací dom? Rovnako nik z ľudí nepochybuje, že človek za vmestí do domu, ale odpoveď by bola rovnaká aj keby som povedal, že dom je drevený. Ako by však dopadla odpoveď, keby bol dom hračkársky? Umelá inteligencia nedokáže zatiaľ uchopiť tieto súvislosti a v tejto dobe ani neexistuje efektívna metóda, ako ju to naučiť.

Problém dlhého učenia

Aj pre tie oblasti, kde už dnes stroje dokážu poraziť človeka, zväčša býva problém v tom, že na získanie svojich schopností potrebujú veľmi vysoký počet anotovaných príkladov (viac k ich učeniu nájdete tu). Viete si predstaviť, že by ľudské dieťa muselo vidieť 10 tisíce, či státisíce rôznych mačiek, kým by bolo schopné povedať, že na obrázku je mačka? Nuž, pre neurónové siete umelej inteligencie je to momentálne nevyhnutnosť.  Trénovanie umelej inteligencie tak neraz trvá (na ľudské pomery) neprimerane dlho. Veľmi často sa tak musia zhromažďovať (alebo dokonca umelo vytvárať) neprirodzene veľké sady informácií, na učenie takýchto neurónových sietí. Pre niektoré javy dokonca nemusí ani existovať dostatočný počet opakovaní danej veci, aby sa umelá inteligencia dokázala vytrénovať. (čo s tým veda robí o pár odsekov nižšie)

CAPTCHA_imagesSkvelou ilustráciou tohto princípu je CAPTCHA. Obrazce, ktoré sú používané na potvrdenie, že webový obsah si prezerá skutočný človek a nie stroj. Bez akéhokoľvek tréningu, človek dokáže odpovedať správne hneď na prvú CAPTCHA, ktorú vidí vo svojom živote. Experti, ktorí sa pokúšali natrénovať stroj, aby dokázal prelomiť CAPTCHA kód, potrebovali dodať umelej neurónovej sieti 2.3 milióna obrázkov so správnymi odpoveďami. Zaujímavé pritom je, že keď okrem samotných príkladov dodali strojom aj niekoľko jednoduchých, ľuďmi formulovaných princípov, ako lúštiť CAPTCHA, počet obrázkov na jej natrénovanie sa znížil iba na 260.

To, že ťarbavosť strojov v učení dokážu výrazne urýchliť čo i len elementárne rady od človeka, je v skutočnosti oveľa viac ako dvihnutie nášho sebavedomia. Tento princíp má za následok, že biznisové aplikácie umelej inteligencie, kde je dôležitejšie dosiahnuť výsledok za krátky čas sa budú ešte niekoľko rokov primárne stavať na kombinácií vstupov samostatne odvodených priamo umelou inteligenciou a kritérií definovaných luďmi. Ak teda budete mať vzdelanie na navrhovanie premenných, ktorými by sa modely umelej inteligencie mali zaoberať, aby sa rýchlejšie dopracovali k výsledku, sú vaše šance na prežitie blížiacej sa vlny robotizácie oveľa priaznivejšie.

Pochopenie nových objektov

Okrem veľkého hladu po informáciách pri učení sa, vedci zdokumentovali ešte jeden podstatný problém umelej inteligencie. Aj keď sa neučí rozpoznávať určité objekty, nevie si vytvoriť z nich analógiu. Ak napríklad aj naučíte neurónovú sieť veľmi dobre rozpoznávať automobily na fotkách, ak jej ukážete fotku traktoru zapadnutého v blate (alebo snehu) tak, že nie je vidno kolesá traktoru, bude sa trápiť s rozpoznaním daného objektu. Ľudia totiž dokážu na prvý pohľad využiť okolnosti na fotografii na to, aby potvrdili alebo vyvrátili domnienku, o aký objekt ide. Pre umelú neurónovú sieť pridanie prostredia naopak znižuje istotu, s akou sa dokáže o objekte vyjadriť, lebo nikdy pred tým traktor zapadnutý v blate nevidela. Rovnako ak malému dieťaťu ukážete prvý krát v živote pásový báger, bude vám vedieť povedať, že je to nejaká forma vozidla. Podľa zrealizovaných experimentov citovaných v článku, umelá inteligencia bude za ním hľadať skôr strážnu vežu s katapultom alebo nejakú formu potrubia.

Absencia kontextu

V neposlednom rade, stroje trpia doposiaľ ešte jednou podstatnou slabinou. Pre ich rozhodovanie absentuje vnímanie kontextu, ktorý je mimo samotnú úlohu, ktorú majú riešiť. Autori článku tento jav ilustrujú na príklade: Šachový automat bude naďalej rozmýšľať nad čo najlepším ťahom v aktuálne bežiacej partii, aj keď v miestnosti, v ktorej sa partia odohráva, vypukne požiar. Dokonca bude hrať do momentu, kým sa jeho mikroprocesory v danom požiari neroztopia. Je to preto, že jeho algoritmus na hru šachu samozrejme s takýmito okolnosťami vôbec nepočíta. Popísaný príklad môže znieť trochu priatiahnuto za vlasy, ale malo by nás primäť si uvedomiť, že pokiaľ my ľudia nenastavíme okrem hlavného cieľa (vyhrať partiu) strojom aj vedľajšie ciele (napr. prežiť do konca partie), ich ľahostajné postoje k veciam, ktoré pokladáme my ľudia za samozrejmosť (až nevyhnutnosť), nás môžu zaskočiť, či dokonca nechať na holičkách. Preto, ak by ste robota, ktorý vie variť poslali do reštaurácie, nezostal by sedieť čakať, kým mu čašník objedná a prinesie jedlo, ale vrhol by sa rovno do kuchyne, aby si ho sám uvaril. Náš súčasný proces stolovanie by totiž pokladal za časovo a informačne neefektívny. Zo súčasných autorov tému širšieho kontextu a šírky motivácií, ktoré musíme umelej inteligencii dávať, asi najprecíznejšie rozobral Nick Bostrom v knihe Superintelligence (ktorej recenziu si môžete prečítať tu).

Ako teda na to?

Napriek tomu, že vedci dnes nevedia prelúskať vyššie uvedené oblasti, neskladajú úplne zbrane. S obmedzeniami v učení umelej inteligencie bojujú najmä pomocou tzv. GAN sietí (Generative Adversial Network), kde sa vytvoria dve neurónové siete a jedna z nich slúži ako učiteľ pre tú druhú. Vedci sa tak zbavia potreby vymýšľať a dokumentovať milióny príkladov na trénovanie siete a odovzdajú túto povinnosť inej neurónovej sieti. Keďže aj AI učiteľ aj AI žiak dokážu zhromaždiť za sebou obrovské množstvo výpočtovej sily, učenie prebieha násobne rýchlejšie (neraz desiatky prípadov za sekundu), čo do istej miery kompenzuje hendikep popísaný v časti o príliš pomalom učení. Aby sme však boli korektní, aj samotné naprogramovanie “učiteľa” a spôsobu ako budú medzi sebou učiteľ a žiak digitálne komunikovať si vyžiada určité úsilie, teda celkový čas učenia zatiaľ stále predstavuje signifikantné obmedzenie praktického použitia niektorých Ai prístupov.

Na zabudovanie common-sense inteligencie zase experti prišli so zaujímavým riešením. Na miesto toho, aby programátori prácne, postupne natvrdo zapracovávali do programového kódu umelej inteligencie všetky pravidlá a spoločenské konvencie, nechajú neurónovú sieť si čítať príbehy. Aplikovaním literatúry možno vysvetliť zákonistosti javov, ktoré nie je vhodné (ako reagovať na smrť človeka) alebo je príliš nákladné zosimulovať pre učenie sa neurónových sietí (napr. pád lavíny do doliny). Zakiaľ literárnych diel (alebo jednoduchých textov) o páde lavíny je možné v priebehu niekoľkých dní poskytnúť umelej inteligencii aj desiatky príbehov takmer zadarmo, zosimulovať desiatky pádov lavín do toho istého údolia je projekt na niekoľko rokov s astronomickými nákladmi.

Rovnako absencia kontextu sa dnes už v sofistikovanejších systémoch rieši takzvanou lasso penalizáciou (alebo inou metódou regularizácie), ktorá dáva umelej inteligencii negatívne body za dosihanutie hlavného cieľa s negatívnymi vedľajšími dopadmi. Istým obmedzením v tomto ohľade však je, koľko rôznych scenárov vedľajších efektov riešenie zohľadní a ako sa bude rozhodovať medzi vzájomnými súvislosťami daných rizík.

Čo my?

Tým podstatným záverom by asi nemali byť prehnané nádeje. Áno, umelú inteligenciu stále v niektorých oblastiach strčí aj 8 ročné dieťa do vrecka. Na takmer všetky aktuálne nedostatky sa však už výskumné teamy snažia aplikovať prvé “záplaty”. Tempo odstraňovania slabín AI sa bude preto len zrýchľovať. Korektnejším záverom by preto zrejme bolo povedať, že dnešné slabiny umelej inteligencie hlavne:

a] spomaľujú tempo, akým bude technika nahrádzať ľudí v bežných životných činnostiach. Napriek tomu však možno očakávať, že prvé (nemanuálne) pracovné pozície preberú roboty už v horizonte 2-3 rokov. Ak ste profesionálny vodič alebo úradník, čo triedi dokumenty v podateľni, nemám pre vás žiadne ružové správy.

b] pre väčšinu biznis procesov však tvorba AI systémov bude vychádzať z expertného “popisu pravidiel” doplneného o vlastné pozorovania strojov. Ak chcete teda zvýšiť svoje šance na trhu práce aj do budúcna, mali by ste sa naučiť základy databázového ukladania dát a tvorby dátových príznakov (features), ktoré popisujú procesy vašej práce.

Vsadiť môžete aj na modlitby alebo pozitívne myslenie. Len by som vám chcel potom doporúčiť si prečítať skvelú knihu Gordon R. Sullivans a Michael V. Harpera s názvom “Hope is not a method” (Dúfanie nie je prístup k riešeniu). Aby ste vedeli, s čím všetkým v takom prípade počítať.

Dáta UKÁZALI PRAVDU o Šefčovičovi a ostatných prezidentských kandidátoch

Jeden z dôvodov, prečo Ján Kuciak musel zomrieť je, že vedel veľmi dobre pracovať s OpenData, teda otvorenými, verejne dostupnými zdrojmi údajov. V politike totiž môžete všeličo zamlčať alebo prekrútiť, ale v online prostredí po vás zostávajú určité digitálne stopy. Čo tieto dáta hovoria o webstránkach prezidentských kandidátov?

Katalóg internetových domén

Jedným z veľmi užitočných zdrojov sú takzvané registre internetových domén. Internetovú stránku môže “vlastniť” len jeden subjekt (aj keď záujem o domény typu debil.sk by sa našlo asi viac), ináč by v internete nastal chaos. Existuje preto centrálny register, kde je zapísané, kto danú internetovú doménu vlastní a odkedy je jej vlastníkom. Na Slovensku túto úloh plní www.sk-nic.sk. Ktokoľvek si môže kedykoľvek pozrieť, kto vlastní jednotlivú stránku aj kto a kedy ju v registri zapísal. A práve tieto informácie sú veľmi zaujímavé pre údaje o prezidentských kandidatúrach.

Ak sa pozriete na doménu Sefcovic2019.sk, ktorú kandidát Smeru-SD Maroš Šefčovič používa na svoju kampaň, Open dáta vám o nej povedia toto:

SEFCOVIC2019

S vyjadreniami kandidáta z tlačovky o tom, kedy si svoju kandidatúru rozmyslel, to asi nebude úplne v poriadku, lebo stránka bola spustená o 3 dni skôr ako spomínal (to ani nehovorím o tom, že ju pred spustením treba ešte aj vyrobiť). Registráciu realizovala rovnaká dvorná firma SMERu ako pri iných projektoch tejto strany (o tom nižšie o kúsok nižšie), takže niekto v SMERe nechal vytvoriť celú stránku sefcovic2019 ďaleko pred termínom tlačovky. Prečo teda to detinské zapieranie? Nuž Smer-SD chcel vytvoriť ilúziu, že Maroš Šefčovič niečo naozaj zvažuje. Jeho meno teda bolo vypustené do éteru a SMER čakal, ako média a spoločnosť zareagujú. Išlo teda zrejme o vopred premyslenú taktiku, čo je celkom zaujímavé.

Alternatívy smeru

Rozhodovanie o prezidentskom kandidátovi v strane SMER trvalo pomerne dlho. V situácií, keď sa rozhodnutie o kandidátoch naťahuje, agentúry zastrešujúce kampaň zvyčajne pre istotou bloknú (rozumej registrujú) domény potenciálnych kandidátov, aby sa potom nedostali do problémov. Dal som si preto tú námahu a overil, či boli vytvorené stránky aj pre nejakých iných kandidátov. Keďže vieme akú konvenciu názvu stránky SMER pri Šefčovičovi použil, postupne som overil všetky horúce mená zo Smeru. Z daných výsledkov je zrejmé, že SMER nikdy neuvažoval nad kandidatúrou niektorého z členov predsedníctva. Teda ani Kaliňák, či iné silné figúry SMERu na zozname neboli:

SMER_alternativy

Zaujímavé pritom je, že nezačali prípravy ani na kandidatúru pána Kubiša, o ktorom sa intenzívne v médiách hovorilo ako o potenciálnom kandidátovi SMERu-SD. Osobitnú výpovednú hodnotu má fakt, že SMER ani pred rekonštrukciou vlády nezvažoval na kandidatúru žiadneho z ministrov a ani aktuálneho premiéra Pelegriniho. Jedno meno sa v osudí SK-NIC však predsa objavilo:

LAJCAK2019

Pre bližšie nešpecifikovaného anonymného zákazníka zaregistrovala česká spoločnosť ACTIVE 24 doménu lajcak2019.sk. Najzaujímavejšie na tom je, že sa tak stalo už v roku 2016, čiže takmer 2.5 roka pred samotnými prezidentskými voľbami. Na trhu sa pohybujú aj subjekty, ktoré vopred “kradnú” domény, aby sa pravdepodobní záujemci o tieto domény museli s nimi v budúcnosti “dohodnúť” o prevode danej domény. Preto niekto môže namietať, že Lajcak2019.sk si niekto účelovo zaregistroval. Ak však poznáte prostredie webu, hneď 6 veci vám na tejto teorii zrejme nebude “zapadať do mozaiky”: 1) Ako mohol vedieť, že viac ako 2 roky dopredu, že SME bude chcieť použiť práve formát priezvisko2019.sk ? V tom čase ešte žiaden iní kandidát nebol zrejmý. Navyše v roku 2016 ešte ani aktuálny prezident Kiska neoznámil, že nebude opätovne kandidovať a bol na vrchole svojej popularity, preto by dávalo väčší zmysel staviť skôr na kiska2019.sk, nie? (túto doménu si však dodnes nik nezaregistroval). 2) Aby niekto vedel dobre “staviť” na mená budúcich kandidátov musel by mať prehľad o Slovenskej politike. Zaujímavé je preto to, že nik zo Slovenska, ale urobila tak firma z ČR pre neznámeho človeka. 3) Ak by ste chceli s doménou obchodovať, tak využijete možnosť uviesť do sk-nic registrácie kontakt na seba, lebo inak vás nemá ako potenciálny kupec kontaktovať. Registrácia je však anonymná bez uvedenia kontaktu na držiteľa domény. 5) Aj pri obchodovaní s doménami existujú určité obmedzenia a o bezodplatné prevedenie domény na svoje meno môže požiadať každý, kto preukáže že daná internetová stránka má podľa podstaty názvu patriť jemu. Pri spojení Lajčák 2019 (tým skôr keď podobné označenie používajú aj iní kandidáti), by bolo pre kohokoľvek neudržateľné blokovať takúto doménu, keď daný človek kandiduje vo voľbách v roku 2019. Teda ktokoľvek by si zištne predrezervoval takúto doménu, musel vedieť, že nebude mať reálnu šancu “vytĺkať” z jej vlastníctva nejaké peniaze. 6) Ak ste obchodník s doménami, potom si zaregistrujete viac mien naprieč politickým spektrom a čakáte, “kde vám padne jackpot”. čo ak si však ten istý subjekt zaregistruje len domény viacerých možných kandidátov jednej a tej istej strany? Ste skôr agentúra, ktorú túto kampaň pripravuje a poisťujete si viaceré alternatívy. A to sa presne stalo aj v tomto prípade.

Možno si poviete: “Prečo sa tak do hĺbky venujeme prípadu Lajcak2019.sk ? Veď dnes už je jasné, že nekandiduje, tak čo na tom, kto a kedy si danú doménu predregistroval?” Nuž, táto bočná vetva je v skutočnosti pomerne dôležitá. Poskytuje totiž vysvetlenie pre jedno oveľa závažnejšie podozrenie. Ale o tom až v čerešničke na záver.

A čo ostatní

Z tých vážnejších kandidátov za zmienku stojí pristaviť sa pri vytvorení webových stránok pre kampaň Roberta Mistríka a Zuzany Čaputovej, ako najvážnejších opozičných vyzývateľov pre Šefčoviča. Obe stránky boli zaregistrované pomerne s veľkým časovým odstupom od momentu ohlásenia kandidatúry. Rovnako však veľmi ďaleko od oficiálneho vyhlásenia volieb a stanovenia termínu hlasovania. Na spustení webu týchto kandidátov je teda zaujímavá iná vec ako v prípade Ševčoviča. Team okolo Zuzany Čaputovej registroval jej stránku 9ho Mája 2018, iba 6 dní po zarezervovaní stránky Roberta Mistríka. Ak by ste chceli veriť v konšpirácie, tak z tohto faktu dospejete k presvedčeniu, že to celé z pozadia riadia a synchronizujú žido-jaštery. Ak však holdujete viac rozumu, napadne vám skôr, že jeden z teamov sa snažil urputne zareagovať na aktivitu toho druhého.  Kto naháňal koho nechám na úsudok (alebo fantáziu) uvedomelého čitateľa. Pikantné však je, že Robert Mistrík na svojom Facebooku ohlásil 15 mája 2018, že sa dnes rozhodol kandidovať na prezidenta. To už mal doménu zaregistrovanú 12ty deň. “Náhle rozhodovanie s predstihom” tak zjavne vyzerá byť akou si chorobou kandidátov na prezidenta.

MISTRIK_CAPUTOVA

Pri ostatných demokratických kandidátoch nie je z Open data, čo príliš ponúknuť. Lebo ako hovorí staré príslovie “Kde je nič, tam ani smrť neberie”. Béla Bugár ani František Mikloško nemajú ani menej ako 2 mesiace pred voľbami pre istotu žiadnu webovú stránku (o ktorej by vyhľadávače vedeli), kde by sme si mohli prečítať, prečo chcú kandidovať alebo čo chcú v úrade dosiahnuť. (Pre korektnosť treba povedať, že doménu miklosko2019.sk už od júla má registrovanú firma, v ktorej sú ľudia blízki KDH a doménu www.belabugar.sk od Novembra 2018 jedna firma z Dunajskej Stredy. Tak je možné, že sa ešte dočkáme.) Niekoľko ďalších kandidátov sa rozhodlo použiť svoje osobné (alebo firemné) stránky registrované už dávno, takže do tejto analýzy neprinesú nič nové.

Bonbónik nakoniec

Ten najväčší bonbónik som si nechal nakoniec tohto bloku. Rovnaký princíp ako pri Šefčovičovi či Lajčákovi sa objavuje ešte pri jednom mene a to nie hocijakom. Trúfli by ste si tipnúť? Nuž verte, či neverte, ale na internete si niekto dal námahu zaregistrovať vopred aj stránku www.fico2019.sk. A to nie je všetko, ten niektoFICO2019 dokonca ešte obnovil prenájom tejto domény 10. Decembra 2018 (!). Pripusťme na chvíľu, že by to bol špekulant, ktorý chce neskôr s menom obchodovať (napriek všetkým vyššie popísaným okolnostiam). Kto by si však uprostred Decembra 2018 stavil na to, že Fico ešte môže byť kandidátom? (lebo inak načo danú stránku držať rezervovanú). Za udržiavanie domény sa musí každoročne niečo platiť. Takto nezmyselnú “investíciu” by si dovolil len ten, kto aspoň tuší, že SMER by takúto možnosť pripustil. Áno je to, môže to byť iba špekulácia alebo šialený fanúšik bývalého premiéra, ktorý dúfa v jeho návrat. Ale zvláštne je, že sa trafil do rovnakého rozmýšľania s koncovkou 2019 ako samotný SMER. Myslím, že každému napadne, že existuje aj iná možnosť … Preto už len dodám, že doména Fico2019.sk bola registrovaná na toho istého neidentifikovaného anonymného klienta ako Lajcak2019.sk

Zaujímavé doplňujúce informácie

Na záver doplním, že okrem informácií o samotných doménach je zaujímavé vidieť aj to, kto za jednotlivými kampaňami (teda aspoň ich online verziami stojí).  Na tento účel dobre poslúži ďalšia kategória dát, ktoré sú voľné dostupné. Konkrétne ide o dáta obchodného registra (www.orsr.sk) a portálu FOAF (www.foak.sk), ktorý prehľadne mapuje vzájomné prepojenia firiem a ľudí.

Tieto údaje dokážu ponúknuť ďalší zaujímavý pohľad na firmy, ktoré sú do kampaní “zapletené” . V prípade Šefčoviča ide zrejme o dvornú internetovú firmu SMERU-SD, ktorej stopy vedú do Nitry a za niekoľkými zákrutami nájdete prepojenia aj na osoby a firmy, známe buď z verejných zákaziek alebo veľmi osobitým vystupovaním v spoločnosti. Túto líniu ponechám na investigatívu už samotným novinárom, ktorí so svojimi zisteniami môžu konfrontovať priamo dotknuté firmy a osoby. Je to však veľmi zaujímavé čítanie (pre mňa so špeciálnou príchuťou, keďže jeden zo štatutárov býva iba o 3 vchody vedľa miesta, kde som žil).

Zaujímavým zistením je aj fakt, že stránky niektorých (menej reálnych) kandidátov na prezidenta priamo registruje a (teda ich chod financuje) spoločnosť, v ktorej je daný kandidát/-ka spoločníkom. Tento aspekt sa intenzívne pretraktoval pri preverovaní financovania kampane súčasného prezidenta a ide preto o pomerne školácku chybu, ktorá sa bude ťažko vysvetľovať daňovému úradu.

Vo všeobecnosti verejní činitelia a kandidáti podceňujú, čo všetko o nich a ich kampaňovom teame je možné odhaliť z verených zdrojov internetu. Tento blog je len krátkou ukážkou. V skutočnosti ľudia ako Ján Kuciak si dali omnoho viac práce a tak ich zistenia zašli niektorým aj pod kožu. Všeličo sa dá totiž natárať do telky a novín. Ale dáta vás často usvedčia z klamstiev … Pevnú ruku nad urnou Vám prajem.

Ja musím výrazne pridať. A vy?

Ak už sme dosiahli v živote určité skúsenosti, je lákavé robiť veci, ktoré vieme alebo ktoré nám idú. (Aplikujeme to často najmä v zamestnaní, veď každý sa radšej cíti kompetentný ako neschopný). Aby sme však nedopadli ako hotel, ktorého zariadenia sa postupom času “vybýva”, je nutné investovať aj čas do seba rozvoja a poznávania nových spôsobov a trendov. Hoci sa snažím tomuto faktoru prikladať patričnú váhu, s obhliadnutím sa za rok 2018 som zistil, že musím pridať.

Spôsob ako sa ďalej vzdelávať je mnoho. Niektorí idú na odbornú konferenciu, zúčastnia sa Meetupu, Hackatonu, či súťaže na Kaggle portáli.  Pracovať sa dá na sebe aj v podobe online kurzov či diaľkového štúdia on-line univerzity. Pre mnohých, mňa nevynímajúc, však stále pevné miesto vo samovzdelávaní stále má čítanie kníh. Vediem si preto už roky podrobný čitateľský denník a jedno z novoročných predsavzatí je prečítať aspoň 10 000 strán kníh počas každého kalendárneho roku. Za rok 2018 som však v plnení tohto cieľu zlyhal. Išlo vôbec o najslabší čitateľský rok za celú históriu čo si denník píšem. Môj výkon sa vyšplhal iba na 5 943 strán. Takže od vytýčeného cieľa som bol na hony a v roku 2019 musím pridať. A to výrazne viac.

Chudobnejšia preto bude aj tohtoročné odporúčanie, čo z kníh, ktoré som čítal, by som vám odporučil si prečítať:

BOOK_NarconomicsNarconomics

Tom Wainwright

Zameranie:    Princípy biznisu a firemnej organizácie

Dôvod prečo ju čítať: Autor si vybral na prvý pohľad veľmi dráždivú paralelu: Všíma si ako funguje drogové kartely a aké princípy z ich práce si môžu osvojiť firmy alebo verejné organizácie. Ak nepatríte medzi puritánov a knihu predsa otvoríte pochopíte, že to nie je óda na zločin a že autor ani nezľahčuje, či nebodaj nepropaguje činy týchto kartelov. Umne a s vysokou morálkou vyberá tie vnútorné princípy, ktoré pomáhajú efektívne riadiť obrovské siete ľudí, pričom násilie a trestný rozmer obchodu s drogami sú jasne za čiarou. Verte mi, je to zaujímavé čítanie.

ISBN:   978-1785030420

Link: https://www.amazon.co.uk/Narconomics-How-Run-Drug-Cartel/dp/1785030426/

BOOK_retrotopiaRetrotópia

Zygmunt Bauman

Zameranie:    Fungovanie spoločnosti / Filozofia

Dôvod prečo ju čítať: Mnohí ľudia, či dokonca celé generácie žijú v nejakej utkvelej predstave. Tieto utópie sú však väčšinou orientované na predstavu v akej by sme v budúcnosti chceli žiť. Preto aj slovo utópia v nás vyvoláva pocit niečoho, čo malo nastať v budúcnosti, ale je vysoko nereálne a preto sa to ešte nestálo. Zygmunt Bauman však ponúka veľmi zaujímavý pohľad na vec, keď poukazuje na to, že aktuálna generácia si buduje utópiu z procesov, ktoré sa už stali (v nedávnej) minulosti. Musím priznať, že táto kniha mi pomohla pochopiť mizériu a útrapy mnohých ľudí okolo mňa. Preto odporúčam aj Tebe prečítať si túto útlu knižku.

ISBN:  978-8081501760

Link: https://www.martinus.sk/?uItem=279773

book_AlgorithmAlgorithms to live by 

Brian Christian, Tom Griffiths

Zameranie:    Princípy rozhodovania sa / Práca s dátami 

Dôvod prečo ju čítať:  Kniha Toma Griffithsa a Briana Christiana je jedna s tých, ktoré na mňa zanechali tak silný dojem, že som sa rozhodol o nej napísať hneď niekoľko blogov (tu aj tam). Hoci kniha vysvetľuje matematické a IT algoritmy, robí tak veľmi laickým spôsobom a tak závery jednotlivých kapitol budú pre Teba hodnotné, či si kominár, úradníčka alebo manažér. Ide totiž o princípy rozhodovania, ktoré sú veľmi jednoduché a pri tom majú praktický význam v živote každého z nás. Dám ruku do ohňa za to, že už si mal v živote hneď niekoľko situácií, keby by sa zišlo mať túto knihu prečítanú. Tak, hŕ, si dopniť svoj všeobecný rozhľad.

ISBN:  978-1250118363

Link:  https://www.amazon.com/Algorithms-Live-Computer-Science-Decisions/dp/1250118360/

book_UnscaledUNSCALED 

Hemant Tameja

Zameranie:    Inovácie

Dôvod prečo ju čítať: Keď ste chceli v minulosti uspieť v nejakom odvetví, museli ste mať dostatok kapitálu, najať správnych ľudí a investovať veľa peňazí do strojového vybavenia, či marketingu. V dnešnej dobe však kapitál sa k vášmu inšpiratívnemu návrhu pozbiera aj sám na Kickstarteri, ľudia pre vás môžu pracovať na diaľku z inej časti planéty, akékoľvek vybavenie prenajmete, či leasujete, chýr o produkte sa môže virálne (a zadarmo) šíriť svetom. Čo teda je kľúčovým úspechom nových odvetví, ktoré teraz vznikajú? Aké dopady má “vybavenie” firiem 21-storočia na odvetvia, ktoré vznikli podľa starých pravidiel? Čakajú nás ešte nejaké podstatné zmeny vo fungovaní biznisu?

ISBN:  978-1610398121

Link: https://www.amazon.com/Unscaled-Generation-Upstarts-Creating-Economy/dp/1610398122

KNIHY_SuperintelligenceSuperIntelligence

Nick Bostrom

Zameranie:    Umelá inteligencia, Analýza dát

Dôvod prečo ju čítať: Ak patríte medzi stálych čitateľov Mocnedata.sk, tak túto knihu už vám netreba osobitne predstavovať, keďže som jej nedávno venoval osobitný blog. Pre tých ostatných dodám len stručnú upútavku: Táto kniha bude zrejme Bibliou 21ho storočia. Ak chcete vedieť, ako sa bude meniť váš život, práca, či medziľudské vzťahy s príchodom umelej inteligencie, robotov a autonómnych vozidiel,  určite by ste si mali prečítať túto knihu. (Budúcim) rodičom zároveň napovie, ako smerovať vzdelanie svojich detí pre túto pohnutú éru ľudstva.

ISBN:  978-0198739838

Link: https://www.amazon.com/dp/0198739834/

BOOK_Danish_way_of_ParentingThe Danish Way of Parenting

J.J. Alexander, I. D. Sandahl

Zameranie:    Rodičovstvo, Výchova detí

Dôvod prečo ju čítať: Mnohí sme alebo čochvíľa budeme rodičmi.  Ako iste uznáte, pre výchovu detí, každá rada je nad zlato (alebo aspoň nad hádzanie sa o zem). Tým, že žijeme v zahraničí mám šancu si všímať ako rozličné kultúry pristupujú k výchove detí. Doposiaľ sa mi najviac pozdáva Dánsky spôsob, ktorý je aj prehľadne popísaný v tejto knihe. Kniha vám zaberia iba pár dni a vyzbrojí vás do krásnych chvíľ aj nepohody vo výchove dieťaťa.

ISBN:  978-0143111719

Link: https://www.amazon.com/Danish-Way-Parenting-Happiest-Confident/dp/014311171X

book_HomoDeus

Homo Deus

Yuval Noah Harari

Zameranie:    Budúcnosť / Filozofia 

Dôvod prečo ju čítať: Ako to bude s ľudstvom ako celkom? Prežije demokracia? Čaká nas vlna nezamestnanosti alebo naopak sladké obdobie nič nerobenia a garantovaného príjmu zo zdanenia robotov? Ako naložíme s génovou manipuláciou a ako to ovplyvní náš život? Kam to pôjde ďalej s náboženstvami? Proste, pozrite si “stručné dejiny zajtrajška”, ako má v podtitule táto kniha.

ISBN:  978-8073355029

Link: https://www.martinus.sk/?uItem=281249#description

Ako sa darilo pri čítaní Tebe? Čo zaujímavé by si odporúčil nám ostatným si prečítať?

Mohlo by Ťa ďalej zaujímať:

Prehľad mojich kníh z iných rokov

Čo čítajú experti – Odporúčanie M. Schnorrera

Iné zaujímavé knihy

Vianočné darčeky nás učia dôležité ponaučenia

Množstvo ľudí v biznise, a to najmä z radov manažérov, si po zavedení GDPR nie sú istí, akými úkonmi dosiahnuť, že uchovávanie údajov nebude zasahovať do súkromia klientov. Pseudonymizácia, anonymizácia či depersonalizácia? Kto sa má v tom orientovať? Našťastie sa dá táto oblasť “po lopate“ vysvetliť práva na príklade Vianočných darčekov. Nebojte, ešte som dnes, nepil. Tie dve témy naozaj spolu súvisia:

Darčeky samozrejme nosí Ježiško, na tom sa nič nemení (už stáročia). Ale tí z našej rodiny, ktorých Ježiško poprosil o pomoc, sa každoročne snažili urobiť všetko preto, aby sa neprezradilo, kto Ježiškovi pomáhal s konkrétnym darčekom. Rodina kúpila niekoľko roliek toho istého baliaceho papieru, takže všetky darčeky boli v tom istom papieri. Menovky sa zásadné písali paličkovými písmenami, aby pisateľa neprezradil rukopis. (OK, v rodine grafológa toto môže byť komplikované, ale možno sa dajú menovky natlačiť)

Keď sa na to pozriete s dostatočným odstupom, v podstate sme sa snažili utajiť osobné údaje toho, kto jednotlivé darčeky pod stromček (samozrejme s poverením od Ježiška) uložil. Aký stupeň ochrany osobných údajov sa nám však darí pri darčekoch dosiahnuť? Je čas na kúsok teórie:

Depersonalizácia je postup, v ktorom zbavím údaje zjavných, osobu stotožňujúcich údajov alebo odkazov na ne. Údaje však zostávajú stále nechránené a je možné z nich vyčítať dôležité informácie alebo dokonca priamo stotožniť danú osobu. Ide len o zneplatnenie evidentných ukazovateľov na danú osobu.

Pseudonymizácia je proces, ktorý narába s osobnými údajmi tak, že údaje nie sú ešte anonymnými, ale už nie sú ani priamo identifikujúce. Ide o spracovanie osobných údajov takým spôsobom, že údaje už nemožno pripísať konkrétnej dotknutej osobe bez použitia ďalších informácií. Pseudonymizáciu už možno považovať za techniku, ktorá zvyšuje ochranu osobných údajov, ale je dostatočnou iba pre niektoré typy spracovania dát.

Anonymizácia je úplne odstránenie osobných údajov alebo čo i len príznakov, ktoré by viedli (aspoň) k nepriamej identifikácii daného človeka. Po anonymizácií by nemal byť schopný stotožniť dáta dokonca ani ten, kto anonymizáciu realizoval. Odstránenie osobných údajov je trvalé a nevratné, teda stotožnenie nie je možné ani v budúcnosti a to ani na základe dodatočných informácií.

Fíha, že sa Vám to trochu prelína a pletie?  Nuž poďme si teda postupne vysvetliť, za pomoci Vianočných darčekov, ktorá metóda ako v praxi funguje:

Rodina, kde sa darčeky nebalia do žiadneho baliaceho papiera a ľudia si ich nedávajú pod stromček s menovkami, ale priamo odovzdávajú (áno, aj také rodiny poznám) neprichádza k žiadnej „ochrane osobných údajov.“ Rovnako to by bolo aj keby ste si darovali vouchery zakúpené cez web na konkrétnu email adresu alebo ste zabudli v balení darčeku účtenku s číslom karty, ktorou ste to zaplatili. Hoci mnohí by namietali, že neviem predsa číslo karty všetkých rodinných príslušníkov, v očiach zákona je to jednoznačný identifikátor.

Xmax-PresentsV rodine, kde by ste zahodili všetky účtenky a vyčiernili časť emailových adries (napr. fer__nand.vitek@email.com) z webových nákupov, ale neriešili baliace papiere, menovky a iné záležitosti, dosiahli by ste len depersonalizované darčeky. Formálne teda nie je explicitne napísané, kto daný darček kúpil, ale v skutočnosti je to aj tak identifikovateľné, lebo napríklad Ferdinand je jeden z možných pôvodcov darčeku. (viac o tom nižšie). Depersonalizácia údajov je pomerne naivný spôsob, ktorý používajú televízie a dokonca aj prokuratúra a policajti, (napr. obvinený Marián K.) a ktorý z hľadiska GDPR vôbec nemusí (a zväčša ani nie je) dostatočný pre skutočnú ochranu osobných údajov.

Ak by ste chceli dosiahnuť aspoň pseudonymizovaného Ježiška pod stromčekom, potrebujete mať aspoň spoločný baliaci papier darčekov. Ak by totiž mal každý svoj vlastný baliaci papier, dá sa jednoducho určiť, koho je koho (stačí sa pozrieť ktorý zo vzorov baliaceho papiera daná osoba nemala na žiadnom darčeku a to je osoba, od ktorej nič nedostal. Keby mal každý práve jednu takú osobu, je jasné, kto je kto). Okrem toho by bolo potrebné mať aj menovky na darčekoch predtlačené alebo štandardizované, aby neprezradili Christmas tree with lots of presents under the tree, lights andadresáta. Ak by sme chceli byť striktní, tak by musel ešte prísť sused a poprehadzovať darčeky tak, aby nik nevedel, kto v akom poradí darčeky pod stromček položil.

V reálnom živote môže byť presudonymizácia dostatočným opatrením pre prenos dát, ale nie je dostatočnou ochranou pre uchovanie dát alebo dodržanie niektorých špecifických GDPR požiadaviek klienta (napr. právo na zabudnutie).Dáta totiž možno stotožniť aj nepriamo, pomocou kombinácie informácií z ktorých žiadna sama o sebe neurčujú konkrétnu osobu, ale ich vzájomná kombinácia už áno. Napríklad vysoký ústavný činiteľ, obyvateľ Popradu ani aktívny politik nie sú samé o sebe jasne určujúce. Ale ak viem o tom istom, človeku, že je momentálne aktívnym politikom zastávajúcim vysokú ústavnú funkciu a žije v Poprade, už je to presne určená osoba. Ak teda v praxi chcete obstáť v teste, že údaje sú plne anonymizované (viď čochvíľa), musíte dosiahnuť, že nech zoberiete ľubovoľnú kombináciu údajov o niektorej osobe vo Vašej databáze, vždy existujú aspoň dve osoby, ktorú majú takúto kombináciu, teda nie je možné z kombinácie určiť o koho presne ide. (napr. premiér zo SMER-SD). Aby ste tento stav dosiahli, musíte postupne škrtať (rozumej vymazať) údaje, u ktorých neexistujú aspoň dvaja s rovnakou kombináciou príznakov. Keďže sa pochopiteľne snažíte splniť požiadavku anonymizácie tak, aby ste zároveň zachovali čo najviac údajov, zabúdať je potrebné postupne, preto sa táto metóda anonymizácie volá Postupné zabúdanie.

xmas_presents_3.jpgDosiahnuť anonymizované Vianoce by bolo v praxi takmer nemožné. Tak, ako v reálnej dátovej praxi, aj pri Vianociach sú požiadavky na anonymizované údaje príliš prísne. Balíčky by museli byt približné rovnako veľké, aby sa nedalo zistiť, že ten najväčší alebo najmenší bol od niekoho. Darčeky by museli byť aj približne rovnakej finančnej hodnoty, aby nebolo jasné, že majetnejší rodičia kúpili drahšie darčeky deťom alebo naopak. Rovnako by muselo byť anonymizované poradie v akom darčeky budú pod stromčekom uložené, čo by musel byť dosiahnuté tým, že ich niekto po tme bude vyťahovať náhodne z vreca. Podmienka Anonymizácie je však splnená iba ak ani samotní autori by nevedeli zrekonštruovať, kto je strojcom ktorého z darčekov. A to je v skutku krutá požiadavka. To by si totiž  vyžadovalo, aby bolo z každého darčeka aspoň 2 rovnaké kusy, aby nebolo zrejmé, ktorý z tých dvoch kusov bol od koho. Takto okyptené Vianoce by teda zrejme skončili ako masívna ponožková smršť alebo súbor obálok s rovnakou sumou peňazí. V oboch prípadoch pomerne smutné Vianoce.

Ilustračný príklad Vianočných darčekov som si vybral aj preto, lebo dokumentuje ako nezmyselná môže byť ochrana osobných údajov. To, čo pôvodne mala byť snaha o „zatajenie Ježiškovho pomocníka“ sa pri dotiahnutí do plnej anonymizácie stáva kontraproduktívnym a potláča aj niektoré základné princípy Vianoc. Podobne to totiž je aj v reálnom živote. Pôvodne dobre mienená ochrana údajov neraz v praxi prerastá do bizarných situácií (ako rodičia školopovinných detí nemôžu osloviť rodičov spolužiakov ich dieťaťa bez GDPR súhlasu, …). Je teda pravdepodobné, že podobne ako nebudeme stáť o anonymizované Vianočné darčeky, aj v prípade GDPR nastane určitá korekcia vzad. Dovtedy Vám však prajem, celkom personalizovane, príjmené Vianočné sviatky a PF 2019!

Mohlo by Vás ešte zaujímať:

Dáta o Vianociach

Najzábavnejšie GDPR citáty

Viete, čo je XAI? Ej veru, mali by ste.