Ako dátovo nahí sme v skutočnosti?

Písal sa Október 2016 a pre väčšinu užívateľov služby AdultFriendFinder (sexuálna zoznamka) to nebolo zrovna najpríjemnejšie obdobie. V jednom z najväčších hackerských útokov histórie boli ukradnuté údaje 412 miliónov používateľov tejto služby, vrátane ich erotických preferencií. Situácia bola o to pikantnejšia, že okrem celebrít (o autenticite ktorých sa dá polemizovať, predsa s účtom Bread Pitt máte na takejto zoznamke podstatne vyššie šance 🙂 niekoľko tisíc týchto účtov bolo registrovaných z emailových adries oficiálnych vládnych predstaviteľov (.gov prípona). Pred celým internetom zrazu stáli, nuž veru doslova, nahí.

Niektorými z vás možno zalomcoval bôžik škodoradosti, iní si pomysleli, že ide predsa o kriminálny čin. A tak dáta získané a zverejnené na základe trestnej činnosti sú podobne mrzuté (a nevyhnuteľné) ako vreckárom ukradnutá peňaženka s dokladmi. Asi vás preto prekvapí, že nedobrovoľne zostať úplne nahí pred celým internetom, môžete aj celkom legálne. Je to možné vďaka nepriamemu stotožneniu. Poďme si pozrieť niekoľko príkladov:

Target_logoTehotenstvo. Asi prvou legendárnou kauzou na vážny zásah nepriameho stotožnenia do súkromia bol prípad tehotenstva u mladej ženy „odhalený“ sieťou potravín Target. Na základe určitých špecifických tovarov (olejov a vitamínových doplnkov), ktoré si kupovali ženy v tehotenstve (a výpadku iných tovarov ako dámske hygienické vložky), bola americká sieť potravín Target schopná predikovať tehotenstvo u svojich klientok. Keď tak urobila a rozposlala kupóny na tehotenské produkty, prišiel sa sťažovať otec jedného z dievčat, ktoré ponuku dostali, že jeho dcéra je príliš mladá na tehotenstvo a ako si to dovoľujú ich otravovať takýmito ponukami. Manažéri Targetu sa ospravedlnili, že mohlo prísť k nejakej chybe a ziapajúceho otca radšej slušne vyprevadili z obchodu. O týždeň neskôr tento chlapík prišiel znovu. Tento krát sa však ospravedlniť, že jeho dcéra je naozaj tehotná.

Netflix dáta. Osobitného zreteľa je hodný príbeh Netflixu. Táto pokroková služba s predplatným na online filmy a video streamy je známa veľmi sofistikovaným prístupom k analýze dát, pretoženetflix-logo-grey odhadnúť, čo ďalšie by si mali ich klienti pozrieť je esenciou ich podnikania. (Dnes dokonca na základe týchto dát sami točia filmy so stámiliónovými USD rozpočtami) Do povedomia sa firma Netflix v medzi dátovými analytikmi dostala v roku 2009 najmä kvôli Netflix Prize, súťaž s hlavnou cenou 1 mil dolárov, ktorú vypísali pre verejnosť a v ktorej ktokoľvek na základe reálnych dát  480 189 Netflix užívateľov o (pozeraní a) hodnotení 17,770 filmov mohol navrhnúť čo najlepší algoritmus na predikovanie záujmu o film. Napriek tomu, že firma neuviedla žiadne osobné údaje a dáta boli anonymizované (aspoň sa tak javili), teamu výskumníkov Arvin Narayanan a Vitaly Shmatikov z University of Texas v Austine, USA sa podarilo stotožniť rozsiahlu podskupinu týchto klientov. Ako sa im to, do pekla, podarilo? Nuž dáta Netflixu naozaj boli poctivo zbavené akýchkoľvek údajov o samotných používateľoch. Problémom však bolo, že  skutoční filmoví fajnšmekri sa o svoje dojmy z filmov nedelili len s Netflixom, ale svoje hodnotenia filmoc pridávali aj medzinárodný portál Internet Movie Database. Porovnaním hodnotení (ľudia nemajú dôvod chváliť film na jednom portáli a zatracovať ho na inom) na IMDB a Netflix dát sa podarilo odanonymizovať totožnosť ľudí v Netlflix vzorke. Mementom by tento prípad mal byť pre všetky Hackatony a podobné súťaže.

ConservativesVoličské preferencie. Keď som spolupracoval na politickom marketingu pre Konzervatívnu stranu v Anglicku zostal som zaskočený, že zoznam voličov strany dostávajú voľne k dispozícií. Ak totiž bývate v okrsku, kde konzervatívci vyhrali 80:20, viem o vás, že s 80% pravdepodobnosťou, ktorú stranu ste volili. Tým sa však nebezpečie volebných zoznamov nekončí. V USA sa dá totiž zoznam voličov priamo kúpiť a obsahuje meno, pohlavie, dátum nerodenia a PSČ daného voliča. Pritom Latanya Sweeney vo svojej výskumnej práci dokázala, že až 87% percent Američanov je možné stotožniť len na základe ich demografických údajov. (neskoršie výskumy popísali worst-case scénar ako 67% zhodu). Ak teda vlastníte volebné zoznamy, môžu byť kľúčom pre odanonymizovanie značnej časti USA klientely.

Mamine prsia. Kvôli svojej práci pre bezpečnostné zložky som musel prejsť previerkou na stupeň Tajné. Súčasťou tohto procesu bol tak detailný dotazník o živote mňa a mojich blízkych, že keď som požiadal Mamu, aby mi vyplnila niektoré časti, tak sa ma spýtala, či chcú vedieť aj číslo jej podprsenky. Nuž existujú firmy, ktoré majú túto informáciu. S podobným problémom sa totiž potýka Amazon, ktorý samozrejme využíva každú príležitosť, aby navýšil svoje tržby. Pár rokov dozadu teda mal akciu, kde ku dňu matiek ponúkal špeciálne zľavy na kolekcie oblečenia a spodného prádla. Ak klient takúto akciu využil a nechal darček doručiť priamo mame (alebo na doručovacej adrese Amazon  registruje dámu s rovnakým priezviskom a primeraným vekom, aby bola matkou daného zákazníka, vie o nej aj jej konfekčné veľkosti a to napriek tomu, že ona u nich nikdy oblečenie nenakupovala. Amazon dokonca pre účel označenia darčekov pre iné osoby zaviedol aj osobitné tlačidlo pri objednávke (aj keď ich motiváciou bolo skôr vylúčiť tieto položky z vašej nákupnej histórie, aby nedoformovali odporúčania pre vás samotných).

Medicínske dáta. Pri zavádzaní GDPR pre jedného z mojich bývalých zamestnávateľov som strašne breptal ohľadne toho, ako prísne sa na anonymizáciu dát regulátor pozerá. Neskôr som však na prípade zdravotných dát zo štátu Massachusetts pochopil, že EU postoj je v skutočnosti opodstatnený. Pre účely verejného výskumu vplyvov životného prostredia na výskyt určitých chorôb, zverejnili orgány štátu Massachusetts anoanymizovanú dátovú sadu, ktorá obsahovala diagnózy a predpísané lieky či poskytnutú liečbu pre vzorku občanov daného štátu. Istej skupine vedcov sa však podarilo na základe kombinácie nepriamych príznakov prelomiť anonymitu tejto vzorky. Výsledkom bolo, že zverejnili zdravotnú dokumentáciu osoby, o ktorej s určitosťou vedeli potvrdiť, že je aktuálnym guvernérom daného štátu. Výskyt niektorých javov (napr. chorôb) môže byť tak zriedkavý, že dokáže priamo identifikovať dotknutú osobu. Ak máte k dispozícii dlhší časový rad, aj kombinácia bežných chorôb dokáže plne identifikovať človeka.

jadrova_bombaJadrová bomba marketingu. Na princípoch nepriameho stotožnenia je postavená aj asi najväčšia kauza zneužitia klientskych dát v spoločenskom kontexte v podaní Cambridge Analytica. Pikantné je to, že v nej boli použité dáta sociálnej siete Facebook a je preukázané že medzi nimi boli aj účty zo Slovenska. Svetoznámou sa stala táto kuaza po tom, čo sa prevalilo, že zrejme stála za volebným výsledkom Donalda Trumpa ako aj za kampaňou pri hlasovaní za Brexit. Práve tieto dve udalosti z nej urobili jadrovú bombu marketingu, o čom si viac môžete prečítať tu. Tento škandál nakoniec spôsobil, že americký kongres si predvolal Marka Zuckerberga (zakladateľa Facebooku) na verejné vypočutie o spôsobe ochrany osobných údajov.

Ako je to možné?

Najčastejším spôsobom ako v nepriamej identifikácií prichádza je nedbanlivosť na strane tých, ktorí o vás citlivé informácie skladujú. Nazdávajú sa, že tým, že zamlčali (časť) vašich osobných údajov, vytvorili anonymný záznam, ktorý na vás už nepoukazuje. Smutné je, že tejto chyby sa u nás dopúšťajú priamo aj polícia, čí súdy, ktoré by mali práve dbať na ochranu osobných údajov. Ak totiž hovorca povie, že obvineného Gustava H. sa pri domovej prehliadke našlo veľa hotovosti, nemá overené, či daná osoba náhodou nie je jediný Gustav H. v danej obci. (pri menších dedinách by dokonca aj Gustav mohlo byť dostatočné identifikovanie osoby). Paradoxne tak môže dávať zlodejom námet na krádež, lebo keď boli pri peniazoch, určite sa u nich doma nájde ešte niečo hodnotné, čo polícia nemala dôvod zadržať (napr. obrazy alebo nový OLED televízor).

Okrem flagratných porušení, kde oznamujúca strana priamo zanedbá svoje povinnosti na ochranu osobných údajov, sa však čoraz častejše objavujú prípady, kde Vaša identita sa dá pozbierať z rôznych „kúskov“. Pozrime sa spolu na výrok“ „Advokátka sa dostala do právneho sporu ohľadne skládky odpadov so známym podnikateľom z Pezinka.“ Na prvý pohľad anonymná veta. (aj keď všetci vieme, o ktoré osoby ide) Verejné zdroje ako ORSR, register súdnych konaní a súdnych rozhodnutí, verejné petície za/proti niečomu, pod ktoré sa podpisujeme celým menom, vyjadrenia do médií (ktoré sú digitálne dohľadateľné) a mnoho iných možných zdrojov dáva možnosť postupne zúžiť okruh ľudí, ktorí spĺňajú všetky tieto podmienku na človeka, teda vás.

Aby sme boli trochu vyvážení, nie všetky využitia nepriameho stotožnenia sú nutné zavrhnutia hodné.  Táto metóda  má v dátovej analytike aj konštruktívne využitie, keď sa používa na spresnenie odporúčaní produktov pre klientov. Niekoľko krát ste sa o tom mohli sami presvedčiť pri našich CRM hádankách na mocnedata.sk. Nepríjemnou sa stáva teda až vtedy, keď sa použije na nesprávne ciele. Podobne ako sekera, či kuchynský nôž.

Pre tých z vás, ktorí sa chcú o tejto téme dozvedieť ešte o čosi viac, pripájam odkaz na niekoľko starších blogov (napr. o zdraví, vašich partnerských vzťahochosobných preferenciách ale aj ako zamedziť nepriamemu stotožneniu). Nepriame stotožnenie je zväčša nepríjemným javom. V rukách šikovného analytika nás necháva naozaj nahých. A kľúčová dierka, cez ktorú nás možno vidieť je voľne dostupná komukoľvek. Teda presnejšie komukoľvek, kto si dá dostatočnú náhodu. Pamätajte na to pri registrovaní do on-line služieb alebo e-shopov.