Najčastejšie chyby v emailoch – Ako ich nájsť a opraviť

Chyby nerobí len ten, čo nerobí nič. Táto ľudová múdrosť platí naozaj vo všeobecnosti a tak sa vťahuje aj na prácu s kontaktnými údajmi klienta. Počas svojej práce som sa stretol s niekoľkými rozsiahlymi databázami emailových adries klientov. Väčšina z emailov sa do systémov firiem dostávala z registračných formulárov, kam ich klienti sami zadávali. Keď vidíte nejaký konkrétny preklep v emailovej adrese, poviete si: aká triviálnosť, možno sa aj pousmejete a chybu poľahky odstránite. Ak však máte databázu s miliónmi prípadov, úsmev vám rýchlo vytuhne.

Ako nájsť chybu v emailových adresách, keď pochybení je mnoho? A ako veľká je v skutočnosti nekvalita vo vašom konkrétnom prípade? Poviete si, urobím si vzorku, v nej zrátam chyby ručne a podľa toho odhadnem veľkosť problému. Nuž ale, ak máte v databáze milióny emailov, vzorka by musela mať aspoň niekoľko desiatok tisíc riadkov. To už prestáva byť v ľudských silách odhaliť. Ako si teda počať s týmto problémom?

V jednej z mojich minulých prác som bol postavený pred tento problém prvý krát. Najprv som skúsil uvedenú vzorkovú metódu, ale po niekoľko stovák riadkov som pochopil, že tadiaľ cesta naozaj nevedie. Nenechal som sa odradiť a povedal som si, že email predsa má určité pravidlá, ktoré musí splniť (napríklad musí obsahovať @ a minimálne jednu bodku, ideálne až za @). Takýmto spôsobom sa môžete dopracovať k sade určitých pravidiel. Dnes však už viem, že tým odhalíte len nepatrný zlomok problémových emailov.

Tak ako to už v živote býva, pohár môže byť polo-prázdny aj polo-plný. Obrovské množstvo emailov je teda prekliatím aj požehnaním. Čím viac podkladových dát, tým častejšie sa určitá chyba vyskytne. Nad obrovskou skupinou emailov tak môžete testovať strojom postupne všetky hypotézy a zároveň mať rýchlo spätnú väzbu, ako pravdepodobná daná chyba je. Aj pomerne zriedkavé chyby budú mať v tak obrovskej databáze aspoň pár kusov výskytov. A tu sa premieňa nevýhoda na výhodu. Keďže bizarné scenáre budú mať zopár výskytov, ak postupne testujete filtre na rozličné typy chýb, počty „podozrivých emailov“, ktoré vám jednotlivé návrhy filtrov vracajú sú dobrým signálom, či pravidlo naozaj odhaľuje chyby alebo je falošným poplachom, ktorý „neprávom obviňuje“ veľké množstvo „nevinných emailov“.

Nedávno sa mi podarilo uvedené cvičenie zopakovať na vzorke, kde sú desiatky miliónov emailových adries. Z uvedených skúseností môžem povedať, že toto sú najčastejšie chyby, ktorých sa ľudia dopúšťajú pri písaní vlastných emailov:

Dvojité preklepy

Do tejto kategórie spadajú emaily tvaru nieco@@niekde.com alebo nieco@niekde..com Odhaľovanie týchto dvojitých chýb je možné urobiť pomerne jednoducho, aj keď možno by vám vôbec nenapadlo, že ľudia dokážu urobiť aj takto triviálnu chybu.

Roztržité domény

Pri písaní adries sa ľudom občas stáva, že z roztržitosti napíšu správne takmer celú adresu, ale potom “domrvia” koncovku domény, ako napríklad niekto@yahoo.sk . Tento druh chýb už sa hľadá podstatne ťažšie, lebo freemailové servery niekedy majú špecifické koncovky v krajinách a tak @yahoo.xxx nemusí byť nutne nesprávne. Tu vám však opäť dokáže pomôcť BigData sila obrovskej databázy. Stačí overiť všetky kombinácie yahoo.xxx a skontrolovať tie, ktoré majú podozrivo nízke počty. Tento postup možno aplikovať pre ľubovoľné veľké domény, takže zistíte, že zoznam.jp tiež nie je úplne v poriadku. Samozrejme firmy môžu mať officy v menších firmách, takže keď vykročíte zo zóny freemail domén, môžete sa aj popáliť, ale v princípe sa dá dopracovať k solídnym výsledkom.

Skomoleniny v názvoch

Ďalšou skupinou relatívne ľahko detekovateľných problémov sú zjavné skomoleniny, predovšetkým domén (napr. niekto@gmai.com). Detekcia je opäť trochu komplikovanejšia, ale v princípe sa dajú použiť Levenshtein vzdialenosti od mien veľkých domén. Je to samozrejme ľad, po ktorom treba opatrne kráčať, ale ak nebudete prehnane horliví, dá sa s tým veľa problémov potlačiť.

Zjavne vynechané povinné znaky

Na moje prekvapenie, niektorí ľudia sú schopní napísať emailovú adresu aj bez zavináča, či dokonca bez jedinej bodky. Pri úprave takýchto chýb, už však je pomerne jednoduché vyrobiť false positive, teda ilúziu nesprávnej korekcie. Preto odporúčam “natvrdo” algoritmicky opravovať len zjavne prípady ako niektogmail.com alebo niekto@gmailcom. Skúšali sme experimentovať aj agresívnejšími technikami, ale miera falošných poplachov bola zúfalo vysoká. Ak totiž užívateľ zabudol napísať zavináč, určiť na ktorú pozíciu má byť vložený nie je vo všeobecnosti príliš jednoduché (napr. ambrozeset.sk bola v skutočnosti správne ambroze@set.sk nie ambroz@eset.sk , ako by si niektorí mohli myslieť)

Samostatnou vetvou sú ľudia, ktorí svoje email adresy píšu tak, aby neboli strojovo použiteľné. Tu musím uznať, že zlyháva najmä validáciu vstupu, lebo emaily ako niekto(at)niekde.com alebo niekto@niekde_dot_com by sa proste do databáz nemali ani dostať. Napriek tomu, to niektorí skúšajú.

< ďalšie pravidlá sú rozobrané v doplnkovom blogu pre členov komunity Mocnedata.sk >

Vo všeobecnosti je opravovanie chýb v emailoch taký zaujímavý kokteil alchýmie a tvrdých algoritmov. Preto pre členov  MocneData.sk komunity som pripravil k tejto téme doplnkový blog [Ako na to] Skripty na opravu chýb v emailoch, kde uvádzam aj vzorové kódy, ako vyššie uvedené (a niektoré ďalšie) chyby v emailoch priamo odstrániť. Skripty sú napísané v SQL konvenciách a teda môžu byť priamo aplikované na vaše databázy. Ak patríte medzi členov komunity MocneData.sk, použite heslo, ktoré ste obdržali emailom o registrácii. Ak doposiaľ nie ste členom komunity môžete sa bezplatne stať TU A TERAZ.

Tí z nás, čo si viac tykajú s programovacími jazykmi by mohli povedať, že chybám v ľuďmi zadávaných údajoch by sa dalo predísť patričnou validáciou (kontrolou) zadávaných emailov. Podľa tohto postoja by sa dalo v úvode citované príslovie upraviť na „chyby v databáze má iba ten, čo nič nerobí proti nim“. Hoci je pravda, že aplikované kontroly by dokázali odstrániť niektoré preklepy, stále existujú emailové adresy, ktoré “prelezú“ väčšinou základných testov, hoci zjavne nie sú správne. (napríklad a_b.c_d@efgh.ch) Postaviť filter na všetky možné chyby tak je v praxi takmer nemožné. Podľa mojich skúseností, aj po zavedení veľmi prísnych validačných pravidiel sa podarilo znížiť počet nekorektných emailov iba na úroveň okolo 1.4%.  Tento, približne 1%ný, posledný kúsok koláča zostáva len potvrdením prvej vety: Kto robí, urobí aj chyby.

Ďalšie [AKO NA TO] blogy, ktoré by vás mohli zaujímať:

[ako na to] – VÝBER PARAMETROV pre model

[ako na to] Ideme robiť MENINOVÉ KAMPANE

[ako na to] ANOMÁLIE v DÁTACH

[ako na to] Analyzujeme BORING DÁTA

Blíži sa Data Science Club

Neviem, či ste postrehli, priatelia, ale Exponea spolu s FIIT organizuje v Bratislave pravidelne akciu, ktorá sa volá DataScience Club. Jej najbližšie kolo sa uskutoční už budúci štvrtok 22.3.3018 o 16:00 v Mlynskej doline a ja som tento krát od organizátorov obdržal pozvanie vystúpiť v programe. Pozvánku som prijal s veľkou radosťou, keďže odkedy pôsobím v Berlíne, je pre mňa ťažké skĺbiť know-how zdieľanie na Slovensku s pracovnými a rodinnými povinnosťami. DataScience Club preto beriem zároveň ako možnosť spojiť príjemné (opäť vás stretnúť) s užitočným (rozobrať expertnú rovinu dôležitej témy).

Celé stretnutie DataScience Clubu sa ponesie v duchu mojej líbling témy “Feature engineeringu” Aby som vás navnadil, skúsim odkryť niečo z kuchyne prípravy mojej prednášky:

COMING_SOONExistuje hneď niekoľko dôležitých dôvodov, prečo sa výber a príprava parametrov pre prediktívne modely stali kľúčovými pre úspech Machine Learningu. My si primárne rozoberiem dva z týchto dôvodov. Jeden, ukazuje ako Feature Engineering môže byť konkurenčnou výhodou, najmä ak použitie  niektoré z moderných knižníc na predikcie. Druhým dôvodom načrieme do budúcnosti ľudstva a povieme si, čo feature engineering bude znamenať pre Data Scientistov.

Keď už budeme takto patrične rozbehnutí, poďme sa pozrieť na to, ako sa vlastne zvyčajne generujú vstupné premenné pre modely. Ktoré z ciest zväčša vedú k úspechu a ktoré naopak bývajú slepouMASS_production uličkou? Aké najčastejšie chyby robím pri výbere premenných pre svoj model? Ale predovšetkým, koľko by som tých premenných mal mať a prečo práve toľko?

uncoventionalRozoberať len tradičné postupy tvorby premenných a ich chyby by bolo trochu nefér. Preto ponúknem aj iný pohľad na tvorbu premenných a pokúsim sa vás nadchnúť konkrétnymi príkladmi pre netradičné prístupy na generovanie premenných. Zároveň by som chcel vo vás vyvolať pokoru k výberu zostavy premenných, aby vaše modely mali naozaj zmysel.

Analýza primárnych komponentov (alebo aj PCA) je pre mnohých skôr menej známy nástroj Machine Learningu. A tak ju Data Scientisti občas používajú viac dôverčivo, ako by si zaslúžila. Aby ste sa nedopúšťali rovnakej chyby aj vy, vysvetlíme si kedy je PCA priateľom a kedy naopak vrahom vašich modelov.

V jednom zo svojich teamov v minulosti som “prichytil” analytikov, že nepoužívajú transformácie premenných. Keď som sa pýtal prečo, so sklopenými očami priznali, že vždy cheat_sheetpoužívali softwarom defaultne  ponúknuté transformácie a nevedia, ako si vybrať ich správnu kombináciu. Zostavil som vtedy pre nich jednoduchý 1-stránkový ťahák, ktorý si spolu prejdeme. Pre prípad, že by aj vám na to váš šéf  prišiel …

scikit-learnSciKit Learn je určite základným kameňom pre mnohé (prvé) pokusy v Machine Learningu pre pythonistov. A je to pochopiteľné, ide o súbor naozaj ľahko použiteľných a pomerne solídnych algoritmov pre strojové učenie. Má však aj svoje slabšie miesta. Rád by som vás na ne upozornil a ponúkol návod ako tieto slabiny preklenúť, ak sito váš model bude vyžadovať.

 

 

 

Ak budete mať budúci štvrtok popoludní voľnú chvíľu, určite sa príďte pozrieť aj na Ondreja Brichtu, ktorý bude predo mnou hovoriť o tom, ako sa popasovať s úlohou generovať premenné a prediktívne modely nad streamovanými dátami, ktoré spravidla nemusia mať ani ustálenú schému. Program bude naozaj hutný, tak neváhajte a stavte sa, rád vás znovu všetkých uvidím. Vstup je voľný a lístky sa dajú registrovať  TU.

Výrazná neprítomnosť logiky

Hneď na úvod tohto článku chcem povedať, že TENTO ČLÁNOK NIE JE POLITICKÝ a nebude vyjadrovať žiaden politický názor.  Aj keď môj názor na to zrejme dôsledne poznáte.

ALLforJANdva

Zdesenie novinárov je očakávateľné a pochopiteľné. Koniec koncov, len ak téma smrti Jána Kuciaka bude neustále pod drobnohľadom médií, tak sa bude osudu ťažšie hľadať cesta, ako by mohla kauza zostať nevyšetrená. Zároveň však novinári robia tejto téme jednu medvediu službu. Ak sa pozriete na komentáre českých alebo iných zahraničných médií, dokážu sa na vec pozrieť s nižším krvným tlakom a skôr sa zameriavajú na logické chyby zúčastnených. K tomuto prúdu by som chcel prispieť aj ja svojim blogom. Vo všetkých troch bodoch ide totiž o situácie, pri ktorých – slušne povedané – je logika výrazne neprítomná.

Podpora vyšetrenia? Možno tak u lekára …

Asi najčudesnejšia na celej tejto fáze je argumentácia niektorých z verejných predstaviteľov, že odvolanie ministra vnútra by ohrozilo riadne vyšetrenie. Nuž, prvý krát je to čudesné preto, že každý minister vnútra sa doposiaľ dušoval, že NEZASAHUJE do vyšetrovania. Nechajme bokom ako dôveryhodné boli tieto slová od jednotlivých, konkrétnych ministrov vnútra doposiaľ a pozrime sa na fakt samotný. Vyšetrovanie vedie Polícia SR a Prokurátora SR. Policajní vyšetrovateľovia sa zodpovedajú vyšším úrovniam polície, až v konečnom dôsledku Prezidentovi policajného zboru. Prokurátor vyšším stupňom prokuratúry, až v konečnom dôsledku Generálnu prokurátorovi. Minister vnútra nemá žiadne právomoci voči Generálnej prokuratúre. Jediný vplyv, ktorý môže mať minister vnútra na Prezidenta PZ SR je, že ho a] menuje/odvolá alebo b] zabezpečuje riadny rozpočet pre chod Polície SR. Ak teda politici tvrdia, že minister vnútra musí zostať, aby vyšetrovanie riadne prebehlo, tak tým môžu mať na mysli len to, že minister A] musí byť pripravený okamžite vymeniť Prezidenta PZ SR alebo B] riešiť situáciu, že pre vyšetrenie tejto kauzy nemá PZ SR dostatok peňazí. Lenže rozpočet na rok 2018 už je schválený a teda akékoľvek jeho navýšenie by musela schváliť vláda ako celok (tá to môže urobiť aj bez prítomnosti ministra vnútra, ten to dokonca nemusí ani navrhnúť). Tadiaľto cesta pre nutné udržanie ministra vnútra teda zjavne nevedie.

Druhou možnosťou je, že vyšetrovanie by brzdil priamo Prezident PZ SR. Pretože, ak Prezident PZ SR chce, aby sa riadne vyšetrovalo, má na to všetky kompetencie donútiť nejakú zložku PZ SR alebo dokonca zriadiť zložku, ktorá sa bude zodpovedať priamo jemu. Zostáva teda možnosť, že minister vnútra by musel zostať pri moci, aby bolo možné vymeniť okamžite prezidenta PZ SR, ktorý bráni vyšetreniu a zakazuje to aj všetkým úrovniam policajných štruktúr pod sebou. Ak by sa však takáto bizarná skutočnosť objavila, vymeniť Prezidenta PZ SR môže ak hociktorý dočasný minister, ktorý bude poverený vedením rezortu po odstúpení ministra vnútra. (Vláda musí aspoň formálne niekoho poveriť vedením Ministerstva vnútra, lebo to vyžadujú bezpečnostné pravidlá SR pre mimoriadne situácie (napríklad povodne alebo verejné nepokoje)). Teda neexistuje dôvod prečo by kvôli tomu musel zotrvávať minister vnútra v úrade.  Neviem preto, či si daní politici náhodou nemýlia policajné vyšetrenie s vyšetrením u lekára. Na rozdiel od toho lekárskeho, totiž minister vnútra pri vyšetrovaní nemusí byť prítomný.

Zaprášený milión na stole

V Slovenskom prostredí neexistuje spôsob, akým by ste mohli legálne odmeniť človeka, ktorý sa prihlási s informáciami o trestnom čine. Samozrejme, môžete takému človeku dať peniaze ako osobný dar,  ale osoba, ktorá milión na stôl položila, neplánovala venovať milión EUR z vlastných peňazí. Situácia s odmenením za informácie sa ešte viac komplikuje, ak takúto odmenu chce dať štátny orgán.  Ten totiž nemôže darovať peniaze, neumožňujú mu to rozpočtové pravidlá. Môže schváliť dotáciu, nenávratnú finančnú podporu alebo uhradiť nejaké náklady priamo. Dať milión fyzickej osobe za informácie o odhalení nie je možné ani z rezervy Predsedu Vlády SR (zákon 524/2010). Ak má však príjemcom byť fyzická osoba a zároveň jej tento obnos nemá byť zdanený, tak jedným z dvoch spôsobov ako osoba môže dostať daný milión je venovať mu ju ako bezúročnú pôžičku, ktorú zhodou okolnosti nebude Úrad Vlády vymáhať späť (čo mimochodom aktuálna vláda nemôže garantovať, lebo po výmene vlády nová garnitúra môže mať pocit, že by bolo predsa vhodné, aby sa ten milión vrátil.) Tým druhým je, že mu Sociálna poisťovňa prizná dávku vo výške 1 mil EUR, čo je pomerne bizarná predstava. V skutočnosti existuje teda len niekoľko bizarných spôsobov, ako by človek mohol získať milión cashu ležiacich na stole. Aj keď toto asi nebude jediný dôvod preto, v každom prípade na spomínaný milión asi bude teda dlho padať prach. A to aj keď bude ležať niekde inde, aby sa pri ňom nemuseli striedať na stráži kukláči.

Bezpečnostná previerka a jej zákutia

Ako bývalý zamestnanec NBÚ a držiteľ previerky na stupeň TAJNÉ som musel absolvovať proces preverovania osobnosti a môjho pozadia. Z profesionálnej solidarity k zložkám, ktoré sa na tom podieľajú, nebudem rozoberať úplné podrobnosti ich práce. Môžem však zodpovedne prehlásiť, že “ututlať” podozrenie na spojenie s organizovaným zločinom (tým skôr zahraničným), nie je pri NBÚ previerke možné. Človek sa musí najprv v detailnom bezpečnostnom dotazníku sám vyspovedať zo všetkých osobných, a profesných konexií. Dotazník je tak podrobný, že jedna z mojich rodinných príslušníčok sa ma pri jeho vypĺňaní spýtala “Na ktorej z ďalších strán sa pýtajú aj na číslo mojej podprsenky?” Každú osobu (a informácie, ktorá uviedla) potom následne preverujú tajné služby pôsobiace na Slovensku. Ak niekto zamlčí skutočnosť, ktorú tajná služba už eviduje alebo v teréne odhalí, je to takmer okamžite závažný šrám v nedôveryhodnosti, ktorý človek môže “odčiniť” len na polygrafickom vyšetrení (detektor lži), kde mu z tejto oblasti budú položené mnohé priame otázky. Možnosť, že by sa v bezpečnostnom dotazníku dal zamlčať biznis partner niektorého z rodinných príslušníkov, je vylúčená. Ako sa dá teda získať bezpečnostná previerka v SR, ak máte vo svojej blízkosti človeka s nevhodným pozadím? Nuž existujú len dve možnosti: buď danú vec priznáte a NBÚ sa ňou nezaoberá (čo je v rozpore s ich úlohami) alebo danú vec nepriznáte, ale tajné služby vás “nenatrú”.  Pričom, mne osobne, pripadá pravdepodobnejšia tá druhá verzia. Pretože ak by ste to priznali, tak NBÚ musí váš dotazník archivovať a teda poslanecká kontrola NBÚ by si ho mohla vyžiadať k nahliadnutiu. Ak by vám náhodou napadlo, že tajné služby o tom možno nevedeli, tak v prípade cudzincov, je táto možnosť vylúčená, pretože majú prístup do všetkých zahraničných registrov hľadaných a trestaných osôb.

VEĽKÝ ROZHOVOR o BIG DATA

Minulý mesiac ma požiadal portál SimpleTalent o rozhovor na tému BigData. Musím povedať, že som príjemné prekvapený kvalitou otázok aj samotnej diskusie, tak som sa rozhodol (aspoň čiastočne) vám obsah tohto rozhovoru sprotredkovať aj tu na mocnedata.sk.

[SimpleTalent] Žijeme už naplno v ére Veľkého brata, alebo sa to ešte zintenzívni?

[F.Vítek] Myslím si, že žijeme v ére Veľkého brata a zároveň je možné, že brat ešte vyrastie. Veľké percento svojich údajov už teraz dávame k dispozícii, či už dobrovoľne alebo nedobrovoľne. Zostávajú nám ešte nejaké oblasti, ale o tie nás podľa mňa pripraví ani nie tak naša vôľa, ale zrejme samotný vývoj techniky.

Nedávno ste zmenili zamestnanie a presťahovali sa do Nemecka. Čomu sa venujete vo firme Teamviewer?

Doteraz som sa venoval jednému trhu, jednej banke, jednej poisťovni alebo nejakej utilite. Teraz mám na starosti analyzovanie dát z celého sveta. Naša firma má 1,5 miliardy klientov. Ak v minulosti niečo prekážalo pol percentu klientov, tak to bolo väčšinou okolo päťsto ľudí, na mojej súčasnej pozícii je to 5 miliónov ľudí. Taká masa sa dosť ťažko ignoruje. Metódy na analyzovanie miliardy ľudí musia byť vo svojej podstate zásadne iné ako pri miliónoch. Napríklad sa nám objaví nejaký biznisový jav na Filipínach. Človek tam nikdy nebol, nevie, aká je to kultúra. Niečo si o tom môže prečítať, ale v princípe nie vždy rozumie do úplného dôsledku, prečo sa to deje. Vzbudzuje to vo mne pokoru, naozaj sa treba spoliehať na dáta, zanalyzovať, prečo sa to tak udialo. Človek si nemôže od stola dovoliť povedať, že jasné, to je proste tento efekt, to poznáme, to sa stalo aj pred dvoma rokmi v Španielsku.

Ako ste si vyberali vlastný tím a aké nástroje ste použili?

Na Slovensku som bol pri prijímaní prirodzene zorientovaný. Poznal som reputáciu univerzít, vedel som, na akej pozícii na trhu sa nachádzal predošlý zamestnávateľ kandidáta. No pri zostavovaní môjho nového tímu v Nemecku bola väčšina uchádzačov z Indie. Nemal som šancu spraviť si povedzme rešerš indických univerzít. Musel som preto omnoho hlbšie skúmať ľudí, aby som nadobudol v rozhodnutí istotu. Intenzívnejšie a dlhšie som sa venoval kolám, v ktorých preukazovali  schopnosti, chcel som poznať reálne prípadové štúdie. Kým predtým som už na interview tušil, ako uchádzači dopadnú, teraz najväčším filtrom prešli až pri praktických skúškach. Momentálne je pri výbere najväčším problémom nedostatočne veľký počet uchádzačov. Treba presvedčiť aj iné skupiny možných zamestnancov, nielen tých, ktorí rotujú. Osloviť ponukou aj tých naozaj kvalitných, tých, ktorí sú na svojej pozícii spokojní a možno aj rozmaznávaní zamestnávateľom.

Ako ovplyvní oblasť spracovania dát sprísnenie pravidiel ich ochrany, teda GDPR?

Bude to oveľa väčšia zmena, ako si ľudia dokážu pripustiť. Regulácia je prísna, lebo dobieha zameškané. Online prostredie dlho nebolo regulované, tolerujeme tam veci, ktoré v bežnej spoločnosti nedovolíme. Ak by sa niekto živil tým, že stojí na ulici a zapisuje si, kam chodíte, tak by ste ho udali. No je úplne normálne, že Google, Facebook, Amazon vedia všetko, nikto im to nezakazuje, ani ich neobmedzuje.

Čo sa zmení?

GDPR rozhýbe mobilitu dát. Spomínaný Google má napríklad informácie o mojich preferenciách, o stránkach, na ktoré chodím. Doteraz mohol tieto informácie využívať len ten, kto ich zbieral. Od GDPR bude mať každý, kto o mne zbiera dáta, povinnosť zverejniť ich aj mne alebo komukoľvek inému, koho ja určím. Zrazu všetky tie obrovské analytické pozadia budeme môcť využiť v náš prospech. Veď niekto tu zadarmo pre mňa robí rozsiahle analýzy môjho správania.

 

…. CELÝ PREPIS ROZHOVORU si môžete PREČÍTAŤ TU ….

Okrem iného sa v ňom dozviete odpoveď aj na otázky:

  • Čo pozitívne pre biznis prináša (inak nenávidené) GDPR? 
  • Ako zaujať najlepších kandidátov na dátových analytikov?
  • Aké bizarnosti prináša dátová zodpovednosť za 250 krajín sveta?
  • Čo si HRista môže legálne zistiť o kandidátovi vopred pred pohovorom?
  • Aké nové trendy v analytike zamestnancov očakávame?
  • Ako sa vysporiadať s nedostatočným objemom dát pre natrénovanie AI v HR?

Analytika skomplikuje život týmto odvetviam

Tak ako v iných spoločenských témach (napr. utečenecká kríza) existujú slniečkári a pesimisti, aj v otázke vplyvu umelej inteligencie na ekonomiku sú názory polarizované. Jedni v tom vidia záhubu bežnej práce (a vyťahujú koncepty o garantovanom príjme), iní mávnu rukou, že ani predchádzajúce revolúcie pary, automobilov, či elektriky neboli fatálne a tak nebude ani umelá inteligencia.

Aj keď mám na túto tému svoj osobný názor, rád by som sprostredkoval na mocnedata.sk vyváženú diskusiu z oboch strán spektra. Už dosiahnuté, zjavné benefity AI sme prebrali nedávno, rád by som teda dnes poukázal na témy, kde už dnes je zrejmé, že lepšia analytika zjavne bude viesť k poklesu daných odvetví. Nejde pri tom o žiadne futuristické robot-vízie. Vo všetkých prípadoch, ktoré nás dnes čakajú sa ľudia sami rozhodnú vložiť menej peňazí do daného biznisu. Preto nasledujúcim zmenám asi nezabránia ani výzvy na “rozbíjanie robotov” alebo iné progres spomaľujúce iniciatívy:

dážďUž ste boli niekedy na dovolenke a pršalo vám väčšinu dní? Ak patríte k typickým turistov, asi vám to nepridalo na nálade. Možno vás aj zamrzeli peniaze do takto investovaného výletu. Teraz si predstavte, že by ste presne vedeli, aké bude počasie na niekoľko mesiacov dopredu. Objednali by ste si hotel na termín, kde preprší väčšinu dní? Ak by ste mali inú možnosť, zrejme nie a spolu s vami väčšina bežných turistov. Termíny so zlým počasím by sa dostali do nemilosti a pretrhli inak idylickú, dnes nepretržitú letnú turistickú sezónu. Rovnako by dopadli lyžiarske strediská v plusových teplotách (keď ani umelé zasnežovanie nepomôže).  Áno, cestovný ruch sa bude musieť vzdať časti svojich príjmov. Obsadenosť hotelov v dňoch s nepriaznivým počasím bude zásadne nižšia ako býva dnes, keď sa proste musíte spoľahnúť že ste si “objednali aj počasie”. Tento trend však postihne nielen prímorské letoviská, ale aj všetky na svadby špecializujúce sa zariadenia, zábavné parky, či open air festivaly. Do portálov na vyhľadávanie dovolenky budeme zadávať k  lokácii, kvalite hotelu a počtu osôb aj požadovanú teplotu a akceptovateľné počasie počas dovolenky.

Predstavte si to množstvo fanúšikov, ktoré po celom svete má futbal, či iné populárne športy. Stovky milióny ľudí, ktorí sa pravidelne vyberú na štadión, či zasadnú pred obrazovku, jasny zapasaby si pozreli vzrušujúci zápas. A teraz si predstavte, že supercomputer dokáže predpovedať presný výsledok každého zápasu niekoľko dní vopred s pravdepodobnosťou 99%. Iste, šport to nepoloží, stále sa nájdu takí, čo budú chcieť raz za 100 zápasov prežiť prekvapenie. Ale ruku na srdce, koľko príležitostných fanúšikov pozbiera chuť si ísť pozrieť ako ich team prehrá 1:5? O koľko klesne sledovanosť zápasov v TV s takto vopred jasným výsledkom? O koľko menej utŕži klub za vysielacie práva, keď bude zrejmé, že ich čaká slabá sezóna a väčšinu zápasov prehrá? O koľko menej budú diváci ochotní zaplatiť za celosezónnu permanentku, keď bude vopred známe, že sa nedostanú do play-off? Presné predikcie športových výsledkov oberú odvetvie o časť príjmov. Zároveň zlikvidujú väčšinu stávkovania na výsledky. Ak váhate, či naozaj pozrite si zaujímavú štúdiu o športe a predikciách.

poistna udalostJedným, z odvetví, ktoré si určite “odskáču”, aktuálne prebiehajúci rozkvet pokročilej analytiky bude určite aj poisťovníctvo. Marža v tomto sektore totiž pramení z toho, že experti poisťovne vedia odhadnúť riziko jednotlivých javov presnejšie ako  samotní poistení klienti. Čím presnejšie bude vedieť samotní klient odhadnúť svoje rizika, tým tvrdšie bude vyjednávanie s poisťovňou. Poisťovniam nakoniec zostane len pomerne drobná marža za samotnú realizáciu poistného plnenia. Ak totiž poznáte svoje riziko je možné ho už v dnešnej dobe efektívne riešiť pomocou swapov. Poisťovne teda budú nútené stlačiť svoju maržu tak, aby bola poblíž nuly, v opačnom prípade si klienti vyriešia svoje rizika s niekým iným.

Ak vás zaujíma, čo teda môžeme ako ľudia vôbec urobiť, odporúčam pozrieť si tento článok, ktorý sa pokúša dať odpoveď na túto pálčivú otázku. Prečítať by si ho mali aj všetci tí, ktorí dnes pracujú pre niektoré z vyššie uvedených odvetví, aby vedeli, že nemusia čakať jak Kapor na Vianoce.

Tento blog je súčasť seriálu blogov o Umelej inteligencii a jej dopadoch. Ak ste nemali možnosť doposiaľ, pozrite si aj Jej prvú časť, pokračovanie o tom Prečo fungujú neurónov siete alebo o oblastiach, Kde ešte AI nedobehla človeka či Rozdieloch medzi DEEP a MACHINE learningom.