Zhrnutie BLOGOVÝCH SERIÁLOV na Mocnedata.sk

Okrem konkrétných blogov na aktuálne témy sa snažím, aby na portáli Mocnedata.sk tie najužitočnejšie témy dostali aj širší priestor. Postupne tak vznikli série blogov , ktoré krok po kroku vysvetľujú témy, na ktoré rozsah jedného blogu nestačí. Pre lepšiu orientáciu v doposiaľ vydanýdh seriáloch pripájam ich prehľadné zhrnutie:

Seriál NEZNÁME ALGORITMY

Podstatou tejto série blogov je predstaviť (alebo aspoň pripomenúť) čitateľom algoritmy analýzy dát a rozhodovania sa na základe nich, ktoré sú menej známe alebo sa s nimi nemáte šancu stretnúť každý deň v práci analytika. Pevne verím, že si tak tak rozšírite svoje obzory aj o nové postupy, ako systematicky riešiť (občas aj) bežné úlohy vo svojom -nie len pracovnom- živote. Každému algoritmu je venovaný samostatný blog:

Neznáme algoritmy I. – Stopping problem 

Stretli sme sa s tým už každý. Hľadáte človeka do teamu? Kupujete byt alebo hľadáte aspoň podnájom? Ste čerstvo rozídený/-á a rozmýšľate koľko ďalších vzťahov ešte budete musieť okúsiť, kým narazíte na toho pravého (resp. tú pravú)? Pri každej z tejto situácií sme v neistote, ako správne odhadnúť mieru svojej prieberčivosti. Prijať radšej vrabca v hrsti (a potom to ľutovať), či dúfať v holuba na streche s vedomím, že ho možno nikdy nebudem mať? Napriek tomu, že sme si tým prešli každý, len málo kto vie, že na túto otázku existuje optimálne, matematicky dokázané riešenie.

STIERACI_zrebNeznáme algoritmy II. – Small data pravdepodobnosti

V dnešnej dobe väčšinu analytického diskurzu zaberá BigData, pri ktorých prestáva zmysel hovoriť o vzorkách, lebo často máte k analýze dispozícií celú históriu javu. Pre odhad pravdepodobnosti nejakého javu v BigData stačí pozrieť ako často daná situácia už v minulosti nastala. V bežných, civilných životoch však zriedka máme k dispozícií viac než zopár opakovaní procesu a aj tak musíme byť schopní odhadnúť pravdepodobnosť daného javu. Ako nestrielať odboku a správne odhadnúť svoje celkové šance napríklad v lotérií, z ktorej máme len zopár žrebov?

(ďalšie diely seriálu sa už pripravujú, sledujte Mocnedata.sk alebo prihláste do bezplatnej komunity a avízo na nové diely odbržíte emailom)

Seriál ŽIVOT ANALYTIKA

Seriál o útrapach pracovného života dátového analytika pôvodne nebol seriálom. Prvý blog na túto tému však vyvolal toľko ohlasov, že som sa rozhodol napísať voľné pokračovanie týchto tém. Nie je tak vylúčené, že k problémom zo života analytikov sa ešte vrátime.

Osamelosť analytika 

Keď sa to objavilo na prvom pohovore, hovoril som si, že je mi to ľúto. Keď však druhý a potom tretí aj štvrtý kandidát vyrukoval s tým istým dôvodom odchodu zo súčasnej práce, spozornel som. Začal som rozmýšľať, či som sa presekal do nejakého podivného šípového kráľovstva, kde všetkých postihol ten istý osud. Nech som to obracal z akéhokoľvek uhlu, stále mi to nešlo do hlavy. Tým spoločným menovateľom všetkých kandidátov z daného dňa totiž bola osamelosť. Nie partnerská ani kamarátska. Bola to pracovná, analytická osamelosť.

svetovy_rekord_BOLTAký osobný rekord si vlastne môže vytvoriť dátový analytik?

Ak patríte medzi tých, ktorí chcú zostať na tepe odvetvia, v ktorom pracujete, potom ste si určite už položili otázku „Ako dobrý/á v skutočnosti som v tom, čo robím?“ A pre mnoho odvetví toto nie je jednoduchá otázka. Napriek tomu, že pre nemalý počet povolaní by bolo možné postaviť hodnotiace kritéria, väčšina oblastí, kde ľudia pracujú nemajú porovnanie ani medzi kolegami s rovnakým popisom práce, nie to ešte naprieč mestami, či štátmi. Olympijská atmosféra ma preto inšpirovala k úvahe: „Ako by sa mal merať zručnosť/výkon dátového analytika? Aké osobné rekordy by sme mali mať, aby sme ich mohli prekonávať?“

frustrated-employeeŠéfe, si úplne mimo! 4 druhy manažérov, čo nerozumejú analytike

Určite, manažérska povrchnosť a nekompetentnosť vás môže postretnúť takmer v každom odvetví. Ja by som sa však chcel špeciálne povenovať typickým príkladom tohto neduhu vo vodách Dátovej analytiky a Datascience. Tradičné koktejly vedúcich v tomto odvetví získali ešte niekoľko korenistých prísad. Veď posúďte sami, tu sú 4 typy manažérov, čo nerozumejú analytike.

Seriál NEURÓNOVÉ SIETE

Zvládnutie základných machine learningových algoritmov už dnes patrí do rukoväte každého Data Scientistu. Urobiť ďalší krok k “zlatému grálu” analytiky, k Deep Learningu, sa už nie každému podarí priamo v rámci svojich pracovných povinností. Pri tom práve táto oblasť bud zažívať v najbližších okoch najväčší rozmach (a teda aj najväčší dopyt zo strany firiem). Ako teda vlastne má vyzerať dobrá neurónová sieť? Kam smeruje vývoj v tejto oblasti a čoho by sme sa mali vyvarovať? Aké rôzne typy NN vlastne poznáme a na čo ich vieme použiť? Na všetky tieto otázky postupne odpovie seriál na túto kľúčovú tému analytiky.

nueral_networkNeurónové siete – 1.časť – Kto a prečo?

Za posledné dva roky sa medzi uchádzačmi o Data Science pozície rozmohla neutíchajúca túžba pracovať s neurónovými sieťami. Pri väčšine kandidátov však nadšenie nahrádza (neraz aj maskuje) skutočné znalosti tejto oblasti. Neurónové siete sú takým iPhonom dátovej analytiky. Veľa sa o nich píše, každý túži s ním pracovať, ale nikto nevie prečo vlastne po ňom túži. Ak vás to ťahá k neurónovým sietiam a neviete prečo, tak tento seriál je aj pre Vás.

AI_how_works

Diel 2. – Prečo neurónové siete SKUTOČNE fungujú?

Ak by sme si dali dostatočný počet krokov späť a pozreli sa na oblasť dátových analýz (a predpovedí) naozaj zo široka, mohli by neurónové siete „splynúť v dave“ s inými formami analytických postupov. Aby sme sa tejto začiatočníckej chybe vyhli hneď na začiatku seriálu, vysvetlíme, čo oprávňuje neurónové siete mať vlastne miesto pod Slnkom. Tento blog berie neurónky od gruntu a vysvetľuje (možno tým menej zasväteným), ako neurónové siete fungujú. Pre skúsenejších deep minerov môžu nasledujúce odseky prísť trochu triviálne.


alternative wayAkú máme vlastne alternatívu voči umelej inteligencii?

Snažil som sa manželke, ktorá je uznávaným trénerom soft skills, popísať príklad AplhaGo a jej víťazstva nad majstrom sveta v hre GO. Pozrela sa na mňa bokom a spýtala sa: „Prečo ako ľudstvo investujeme toľké peniaze do toho, aby niečo iné bolo lepšie ako my? Kam by sme sa mohli posunúť, keby sa všetky tie miliardy investovali do rozvoja ľudského intelektu?“ Skôr než sa zo mňa vysúkala odpoveď, musel som priznať, že takto som sa na to pozeral. Existenciu umelej inteligencie pokladám za akosi samozrejmú, rovnako ako drevorubač nerozmýšľa nad recykláciou papiera. Akú máme teda, ako ľudstvo, alternatívu k umelej inteligencii? Je to nezvrátiteľný trend?


AI_sa_uciV čom sa 8 ročné dieťa smeje neurónovým sietiam?

Hoci by aktuálny mediálny povyk ohľadne umelej inteligencie mohol naznačovať presne opačný dojem, neurónové siete v skutočnosti zatiaľ ovládli len časť nášho inteligenčného spektra. Áno, existujú oblasti, kde – ako ľudia – už dostávame od nich solídne na frak. Ale naopak sú aj oblasti, kde schopnosti umelej inteligencie nestačia ani na úroveň osemročného dieťaťa, nieto ešte na úroveň vysokoškolsky vzdelaného jedinca. Poďme si teda rozobrať kategóriu po kategórii, kde sa aktuálne z hľadiska schopností umelá inteligencia (AI) skutočne nachádza.

EXPLAIN_howViete, čo je XAI? Ej, veru, mali by ste.

Existujú oblasti, kde dôvody rozhodnutia sú minimálne tak dôležité ako rozhodnutie samotné. Asi najvypuklejším príkladom je v tomto ohľade Zdravotníctvo. Ide o ľudský život, takže žiadne dobrodružstvá, ktoré zabijú desiatky ľudí, než sa vyladia tu nie sú prípustné. Práve kvôli týmto oblastiam vznikla XAI, teda EXPLAINABLE AI. Podstatou XAI je nielen dodať kvalitný prediktívny model, ale zlomiť (doposiaľ zastávanú) paradigmu, že ak chcete čo najsilnejšiu predikciu, musíte obetovať interpretovateľnosť modelu a naopak. Aké techniky teda XAI používa?

Seriál AKO SI JEDEN ANALYTIK HĽADAL NOVÚ PRÁCU

Pár mesiacov dozadu som si prešiel procesom hľadania práce. Keďže väčšina ponúk, o ktoré som sa chcel uchádzať boli skôr zo zahraničia, prešiel som si aj zážitkami, ktoré bežne na slovenskom pracovnom trhu nenájdete. Povedal som si, že by to bola škoda si to nechať pre seba, lebo moje skúsenosti možno pomôžu aj iným, čo si hľadajú prácu. Tak som celý proces zhrnul do série blogov na tému, na čo sa pripraviť pri hľadaní práce analytika pre niektorú zo západných firiem.


JOB_SEARCHAko si vyberajú data manažérov do firiem na západe? [Diel1.]

Ako nájsť pdobré onuky Data Analytickej práce? Poviete si: Not a big deal, proste si prejdem pracovné portály alebo sociálne siete ako LinkedIn a nájdem si nejaké ponuky, nie? Hoci teoreticky to znie správne, realita na západe je dosť iná. Prekvapilo ma, ako požiadavky, ktoré sa kladú na tieto pozície na západe, ako aj samotný proces výberu takýchto manažérov, boli veľmi odlišné od toho, čo zažijete pri výberoch na tento druh práce v SR/ČR. Poďme si teda rozobrať najčastejšie spôsoby hľadania práce a čím sa v zahraničí líšia.


JOB_SEARCH_IIAko si vyberajú data manažérov … [Diel2.] – Reakcia na ponuku

V prvom kroku sme si popísali, ako nájsť správne ponuky. Keď už máme zaujímavé ponuky pred sebou, čaká nas tŕnistá cesta ako na ne zareagovať. Bez toho, že by som chcel nejak prehánať, táto etapa procesu zahraničného angažmá je asi najväčším peklom. Rôzne systémy na registráciu a sprístupnenie svojich informácií su šialeným žrútom času. Určite sa vám preto zíde si prečítať niekoľko rád, ako preklenúť túto časť a nestať sa otrokom  klávesnice a emailov. V tomto b,ogu si rozoberieme aj to, aké materiály by ste si mali pripraviť pre potenciálneho zamestnávateľa.

 

Woman during job interview and four elegant members of management; Shutterstock ID 370947476; PO: angelikiJ-for robin kawakami

Ako si vyberajú data manažérov … [Diel 3.] – Prvé kolá pohovorov

Vyhladali ste si ponuku, prekúsli ste sa cez peklo vyplnenia všetkých podkladov a teraz vás konečne čaká šanca ukázať, čo je vo Vás. Samotné pracovné pohovory už sú dosť Free-style. Rozumej, čo spoločnosť, to odlišné postupy. Čo ma však zarazilo, ako široké je spektrum zážitkov, ktoré vás postretnú. Okrem tradičných spôsobov preverenia kandidátov som postretol aj niekoľko exotických. Jazykové testy, video self-interview s tým všetký sa určite stretnete. Stať sa vám môže aj to, že vás tá istá firma pozve na pohovor na pozíciu, na ktorú vás sami zopár týždňov dozadu zamietli. Čo čakať dopodrobna rozobrané v tomto blogu.


IQ_testAko si vyberajú data manažérov … [Diel 4.] – Inteligenčné a odborné testy

Hneď na úvod tohto blogu sa otvorene priznám, že téma, o ktorej sa ideme teraz porozprávať, bola pre mňa solídnym vytriezvením. Keďže som povyhrával nejaké tie matematické olympiády, živil som sa chvíľu programovaním a dokonca sám vytvoril zbierku úloh pre prijímanie dátových analytikov, ak som si v niečom  prijímacom konaní veril, tak to boli práve kolá zamerané na overenie expertných znalostí. Tento blog je aj o tom, ako som sa neraz neblaho mýlil …

rozhodovanie

Ako si vyberajú data manažérov … [Diel 5.] – Ako si zodpovedne vybrať z ponúk

Po celom tom úsilí sa vám podarilo dopracovať k niekoľkým ponukám. Zotriete pot z čela a blažene sa usadíte. Ide sa vyberať. Čo všetko zobrať v úvahu pri výbere tej pravej? Nuž, ak myslíte nastávajúcu/ceho, tak to vám asi neporadím. Ale rád sa s vami podelím o to, čo všetko som zvažoval ja pri výbere novej práce. Ľudia, čo si na každé rozhodnutie robia šibeničku s plusmi a mínusmi mi vždy pripadali nerozhodní a tak trochu k smiechu. Keď však robíte vážne rozhodnutia (napríklad kam sa odsťahujete na niekoľko rokov), mali by ste si byť istý, že ste to dôkladne zvážili. Alebo ako sme počúvali od starých mám už od mala: „dvakrát meraj a raz rež.“


berlin_3Kam a prečo sa sťahujeme? (celých 100% pravdy)

Bolo by zábavne to absolvovať celé len ako hru. Ale tá skutočná pravda je, že som celý proces hľadania práce v zahraničí absolvoval nie ako experiment, ale skutočne na ostro. O to viac boleli zakopnutia, ktoré som po ceste musel zažiť. Ale aj o to viac hreje pri srdci, že som nakoniec našiel skutočne zaujímavú prácu. V tomto blogu sumarizujem dôvody prečo, kritéria, ktoré som si postavil a zároveň odpovedá na niektoré zvedavé otázky ohľadne môjho nového pôsobiska.

Moje najobľúbenejšie GDPR hlášky

Do kontaktu s GDPR samozrejme, ako každý kto robí s dátami, prichádzam v práci už niekoľko mesiacov. A väčšinou my nie je z toho do smiechu. Naštastie som sa však za tie roky stal klientom ´, predplatiteľom a používateľom na vyše 200 portáloch a vernostných programoch a tak som si mohol užiť s GDPR aj kopec srandy na hláškach a spôsoboch, akým sa ma o GDPR zmenách pokúšali informovať tieto portály. Kľúčovou témou pre väčšinu portálov je znovu získať súhlas na marketingovú komunikáciu. Výber toho naj(patetickejšieho), čo som videl na tému, ako získať GDPR súhlas, prinášam v tomto blogu:

Not interested about us? No worries – if you don’t reply by Friday, May 25th, we will no longer send you communications. [Anaconda community]

STOP: Posledná šanca na Vaše Event news. Ináč už vám ich nikdy nepošleme. [Eventim]

Is green your favorite color? Sign to stay with it! [FlixBus]

We created new GDPR rules and updated also design of our webpage. If you wish to see both improvements we’ve made click here. [Jobbio]

And it’s goodbye from us! Arrivederci, au revoir, adiós, auf Wiedersehen … Filip, don’t let this to be Bye. Say: “Yes, I still love you and I want to keep in touch” [infor]

Gorila je síce v džungli kráľom, ale Slovensko je republika, takže v súlade so zákonmi sa potrebujeme uistiť, že ti môžeme posielať maily s tými najlepšími ponukami a zľavami a uložiť tvoje údaje ako meno a e-mail. Inak sa naše mailové spojenie pretrhne ako liana pod prejedeným Tarzanom! [Gorila.sk]

Don’t get left on the platform. The Train is leaving! Just opt in to continue receiving our news and exclusive offers. [GatwickExpress]

Vaše osobné údaje sú s nami v bezpečí: Presvedčte sa a ostaňte s nami [iPark]

This is the most important Email we have ever sent to you [Desigual]

Milá ženo, v neděli to bude přesně pět let, co společně testujeme a vzájemně sdílíme své zkušenosti z našich životů. Chcete zůstat s námi? [zensro]

Povedzte nám, či od nás chcete dostávať e-maily a získajte preklad zdarma. [Translata]

Action Required – Yes, it’s GDPR Related again … [MBN Solutions]

Dobrý deň, žiadame vás o povolenie na zaslanie ponuky na dobré vínko. [domacevinko.sk]

Pozor! Ešte stále chýba váš súhlas! [Eventim.de]

V Pelikáne sa pripravujeme na nové nariadenie Európskej únie o ochrane osobných údajov a chceme posielať iba také e-maily, ktoré sa Vám páčia. [Pelikan.sk]

 

Ako vidíte tanečky okolo GDPR súhlasu by sa dali zhrnúť veršom z legendárnej elánovky ” … Stáli sme tam asi štrnásť dní. Skúšali to hrozbami aj peniazmi…” Tak ak ste náhodou ešte neposlali svoju GDPR výzvu, tak sa môžete kľudne inšpirovať.

Všetkým tým, ktorí si dnes 25.5.2018, v deň Great Deadline People Remember, ako si GDPR vyslúžilo posmešnú prezývku, konečne vydýchnu prajem príjemný deň. Až toto šialenstvo pominie a všetci už budeme GDPR compliant, vrátim sa späť, aby sme si povedali aj niečo o pozitívnych stránkach GDPR pre firmy, o ktorých sa (na Slovensku) diskutuje pramálo. Do vtedy dovidenia pri nejakej inej téme mocnedata.sk .

Na záchod? Najesť sa? Nie, na WhatsApp!

Nie je to tak dávno, čo sme si v blogu predstavili nastupujúce komunikačné nástroje v oslovovaní klienta, ktoré čoskoro nahradia tradičné média. Dnešné dáta potvrdzujú, že ich implementácia sa dokonca zrýchľuje oproti pôvodným očakávaniam. Ak sa teda spoliehate stále na tradičné nástroje mali by ste spozornieť.

Keď Facebook akviroval Whatsapp, korporátna šuškanda naznačovala, že by skôr mohlo ísť o nepriateľské prevzatie, ktoré povedie k tlmeniu WhatsAppu (keďže FB sa intenzívne snažil v tom čase preraziť s vlastným FB messengerom). S odstupom času je zrejmé, že tieto „klepy“ neboli opodstatnené a Facebook sa uspokojil s tým, že vlastní najintenzívnejšie „chatovacie“ aplikácie, a k spájaniu FB Messengra a Whatsappu neprikročil (azda okrem kauzy telefónnych čísiel). Gentlemani z pozadia FB pochopili, že radšej mať dve prekvitajúce služby, ako nechať priestor po jednej z umŕtvených služieb vyplniť niektorým z konkurentov (Skype, Viber, …). A tak WhatsApp akvizíciiu nielen prežil, ale dokonca ho to naštartovalo do nového rastu.

Chcete pracovať naozaj s BigData? Choďte do WhatsAppu

Iste poznáte legendárne stories o tom, ako tá-či-oná firma pracuje s BigData. Ak k vám osud bol menej milosrdný, možno ste si zažili takúto „scénku“ aj na niektorom z pracovných pohovorov. Firma, ktorá hľadá Data Scientistov (z ktorých sa vykľujú bežní SQL analytici) a za Big Data považuje zopár miliónov riadkov v štruktúrovanej databáze. Nuž ak sa chcete takémuto zážitku na míľe vyhnúť skúste pracovať pre WhatsApp. Oni totiž …

… oni totiž naozaj pracujú s BigData. Podľa údajov portálu Statista sa počet aktívnych užívateľov Whatsappu vyšplhal na 1.5 mliardy užívateľov denne. To je objem, ktorý nezvláda pokoriť ani žiaden tradičný mobilný operátor. (ak si chcete tipnúť, ako ďaleko je najväčší z nich, správnu odpoveď nájdete tu) Keďže vo firme, kde aktuálne pracujem, nám k intenzite týchto čísiel chýba ešte jeden rád (a už teraz je to poriadnou dátovou výzvou), viem si predstaviť ako šialene obrovská musí byť infraštruktúra, ktorá zvláda takýto dát s úsmevom na perách.

Častejšia ako na záchod

toaletaPre mňa oveľa zaujímavejším aspektom vyššie citovanej správy je fakt, že celkový počet odoslaných WhatsApp správ predstavuje denne až 65 mld. To značí, že priemerný užívateľ denne 43 krát. Teda takmer každý 33 minút, ak by sme cez deň nespali. Ak zoberieme do úvahy aspoň 6 hodinový spánok, tak posielame 1 WhatsApp správu každý raz za 24 minút. Tým sa používanie týchto služieb zaraďuje nad všetky ľudské, biologické potreby (s výnimkou dýchania). S kľudom Angličana teda môžeme prehlásiť slogan blogu za kruto pravdivý.

Tieto čísla len potvrdzujú masívne potlačenie SMSiek práve zo strany Messengerov ako WhatsApp. Aby ste si to mohli dať do kontextu, tak na Vianoce (keď posielame najviac SMS z celého roka), ich priemerný Slovák zvykol poslať 7 za deň. Teda ani v najrušnejší deň SMS komunikácie sa premávka SMS správ vyšplhá sotva na 16% spotreby WhatsApp správ v bežný, nesviatočný deň. Ak vás ani tieto čísla nepresvedčili o nutnosti integrovať si niektorý z Messengrov do svojich systémov, tak naozaj vážne riskujete. Ak nepatríte medzi niektoré z SMS výnimiek (blog dostupný len pre členov komunity), zrejme vás niekde za rohom čaká výrazný pokles angažovanosti vašich klientov.

WhatsApp krídla

Dynamika rastu denného počtu WhatsApp správ je pritom tiež dych berúca. v 2011 táto chatovacia služba posielala “len“ 1 miliardu správ denne. 3 roky dozadu (keďredbull_DAVA_kridla bola akvizícia WhatsAppu zo strany Facebooku zrealizovaná) toto číslo už dosahovalo 30 miliárd WhatsApp správ za deň. Porovnanie s dnešnými 65 miliardami za deň jasne potvrdzuje, že k žiadnemu ultmovaniu WhatsAppu (napr. v prospech FB Messengeru) neprišlo, naopak WhatsApp dostal pod FB vlastníctvom nové krídla (či už v počte užívateľov alebo ich intenzity používania služby).

 

– – – – – – – –

K spomínanému blogu majú členovia mocnedata.sk komunity zadarmo prístupný aj doplnkový blog, ktorý rozširuje informácie o súboji SMS vs. Messengre. Ak ste členom, nezabudnite pre jeho odomknutie použiť heslo doručené bezprostredne po registrácií. Ak ešte nie ste členom komunity, môžete sa ním stať za pár sekúnd a úplne bezplatne hneď teraz.

4 kvalitné knihy – Čo si prečítať o dátovej analytike

weigend-data-for-revised-subtitle

Andreas Weigend: DATA for the People

 

Digitálni giganti ako Google, Facebook alebo Amazon nás naučili tvoriť veľké množstvo digitálných dát z našich životov a rozhodnutí. Práve tieto dáta sa stávajú následne palivom pre ich AI modely alebo pre vývoj nových produktov, teda v konečnom dôsledku na rozvoj ich vlastného biznisu. Iste, za svoje dáta dostávame na výmenu prevádzku týchto služieb, ale práve kauzy ako Cambridge Analytica poukázali, že to nemusí byť nutne vyvážený pomer.

Andreas Weigend popisuje vo svojej knihe, ako manažovať svoj život digitálneho obyvateľa. Ako začať benefitovať z toho, že naše dáta niekto iný spracováva? Ako nám do budúcna poslúži  naša účasť v sociálnych sieťach alebo interakcie na webe? Ktoré voľne dostupné nástroje môžete použiť na manažovanie našich dát zozbieraných niekym iným?

Táto kniha je dôležitou rukoväťou toho, ako z pozície radového konzumenta vyťažiť z dát, ktoré sme doposiaľ generovali iba pre gigiantov, aj niečo pre seba. Zároveň autor poukazuje na to, kam sa trendy spracovania našich údajov uberajú a ako získať konkurenčnú výhodu v spoločnosti aktívnym prístupom k svojim osobným údajom v cudzích rukách. 


KNIHY_Superintelligence

Nick Bostrom: SUPERINTELLIGENCE. Paths, Dangers, Strategies.

Za posledné roky sa diskusia na tému singularity (bodu keď stroje budú mudrejšie ako človek) presunula z polohy “Je to dosiahnuteľné?” do polohy “V ktorom z najbližších rokov nás to už čaká?” Niet pochýb, že Superinteligencia počítačov bude obrovským zlomom v dejinách ľudstva. Našou spoločnou úlohou však je, aby to zároveň nebola aj poslednou udalosťou ľudstva. Netreba totiž zabúdať, že to v akej forme a kedy presne vypustíme “tohto džina z fľaše”, je ešte stále na našom (ľudskom) rozhodnutí. 

Kniha Nicka Bostroma sa vystríha bulvárnej “obavy zo strojov” alebo jej protipólu “fascinácie nimi”. Kniha je nesmierna dobre štrukturovaná, keď čitateľa prevedie najprv možnými cestami, ako sa dá dopracovať k singularite a rozprave ktorá z nich je najpravdepodobnejší scenár. Následne popisuje kapitolu po kapitole dopad na systém našich hodnôt, motivácií a spôsobu, akým sa rozhodujeme. Nejde len po porvchu, vždy popisuje spektrum dopadov od katastrofálnych variant až po tie prijateľné, či priam želané.  Svoju rozpravu ukončuje debatou o tom, aký je pre ľudstvo želaný (najprijateľnejší) spôsob a postup zavedenia superinteligencie do našich životov. Ak chcete pochopiť, ako by sme sa mali stavať k superinteligencii, na menej ako 320 stranách, potom táto kniha je tá najlepšia voľba ako uchopiť túto tému. Na portáli mocnedata.sk je k dispozícií aj celková recenzia tejto knihy.

Ako predkrm, než k vám kniha dorazí, niektoré aspekty, diskutované v tejto knihe, sú načrtnuté aj v tomto blogu

 


book_UnscaledH. Taneja, K. Maney: UNSCALED

Dvadsiate storočie bolo charakteristické tým, že sme sa vo všetkých oblastiach života opierali o masové riešenia. Vychádzali z nedostatku (najmä to 2. svetovej vojne) a v záujme čo najviac obslúžiť dopyt sme sa snažili hľadať úspory z rozsahu. Ak si myslitíte, že len v biznise, tak pripomeniem, že dopyt po novej pracovnej sile dal vznik štandardizovanému školstvu (každá škola učí tie isté osnovy), hlad po informáciách dal vnziknúť novinám, rozhlasu a televízii, ktoré doručovali ten istý obsah masám. (Nie nadarmo sa volajú aj masovokomunikačné nástroje). Ak ste chceli byť úspešnou bankou, plynárňou alebo sieťou potravín alebo telekomunikačným operátorom, dôležité bolo hlavne získať rozsah, ktorý sťažoval konkurencii súperenie s vami. Príchod internetu a jeho služieb, ale hlavne nástup AI, umožňuje presný opak. Dnes už nemustíte budovať vlasnú serverovňu plnú “železa”, stačí si ju prenajať od AWS. Dnes už nemusíte budovať sieť kamenných predajní, aby ste pokryli čo najväčšiu časť populácie, z jedného eshopu dokážete obslúžiť doslova celý svet. Žijeme v dobe, kde malí dokážu porážať veľkých, lebo dokážu bojovať napriek tomu (alebo práve preto), že si nevybudovali rozsah. 

Kniha precízne rozoberá postupne jednu oblasť života po druhej. Popisuje nielen, čo je mylnou predstavou úspechu vďaka rozsahu v danej oblasti, ale pridáva aj náčrt nových modelov. Inšpiratívne popisuje to, akú plohu v jednotlivých nových modeloch fungovanie bude zohrávať umelá inteligencia. Pre mňa osobne najcennejšia je kapitola 11, ktorá rozoberá ako z pozície rodičov pripraviť svoje deti na túto dobu. Myslím si, že to je téma, ktorá bude trápiť asi väčšinu z nás, ktorý sme v produktívnom veku. Takže táto kniha určite poteší každého, kto sa “motká” okolo dát a ich analýzy. 


book_AlgorithmB. Christian, T. Griffiths: ALGORITHMS TO LIVE BY 

Kúpiť si knihu o spôsoch a postupoch Dátovej analytiky už je dnes poriadna nuda. Väčšina autorov servíruje vo svojich publikáciách najčastejšie ML algoritmy, ktoré – ak robíte s dátami – už určite dôverne poznáte. Táto kniha je však presným opakom. Berie si na mušku algoritmy, ktoré sú v analytickej komunite menej známe a navyše praktické pre život. Postupne sa tak dozviete, že existuje optimálna stratégia pre výber bytu alebo celoživotného partnera (viď blog na túto tému). Ako funguje efektívna alokácia prenosu po sieti, prípadne ako sa efektívne vyhnúť pretrénovaniu modelov (overfittingu). Fascinujúce je aj vysvetlenie, ako predikovať vlastnosti vecí, keď máte k dispozícií veľmi, naozaj veľmi limitované množstvo informácií. Určitou čerešničkou na torte je algoritmus, ktorý hovorí ako často by ste mali striedať chodenie do novej reštaurácie verzus užívať si už overené. Moje srdce analytika zaplesalo aj nad matematickým dôkazom , že optimizmus je v živote lepšia stratégia. 

Táto kniha je natoľko inšpiratívna, že som sa rozhodol niektoré z algoritmov predstaviť aj v novom seriáli Neznáme algoritmy, ktorého 1. diel si môžete prečítať na mocnedata.sk. 

 

Ak vás zaujímajú dobré knihy, pozrite si aj ďalšie recenzie na tomto portáli.

Neznáme algoritmy [1] – Stopping problem

Stretli sme sa s tým už každý. Hľadáte človeka do teamu? Kupujete byt alebo hľadáte aspoň podnájom? Ste čerstvo rozídený/-á a rozmýšľate koľko ďalších vzťahov ešte budete musieť okúsiť, kým narazíte na toho pravého (resp. tú pravú)? Pri každej z tejto situácií sme v neistote, ako  správne odhadnúť mieru svojej prieberčivosti. Prijať radšej vrabca v hrsti (a potom to ľutovať), či dúfať v holuba na streche s vedomím, že ho možno nikdy nebudem mať? Napriek tomu, že sme si tým prešli každý, len málo kto vie, že na túto otázku existuje optimálne, matematicky dokázané riešenie.

— Tento blog je súčasťou série Neznáme Algoritmy , ktorá sa snaží popularizovať aj tie dátové algoritmy, ktoré nie sú bežne používané, hoci sú vo svojej podstate veľmi užitočné. Ak vás téma zaujala, pridajte sa do analytickej komunity Mocnedata.sk a avízo na ďalšie užitočné analytické blogy dostaneme zakaždým medzi prvými priamo do emailu. —

Algoritmus, ktorý si dnes predstavíme sa odborne nazýva Stopping Problem, ale vo svete analytikov je častejšie označovaný ako Secretary problem. Dôvodom pre toto označenie bola pôvodná historka, ktorá prispela k popularizácii tejto matematickej hádanky. Na jej počiatku totiž išlo o to, ako pristúpiť optimálne k výberu sekretárky pre svoju firmu. Na rozdiel od HR rád o vhodnom profile a obsahu CVčka, Secretary problem sa zaoberá pragmatickejšou otázkou: Ak by som vyberal zo 100 kandidátok, ktorých kvality sú náhodne rozdelené (nevieme vopred, ktorá v poradí bude tá najlepšia), koľkých kandidátov by som mal vidieť, aby som mohol zodpovedne vybrať a neoľutovať svoj výber?

Ak ste o tom algoritme ešte nepočuli, asi vás zarazí, že má skutočne matematicky podložené optimálne riešenie. Čo je ešte prekvapivejšie, riešenie je stabilné naprieč rôznymi výberovými konaniami, takže sa dá držať stále toho istého postupu. Jediné, čo je potrebné splniť, aby správne fungoval je, že vyberáte len z možností, ktoré spĺňajú aspoň základné podmienky, ktoré ste si stanovili. (Teda, že na pracovný pohovor pozývate len takých kandidátov, ktorí aspoň hovoria rečou, v ktorej majú pracovať. Alebo, že idete na obhliadku iba takých bytov, ktoré majú aspoň vami požadovaný minimálny počet izieb).

Zaručená cesta k (?) úspechu

Pravidlo, ktoré pri takýchto výberoch vedie k optimálnemu výberu je formulované nasledovne: 37% času/úsilia hľadania systematicky odmietajte každú z videných možností (aj keby sa vám zdali ideálne) a následne siahnite po prvej, ktorá je najlepšia z tých, ktoré ste videli doposiaľ (alebo aspoň výrazne podobná). Čiže, ak by ste mali vybrať zo 100 kandidátov na prácu, pozvite si ich v náhodnom poradí, prvých 36 odmietnite a 37mim počnúc, vyberte toho, ktorý bol lepší ako všetci doposiaľ. Toto pravidlo funguje aj pre optimalizáciu toho, kedy sa postaviť do radu: dimenzujete to tak, aby ste 37% času prišli vopred a zvyšok strávili čakaním. Aj keď s radmi to môže byť komplikovanejšie, ak sa veci môžu minúť, kým na ne čakáte :(.

Pre tých, ktorí stále neveriacky krútia hlavami nad touto stratégiou, trochu vysvetlenia, ako to vlastne funguje. Stopping problém je hľadanie optimálneho pomeru medzi “rozkukávaním” a fázou “ideme na vec”. Ak ste videli len jedného kandidáta a na pohovor ich pozývate v náhodnom poradí, šanca toho druhého, že bude lepší, je v priemere približne 50%. Zároveň šanca, že sme zatiaľ nevideli najlepšieho je 98%. Keď pridáte tretieho účastníka, obe pravdepodobnosti sa k sebe o niečo priblížia. Ak to budete opakovať dostatočný počet krát, dostanú sa pravdepodobnosti do optimálnej rovnováhy. Tento bod nastáva pri 1/e časti celku, teda pri 1/2.71828 = 36.7879%, čo je tesne pod 37%. Keďže však väčšina situácií sa pohybuje v množine celých čísiel, stačí si zapamätať 37% ako približnú hodnotu tejto hranice.

Dozvedeli sme sa teda, že pri hranici 37% nastáva optimálny pomer medzi rozkukávaním a rozhodnosťou k činu. Čo však vlastne algoritmus skutočne garantuje? Ak ste to náhodou ešte neprekukli, tak treba otvorene povedať, že Stopping Problem algoritmus nesľubuje, že vyberiete najlepšieho možného kandidáta. Inými slovami, ak mám 100 kandidátov, tak samozrejme nie je zaručené, že ideálny kandidát (volajme ho číslo 100) príde tesne po 37% pokusov. Iste si viete predstaviť situáciu, že číslo 100 zhodou okolnosti príde na pohovor hneď ako prvý. Pravidlo 37% by ho teda odmietlo a v tom najlepšom prípade by nám zostávalo “len” číslo 99, ak náhodou tiež nebolo v prvých 36 pokusoch. Preto je si potrebné uvedomiť, že Stopping algoritmus negarantuje úspech, len maximalizuje pravdepodobnosť, že nebudete svoj výber ľutovať. Stopping problém totiž vychádza zo skutočnosti, že ak by aj prišlo číslo 100 na prvý pohovor, keďže ste nevideli ešte ostatných kandidátov, nevedeli by ste, že je to top 1 voľba. To, že si vyberáte naozaj dobrú voľbu, sa musí potvrdiť práve porovnaním s tými, ktorých ste už odmietli vo fáze “rozkukávania”. Nuž a práve pri 37% rozkukávaní je istota už dostatočne pevná, ale zároveň pravdepodobnosť výberu kvalitného kandidáta stále veľmi vysoká.

Čo všetko možno vyberať podľa 37% pravidla

Secretary problém má v skutočnom živote naozaj veľmi široké uplatnenie. Len si je potrebné uvedomiť, že 37% pravidlo sa nevzťahuje len na počty opakovaní nejakej činnosti, ale na akékoľvek úsilie ako také. Ak sa teda do 3 mesiacov hodláte presťahovať do nového mesta (napr. Berlína) , v ktorom ste nikdy pred tým nežili (a tým pádom neviete, ako vyzerá optimálny byt v danom meste), mali by ste venovať 37% času (teda niečo viac ako 1 mesiac) chodeniu po obhliadkach len preto, aby ste si urobili obraz o tom, čo je “dobrý byt” v Berlíne. Po tomto mesiaci by ste však mali byť pripravení zobrať prvý byt, ktorí bude lepší ako tie, čo ste videli. (alebo aspoň bude porovnateľný s tým najlepším, ktorý ste za prvý mesiac videli). Ak ste si však povedali, že napriek tomu, že máte 3 mesiace, ste ochotný/á ísť iba na 20 obhliadok, rozkukávanie bez seriózneho záujmu by malo trvať prvých 7 obhliadok, potom už by ste mali chňapnúť po prvom, ktorý vás očaril najviac doposiaľ.

Analogicky možno postupovať aj pri výbere životného partnera. Ak ste sa rozhodli, že si chcete založiť rodinu do 35ky, potom (predpokladajúc, že prvé seriózne lásky začínajú niekde okolo 16ho roku), tak do 24ho roku si môžete užívať viac menej nezáväzne (stále pozor na pohlavné choroby). Po tomto veku by ste však mali spozornieť a pokúsiť sa vybudovať pevný vzťah s prvým partnerom, s ktorým vám je vo vzťahu lepšie, ako vám bolo počas nezáväzného rozkukávania. Ak zoberiete do úvahy, že ľudia sa väčšinou berú po 3-4 rokoch spolu, je fascinujúce, že na Slovensku je priemerný vek nevesty 28 (= 24 + 4) rokov. Pre utlmenie všeobecného nadšenia však treba pripomenúť, že manželstvá na Slovensku stále dosahujú vyše 40% rozvodovosť. Ak by sa teda náhodou podvedome riadili pravidlom 37% (vedome ho asi nepoznajú), naznačovalo by to, že si na hľadanie partnera síce nechávajú potrebný čas, ale počas hľadania absolvujú príliš málo vzťahov, aby si kalibrovali, čo je dobrý partner.

Do tretice, Secretary problem v doprave. Ak idete autom na stretnutie alebo do divadla a na zaparkovanie vám zostáva ešte 10 min, tak optimálne je hľadať parkovacie miesto niečo menej ako 4 minúty a následne zaparkovať na prvom voľnom, ktoré vás postretne.

Rôzne mutácie

Po vyriešení základného Secretary problému sa objavili na svete rôzne mutácie základného zadania. Základným pravidlom Stopping problem algoritmu je, že ak ste nejakú ponuku videli a odmietli, nedostanete už šancu sa k tejto voľbe vrátiť. Hoci pri hľadaní bytu v Berlíne je to 100% pravda (ak si byt nevyberiete, pravdepodobne ešte v tom istom týždni sa tam nasťahuje niekto iný) a aj pri vzťahoch, kde ste odmietli požiadanie o ruku, to asi tiež platí, existujú aj situácie, kde vrátiť sa k už odmietnutej voľbe vôbec nemusí byť nemysliteľné. Napríklad spomínaný výber sekretárky: pokiaľ nežijete v krajine, kde sú buď nadmieru ješitné ženy alebo trh práce nie je v zúfalom nedostatku, asi je možné pre nejaké časové obdobie dozadu pokúsiť sa o opätovnú voľbu už odmietnutého kandidáta. V takomto prípade sa stratégia zásadne mení (oplatí sa pokračovať v hľadaní (a odmietaní) aj po 37% kandidátov až do 37% + x&, kde x reprezentuje práve čas (alebo počet možností dozadu v čase), ktoré môžete ešte obnoviť, aj keď ste ich primárne odmietli. Ak máte pocit, že sa budete vedieť vrátiť k ľubovoľnej ponuke bez ohľadu na to, kedy v minulosti ste ju prvý krát odmietli, potom stratégia velí vidieť všetkých kandidátov.

Inou mutáciou Stopping problému sa riadi situácia s predajom bytu. Ak totiž nadstrelíte hodnotu v ponuke výrazne viac, oplatí sa vám čakať dlhšie, či sa predsa nenájde niekto ochotný zaplatiť tak vysokú cenu. Naopak, ak počas čakania na kupca bytu máte s daným bytom ešte náklady (napr. energie), optimálne riešenie sa mení práve podľa pomeru nadstrelenej hodnoty k utekajúcim peniazom za držanie bytu do jeho predaja.

 — Tento blog je súčasťou série Neznáme Algoritmy , ktorá sa snaží popularizovať aj tie dátové algoritmy, ktoré nie sú bežne používané, hoci sú vo svojej podstate veľmi užitočné. Ak vás téma zaujala, pridajte sa do analytickej komunity Mocnedata.sk a avízo na ďalšie užitočné analytické blogy dostaneme zakaždým medzi prvými priamo do emailu. —

Seriál je inšpirovaný publikáciou Algorithm to live by, ktorú čochvíľa predstavíme v jednom z blogov.

Umelá inteligencia? V prvom rade sa musí stať naozaj umelou

Predstavte si, že by ste mali zostaviť Machine Learning model na predikciu pravdepodobnosti, že daný americký občan sa stane americkým prezidentom. Ak sa trochu problematike rozumiete, asi mi dáta za pravdu, že model by na základe historických dát musel vylúčiť všetky ženy, Hispáncov a aj černochov (Obama je v počte dosavadných prezidentov štatistickou chybou), ale aj lekárov, spevákov či cowboyov. Ktosi zlomyseľný by mohol povedať, že to je aj dôvodom, prečo Clintonová neporazila Trumpa (ten skutočný dôvod je vysvetlený tu) . Ak má byť strojové učenie do  budúcna používané v masovom rozsahu, tento druh “nedokonalosti” mu bude prekážať v ceste. Čo s tým teda vieme urobiť?

– – – Tento blog je súčasťou seriálu o 2018 trendoch v analytike. Ak si chcete, overiť, či viete, kam práca s dátami smeruje do budúcna, nakuknite sem. – – –

S príchodom verifikácie cez tvár alebo analyzovaním ľudí podľa ich vonkajších prejavov, sa umelá inteligencia dostane pred jednu zásadnú bariéru: na strojové učenie je potrebný značný počet už zrealizovaných opakovaní daného rozhodovania, spolu s výsledkom rozhodovania (hovorí sa im aj anotované príklady). Algoritmy potom následne porovnávajú navzájom prípady, keď nastal skúmaný výsledok (napr. jedinec zrušil predplatné časopisu) voči tým, kde sa naopak jav nedostavil (klient zostal predplatiteľom). Vzájomné odlišnosti potom poukazujú na to, čo by mohli byť faktory predpovedajúce správanie konkrétneho jedinca. Potiaľto všetko sedí.

Problémom anotovaných prípadov je však práve to, že ich strojom poskytujú ľudia. Totiž ľudia vedia poskytnúť (podobne ako v prípade modelu pre amerického prezidenta) často len také anotované prípady, ktoré sa už v minulosti. V našich historických rozhodnutiach sú však zakomponované  aj naše (najmä kultúrne) stereotypy. Neveríte? Nuž, tak skúste natrénovať prediktívny model ako vyzerá ideálny pedagóg do materskej školy na Slovensku? Vyjde vám, že muži nemajú žiadnu šancu. (len pre korekciu, podľa môjho dosavadného pozorovania v Berlíne je asi 1/3 učiteľov v materských školách mužského pohlavia) Niektorí z vás si povedia, veď OK, na Slovensku by bol model “odstavujúci” mužov predsa presnejší? No a v tom je presne kameň úrazu. Teda prvý z dvoch.

Kde sa vzal, tu sa vzal 

Väčšina prediktívnych modelov, ktoré vznikajú v dnešnej dobe, vznikajú na lokálnej úrovni. Ak dostanete zadanie od šéfa natrénovať model na pravdepodobnosť nezaplatenia faktúry, použijete údaje z krajiny, v ktorej firma pôsobí. Ak by ste sa vrátili späť za šéfom s tým, že potrebujete dataset aj z Indie (aby váš model bol dostatočne presný), asi by vám hrozilo odporúčanie na different_peopleodbornu pomoc psychiatrického typu. Ak by ste náhodou mali aj vo vzorke príznak národnosti (po zavedení GDPR to bude dosť nepravdepodobné), model by sa zrejme uchýlil k tomu, že všetci cudzinci by boli vysoko pravdepodobní. Ak sú totiž v inej krajine pre zodpovednú finančnú disciplínu rozhodujúce iné faktory ako na Slovensku, tak všetci cudzinci by vychádzali ako rizikový, lebo ich neplatenie by sa dialo napriek tomu, že spĺňajú všetky slovenské faktory pre solídnu finančnú disciplínu. Preto všetkým teamom, ktoré som mal tu česť viesť, som prízvukoval, že ak nejaký príznak, ktorý je menšinovo zastúpený v celkovej vzorke (napr. iná krajina pôvodu) je silným prediktorom, vôbec to nemusí byť tak. Často to môže byť len proxi (zástupný parameter), že táto skupina sa správa inak, ale podstatu ich inakosti nie je zachytená v parametroch, ktoré sledujete. Na nedávanej odbornej prednáške som podobný príklad ilustroval aj na bežne mylnom predpoklade, že ľudské zdravie je korelované s vekom človeka.

A takto je to správane …

Problém je o to vypuklejší, že niektoré analytické softwary sa dokonca takýchto “cudzincov” vo vzorkách snažia aktívne zbaviť. V honbe za čo najlepším Liftom (metrike sily predikcie) odstraňujú hodnoty, ktoré pokladajú za outlierov, teda nerozhodujúci “šum v dátach”.  (Takto by zrejme vypadol aj Obama z hry.) Je teda pomerne cynické, že postup eliminácia odlišnosti to dopracoval až do defaultných nastavení niektorých analytických balíkov.

Ako tomu predísť?

Zasvätenejší možno budú argumentovať, že tomuto všetkému sa predsa dá predísť cross-validation metódami alebo vhodným kvótovaním účastníkov vo vzorke, aby sa zabezpečila skutočná reprezentatívnosť. Ak sa však pozriete pravde na zúbky, sú to neraz len teoretické šance ako zvrátiť, lebo :

Úprava premenných sa v modelovacích postupoch deje ešte pred tým, než vôbec nejaké vzorky vzniknú. A medzi úpravy premenných patria aj transformácie, binning či odstránenie extrémov, čo sú všetko techniky, ktoré dokážu vypudiť menšinové dáta zo vzorky.

Cross-validation sa realizuje často tak, že sa celkové dáta pokrájajú na náhodne vybrané, rovnako veľké skupiny (napr. 1/10) a postupne sa vymenia ich kombinácie tak, aby každá podskupina bola minimálne raz na strane trénovacích dát a raz na strane overovacích dát, na ktorých sa počíta presnosť predikcie. Ak však už v celkovej vzorke bol slabo zastúpený daný faktor, cross-validácia na tom nič nezmení, lebo daný faktor bude slabo zastúpený aj v jednotlivých podskupinách. Prevencia potláčania menšiny sa teda cross-validáciou vyriešiť nedá.

Kvótovanie na skutočné reprezentatívne zastúpenie by mohlo byt riešením, pretože prichádza pred úpravou premenných aj pred výberom vzoriek (a cross-validáciou). S touto technikou však prichádza praktický problém ako mať reprezentatívnu vzorku na dôležité faktory v modeli, keď vopred neviem, ktoré to sú. Skutočné potlačenie problému je možné dosiahnuť len niekoľko kolovým modelovaním, kde na základe silných prediktorov z prvého modelu zabezpečíte reprezentatívnu vzorku populácie pre všetky tieto silné faktory a natrénujete druhú generáciu modelu. (ktorá však môže vyzdvihnúť iné faktory ako prvá generácia a tak môže byť potrebných niekoľko premodelovaní, kým je model naozaj robustný). Asi najhorším rizikom je, že pre niektoré faktory nemusíte ani poznať prirodzené rozdelenie možných hodnôt v populácii (ako spraviť reprezentatívnu vzorku SR populácie vzhľadom na obľúbenú sexuálnu polohu alebo farbu ?)

V dátovej analytike tak vzniká samostatná oblasť, ktorá sa zaoberá tým, aby podklady pre učenie AI algoritmov boli vyvážené a obsahovali dostatok príkladov ľudského správania naprieč kultúrami a národnosťami. Start-upy a rôzne technologické aplikácie totiž majú ambíciu vytvoriť univerzálne AI algoritmy, škálovateľné prostredníctvom webu do ľubovoľnej krajiny. Ak by napríklad naučili model odhaľovať podvody na základe US dát, v Ázijských kultúrach by ich modely zrejme neboli schopné relevantnej predikcie.

Hoď druhým kameňom, kto si bez viny 

V prvej polovici textu som spomenul, že kamene úrazu sú dva. Okrem nereprezentatívnosti majú anotované prípady ešte jednu podstatnú slabinu. Popisujú totiž len tie javy, ktoré sa už skutočne stali.  Vyššie citovaný problém s predikciou prezidenta USA nie je problém v tom, že trénovacia množina by bola nereprezentatívna. Aj keby sme zahrnuli do trénovacej množiny všetkých ľudí chess clockplanéty, model by stále predikoval bieleho muža ako jasného kandidáta. Šance ženy nie sú nulové (veď Clintonovú v skutočnosti volilo viac ľudí ako Trumpa), problém je, že model sa učí len z tých prípadov, ktoré sa stali. Klasifikátory tohto typu avšak nevedia predpovedať veci, ktoré sa nikdy nestali. (smutným príkladom tohto nedostatku bol model na detekciu typu problému klientov IBM, ktorý vychádzal len z histórie už vyriešených problémov.) Väčšina machine learningových algoritmov dokáže dokonca efektívne zohľadniť daný faktor ako prediktor až vtedy, keď sa zopakuje niekoľko krát. V prípade amerických volieb by to znamenalo čakať aspoň 8 rokov. Inými slovami až 8 rokov po prvom úspechu ženy, by si model “poupravil” názor na ženy (aj to iba vtedy, kedy ženy vyhrali dvakrát po sebe). A to je práve tým druhým kameňom úrazu. Ak má byť strojové učenie masovo nasadené, musí sa učiť rýchlo. Model, ktorý 8 rokov niečo zle predikuje nikto samozrejme používať nebude. Teda umelá inteligencia potrebuje nielen reprezentatívne vzorky, ale potrebuje ich rýchlo po tom, čo sa objaví nový jav.

Ako von z bludiska

Riešenie, na vymotanie sa z tejto prekérnej situácie, spočíva v premene slabiny Umelej inteligencie na jej silnú stránku. Teda, presnejšie povedané, v nahradení jednej AI slabiny jej inou silnou bludiskostránkou. Stroje sú totiž schopné zásadne rýchlejšie vyhodnocovať prípady, dokážu to robiť za zlomky času, ktoré na to potrebuje človek. Ak máte výkonný počítač, za sekundu dokáže posúdiť milióny prípadov, zatiaľ čo človek si sotva stihne za daný čas vôbec jeden prečítať. Teda ak by sme počítaču predkladali dostatočne veľké množstvo anotovaných prípadov, ktoré sú naozaj rozmanité, tak by sa dokázal naučiť rozhodovať pri akokoľvek zložitom rozhodnutí. Problémom v jeho učení sme však my ľudia, lebo sme si nárokovali rolu učiteľa, ktorý mu predkladá vzory na učenie.  Nuž, a my, ľudia, sme oveľa pomalší ako počítače, takže hoci on by sa bol schopný naučiť z miliardy prípadov, predkladáme mu iba státisíce, možno milióny anotovaných vzorov. Čo sa však stane, keď ho začne učiť niekto iný ako človek?

Tak ako počítače dokážu rýchlo vyhodnocovať poskytnuté prípady, dokážu rýchlo aj generovať príklady takých situácií. Takže, ak najprv postavíme z umelej inteligencie učiteľa/trénera, ktorý bude bleskovou rýchlosťou generovať príklady, “AI žiak” sa dokáže naučiť do oveľa väčšej precíznosti ako pri čisto ľudsky generovaných príkladov. Práve tento postup je predmetom metód Reinforced learning intelligence, ktoré preto naberajú na dôležitosti. Pričom učiteľom môže byť dokonca aj ten istý počítač (ktorý je aj žiakom), keď na striedačku prepína medzi módom na generovanie príkladov a ich vyhodnocovaní. Samozrejme, vyšším stupňom učenia je, ak na učiteľa vyčleníme samostatný počítač. Ten sa snaží vymýšľať pre svojho žiaka zlomyseľné chytáky, aby preveril, ako dobre už sa naučil zvládať daný proces. Tieto metódy sa potom neraz pretransformujú do Adversial machine learning sústav, kde stroj vyslovene testuje, či nachytá iný stroj (žiaka) na atypických príkladoch. Tieto postupy sa používajú najmä v oblasti bezpečnosti, kde stroje bojujú proti strojom.

Quo vadis?

Myslím, že je celkom symptomatické, že za oba hlavné problémy s presnosťou a účinnosťou umelej inteligencie môže práve ľudský faktor. Medzi mnohými Data Scientistmi prevláda názor, že stroje sú niečo ako cvičené opice, ktoré oni zachraňujú tým, že im dodávajú know-how ako predikovať veci. To, že v priestore Deep learningu to už dávno nie je pravda nám stroje dokázali. V oblasti klasického Machine learningu však stále veríme v ľudskú dominanciu. AJ keď v skutočnosti zostáva ľudstvu len jedna oblasť Machine learningu, kde majú stále navrch oproti strojom (o tom viac v jednom z májových blogov). Ak však Umelá inteligencia bude chcieť by naozaj užitočná, bude sa musieť v prvom rade stať naozaj umelou. Teda zbaviť sa ľudského faktora v procese učenia. A tak nás v dohľadnej dobe čaká dehumanizácia Machine Learningu. Ak patríte medzi tých, čo dnes tvoria machine learning modely, mali by ste sa nad tým NAOZAJ zamyslieť.

– – – Tento blog je súčasťou seriálu o 2018 trendoch v analytike. Ak si chcete, overiť, či viete, kam práca s dátami smeruje do budúcna, nakuknite sem. – – –