Okrem konkrétných blogov na aktuálne témy sa snažím, aby na portáli Mocnedata.sk tie najužitočnejšie témy dostali aj širší priestor. Postupne tak vznikli série blogov , ktoré krok po kroku vysvetľujú témy, na ktoré rozsah jedného blogu nestačí. Pre lepšiu orientáciu v doposiaľ vydanýdh seriáloch pripájam ich prehľadné zhrnutie:
Seriál NEZNÁME ALGORITMY
Podstatou tejto série blogov je predstaviť (alebo aspoň pripomenúť) čitateľom algoritmy analýzy dát a rozhodovania sa na základe nich, ktoré sú menej známe alebo sa s nimi nemáte šancu stretnúť každý deň v práci analytika. Pevne verím, že si tak tak rozšírite svoje obzory aj o nové postupy, ako systematicky riešiť (občas aj) bežné úlohy vo svojom -nie len pracovnom- živote. Každému algoritmu je venovaný samostatný blog:
Neznáme algoritmy I. – Stopping problem
Stretli sme sa s tým už každý. Hľadáte človeka do teamu? Kupujete byt alebo hľadáte aspoň podnájom? Ste čerstvo rozídený/-á a rozmýšľate koľko ďalších vzťahov ešte budete musieť okúsiť, kým narazíte na toho pravého (resp. tú pravú)? Pri každej z tejto situácií sme v neistote, ako správne odhadnúť mieru svojej prieberčivosti. Prijať radšej vrabca v hrsti (a potom to ľutovať), či dúfať v holuba na streche s vedomím, že ho možno nikdy nebudem mať? Napriek tomu, že sme si tým prešli každý, len málo kto vie, že na túto otázku existuje optimálne, matematicky dokázané riešenie.
Neznáme algoritmy II. – Small data pravdepodobnosti
V dnešnej dobe väčšinu analytického diskurzu zaberá BigData, pri ktorých prestáva zmysel hovoriť o vzorkách, lebo často máte k analýze dispozícií celú históriu javu. Pre odhad pravdepodobnosti nejakého javu v BigData stačí pozrieť ako často daná situácia už v minulosti nastala. V bežných, civilných životoch však zriedka máme k dispozícií viac než zopár opakovaní procesu a aj tak musíme byť schopní odhadnúť pravdepodobnosť daného javu. Ako nestrielať odboku a správne odhadnúť svoje celkové šance napríklad v lotérií, z ktorej máme len zopár žrebov?
(ďalšie diely seriálu sa už pripravujú, sledujte Mocnedata.sk alebo prihláste do bezplatnej komunity a avízo na nové diely odbržíte emailom)
Seriál ŽIVOT ANALYTIKA
Seriál o útrapach pracovného života dátového analytika pôvodne nebol seriálom. Prvý blog na túto tému však vyvolal toľko ohlasov, že som sa rozhodol napísať voľné pokračovanie týchto tém. Nie je tak vylúčené, že k problémom zo života analytikov sa ešte vrátime.
Osamelosť analytika
Keď sa to objavilo na prvom pohovore, hovoril som si, že je mi to ľúto. Keď však druhý a potom tretí aj štvrtý kandidát vyrukoval s tým istým dôvodom odchodu zo súčasnej práce, spozornel som. Začal som rozmýšľať, či som sa presekal do nejakého podivného šípového kráľovstva, kde všetkých postihol ten istý osud. Nech som to obracal z akéhokoľvek uhlu, stále mi to nešlo do hlavy. Tým spoločným menovateľom všetkých kandidátov z daného dňa totiž bola osamelosť. Nie partnerská ani kamarátska. Bola to pracovná, analytická osamelosť.
Aký osobný rekord si vlastne môže vytvoriť dátový analytik?
Ak patríte medzi tých, ktorí chcú zostať na tepe odvetvia, v ktorom pracujete, potom ste si určite už položili otázku „Ako dobrý/á v skutočnosti som v tom, čo robím?“ A pre mnoho odvetví toto nie je jednoduchá otázka. Napriek tomu, že pre nemalý počet povolaní by bolo možné postaviť hodnotiace kritéria, väčšina oblastí, kde ľudia pracujú nemajú porovnanie ani medzi kolegami s rovnakým popisom práce, nie to ešte naprieč mestami, či štátmi. Olympijská atmosféra ma preto inšpirovala k úvahe: „Ako by sa mal merať zručnosť/výkon dátového analytika? Aké osobné rekordy by sme mali mať, aby sme ich mohli prekonávať?“
Šéfe, si úplne mimo! 4 druhy manažérov, čo nerozumejú analytike
Určite, manažérska povrchnosť a nekompetentnosť vás môže postretnúť takmer v každom odvetví. Ja by som sa však chcel špeciálne povenovať typickým príkladom tohto neduhu vo vodách Dátovej analytiky a Datascience. Tradičné koktejly vedúcich v tomto odvetví získali ešte niekoľko korenistých prísad. Veď posúďte sami, tu sú 4 typy manažérov, čo nerozumejú analytike.
Seriál NEURÓNOVÉ SIETE
Zvládnutie základných machine learningových algoritmov už dnes patrí do rukoväte každého Data Scientistu. Urobiť ďalší krok k “zlatému grálu” analytiky, k Deep Learningu, sa už nie každému podarí priamo v rámci svojich pracovných povinností. Pri tom práve táto oblasť bud zažívať v najbližších okoch najväčší rozmach (a teda aj najväčší dopyt zo strany firiem). Ako teda vlastne má vyzerať dobrá neurónová sieť? Kam smeruje vývoj v tejto oblasti a čoho by sme sa mali vyvarovať? Aké rôzne typy NN vlastne poznáme a na čo ich vieme použiť? Na všetky tieto otázky postupne odpovie seriál na túto kľúčovú tému analytiky.
Neurónové siete – 1.časť – Kto a prečo?
Za posledné dva roky sa medzi uchádzačmi o Data Science pozície rozmohla neutíchajúca túžba pracovať s neurónovými sieťami. Pri väčšine kandidátov však nadšenie nahrádza (neraz aj maskuje) skutočné znalosti tejto oblasti. Neurónové siete sú takým iPhonom dátovej analytiky. Veľa sa o nich píše, každý túži s ním pracovať, ale nikto nevie prečo vlastne po ňom túži. Ak vás to ťahá k neurónovým sietiam a neviete prečo, tak tento seriál je aj pre Vás.
Diel 2. – Prečo neurónové siete SKUTOČNE fungujú?
Ak by sme si dali dostatočný počet krokov späť a pozreli sa na oblasť dátových analýz (a predpovedí) naozaj zo široka, mohli by neurónové siete „splynúť v dave“ s inými formami analytických postupov. Aby sme sa tejto začiatočníckej chybe vyhli hneď na začiatku seriálu, vysvetlíme, čo oprávňuje neurónové siete mať vlastne miesto pod Slnkom. Tento blog berie neurónky od gruntu a vysvetľuje (možno tým menej zasväteným), ako neurónové siete fungujú. Pre skúsenejších deep minerov môžu nasledujúce odseky prísť trochu triviálne.
Akú máme vlastne alternatívu voči umelej inteligencii?
Snažil som sa manželke, ktorá je uznávaným trénerom soft skills, popísať príklad AplhaGo a jej víťazstva nad majstrom sveta v hre GO. Pozrela sa na mňa bokom a spýtala sa: „Prečo ako ľudstvo investujeme toľké peniaze do toho, aby niečo iné bolo lepšie ako my? Kam by sme sa mohli posunúť, keby sa všetky tie miliardy investovali do rozvoja ľudského intelektu?“ Skôr než sa zo mňa vysúkala odpoveď, musel som priznať, že takto som sa na to pozeral. Existenciu umelej inteligencie pokladám za akosi samozrejmú, rovnako ako drevorubač nerozmýšľa nad recykláciou papiera. Akú máme teda, ako ľudstvo, alternatívu k umelej inteligencii? Je to nezvrátiteľný trend?
V čom sa 8 ročné dieťa smeje neurónovým sietiam?
Hoci by aktuálny mediálny povyk ohľadne umelej inteligencie mohol naznačovať presne opačný dojem, neurónové siete v skutočnosti zatiaľ ovládli len časť nášho inteligenčného spektra. Áno, existujú oblasti, kde – ako ľudia – už dostávame od nich solídne na frak. Ale naopak sú aj oblasti, kde schopnosti umelej inteligencie nestačia ani na úroveň osemročného dieťaťa, nieto ešte na úroveň vysokoškolsky vzdelaného jedinca. Poďme si teda rozobrať kategóriu po kategórii, kde sa aktuálne z hľadiska schopností umelá inteligencia (AI) skutočne nachádza.
Viete, čo je XAI? Ej, veru, mali by ste.
Existujú oblasti, kde dôvody rozhodnutia sú minimálne tak dôležité ako rozhodnutie samotné. Asi najvypuklejším príkladom je v tomto ohľade Zdravotníctvo. Ide o ľudský život, takže žiadne dobrodružstvá, ktoré zabijú desiatky ľudí, než sa vyladia tu nie sú prípustné. Práve kvôli týmto oblastiam vznikla XAI, teda EXPLAINABLE AI. Podstatou XAI je nielen dodať kvalitný prediktívny model, ale zlomiť (doposiaľ zastávanú) paradigmu, že ak chcete čo najsilnejšiu predikciu, musíte obetovať interpretovateľnosť modelu a naopak. Aké techniky teda XAI používa?
Seriál AKO SI JEDEN ANALYTIK HĽADAL NOVÚ PRÁCU
Pár mesiacov dozadu som si prešiel procesom hľadania práce. Keďže väčšina ponúk, o ktoré som sa chcel uchádzať boli skôr zo zahraničia, prešiel som si aj zážitkami, ktoré bežne na slovenskom pracovnom trhu nenájdete. Povedal som si, že by to bola škoda si to nechať pre seba, lebo moje skúsenosti možno pomôžu aj iným, čo si hľadajú prácu. Tak som celý proces zhrnul do série blogov na tému, na čo sa pripraviť pri hľadaní práce analytika pre niektorú zo západných firiem.
Ako si vyberajú data manažérov do firiem na západe? [Diel1.]
Ako nájsť pdobré onuky Data Analytickej práce? Poviete si: Not a big deal, proste si prejdem pracovné portály alebo sociálne siete ako LinkedIn a nájdem si nejaké ponuky, nie? Hoci teoreticky to znie správne, realita na západe je dosť iná. Prekvapilo ma, ako požiadavky, ktoré sa kladú na tieto pozície na západe, ako aj samotný proces výberu takýchto manažérov, boli veľmi odlišné od toho, čo zažijete pri výberoch na tento druh práce v SR/ČR. Poďme si teda rozobrať najčastejšie spôsoby hľadania práce a čím sa v zahraničí líšia.
Ako si vyberajú data manažérov … [Diel2.] – Reakcia na ponuku
V prvom kroku sme si popísali, ako nájsť správne ponuky. Keď už máme zaujímavé ponuky pred sebou, čaká nas tŕnistá cesta ako na ne zareagovať. Bez toho, že by som chcel nejak prehánať, táto etapa procesu zahraničného angažmá je asi najväčším peklom. Rôzne systémy na registráciu a sprístupnenie svojich informácií su šialeným žrútom času. Určite sa vám preto zíde si prečítať niekoľko rád, ako preklenúť túto časť a nestať sa otrokom klávesnice a emailov. V tomto b,ogu si rozoberieme aj to, aké materiály by ste si mali pripraviť pre potenciálneho zamestnávateľa.

Ako si vyberajú data manažérov … [Diel 3.] – Prvé kolá pohovorov
Vyhladali ste si ponuku, prekúsli ste sa cez peklo vyplnenia všetkých podkladov a teraz vás konečne čaká šanca ukázať, čo je vo Vás. Samotné pracovné pohovory už sú dosť Free-style. Rozumej, čo spoločnosť, to odlišné postupy. Čo ma však zarazilo, ako široké je spektrum zážitkov, ktoré vás postretnú. Okrem tradičných spôsobov preverenia kandidátov som postretol aj niekoľko exotických. Jazykové testy, video self-interview s tým všetký sa určite stretnete. Stať sa vám môže aj to, že vás tá istá firma pozve na pohovor na pozíciu, na ktorú vás sami zopár týždňov dozadu zamietli. Čo čakať dopodrobna rozobrané v tomto blogu.
Ako si vyberajú data manažérov … [Diel 4.] – Inteligenčné a odborné testy
Hneď na úvod tohto blogu sa otvorene priznám, že téma, o ktorej sa ideme teraz porozprávať, bola pre mňa solídnym vytriezvením. Keďže som povyhrával nejaké tie matematické olympiády, živil som sa chvíľu programovaním a dokonca sám vytvoril zbierku úloh pre prijímanie dátových analytikov, ak som si v niečom prijímacom konaní veril, tak to boli práve kolá zamerané na overenie expertných znalostí. Tento blog je aj o tom, ako som sa neraz neblaho mýlil …
Ako si vyberajú data manažérov … [Diel 5.] – Ako si zodpovedne vybrať z ponúk
Po celom tom úsilí sa vám podarilo dopracovať k niekoľkým ponukám. Zotriete pot z čela a blažene sa usadíte. Ide sa vyberať. Čo všetko zobrať v úvahu pri výbere tej pravej? Nuž, ak myslíte nastávajúcu/ceho, tak to vám asi neporadím. Ale rád sa s vami podelím o to, čo všetko som zvažoval ja pri výbere novej práce. Ľudia, čo si na každé rozhodnutie robia šibeničku s plusmi a mínusmi mi vždy pripadali nerozhodní a tak trochu k smiechu. Keď však robíte vážne rozhodnutia (napríklad kam sa odsťahujete na niekoľko rokov), mali by ste si byť istý, že ste to dôkladne zvážili. Alebo ako sme počúvali od starých mám už od mala: „dvakrát meraj a raz rež.“
Kam a prečo sa sťahujeme? (celých 100% pravdy)
Bolo by zábavne to absolvovať celé len ako hru. Ale tá skutočná pravda je, že som celý proces hľadania práce v zahraničí absolvoval nie ako experiment, ale skutočne na ostro. O to viac boleli zakopnutia, ktoré som po ceste musel zažiť. Ale aj o to viac hreje pri srdci, že som nakoniec našiel skutočne zaujímavú prácu. V tomto blogu sumarizujem dôvody prečo, kritéria, ktoré som si postavil a zároveň odpovedá na niektoré zvedavé otázky ohľadne môjho nového pôsobiska.


Pre mňa oveľa zaujímavejším aspektom vyššie citovanej správy je fakt, že celkový počet odoslaných WhatsApp správ predstavuje denne až 65 mld. To značí, že priemerný užívateľ denne 43 krát. Teda takmer každý 33 minút, ak by sme cez deň nespali. Ak zoberieme do úvahy aspoň 6 hodinový spánok, tak posielame 1 WhatsApp správu každý raz za 24 minút. Tým sa používanie týchto služieb zaraďuje nad všetky ľudské, biologické potreby (s výnimkou dýchania). S kľudom Angličana teda môžeme prehlásiť slogan blogu za kruto pravdivý.
bola akvizícia WhatsAppu zo strany Facebooku zrealizovaná) toto číslo už dosahovalo 30 miliárd WhatsApp správ za deň. Porovnanie s dnešnými 65 miliardami za deň jasne potvrdzuje, že k žiadnemu ultmovaniu WhatsAppu (napr. v prospech FB Messengeru) neprišlo, naopak WhatsApp dostal pod FB vlastníctvom nové krídla (či už v počte užívateľov alebo ich intenzity používania služby).

H. Taneja, K. Maney:
B. Christian, T. Griffiths:
odbornu pomoc psychiatrického typu. Ak by ste náhodou mali aj vo vzorke príznak národnosti (po zavedení GDPR to bude dosť nepravdepodobné), model by sa zrejme uchýlil k tomu, že všetci cudzinci by boli vysoko pravdepodobní. Ak sú totiž v inej krajine pre zodpovednú finančnú disciplínu rozhodujúce iné faktory ako na Slovensku, tak všetci cudzinci by vychádzali ako rizikový, lebo ich neplatenie by sa dialo napriek tomu, že spĺňajú všetky slovenské faktory pre solídnu finančnú disciplínu. Preto všetkým teamom, ktoré som mal tu česť viesť, som prízvukoval, že ak nejaký príznak, ktorý je menšinovo zastúpený v celkovej vzorke (napr. iná krajina pôvodu) je silným prediktorom, vôbec to nemusí byť tak. Často to môže byť len proxi (zástupný parameter), že táto skupina sa správa inak, ale podstatu ich inakosti nie je zachytená v parametroch, ktoré sledujete. Na
planéty, model by stále predikoval bieleho muža ako jasného kandidáta. Šance ženy nie sú nulové (veď Clintonovú v skutočnosti volilo viac ľudí ako Trumpa), problém je, že model sa učí len z tých prípadov, ktoré sa stali. Klasifikátory tohto typu avšak nevedia predpovedať veci, ktoré sa nikdy nestali. (smutným príkladom tohto nedostatku bol model na detekciu typu problému klientov IBM, ktorý vychádzal len z histórie už vyriešených problémov.) Väčšina machine learningových algoritmov dokáže dokonca efektívne zohľadniť daný faktor ako prediktor až vtedy, keď sa zopakuje niekoľko krát. V prípade amerických volieb by to znamenalo čakať aspoň 8 rokov. Inými slovami až 8 rokov po prvom úspechu ženy, by si model “poupravil” názor na ženy (aj to iba vtedy, kedy ženy vyhrali dvakrát po sebe). A to je práve tým druhým kameňom úrazu. Ak má byť strojové učenie masovo nasadené, musí sa učiť rýchlo. Model, ktorý 8 rokov niečo zle predikuje nikto samozrejme používať nebude. Teda umelá inteligencia potrebuje nielen reprezentatívne vzorky, ale potrebuje ich rýchlo po tom, čo sa objaví nový jav.
stránkou. Stroje sú totiž schopné zásadne rýchlejšie vyhodnocovať prípady, dokážu to robiť za zlomky času, ktoré na to potrebuje človek. Ak máte výkonný počítač, za sekundu dokáže posúdiť milióny prípadov, zatiaľ čo človek si sotva stihne za daný čas vôbec jeden prečítať. Teda ak by sme počítaču predkladali dostatočne veľké množstvo anotovaných prípadov, ktoré sú naozaj rozmanité, tak by sa dokázal naučiť rozhodovať pri akokoľvek zložitom rozhodnutí. Problémom v jeho učení sme však my ľudia, lebo sme si nárokovali rolu učiteľa, ktorý mu predkladá vzory na učenie. Nuž, a my, ľudia, sme oveľa pomalší ako počítače, takže hoci on by sa bol schopný naučiť z miliardy prípadov, predkladáme mu iba státisíce, možno milióny anotovaných vzorov. Čo sa však stane, keď ho začne učiť niekto iný ako človek?