2021 TRENDY o ktorých BY STE MALI VEDIEŤ

Z každej strany na nás skáču lock-downy a vakcíny. A nás to unavuje. Človek by sa však chcel pozrieť do budúcnosti aj ponad všade prítomnú pandémiu. Aké sú teda NON-COVID trendy pre 2021?

Každoročne je jedným z prvých blogov, ktoré píšem, venovaný dôležitým trendom nadchádzajúceho roka. (staršie ročníky sú tu: 2019, 2018, 2017). Rovnako tomu je aj tohto roku, aj keď sumár 2021 trendov sa písal ťažšie. Z každej strany totiž na nás skáču lock-downy a vakcíny. Mnoho trendov sa (aj trochu zbabelo) schováva alebo zastrešuje pandémiou. Príde mi to nepoctivé. Preto pri písané tohto sumáru (z podnetov WIRED magazínu) som sa cielene zameriaval na trendy, ktoré idú za hranicu COVIDu. Ono sa toho totiž naozaj aj popri Korone udeje veľa.

Pôvodná verzia aktuálneho prehľadu 2021 TRENDOV vznikla najprv v Angličtine, čo verím, že pre mnohých nie je problém zhltnúť. Sú však medzi nami aj tí, čo hovoria bezchybne skôr inými jazykmi ako je ten Shakespearovský. A pre tých slúži táto SK verzia. Keďže však WordPress posiela nezmyselne veľa notifikácií, rozhodol som sa v SK verzii nenasledovať postup z pôvodnej AJ verzie (ktorý viedol k tomu, že subscriberi Aj newsletru dostali 16 emailov od mocnedata za jediný deň :facepalm, za čo sa im týmto aj ospravedlňujem). Slovenská verzia preto obsahuje stručné popisky všetkých trendov priamo v tomto jednom blogu. Ak vás niektorý z trendov zaujal na toľko, že by ste chceli sa dozvedieť viac, rozklinite si odkaz na pôvodny AJ blog k danej téme, kde je k danému trendu často oveľa viac info.

Ak sa vám predsa len nechce čítať AJ verzie a ste na novej sociálnej sieti Clubhouse zaskočte na krátky rozhovor na túto tému:

A teraz už rýchlo k spomínaným trendom:

Umelá Inteligencia pozdvihne DISTANČNÉ VZDELÁVANIE

Za posledné mesiace sme mnohí precitli ako pripravená je naša spoločnosť na vzdelávanie na diaľku (čo si niektoré školy napríklad vyložili aj tak, že budú posielať poštou fyzické pracovné zošity). Na pozadí tohto precitnutia (a tak trochu mimo náš radar) sa však Umelá Inteligencia postupne zacvičovala v digitálnych vzdelávacích platformách. Prebehli dokonca prvé komparatívne výskumy, ako rozdielny výsledok učenia dokáže AI dosiahnuť oproti bežnému učiteľovi. Ako sa umelá inteligencia včlení do vyučovania?  Čo urobiť preto, aby vaše deti mohli siahnuť po tomto benefite? Ktoré aspekty učenia AI najefektívnejšie zlepšuje? Odpovede na tieto otázky ponúka rozšírený blog na túto tému.

 

STROJOVÉ UČENIE sa fyzicky vkradne medzi ľudí

Roky rokúce sa nasadenie robotov limitovalo na výrobné haly alebo uzatvorené priestory domácností. (Pamätáte si Roomba vysávač?) Bolo to veľmi pragmatické rozhodnutie, lebo štandardizované a uzatvorené prostredie znižovalo nároky na to, čo všetko umelá inteligencia robotov musí zvládať. Latka vonkajšieho prostredia, kde sa veci a ľudia môžu hýbať (takmer) nepredvídateľne, bola pre robotické systémy príliš vysokou. To sa však zmení tohto roku, pravdepodobne. Zaujíma vás ktoré systémy sa vyberú von medzi ľudí? Aké spoločenské dopady to bude mať na chodcov a iné skupiny obyvateľov? To všetko sme rozobrali detailnejšie tu.

 

KVANTOVÉ POČÍTAČE prerazia vďaka Internetu

Pre mnohých sú kvatnové počítače stále španielskou dedinou, prípadne ich pokladajú za nejakú novú formu počítačov, ako laptop či tablet. Ak patríte medzi nich, svoje rozpaky z tejto neznalosti môžete polopate a bežným jazykom pochopiť za pár minút TU. Hlavným problémom kvatnových počítačov je to, že sa ešte nedajú vyrobiť v dostatočne miniatúrnej verzii, aby boli užitočné aj bežným užívateľom ako sme my. Vedci však našli cestu, ako pomocou sietí preklenúť túto obavu. Aktuálne okolnosti navyše nahrávajú tomu, aby sa spustil boom malých QC (ako sa kvantovým počítačom hovorí). Tento trend môže byť enormne nebezpečný hlavne pre vaše heslá. Ale o tom všetkom detailne v samostatnom blogu.

 

Poistili ste sa proti ZRÁŽKE SO SATELITOM?

Voči veciam, ktoré by nás mohli nepríjemne prekvapiť, sa snažime vymedziť alebo poistiť. Na to, aby sme však zvažovali protiopratrenia voči istému riziku, musíme ho pokladať aspoň za bazálne pravdepodobné. Prečo teda satelity? Naše rozpaky vyplývajú z toho, že satelity máme uložené v našich mysliach ako niečo, čo vypúšťajú vlády (a to aj len tých väčších štátov). A na nebi predsa je dosť miesta, aby sa tam pomestil nejaký ten ďalší? Nuž, vypustiť satelit môže každý. Rovnako ako môže letieť balónom každý, kto ho má. Áno, so susedom si o svojich  satelitoch asi cez plot nepokecáte, ale súkromné spoločnosti môžu vypúšťať stovky až tisíce balónov. A aj to robia. Len Elon Musk ich má na zozname viac ako 10 000 kusov. Satelitov začína byť skutočne tak veľa, že to začína ovplyvňovať aj nás bežných smrteľníkov tu dole na zemi. Ako a čo s tým plánujeme robiť som sa rozhovoril v tomto blogu.

 

PRÁCA NA DIAĽKU sa od nutného zla posunie k  …

Hoci home-office sa, doslova z večera do rána, stal z ojedinelého javu pracovným štandardom (sám som strávil z posledných 12M inak ako v home-office len necelých 20% času), ruku na srde: Pre väčšinu z nás sa tým home-officom stali obývačky, kuchynské stoly a stoličky, ktoré majú od ergonómie na hony ďaleko. Podobne tomu bolo aj v oblasti software, s ktorým pracujeme. Rýchlo sme preladili na Zoomy a TeamViewery, Teamsy a Google meety, Slack a Whatsapp, ale … vždy to bola taká z núdze cnosť. Mnohé aplikácie dokonca prácu na diaľku ani neumožňovali a tak stále mnoho ľudí musí do officu, lebo ich siete či software prácu na diaľku ani neumožňujú.

To všetko prejde v rolu 2021 rýchlo zmenou. Aplikácie začali bleskovo pridávať funkcie, ktoré umožňujú pracovať s nimi na diaľku (a to aspoň podobne efektívne ako pred pandémiou) alebo ktroré napodobujú “tie dobré veci z offiu, ktoré nám chýbajú” (ako napr. neformálny pokec v kuchynke pri káve). Niektoré aplikácie idú ešte ďalej a integrujú priamo nástroje na vzájomnú koordináciu práce ľudí z domu alebo monitorovania riziko vyhorenia. Home-office totiž pretvrá aj po odznení pandémie. A tak je potrebné posunúť podmienky práce na diaľku z nutného zla na … porovnateľný zážitok s kanceláriou.

 

 

Tohto roku sa VZDÁME ĎALŠIEHO ZMYSLU V PROSPECH POČÍTAČOV

Hoci to vnímame tak, že digitálne technológie sa nám intenzívnejšie vkradli do životov hlavne za posledné roky, možno vás prekvapí, že zmysly, ktoré doposiaľ počítače majú (zrak, sluch a do istej miery hmat) už majú stroje pomerne dlho. Výdávať ľudské hlasy sme stroje naučili už na začiatku 20ho storočia a zachytiť a prezentovať obraz dokonca na konci 19. storočia. O to významnejšie pôsobí, že po tak dlhej done práve v tomto roku sa podarí preraziť strojom v ďalšom (ľudskom) zmysle. Ako páni tvostva sa postupne vzdáme neotrasiteľnej kontroly nad čuchom (nie to nie je výčet COVID príznakov), keď počítače dokážu rozpoznať, syntetizovať čuchové vnemy, či navodiť nám konkrétnu čuchovú ilúziu, podobne ako AR okuliare nám navodia dojem vizuálneho vnamu (alebo slúchadla navodia dojem konkrétneho zvuku). Tento zdanlivo nenápadný posun vpred vám môže pripadať ako pánske huncútstvo. V skutočnosti to však bude mať zásadný dopad na chod spoločnosti. Odporúčam vám prečítať si to, aby vás to neskôr nezaskočilo.

 

AI sa presadí v DETEKCII CHORÔB

Predstavte si, že by existoval spôsob, ako zistiť, že máte COVID, priamo v teple vašeej obývačky. Oh, bože, koľkí dobrovoľníci by nemuseli mrznúť na mobilných odberových miestach, koľkým prenosom (pri samotnom testovaní) by sa predišlo? Alternatívy však existovali, len akosi … sa nepretlačili do popredia. Áno, COVID sa dá (pomocou AI) detegovať aj z nahrávky zakašlania, či hladiny kyslíku v krvi. Moderné fitness zariadenia a smartfóny otvárajú dvere pre umelú inteligenciu na diagnostiku chorôb. A Umelá Inteligencia vôbec neplánuje zostať pred týmito dverami. Aké faktory budú akcelerovať alebo naopak hatiť vstup AI do diafnostiky chorôb rozoberám v tomto článku.   Ak máte pocit, že je to -ako sa hovorí – s krížikom po funuse, nuž verte, že chorôb, ktoré by potrebovali včasnú diagnostiku mimo nemocníc, je naozaj veľa.

 

 

MESTÁ sa rebrandujú, ŠTÁTY sa budú špecializovať

To, že nehovorím v tomto prehľade o COVID trendoch, neznamená, že opomenieme sociálne trendy, ktoré budú po COVIDe bezprostredne nasledovať (a preto chronologicky s COVIDom aj súvisieť). Jednou z (aj v tomto blogu pretraktovaných) zmien je fakt, že geografická príslušnosť sa odpojí od pracovnej zmluvy. Inými slovami, budete môcť pracovať od hocikadiaľ. To samozrejme prinesie mnoho príležitostí ako začať pracovať pre fimu, do sídla ktorej by ste sa nikdy (napr. pre rodinné dôvody) nepresťahovali. Ale málo ľudí si uvedomuje, že to bude fungovať aj opačne: Môžete si ponechať job, ktorý vám umožňuje pracovať z domu, a presťahovať sa kamkoľvek chcete (ak je tam internet). A to nemusí byť zrovna na Honolulu alebo Filipíny. To môže byť kludne niekam do podtatranskej dediny, lebo milujete prírodu alebo do Andalúzie, lebo nemáte radi zimu. Čím viac sa bude tento trend presadzovať, tým viac sa tie šikovnejšie mestá (a štáty) začnú profilovať a rebrandovať. NIektoré už existujúce príklady sú zhrnuté tu. Musím priznať, že prečítať si o tomto v medzinárodne odbornom časopise ma mrazí a teší zároveň. Pretože presne o tomto trende som hovoril vo video interview s Andrejom Tichým (v 6min a 20 sek videa) pred viac ako rokom a pol späť. Nuž, pokrokové krajiny riešia očkovanie, tie ešte pokrokovejšie riešia aký positioning zaujmú v post-COVID dobe. A tie ostatné? Tie riešia statusy premiérov na Facebooku.

 

AUTONÓMNE VOZIDLÁ konečne pochopili svoju úlohu

S autonómnými autami je to podobne ako s diaľnicou do Košíc. Vždy počúvame, že budú do 5 rokov. A tento výrok je pravdivý každým rokom znovu. Našim mentálnym problémom však je, že všetky reklamy a vizionárske videá o autonomných vozidlách zobrazujú osobné autá. A tento bilag si dlho neuvedomovali aj samotní výrobcovia áut, ktorí sa predháňali v predstavovaní nových a nových modelov osobných e-áut. Pritom samojazdiace vozidlá sú oveľa užitočnejšie v iných kategóriach, ako napríklad kamióny. Autonómne kamióny už sú zakontrhované a začnú jaždiť v týchto mesiacoch po konkrétnych trasách. Rok 2021 bude teda definitívne rokom keď  začneme ne cestách stretávať autá bez ľudí vnútri. Ak vás táto téma zaujíma detailnejšie, ako presne to prebehne je popísané v tomto článku.

 

 

Život sa prikloní k FUNGOVANIU v KOMUNITÁCH

Aktuálne prebiehajúce trendy do istej miery vyprázdnia kancelárie. Pandemické opatrenia nás privedú k myšlienke: S kým chceme zdielať dvor alebo poschodie? S tým trulom, čo odmieta nosiť rúšku a mláti svoju ženu každý druhý večer? Zlomové situácie ako táto, zväčša vedú aj k preskupeniu ľudí. Shopping mally už nikdy nebudú tak populárne ako pred pandémiou a existujú reálne štúdie o tom, že prevádzkovatelia shopping mallov budú musieť pridať atrakcie, prečo by sa mali znovu dostaviť. Tí, čo okúsili pracovať z chaty, sa budú vracať na ňu častejšie. A nad všetkým tým si uvedomíme, aká cenná je nám komunita ľudí. Rozhovory ako “pamätáte aké to bolo počas lock-downu? To by som už nechcel zažiť” sa stanú folklórom. Fungovanie v komunitách sa zmení. Ak vás zaujíma táto téma, pozrite aj sem.

 

 

VIRTUALNÁ REALITA ako primárny model podnikania

Za posledné obdobie desaťročia sme si prešli premenami, keď niektoré technológie prevzali prím v stratégiách spoločností. Zažili sme si preto Social-first, potom Mobile-first a pre mnohé podnikanie bola koronakríza náhlym prechodom na e-commerce first. Preto na to, že nejaké nové, technologicky silné trendy prichádajú každých x-rokov, sme si akosi zvykli. Čo bude teda tým ďalším -First , ktoré nás čaká za rohom? Experti sa zhodujú, že to bude rozšírená realita (alebo AR = Augmented reality). Hoci prvé lastovičky (ako IKEA appka kde si môžete “teleportovať” do svojej obývačky gauč, aby ste videli ako sa vám tam hodí/vmestí) už fungujú, určite ešte nie sú primárnym biznis modelom. Niektoré náznaky z amerického prostredia však indikujú, že rok 2021 môže byť ten, keď sa začne presadzovať AR ako hlavný biznis model. Musím sa priznať, že rozumiem ľudom, ktorí krútia nad týmto hlavou. Avšak, keďže sám na takom projekte spolupracujem, vidím, že je to viac ako možné. Ono to skutočne prichádza. Ak chcete pochopiť, ako sa nestať tohto obeťou, skúste tej téme venovať pár hodín rozmýšľania.

 

 

RECRUITMENT sa odpojí od geolokácie

Lockdowny prelomili jednu dôležitú paradigmu. Pocítil som to sám na vlastnom teame, keď počas korony niektorí zamestnanci dostali skôr svoju prvú výplatu než sme sa osobne stretli v office. Aj men prišli ponuky z destinácií na hody ďaleko od domova. V situácií, keď pracujete na home-office, totiž je úplne jedno z akej obyvačky sa pripájate. Väčšina firiem si teda priznala, že vaša fyzická prítomnosť na konkrétnom mieste bola vlastne (tak trochu) zbytočná podmienka spolupráce. To ale znamená, že zrazu vás môže nahirovať aj firma snov z kúta zemegule, do ktorého by ste sa nikdy nepresťahovali. Okrem splnených snov, to však prináša aj určité nepríjemnosti, o ktorých by ste si mali prečítať.

 

Odhodláme sa PLATIŤ za BEZREKLAMOVÉ VERZIE

Mnoho digitálnych služieb vzniklo na modeli, že služba je navonok zadarmo pre konečného používateľa, avšak za chod danej služby platia inzerenti. Tí za to dostávajú možnosť zasypať používateľov reklamou. Experti si však všmli, že do popredia idú momentálne platené verzie služieb, ktoré ponúkajú bezreklamové fungovanie služby. Tento trend však neprišiel sám od seba, jeho podstata bublala v náznakoch už dávnejšie. Ak chcete vedieť prečo nás to tiahne týmto “plateným” smerom, začítajte sa do rozšírenej verzie tohto blogu.

 

MOBILY ako kľúčová platforma pre ROZPRÁVANIE PRÍBEHOV

Ak by som sa vás spýtal, ako ste sa zoznámili s dobrodružstvami Harryho Pottera, zrejme by ste mi povedali, že ste čítali knihu alebo videli film. A skutočne, Kniha a Telka sú hlavnými zdrojmi príbehov pre nás odjakžive. Pričom zaujmavé je, že ustáli nástup iných technológii, a svoje výsadné postavenie mostu do deja rôznych príbehov si po celé tie desaťročia udržali. Tohto roku však k ním pribudne nenápadny tretí do partie. Niekoľko štúdií potvrdilo, že v roku 2021 vydajú špeciálne (detektívne príbehy), ktoré sa budú odohrávať iba na Vašom mobile. Tým nemyslím, že si pozriete film v rozlíšení prispôsobenom na veľlosť smartfón obrazovky. Smartfón totiž nebude plniť len úlohu zobrazovacieho zariadenia, ale vytvorí interaktívnu stanicu, pomocou ktorej vy sami sa stanete súčasťou príbehu. Môžete vypočúvať virtuálne svedka či podozrivého, robiť detailnu obhliadku miesta činu, či prekúmať telefón podozrivého tým, že sa nachvíľu “prevtelí” do toho vášho telefónu. Od tohto roku tak bude možné, že ste sa o zákrutach nejakého príbehu dozvedeli cez telefón. Odkazy na tieto prvé mobil-príbehy ako aj niekoľko ďalších podorbnosti si môžete prezrieť TU.

 

KONŠPIRÁCIE sa uchýlia do ALT TECH

To, že dezinfo scéna naberá na obrátkach asi nikomu z vás nemusím nijak extra vysvetlovať. Všetky tie 5G, antivax alebo COVID hoaxy sa zo sociálnych médií a emailov valia na kvantá. Zakiaľ my rozmýšľame, ako tento typ obsahu označiť, či priam vytesniť z oficiálnych zdrojov, Konšpirátori potichu využívajú iný technologický trend: ALT-TECH. Ak ste o alternativnych technológiách ešte nepočuli, predstavte si to ako truc podniky veľkým digitálnym gigantom.

Ak neznášate fakt, že Google má takmer monopol na internetové vyhľadávanie, ale stále chcete vyhľadávať na špičkovej úrovni, môžete použiť DuckDuckGo. Ak sa vám ježia vlasy z YouTubu, vyskúšajte BITchute. Každá z veľkých digitálnych služieb má svoje alterego. (viď banner vedľa).  A tým nemyslím malinkú službičku, ktorá sa tvári ako iný-Facebook či iný-Twitter. Všetky ALT TECH služby sú reálnymi alternatívami. Ak vás zaujíma prečo vlastne vynikajú a ako sa do nich konšpirátori presadzujú, pozrite detailné pojednanie na túto tému.

(drobný disclaimer: Autor tohto blogu sa nestotožňuje s tým, že by ste mali použivať ALT TECH ani vá sk tomu žiadnym spôsobom nenavádza)

Na AKÝ COVID TEST by ste sa ROZHODLI ísť dobrovoľne?

Možno vás táto otázka zaskočila. Lebo väčšina z nás má maximálne tak na výber medzi tým, či na test pôjde alebo nie. (Niektorí ešte aj v tomto majú pech.) A predstava, že na odbernom mieste pred vás postavia niekoľko rôznych krabičiek a ponúknu vás k výberu, asi pripomína skôr scénku pouličného kaukliara s tromi šálkami a guličkou pod jedným z nich. Nachvíľu však privrite oči a skúste si predstaviť, že by ste si naozaj mohli vybrať: Podľa akého kritéria by ste si test vybrali? Najrýchlejší? Čo najmenej nepríjemný?

Myslím, že väčšina z nás by si vybrala čo najpresnejší test. Lenže to je presne tá pasca diskusie. Ako sa už za chvíľu dozviete, každý test má od svojej podstaty totiž 4 metriky „správnosti“. Ak teda poviete že chcete test s 99% “kvalitou merania“, bez hlbšej znalosti veci, môžete skončiť so 4mi úplne výkonnostne odlišnými testovaniami, ktoré sú každé na 99% „presné“. (Navyše z každého vám pri opakovanom testovaní tej istej osoby vyjde úplne iný pomer pozitívny/negatívny výsledkov). Tento blog je preto o tom, ktorá z tých 4 metrík bude pre vás najdôležitejšia a ako by mala byť jej hodnota vysoká. Blog je – tak trochu- aj o tom, že túto dilemu denne riešim v svojej práci, hoci s COVID testami nepracujem vôbec. Ale o tom až úplne nakoniec.

10 yearsEšte než splním vyššie uvedený sľub zasvätenia do presností testovania, dovoľte mi prosím dve krátke,  osobné vsuvky. Tento blog som mal rozpísaný už niekoľko týždňov, ale tohtotýždňové vyhlásenie vlády SR o tom, že chce plošne pretestovať SR populáciu (antigénovými testami), má popohnalo ho rýchlo dopísať. Myslím si totiž, že informácie s tohto blogu budú pre diskurz najbližších dní (a vaše rozhodovanie o tom, či na plošný test ísť dobrovoľne) pomerne dôležité. Tým druhým osobným bodom je, že dnes je to presne 10 rokov, čo som začal písať blogy. Žiaľ, nebola žiadna torta so sviečkami.  Ale jubileum, ako vidíte, som oslávil prácou. Neviem sľúbiť, že vydržím blogovať ďalších 10 rokov.  Ale vynasnažím sa, aby aj dnešný, už 294tý blog v poradí, bol zaujímavým čítaním, a v niečom vás inšpiroval tak ako vyše pol milióna videní predchádzajúcich blogov.  A teraz už späť k testom.

4 metriky úspechu

Keď rozmýšľame o tom, ako dobre niečo funguje, predstavujeme si niečo ako % spoľahlivosti. Ak sa dočítame, že niečo funguje na 90% (alebo viac) percent, dáme sa zväčša do pohody. A ani nás nenapadne, že by mala byť ešte nejaká iná metrika úspechu. Proste očakávame, že aspoň v 9/10 prípadov to dopadne dobre.

Preto informáciu, že existujú nejaké ďalšie miery úspechu výrobku či služby, a dokonca že sú tie metriky 4, pokladáme za podraz osudu alebo slovičkárenie mudrlantov. Tento zmätok v našej hlave vzniká preto, že sa nepozeráme na veci stroho ako na fakty. Pri tom zabúdame, že skutočný stav vecí nemusí byť známy a snažíme sa ho zistiť z niekoho pozorovania. Takéto situácie sú okolo nás úplne bežné: ak sa spolužiaci hrali cez prestávku, rozbili pri tom okno a do triedy príde učiteľka, nastať môže jeden zo 4 scenárov: Okno si ty nerozbil, ale aj tak si dostal pokarhanie triednej; okno si rozbil a dostal pokarhanie právom, ale aj možnosti, že si okno rozbil a pokarhanie Ťa minulo, prípadne si okno nerozbil a ani nebol pokarhaný. (Identicky si môžete dosadiť objednávateľa vraždy Jána Kuciacka a jeho odsúdenie). Ak sa teda niekto (v našom príklade triedna učiteľka) snaží vyriešiť kauzu rozbitého okna, zrazu ma viacero cieľov: odhaliť skutočného vinníka,  krivo neobviňovať ostatné deti, dať jasne najavo, že toto sa nesmie zopakovať, …

O nič menší zmätok to nie aj ani vo vede, pri meraní, či testovaní vecí. Svedčí o tom aj fakt, že samotní vedci pomenovali metódu riešenia takýchto situácií ako Confusion Matrix (teda Matica zmätenia). Jej najjednoduchšia podoba vyzerá nasledovne:

V princípe ide o 2×2 tabuľku (mudrlanti by povedali, že môže byť aj viac ako 2×2, ale to sem teraz nepleťme). Jednu dimenziu predstavuje skutočný stav veci (rozbil okno, naozaj má COVID, naozaj si objednal vraždu, …) a druhou dimenziou je to, čo o danom stave povedal test/pozorovanie/odhad (dostal pokarhanie, výsledok COVID testu, uznal súd vinu …). Kombinácie týchto dvoch dimenzií vytvárajú 4 možné stavy:

True Positive (TP) = Skutočne pozitívny = človek, ktorému test správne odhadol, že u neho naozal nastal daný jav (napr. spravodlivo odsúdený)

False Positive (FP) = Krivo označený ako pozitívny = človek, ktorý je v skutočnosti negatívny, ale test ho krivo obvinil, že je pozitívny (napr. krivo obvinený obžalovaný)

True Negative (TN) = Človek, ktorému test správne odhadol, že naozaj je negatívny v danom jave (napr. spravodlivo oslobodený spod obžaloby)

False Negative (FN) = Mylne označený za negatívneho = človek, ktorý je v skutočnosti pozitívny, ale test to neodhalil a tvrdí o ňom, že je negatívny. (Napr. neprávom oslobodený skutočný páchateľ)

Už akosi z povahy veci, nám samozrejme nevadia TN a TP, lebo označili veci správne.  Zmätok v tom celom robia polia FN a FP. Pre správne posúdenie „kvality testu“ však sú dôležité aj ich vzájomné pomery a tak vznikli nasledovné 4 metriky na celkové posúdenie situácie:

Celková správnosť = (Accuracy  v AJ) = pomer tých, u ktorých test uhádol ich skutočný stav správne, teda = TP + TN / (FP+FN+TP+TN)

Senzitivita = (Recall  v AJ) = Miera správneho odhalenia u tých, ktorých test naozaj mal odhaliť daný jav = TP / (TP+FN). Pri stopercentnej senzitivite test odhalil každého kto bol testovaný a naozaj aj bol v skutočnosti pozitívny. Pri 50% senzitivite test “zabudol” označiť každého druhého skutočne pozitívneho.

Špecificita = (Specificity v AJ) = Miera pravdivého označenia negatívnych u testovaných = TN / (TN+FP). Pri 50% špecificite testu je polovica negatívnych mylne označená za pozitívnych.

Prediktívna hodnota pozítívneho testu = (Precision v AJ) = Pravdepodobnosť, že osoba je pozitívna, ak tak ukázal test = TP/(TP+FP)

(drobným mudrlantským tajomstvom je, že tých metrík je viac ako 4, ale ostatné sa dajú z týchto najčastejších 4 odvodiť)

Ako si správne vybrať test?

Tak, čo? Už máte svojho favorita z uvedených 4 metrík? Ak si myslíte, že stačí mať vysokú celkovú správnosť, hlboko sa mýlite. Skúste sa zamyslieť nad nasledovným príkladom: Máte 2 detektory lži, oba sú celkovo úspešné na 90%. Detektor A však zvyšných 10% nad celkovú úspešnosť má vo FP kastlíku a detektor B ich má v FN. Z hľadiska celkovej úspešnosti by vám malo byť jedno na ktorom sa necháte vyšetriť. Podstatný rozdiel medzi A a B však tu je: Vždy keď si detektor A nie je istý, tak vás označí za vinného, zatiaľ čo B vždy keď si nie je istý vás označí za nevinného. Tak ako? Ešte stále vám je jedno ktorý?

Celú vec okolo výberu tej správnej miery kvality komplikuje ešte fakt, že rôzne spoločenské procesy/rozhodnutia si vyžadujú dôraz na rôzne metriky úspechu. Pri spomínanom rozbitom okne, triedna učiteľka bude mať zrejme na zreteli, aby tento čin nezostal nepotrestaný. Preto, ak deti budú medzi sebou zapierať a navzájom sa kryť, tak (najprv pohrozí a v krajnej situácii aj) pristúpi k potrestaniu všetkých zapojených. Riadi sa teda tým, že maximalizuje Senzitivitu aj za cenu nízkej Prediktívnej hodnoty rozhodnutia. Inými slovami radšej zopár neoprávnených poznámok v žiackej ako nikto nepotrestaný za rozbité okno.

V medicíne je často najdôležitejšia tiež Senzitivita (neodhalené vnútorné krvácanie je horšie ako nesprávne podozrenie naň), ale ak ide o testy, ktoré vedú k operáciam, chemoterapii alebo iným nezvratným úkonom, veľmi dôležitá je aj Precision (=Prediktívna hodnota pozitívneho testu), lebo mať zbytočne amputovanú končatinu, či vytrhnútý zub, tiež nie je ideál zdravotnej starostlivosti.

Naopak, prezumpcia neviny v našom systéme spravodlivosti je čistá orientácia na Špecificitu aj za cenu nízkej Senzitivity. Inými slovami radšej 10 oslobodených zločincov ako 1 nespravodlivo odsúdený. To ako ťažko sa s tým zmieruje „nezávislý divák“, si táto krajina nedávno prežila.

Pre správne rozhodovanie je potrebné povedať aj to, čo sa deje, ak sú niektoré metriky slabé. Ak má nejaký rozhodovací proces nízku mieru Pozitívnej prediktívnej miery, znamená to, že mnoho ľudí bolo označených krivo za pozitívnych a to bude výrazne zrážať dole dôveryhodnosť takéhoto procesu (ľudia sa nebudú sťažovať, ak budú mylne vyhlásení za nevinných, ale budú sa búriť ak veľa označených ako vinných je v skutočnosti nevinných). Na druhej strane nízka Senzitivita vedie k tomu, že ak malo prísť niečo za výsledok pozitívneho testu (napr. liečba), mnoho ľudí to nedostane, aj keď by to potrebovalo. Čiže do hry vstupujú náklady a dôsledky neodhalených prípadov. To môže v zdravotníctve znamenať aj zbytočné úmrtia, či mnoho ďalších zbytočne infikovaných. Nízka Špecificita zas vedie k zbytočnému vystaveniu dôsledkov pozitívneho testu. Či už vo forme nespravodlivého väzenia, zbytočnej liečby a stresu ľudí, ktorí sú označení za (niekedy až smrteľne) chorých, hoci sú zdraví. Vedie však aj k zbytočnému plytvaniu peniazmi (napríklad pri udeľovaní zliav alebo rozhodovaní komu poslať list s ponukou). No a nízka celková správnosť je zlá sama o sebe a hovorí, že pravdepodobne máte nesprávny test.

Čo si z toho odniesť pre COVID testovanie

Vývoj COVID pandémie doposiaľ na stôl priniesol 3 základne typy Korona testov. Odlišné sú nielen prístupom testovania, ale žiaľ, aj tým, na ktorú metriku úspechu prikladajú dôraz. Nie je to však nedbalosť alebo zlomyseľnosť ich tvorcov, dané testy sú totiž určené pre rôzne situácie, kde tá či oná metrika úspechu hrá rôznu úlohu. Pre základnú orientáciu som zostavil pre vás tabuľku s 3 základnými typmi a ich metrikami úspechu:

Letmý pohľad do danej tabuľky ukazuje, že celkový najlepšiu správnosť dosahujú PCR testy a Antigénové testy, vybrané pre plošné SR testovanie, majú naopak najhoršie skóre. Pre korektnosť však treba povedať, že Antigénové testy sú jediné testy, s ktorými sa takéto plošné pretestovanie populácie dá fyzicky zrealizovať. Vyhodnotiť PCR testy pre celú republiku by totiž trvalo (aj s vypätím všetkých síl a pomocou zahraničia) viac ako mesiac a stálo minimálne 10x viac ako Antigénový variant. Protilátkové testy by boli aj lacnejšie aj schodnejšie ako PCR, ale ich primárnym cieľom je potvrdzovať priebeh COVID ochorenia u tých, ktorí už sú aspoň 2-3 týždne infikovaní (čo nie je zrovna nástroj na ich izolovanie a predídenie šíreniu vírusu). Vzhľadom na možnosti vlády jej teda nemožno zazlievať, že vybrali práve antigénové testy (reálne nebola iná realizovateľná možnosť). Hromadné testovanie týmto nástrojom by však uviedlo cca 80 tisíc domácností do omylu o tom, či majú alebo nemajú COVID, pričom takmer 50 000 z nich by ho malo a chlácholilo sa, že môžu robiť všetko po starom, veď predsa mali negatívny test. Ak bývate v 8 pochodovom paneláku, tak v priemere minimálne jedna rodina vo vašom vchode by bola v karanténe zbytočne. Či sa k tomuto vládnemu počinu pridáte (ak budete mať vôbec na výber), už nechám na Vašom uvážení. Zatiaľ málo diskutované sú riziká na takomto teste sa vôbec zúčastniť (napr. čakať v rade s potenciálne infikovanými, cestovať do miesta odberu, …) Tie však budú závisieť od toho, ako sa celá akcia logisticky zorganizuje. Na túto tému sme zatiaľ počuli iba to, že „to bude ako voľby“. Nuž, ak to celé má mať význam, ostáva dúfať že voľby iné ako tie do EP (,ktoré majú.na Slovensku cca 20% úšasť). Pri rozhodovaní, či ísť alebo nejsť, Vám prajem hlavne rozvahu a zdravý rozum. Verím, že aj tento blog vám dal o nejaký ten argument viac. Ak máte ešte 2 minútky, ďalší odsek popisuje ako zaujímavo do kontaktu so 4 metrikami úspechu prichádzam ja v práci.

 

Čo to celé má spoločné s mojou prácou

Pre stálych čitateľov mocnedata.sk prinášam ešte zopár riadkov o tom, aké sú najdôležitejšie závery z Confusion Matrix pre našu prácu s dátami. Väčšina modelov predikujúcich správanie má povahu (binárnych) klasifikátorov = označí, či niečo je také či onaké. To však znamená, že ide v podstate o (akoby COVID) testy. Preto uvedené 4 metriky úspechu vstupujú rovnako do rozhodovania o tom, ktorý model nasadiť do finálnej produkcie. Väčšina začiatočníkov robí pri výbere modelu chybu, že sa pozerá iba na Accuracy (= Celková správnosť modelu). Je to dané asi aj tým, že je to defaultná metrika mnohých štatistických balíkov na hodnotenie modelov. Tí pokročilejší už vedia, že v realite ide skôr o súboj Precision verzus Recall. Modely si totiž bývajú pomerne isté pri zjavne pozitívnych a zjavne negatívnych jedincoch. Problémom zostáva, kam sa priklonia v nerozhodnom strede (pamätáte si ešte detektor lži A a B?). Čo však mätie aj pokročilých (nevadí, veď je to Confusion Matrix :), je skutočnosť, že v niektorých modeloch je dôležitejší Recall ako Precision. Neveríte?

Nuž, predstavte si model, ktorý sa snaží predikovať odchodovosť (churn) klientov, aby im ponúkol nejakú drobnú úľavu a presvedčil ich tak zostať našim zákazníkom. Pre takýto model je oveľa nebezpečnejšie, keď neidentifikuje niektorých skutočne odchádzajúcich, ako keď zbytočne označí niektorých spokojných klientov. Teda optimalizovať model pre Recall je oveľa dôležitejšie ako na Precision. Ale aj naopak, ak robíme X-sell kampaň, kde posielame vzorku produktu zdarma, dobrá Precision môže byť dôležitejšia ako Recall. Ak totiž kampaň bude úspešná (veľké percento oslovených kúpi), určite poľahky dostaneme budget na ďalšie kolo takejto kampane (ktorá osloví aj tých označených (mylne) za menej pravdepodobných). Keď však v snahe zachytiť každého pošleme hneď na prvý krát zbytočne veľký počet vzoriek, kampaň na seba nezarobí a bude považovaná za prepadák.

Preto vo svojej práci musím pravidelne robiť rozhodnutie na ktorú zo 4 metrík úspechu sa budeme sústrediť. Podobne ako pri COVID testoch si teda vyberám najväčšie dobro, alebo aspoň najmenšie zlo. To sa dá robiť však iba vtedy, keď si pri každom predikčnom modeli pozeráte všetky Confusion metriky, k čomu by som vás aj týmto blogom rád popchol. Vzájomné porovnanie FP, TP, FN a TN skupín navyše môžu priniesť aj nápady, ako vylepšiť model. Ale o tom naozaj už niekedy nabudúce.

 

 

KNIHY, ktoré ma NAJVIAC POSUNULI v 2020

Ľudia, čo ma poznajú dlhšie, vedia, že na označenie knihomoľ sa nemôžem príliš urážať. Čítam naozaj rád (a pomerne veľa). Avšak len tí najbližší vedia, že si dávam každoročne predsavzatie prečítať za rok viac ako 10 000 strán kníh (nad rámec iných zdrojov ako časopisy, blogy či novinové články.) Za posledných 11 rokov sa mi nepodarilo tento záväzok splniť iba raz. Tohto roku sa mi darí podozrivo dobre (musím si zaklopať), zhltol som už 32 kníh. Aj keď čitateľský výsledok zachraňovala najmä letná dovolenka. Počas prvej vlny Korony totiž séria COVID článkov (s viac ako 30 000 slov) tu na Mocnedata blogu pohltila celú moju energiu. A tak knihy boli ten prepotrebný recharge.

Knihy, ktoré si kupujem, starostlivo vyberám. Vďaka tomu tie príjemné prekvapenia výrazne predbiehajú sklamania. Kníh však stále vychádza (na svete) veľa a tak nájsť tie skutočné poklady naozaj vyžaduje určité úsilie. Rozhodol som sa preto podeliť s Vami o to najlepšie, čo postretlo mňa zatiaľ v roku 2020. (Na oddych čítam aj knihy, ktoré sa vecne do okruhu MocneData tém nehodia, zhrniem tu však iba tie, ktoré predpokladám, že by mohli byť inšpiratívne aj pre čitateľov MocneData.sk portálu):

Competing In The Age of AI

Zameranie: Dáta, Dátová Analytika, Biznis

Kníh o algoritmoch Umelej inteligencie a ich aplikovaní nájdete neúrekom. Ako to už býva, ako náhle je nejaká téma super populárna, mnoho autorov sa chce zviesť na vlne. To je dôvod, že väčšinu AI kníh, ktoré dnes dostanem do rúk, po preštudovaní obsahu (a začítaní sa do pár kapitol) sklamane vrátim naspäť do police kníhkupectva. Šliapnuť vedľa nie je aktuálne vôbec ťažké. Táto kniha ma však, naopak, úplne pohltila. Doručí totiž presne to, čo sľubuje jej nadpis. Systematický návod, ako zaviesť AI do akejkoľvek firmy či organizácie. Vysvetľuje princípy, ktorých sa držať, ponúka checklisty aspektov, na ktoré netreba zabudnúť. Nenájdete tu žiadne floskule alebo helikoptérové rady. Aj dielčie kroky sú jasne štrukturované a hneď na začiatku naozaj uvidíte, kde sú hlavnné miesta pre zasadenie AI riešení vo vašej konkrétnej firme. Text je navyše tak písaný, že sa nebudete vedieť dočkať dalšej kapitoly, aby ste pochopili, čo má byť tým ďalším kúskom mozaiky. Na základe inšpirácií z tejto knihy som napísal pre top manažment našej firmy plán AI inovácií na ďalšie roky.

Link: https://www.amazon.com/dp/1633697622/

.

.

Astrophysics for People in a Hurry

Zameranie : Vesmír

Ak sa hrá futbalový zápas, tak v hľadisku je každý elitným trénerom a futbalovým expertom. A keď sa začne disktuovať o vesmíre, každý sa kasá vedomosťami z čias, keď Pluto ešte bolo (mylne) považované za planétu. Darmo, rychlokurz geniality sa v astrofyzike robí naozaj ťažko. NeiL de Grasse Tyson sa však k tomu priblížil tak blízko, ako to ide. Ako už samotný podtitul naznačuje, rozhodol sa totiž napísať knihu o vesmíre pre ľudí, ktorí nemajú čas (si skôr trpezlivosť) prelúskať sa buchlami, vzorcami či záplavou vedeckých článkov. A urobil to naozaj bravúrne. Kniha je písaná tak, že neodradí od dočítania ani úplneho laika (ktorého fyzika mátala už v škole.) Navyše, posunie vašu mieru poznania vesmíru o toľko ďalej, že nepohoríte ani na prvom rande s astrofyzičkou/-fyzikom. Naozaj jedna z tých kníh, čo stojí za hriech. Vyšla dokonca aj v slovenčine, tak prikladám link na obe jazykové mutácie

Link [EN]: https://www.amazon.com/dp/0393609391

Link [SK]: https://www.martinus.sk/?uItem=275877

.

Dark Data

Zameranie: Dáta, Dátová Analytika

Nie, toto nie je kniha o cyberzločine, či mapovaní Tmavej enmergie či Tmavej hmoty. Nie je to ani kniha o čiernej mágií. Aj keď vlastne možno …

Dátová analytika je neraz tak trochu aj mágiou. David J. Hand však komunite dátových analytikov (a s dátami pracujúcich ľudí) urobil veľkú službu. Systematicky totiž zhrnul 15 rôznych dôvodov, pre ktoré nemáme dáta kompletné či dostupné pre analýzu. (Čoho dôsledkom je legendárny GIGO efekt.) Tá podstatnejšia časť posolstva, ktorú sa aj ja snažím často vysvetliť (hlavne) začínajúcim dátovým analytikom, je: Za koľko z tých 15 dôvodov si môžeme ako dátoví analytici sami? Knihu možno poňať aj ako kuchárku toho, čo by ste v dátovej analýze nemali opomenúť a čoho sa naopak vystríhať. Čo si vážim na autorovi najviac, je fakt, že na každý z 15 možných dôvodov (,kde dátová práca “zakopáva”) autor ponúka aj jasné návrhy riešenia (či prevencie). Jednovetová recenzia tejto knihy by znela: Povinné čítanie pre tých, čo za živia prácou s dátami, inšpirácia pre kohokoľvek, kto nechce podľahnúť (neodbornej, či účelovej) manipulácii s faktami.

Link: https://www.amazon.com/dp/069118237X/

.

Enjoying It, Candy Crush and Capitalism

Zameranie : Životný štýl, Filozofia

Neviem, ako sa to podarilo, ale tohto roku som mal šťastnú ruku na prekvapivo veľa zaujímavých filozofických kníh. (Možno starnem.) Aby bolo hneď na úvod jasné, filozofické traktáty znášam podobne dobre ako väčšina populácie. Teda tak po 5 stranu. Potom zväčša pregúlim očami a  kniha sa prepadá v čítacom poradovníku. Alfie Brown ma však svojou knihou upútal. Nielen tým, že ju spravil znesiteľne krátku, ale najmä tým, že si vybral tému, nad ktorou som už aj ja premýšľal. Je súčasná Netlix vlna a Hranie hier na mobile len zabíjanie času? (nad ktorým my, knihomoli, môžeme pohrdovačne predniesť svoje “Pchá!”) Alebo ide o legitímne a zmysluplné trávenie voľného času, ktoré zostáva generačne nepochopené? Argumentačne a filozoficky podložená rozprava o tejto téme ma nielen vtiahla do čítania tak, že som si nevšimol, ako ďaleko som za 5tou stranou. Objasnila mi aj postoje niektorých ľudí z môjho okolia. Možno mi budete po prečítaní nadávať, ale fakt by som vám to odporúčil si prečítať. Autor navyše napísal aj ďalšie podobné dielo na trochu inú tému, ktoré je na mojom reading liste ešte do konca roka. Tak prípajam link aj k tomu druhému dielu.

Link: https://www.amazon.com/dp/1785351559

Link na ďalšie dielo autora: https://www.amazon.com/dp/1509518037

.

Cesta Na Ropnú Plošinu

Zameranie: Motivácia, Životný štýl

Ak by ste poznali Andreja, asi by ste nepochybovali, že jeho kniha na tento zoznam patrí. Ale keďže ho zrejme nepoznáte, skúsim vám priblížiť, prečo jeho kniha naozaj stojí za prečítanie.

Žijete ako chlapec na sídlisku na strednom Slovensku. Dopočuli ste sa, že v takom Nórsku by sa dali zarobiť skvelé peniaze. Tak si vygooglite nejakých Slovákov v Nórsku na Facebooku, “rozbijete prasiatko” a kúpite si letenku do Nórska. Vystúpite z lietadla a Nórsky sen sa môže začať …

… až na to, že váš Slovenský mobil nemá roaming, neviete po nórsky, nemáte vysokú školu, nikto vám neche dať prácu, prepleskli vás škandinávske ceny, nemáte nikoho blízkeho, vaše úspory sa okamžite rozplynuli a začínate mať povážlivé zdravotné problémy.

Nie, to nie je scénar B-čkového dobrodružného románu. To je skutočný príbeh Andreja Tichého. Ktorý sa, snáď mi to priateľu prepáčiš, dosť naivne vybral do Nórska. Hoci samotný príbeh (z ktorého nechcem vyzradiť najpikantnejšie scény) by bol hodný filmového námetu, táto kniha má  oveľa silnejší odkaz. Ukazuje na to, ako naozaj chcieť niečo dosiahnuť. Ako sa nezlomiť a na čo všetko sa pripraviť. Ale hlavne ako nakoniec uspieť a splniť si (v podstate nereálny) sen. A ako pochopiť, že to je len prvý stupienok v dlhom kariernom a rodinnom živote.

Nie, nechajte sa oklamať šibalským názvom knihy. Toto nie je cestopis, ani návod, ako sa dostať na ropnú plošinu. Toto je energetická vzpruha, ako dosiahnuť svoje sny. Navyše vzpruha, pri ktorej sa zasmejte aj si zahíkate.

Link: https://www.martinus.sk/?uItem=292194

.

Never Split The Difference

Zameranie : Vyjednávanie, Biznis stratégia

Iste ste sa už ocitli v situácii, kde išlo o veľa. Hádka s partnerom, požiadavka o zvýšenie platu, obchodné rokovanie alebo dieťa, ktoré sa nevie vspratať do kože. A keď si spätne prehrávate tú situáciu, hlava sa nestačí čudovať, čo to ústa hovoria. Kde hľadať radu, aby sme si to nabudúce (prinajmenšom) sami nekazili?

Hľadať rady o vyjednávaní možno u rôznych profesií. Niektorí vám odporúčajú hrať neústupných tvrďasov. Iní vás nasmerujú k tomu “aby ste dohodu s oponentom smerovali niekam doprostred rozpätia”. Čo si však o optimálne stratégií vzjednávania myslí Policajný vyjednávač, ktorý rieši rukojemnické drámy a únosy? Má ponúknuť protistrane zabitie polovice rukojemníkov výmenou za to, že sa útočník vzdá?

Chriss Voss je absolútna svetová špička vo vyjednávaní s ozbrojenými útočníkmi a teroristami. A ako policajný vyjednávač vždy musí hrať na to, že on vyhrá všetko a terorista nedostane skoro nič. Preto je zaujímavý jeho pohľad na to, ako viesť vyjednávania tak, aby na vašej strane zostal celý jackpot. Ak vám to príde odpudivé (až nefér) pre bežný život, pozeráte sa na to rovnako ako ja, kým som knihu neotvoril. Verte mi však, kniha nie je návodom, ako druhú stranu ošklbať. Je to súbor rád (popísaných na konkrétnych prípadoch), ktoré vám umožnia ísť aj za 50:50 dohody. A pritom neuraziť ani nepodraziť oponenta. Popísané postupy sú však rovnako užitočnou obranou proti zdatným súperom, ak aj sami nechcete aktívne zatlačiť. Kúpa tejto knihy sa vám násobne vráti. Už na najbližšom hodnotiacom pohovore alebo hyisterickej scéne vašej ratolesti.

Link: https://www.amazon.com/dp/1847941494

.

DIEŤA 44

Zameranie: Ruská história, Detektívka

Ako som písal v záhlaví tohto blogu, knihy krásnej literatúry do odporúčaní na tomto blogu zvyčajne nedávam. Pri tejto knihe však veľmi rád urobím veľkú výnimku.

Kniha Tom Roba Smitha ma fascinovala tým, že veľmi dlho (vyše sto strán) som nevedel odhanúť. aký žáner vlastne čítam. Chvíľu som mal pocit, že čítam historický román, či literatútu faktu o sociálnej situácii v povojnom Rusku. Alebo detektívku? Ak vám toto moje zmätenie príde nepochopiteľné, tak vedzte, že autor tak pútavo mieša tieto tri línie knihy, že je vám to vlastne úplne jedno. Chcete ďalšiu a ďalšiu stránku, nech je to ktorekoľvek z nich. Inými slovami kniha tak verne prepája opis spoločenskej situácie so životom postáv, až … až zrazu zistíte, dopekla, veď ono je to detektívka. Vrah sa začína nápadne podobať na niekoľko postáv. Začínate mať istotu, kto to asi je. Ale spoločenské zriadenie ho vlastne nechce vypátrať, tak ako bude spravodlivo potrestaný? Dieťa 44 (mimochodom prvý diel trilógie) je skvelá a pútavá kniha na jesený večer aj k opaľovaciemu krému na lehátko. Proste si to užite.

Link: https://www.martinus.sk/?uItem=50893

.

Seeing Around Corners

Zameranie : Manažment, Biznis stratégia

Jadrom mnohých problémov  biznisu je, že sa na aktuálne dilemy nazerá metódami spred 20 a viac rokov. Rozhodnutia totiž robia ľudia, ktorí študovali v čase, keď dané témy boli horúcimi novinkami. Ako však dovidieť za horizont? Ako správne prečítať, čo bude IN v najbližších rokoch? Ale hlavne, ako inovovať skôr pomocou “calculated bets” ako cez “plug and pray” projekty.

Hoci Rita McGrath patrí (aj v mojej rozsiahlej knižnici) medzi neznámych autorov, rýchlo si získala moju priazeň tým, ako pragmaticky pomenúva slabé miesta biznisu a skutočné záplaty na tieto diery. Nebojí sa ísť proti mainstream prúdu, takže sa dozviete, že trhový podiel je zastaralá metrika, že skutočné inovatívne firmy sú tie, ktoré na to nepotrebujú zamestnancov alebo že Netflix dlho tápal v tom ako prejsť na predplatné. Nehľadá ikony ani hrdinov (ako je tak bežné pre Amerických biznis autorov). Naopak, servíruje dobre štruktúrované rady, ako systematicky inovovať, ale aj čo sú často opomínané úlohý lídrov v tomto procese, či ako nepodľahnúť tlakom okolia.

Je to hutné čítanie a pripravte sa na to, že budete odbiehať od knižky k poznámkovému bloku či klávesnici si zapísať podnetné nápady. Podctivé čítanie tejto knihy teda zaberie viac času, ako by jej  (inak štandardná) hrúbka naznačovala. Ak však vediete nejaký team alebo (spolu)zodpovedáte za stratégiu či smerovanie nejakej firmy, moje odporúčanie si s chuťou užijete.

Link: https://www.amazon.com/dp/0358022339/

.

Ak ste členom komunity MocneData už dlhšie (mimochodom stať sa ním môžete bezplatne tu), tak viete, že svoje čitateľské odporúčania som dával aj po iné roky. Tu sú niektoré z nich:

Predsavzatia na 2020? Skúste prečítať niektorú z týchto TOP KNÍH

Čo čítajú Marketéri – knihy 2016

Skvelé knihy 2017

4 Výborne knihy o dátach 2018

Čo čítajú iní – Milan Schnorrer

Google chce preraziť klzkou cestou EaaS

Karty v biznise v podpore cloudových riešeniach Umelej Inteligencie (AI) sa zdajú byť rozdané, s Amazonom (a ich AWS) a Microsoftom (Azure) ďaleko popredu oproti Google cloud riešeniam v tejto oblasti. (Ich trhové podiely tu.) Google však nechce definitívne zložiť zbrane. A ako to už býva, ak chce „dobiehajúci“ zaútočiť na lídrov, musí hľadať aj nekonvenčné prístupy útoku, lebo hlavné brány bývajú dobre strážené. (Pamätáte ako sa Frodo dostal do Mordoru?)

Google preto prišiel s novým prístupom na poli boja o firmy, ktoré sa snažia vyvíjať svoje AI riešenia. Ponúka im možnosť preveriť, či ich riešenia sú v súlade s AI etikou. A to priamo, samoobslužne pri vývoji v Google cloud prostredí. Otvára tak novú oblasť služieb EaaS, Ethics-as-a-Service, čiže akúsi Etiku na kľúč.

Prečo Google?

Možno si položíte otázku: Akú má Google motiváciu (a kredibilitu) na ponúkanie poradenstva v oblasti etiky umelej inteligencie. Nuž, k poznaniu, že Etika AI riešení je prekérne dôležitá, sa dopracoval, žiaľ, na základe vlastných potknutí. Tento technický gigant musel stiahnuť svoje služby rozpoznania objektov z fotiek, keď sa v minulosti odhalilo, že táto služba označila niekoľko fotiek s černošskými protagonistami za opice. Google rovnako čelili v minulosti rozsiahlym protestom svojich zamestnancov, za projekt Maven, keď firma realizovala zákazku ministerstva obrany USA na podporu vojnových dronov (ktoré vyústili do záväzku manažmentu firmy, že sa o zákazky tohto druhu, kde ich technológie môžu napomáhať vojenským operáciám, nebude už uchádzať.)

Ak ste sa však snažili niekomu radiť v citlivej téme, tak už asi viete, že tento druh poradenstva je dvojsečná zbraň. Ak totiž robíte nejakú formu auditu, ak sa veci nevyvŕbia dobre, auditovaný subjekt môže zamávať pred súdom Vašim certifikátom. A zrazu Vaša pozícia v (zdanlivo cudzom) probléme už nie je úplne neutrálna. Aj Google sa preto v oblasti EaaS snaží našľapovať veľmi opatrne. Badateľné je to aj z rozsahu služieb, ktoré vlastne môžete v rámci AI etickej pomoci of nich získať.

Priamo dostupné sú všetky tréningy, ktoré na AI Etiku Google vyvinul práve pre svojich zamestnancov (po vyššie spomínaných kauzách). Okrem toho ponúka automatickú diagnostiku, či vaše AI riešenia nie sú evidentne zraniteľné voči rasovej, rodovej (a geo) diskriminácii. Ponúka aj audit toho, či účel spracovania dát, predikovaná premenná alebo rozsah vstupov vašej AI sú primerané, či potenciálne spoločensky neakceptovateľné.

Aby sme boli korektní, v snahe o podobné služby nie je Google úplne ojedinelý, o audit vyváženosti dátovo spracujúcich riešení sa pokúsila aj IBM, ktorá dokonca do svojho software zaviedla „Check this“ tlačidlo. Keďže však IBM neponúka základné business cloud service riešenia, ich snaha je (ešte viac) niche ako u Google (, ktorý predsa má aj zaujímavú množinu klientov, používajúcich Google cloud služby aj pred tým,  než vôbec o AI komponentoch o rozmýšľali.)

Nie len vláda?

O tom, že v posudzovaní Etiky umelej inteligencie bude potrebné nejakú autoritu, hovoria mnohé rebríčky aktuálnych trendov umelej inteligencie, napríklad rozobrané aj tu. Táto téma je dokonca samostatným prúdom prednášok na každej AI konferencie (ktoré sa stihli ešte pred Koronou uskutočniť). Mňa osobne zaujíma v tomto ohľade aj úloha Apple a Androidu (aha ho, Google znovu) pri riadení toho, čo AI môže robiť v mobilných telefónoch, o tom však detailne v samostatnom blogu. Európske krajiny naznačili (prostredníctvom GDPR), že si predstavujú reguláciu dátovej analytiky skôr pomocou verejných (než súkromných) audítorov. Žiadna verejná inštitúcia však nebude mať kapacitu „venovať“ sa každému drobnému riešeniu menších a stredných firiem. Ja osobne, preto vznik súkromných „certifikačných“ autorít vítam. Aj keď treba povedať, že tento druh podnikania je pre skupinu Alphabet, do ktorej Google patrí, pomerne vratký. Stačí totiž, aby nejaká sesterská firma Google mala nejaký AI etický škandál, a trh sa môže rýchlo opýtať „Pardon, vo svetle aktuálnych problémov, prečo by Google mal byť ten, kto posudzuje etickosť našich projektov?“ Ale to už je riziko podnikania, keď robíte poradenstvo. A možno nám to dáva nádej, že Google bude o to viac dbať na etickosť svojich riešení. Trend, ktorý ani z ďaleka nemožno napríklad očakávať pri Facebooku či mnohých iných.


		

Necháte si poradiť od mobilu v sexe? A v obliekaní?

Môže vám mobil radiť, čo si ráno obliecť? A chceli by ste, aby posudzoval Váš zdravotný stav? Prijali by ste radu na „one-stand“ sexuálneho partnera z baru, v ktorom sa práve bavíte? To všetko totiž mobily dokážu. Pýtate sa, kto im to dovolil? Nuž presne o tom je tento blog.

Vývoj umelej inteligencie napreduje míľovými krokmi, a to hlavne v oblastiach, kde sa umelá inteligencia používa na konkrétny, úzko vymedzený cieľ. (Naučiť umelú inteligenciu kombinovať viac vecí sa javí o veľa ťažšie.) Dôvodom je, že nutným predpokladom na spoľahlivé odporúčanie sú dáta o danom jave. Masívne rozšírenie smartfónov v populácii, spolu s faktom, že je len málo činností, pri ktorých by neboli prítomné, robí z mobilných zariadení skvelých „zberačov“ (trénovacích) dát.

Navyše aplikácie v mobilných telefónoch už dávno nie sú vyvíjané samotnými výrobcami telefónov. Zástup súkromných tvorcov aplikácií, ktorí zavesia svoju appku do App-store (odkiaľ si ju ktokoľvek môže stiahnuť), je základným princípom ekosystémov Apple, Androidu či Windows.

A odtiaľ už je len drobný krôčik k tomu, že váš telefón môže predikovať, čokoľvek, čo si niekto zmyslí. Stačí mať vývojárske konto (a vedieť programovať patričný programovací jazyk) a vypýtať si súhlas na zbieranie konkrétnych dát od vás používateľov. Ideálne niekde uprostred malých písmeniek Podmienok používania aplikácie.

Takto jednoducho?

Ale je to naozaj takto jednoduché? Nuž naozaj môže. S jedným „ak“. Ak sa nikto do toho nebude starať. V panike zalovíte v pamäti, kto by vás mohol v tomto ohľade chrániť? Napísať Úradu na ochranu osobných údajov? Alebo Európskej komisii? Počkajte, odkiaľ vlastne pochádza výrobca tej aplikácie? Pod koho jurisdikciu vlastne spadá? kto mu môže klepnúť po prstoch?

Problémom súčasnej situácie je, že „lampárni“, kde sa sťažovať je pomerne dosť. Ale ak vám naozaj ide o to, aby sa prestalo páchať zlo/škoda na ďalších používateľoch tejto aplikácie, asi si nebudete platiť právnikov v cudzej krajine, aby požiadali o predbežné opatrenia. Hneď ako rozdýchate úvodné rozhorčenie a vec si  trochu premyslíte, napadne vám možnosť odstrihnúť kábel priamo u zdroja: požiadať o stiahnutie aplikácie priamo u prevádzkovateľa app-storu.

A tu práve začína druhá kapitola nášho problému. V prípade Apple (a do istej miery aj Android ekosystému), aplikácie prechádzajú prvotným hodnotením ešte pred tým, než sa vôbec stanú dostupné v app-store. Teda, ak ste si mohli aplikáciu vôbec stiahnuť, už prešla kontrolou od prevádzkovateľa obchodu s aplikáciami. Pozícia Applu (a jemu podobných) je v tomto ohľade skľučujúca: Buď musí priznať, že primárne preverenie nebolo dôsledné alebo obviniť tvorcov appky, že im nedali plné informácie. O tom, ako komplikované to druhé je, a to aj v prípade, keď porušenie pravidiel pre vývojárov je pomerne zjavné, dokumentuje (nie s AI súvisiaci) aktuálny prípad herného štúdia Epic (podrobne to rozobrali Ondro s Davidom v tomto KLIKu). Ako sa z tohto problému vymotať už o chvíľu. Ešte pred tým, však krátky odskok k tomu, prečo by sa v tejto oblasti mali udiať zásadne zmeny.

Prečo je to dôležité?

Okrem toho, že by mohli mobily zasahovať do vášho súkromia pokútnymi predpoveďami (prípadne skrytými motívmi, ktoré ste zo širokého popisu účelu ani nevybadali), je tu ešte jeden dôležitejší faktor. Kto ponesie zodpovednosť za mylné predpovede a odporúčania. Tým sa dostávame na klzkú plochu Etiky v umelej inteligencii, ktorú sme nedávno detailnejšie rozoberali tu (alebo TU). Možno vám totiž prípade banálne sa sťažovať na ten nevhodný sveter, čo vám mobil odporučil minulý týždeň do práce, ale zbytočné nerieknutie z rakoviny (ktoré máte podľa telefónu na 80%), už asi nenecháte „len tak plávať“. Tým skôr po sérií vyšetrení a týždňoch strachu, ktoré ste si museli preskákať.

Situácia je o to komplikovanejšia, že v prostredí desktop počítačov, ktoré sú predchodcami mobilných aplikácií, si užívateľ niesol (takmer) plnú zodpovednosť za to, čo si stiahol do svojho počítača. Navyše AI riešenia začali húfne vznikať až v dobe, keď už mobily preberali žezlo od desktopov. A tak nevznikli žiadne regulačné úrady, na kontrolu AI software mimo mobilov, o ktoré by sme sa mohli pri regulácií tých mobilných AI riešení oprieť. Jedno vetou: na tento druh regulácie sú verejné inštitúcie bezzubé (ešte viac ako prevádzkovatelia App-storov.)

Ako z toho teda vyviaznuť

Všetko doposiaľ povedané smeruje k tomu, že k regulácii toho, čo (a ako dobre) umelá inteligencia predikuje na mobiloch, budú musieť pristúpiť primárne prevádzkovatelia ekosystémov smartfónov. To sa však omnoho ľahšie povie ako zrealizuje. Skúsme sa preto pozrieť na to, aké reálne možnosti títo prevádzkovatelia majú.

AI riešenia, primárne ako partnerstvá. Neviem, či ste si všimli, ale pre niektoré typy aplikácií si Apple, Google (aj Microsoft) vyhradili vo svojich ekosystémoch výhradné postavenie. Tento druh služieb je buď priamo poskytovaný len vlastnými funkciami prevádzkovateľa (napr. Apple/Google Pay) alebo aspoň výrazne vymedzený tým, že výrobca telefónu predinštaluje vlastnú aplikáciu pre daný druh činnosti (web browser, úložisko fotiek, …). Teoreticky by tak mohli vznikať ako riešenia umelej inteligencia iba ako takéto dôležité aplikácie. Ak si ťukáte do čela, že by to bolo nereálne, tak len pripomeniem, že keď Apple uvádzalo nové funkcie (ako čítačka otlačkov prsta, či akcelerometer), takmer vždy bol prístup na tieto funkcie zamknutý len pomocou vývojárskych SDK knižníc. Inými slovami, nemohli ste si čítať otlačky prstov mirdix-firdix ako chcete (napríklad na vytvorenie vlastnej databázy odtlačkov prstov z celého sveta). Podobný postup sa predpokladal aj pri uvedení bionic chipov v Iphone 9. Takýto prístup by však určite priniesol spomalenia vo vývoji AI, keďže Apple (či Google) dokážu reálne participovať len na určitom počte projektov súčasne. (Či by spomalenie AI nebolo vlastne benefitom, je zaujímavá téma z iného súdka)

Rozšíriť vetting team o AI sekciu. Časť firmy, ktorá sa zaoberá (prvotným) schvaľovaním aplikácií v ekosystéme sa volá Vetting Team. Ak si to predstavujete ako pár ľudí, ktorí sa kde tu pozrú na nejakú App-ku, rád by som vás vyviedol z omylu. V Apple Store sa aktuálne nachádza 1.8 milióna aplikácii, v Google Play Store je to dokonca až 2.6 milióna. A to sa bavíme iba o tých schválených. Podľa údajov Apple cez výberovo sito neprejde 40% percent, bavíme sa o miliónoch aplikácii ročne, ktoré treba posúdiť, čiže niekoľko tisíc nových každý deň. To všetko v 81 jazykoch, lebo appky sa tvoria všade po svete. K tomu pridám, že Apple si stanovilo pravidlo, že chce schvaľovať 50% aplikácií do 48 hodín. Takže len pre aktuálny set-up bez preverovania AI už sa musí tomuto procesu venovať viac ako 300 hodnotiteľov pre každý z app-storov, z ktorých každý musí overiť cca 50 aplikácií (a ich aktualizácií) za deň! Pritom posudzovania AI podstaty je o mnoho zložitejšie a vyžadovalo by si celé teamy na posúdenie jednotlivých riešení. S vidinou toho, že AI sa postupne stane súčasťou väčšiny aplikácií, natíska sa otázka, či je takéto navýšenie počtu AI hodnotiteľov udržateľné.

Starí dobrí kontraktori. Základnou poučkou procesného riadenia je: „Ak je proces pre Teba ťažko riaditeľný interne, nájdi externého dodávateľa, na ktorého môžeš bremeno prehodiť.“ V zmysle tejto mantry, by mohli prevádzkovatelia ekosystémov najať na kontrolovanie AI časti aplikácií externé teamy. Toto Pilátske riešenie však tiež nie je jednoducho realizovateľné. Od faktu, že Apple (a jemu podobný), nechcú aby niekto iní rozhodoval, ktoré aplikácie bude ponúkať, cez fakt, že držať armádu kvalitných hodnotiteľov bude vždy pre externú firmu ťažšie ako pre Apple (predsa je omnoho viac ľudí, ktorí chcú pracovať pre Apple ako no-name firmu na hodnotenie AI aplikácií). Výhodou tohto prístupu je, že takéto centrum by mohlo ponúkať služby viacerým app-storom, teda lepšie vyťažiť kolísanie potrebných kapacít. Na druhej strane toto je presne aspekt, ktorý by sa nepáčil samotným App-storom (ich dodávateľ by videl, aké aplikácie sa pripravujú u nich a u konkurencie). Aj keď to je presne to, čo by mohlo celý proces urýchliť, lebo výrobcovia často predkladajú tú istú aplikáciu do viacerých app-storov súčasne. Istý potenciál by tu teda bol, ale … Súdiac z toho, že výrobcovia nepreniesli ani hodnotenie bežných aplikácií na externé firmy, necháva šípiť, že to nebude asi plán A ani pre AI hodnotenia.

Vyprosiť si vládne riešenie. Ak je to také komplikované pre samotných prevádzkovateľov, nebolo by lepšie, aby sa tejto povinnosti proste zbavili? Na koho plecia? Nuž čo tak nejaký štátny certifikačný úrad (ako je tomu pre medicínske Appky)? To, čo príde nám Európanom ako dobrý nápad, by asi hľadalo ťažko podporu v Amerických centrálach týchto gigantov.  Tie sa totiž vždy snažia samoregulovať. Vznik takého úrodu si viem živo predstaviť v Rusku, Číne a do istej miery v Nemecku, či Francúzsku. Ale Americké korporácie určite nepôjdu s prosíkom za vládnym regulátorom. Aj keď nápad, že my zodpovedáme za softwarovú časť, na správnosť AI časti aplikácie si zožeňte certifikát of AI autority, znie ľúbivo. Tak kto vie, možno predsa.

Ak ste si po prečítaní vyššie uvedených možností nevedeli vybrať favorita, asi ma to prekvapí. Aktuálny diskurz v tejto téme hovorí, že vybrať si ho nevedia ako prevádzkovatelia ekosystémov. A to značí len jedno. V dohľadnej dobe nebude to, čo mobil dokáže (a smie) predikovať vo vašom živote regulovať nikto. Teda úplne presne, nikto okrem vás. Takže nám nezostáva iné, len si vytvoriť určitú prirodzenú skepsu voči všetkým aplikáciám, ktoré sľubujú „odporúčania, predikcie alebo rozpoznávanie vecí“, čítať si v malých písmenkách, aké údaje si od nás zoberú (čo aspoň bude čiastočne Apple regulovať v novom iOS), alebo … proste neočakávať, že by mobil mohol predikovať váš sexuálny mobil, či to, akou chorobou trpíte. Aspoň na teraz nie, kým to nie je dostatočne bezpečné.

ČO ČAKÁ DÁTOVÚ ANALYTIKU PO VYHYNUTÍ PANDY?

Keď som bol dieťa, mal som krásny nálepkový album od WWF fondu, na titulke ktorého bola veľká Panda. Hoci v našom regióne Pandy nežijú a človek by si oveľa ľahšie mohol obľúbiť srnku, zubra či sysľa, Pandy sa mi zapáčili. To som ešte netušil, ako sa do môjho života vkradnú opätovne.

Je len pomerne málo bežných slov, ktoré to dopracovali až do väčšiny životopisov serióznych a dobre platených ľudí. Názvy zvierat by ste teda medzi nimi určite nehľadali. Napriek tomu Pandas, ako najpoužívanejšia knižnica na prácu s dátovými tabuľkami v Pythone, to dopracoval na veľmi prominentné postavenie. Výberové konanie na dátového analytika, počas ktorého by tento výraz nezaznel aspoň raz, si aj dnes už aj ťažko predstaviť. (Ale no! Aj keď už dnes ste o krok ďalej na prvých projektoch vás to určite neobišlo). Preto by ste možno mali všetci spozornieť, že na Pandy budete musieť už čoskoro zabudnúť. Nie, nemyslím tým, že Ailuropoda melanoleuca , teda panda medvedík, vyhynie. Aj keď to má nahnuté už od môjho detstva. Mám na mysli, že na najbližšom projekte či pracovnom interview už s Pandas knižnicou pravdepodobne pohoríte. Čo?! Zdesení? Nuž tak čítajte ďalej, kam sme sa posunuli.

Pandičky, pandičky, kdeže ste sa vzali? Či ste z neba spadli, či …

S istou mierou odľahčenia by sa dalo povedať, že k Pandám som sa naozaj dostal až po presťahovaní do Berlína. (V Berlínskej Zoo totiž naozaj majú niekoľko jedincov tohto milého zvieratka, na ktoré som sme sa s rodinou už boli niekoľko krát pozrieť.) Samozrejme, v skutočnosti by to bol len jeden z mojich (nie všetkými oceňovaných) vtipov. Spracovanie dát v Pythone som totiž, samozrejme, potreboval pre svoje analytické pozície už na Slovensku a pomerné drsný test schopnosti analyzovať dáta v tomto jazyku (a spomínanej Pandas knižnici) bol súčasťou takmer každého pohovoru do zahraničia, ktorým som si prešiel. Pre svoj ľahký syntax a širokú škálu funkcií sa Pandas naozaj stal zlatým štandardom a je podkladom aj všetkých online kurzov. Preto správa, že Pandas je „na odstrel“, asi nejedného z nás zarazí.

Ale predsa je tomu tak. Pandas sa pomaly dostáva na okraj vyhynutia. Teda minimálne medzi teamami, ktoré sa snažia o napredovanie v analytike. Ak sa chcete zamestnať vo veľkej dátovej firme alebo zahviezdiť v nejakom boomujúcom start-upe, Pandas už nie je vaša karta. Je to skôr niečo ako Voldemort v Harry Potterovi, „meno-ktoré-sa-nevyslovuje“ alebo „veď-viete-čo“. Čo teda bude (fáze prípravy dát) vládnuť v budúcnosti?

Kráľ zomrel. Nech žije nový Kráľ!

Alternatívy k Pandám, samozrejme, vznikali už dlhšiu dobu. Isté obdobie sa vášnivo rozoberal DASK ako potenciálny nástupca pandičiek. Prirodzene, tí limitovaní Pandas slabými miestami skúšali neraz presedlať  na PySpark. V našom teame sme poškuľovali po zavedení MODIN, najmä preto, že niektoré iné teamy v našej spoločnosti produkujú (pre nás) vstupné parquet súbory. Na meet-upoch sa občas objavovali názory drukujúce TURICREATE knižnici. Ak ste o týchto knižniciach pred tým nepočuli, uľavím vášmu svedomiu, ani už sa nežeňte to doštudovať. Strelka kompasu sa totiž jasne natočila niekam úplne inam. Budúcim štandardom v spracovaní veľkých dát bude zrejme VAEX.

Hovoriť o VAEXe len ako črtajúcom štandarde by bolo pre čitateľa málo užitočné. Poďme si teda túto Python knižnicu predstaviť v priamom kontraste s Pandas. Častým boľavým miestom Pandas je, že sa snaží utvoriť si materializovanú podobu dát priamo do RAMky (alebo inej dostupnej pamäte). Ak vytvoríte nový odvodený stĺpec, ktorý je napríklad kombináciou dvoch existujúcich stĺpcov v Dataframe, Pandas hodnoty pre každý riadok vypočíta a uloží do pamäte. Nevadí, kým sa hráte so státisícmi, zabolí, keď máte na stole gigabajty podkladových dát. VAEX používa princíp, ktorý sa volá lazy computing. “Lenivosť” výpočtu spočíva v tom, že sa realizuje len keď jeho treba. Takže ak napríklad vytvoríte nový odvodený stĺpec, ako bolo načrtnuté vyššie, VAEX reálne spočíta hodnoty až keď ich potrebujete použiť. Keď teda napríklad chcete overiť pomocou Df.head(10) len na niekoľkých riadkoch správnosť výpočtu nového stĺpca, Vaex fyzicky v pamäti zráta a uloží len tých pár riadkov. Rovnako tak môžete ma5 napísaných veľa agregovaných parametrov pre účely (feature engineeringu pre) Machine Learning model a táto knižnica ich spočíta až pred samotným trénovaním modelu. Vaex vás tak super rýchlo prenesie práve cez data preparation fázu modelovania.

Druhou podstatnou výhodou sú optimalizované postupy pre výpočet agregačných štatistík (mean, avg, count ,sum, …) ako aj pre tvorbu podskupín (groupby) či deduplikáciu. Vaex tu dosahuje 3 až 15 násobné zrýchlenie oproti Pandas. Áno čítate dobre, násobne rýchlejšie ako Pandas. Ak vás zaujíma nezávislé meranie, tak investujte cca 30 min čítania TU.

Tretím podstatným tromfom Vaex knižnice je, že dokáže ultra rýchlo čítať z diskov súbory HDF5 formátu, ktoré môžu byť uložené aj v S3 cloud bucketoch. Keď hovorím ultra rýchlo, mám na mysli rýchlosti okolo 10^9 riadkov za sekundu. To sú hodnoty, o ktorých sa, nielen Pandám v Berlíne, ani len nesníva.

Hviezdnu rýchlosť potvrdzuje Vaex aj pri JOINoch a FILTROVANIACH, ďalších bežných úkonoch fázy prípravy dát pre samotné modelovanie.

Čím Vaex zasadzuje ranu z milosti svojim súperom je fakt, že jeho syntax je úmyselne veľmi podobný tomu z Pandas. Veľa funkcií má úplne rovnakú implementáciu (napr. read_csv, .join , .groupby , …) vo Vaexe, ako keby ste ich napísali v Pandas. S istou mierou irónie sa teda dá povedať, že stačí vymeniť názov knižnice v “import Pandas“ a pipeline na prípravu dát vám pofrčí zásadne rýchlejšie. (V skutočnosti to, samozrejme, nemusí byť tak jednoduché). Určite to však pomáha prechodu z Pandas na Vaex. So všetkými tými výhodami oproti Pandas tak dochádzajú výhovorky, prečo sa vlastne stále ešte vracať k Pandas.

Podobne, ako stále nájdete funkčné programy v COBOLe, FoxPro či C++, asi aj v budúcnosti budú existovať riešenia ktoré budú stále používať Pandas. Legendárne Pandičky totiž vznikli ako univerzálna knižnica na prehrabávanie, prepočítavanie a explorovanie dát. A preto sú (či skôr bývavali) prvou voľbou pre predspracovanie dát. Autori Vaex knižnice sa však na problém pozreli pragmaticky a odstránili všetky často opakujúce sa nedostatky Pandasu. Prevzali (v dobrom slova zmysle) navyše syntax príkazov Pandasu a tak z Vaexu urobili najhorúcejšieho kandidáta na jeho nahradenie. Ak sa teda chystáte na nový projekt, či zvažujete zmenu práce, dajte si tú námahu pozrieť sa dokumentáciu Vaexu. A skúste si v hlave vymeniť Vaex namiesto Pandas. Určite tým príjemne prekvapíte.