Aký osobný rekord si vlastne môže vytvoriť dátový analytik?

Šport je veľmi ťažkým chlebíkom a existuje mnoho aspektov života, v ktorých športovcom nie je čo závidieť. Existuje však aspoň jedna oblasť, pre ktorú by si mnoho ľudí prialo byť športovcami. Je jedno či ste malý alebo veľký, na začiatku kariéry alebo na jej sklonku, je jedno z ktorého kontinentu pochádzate. Ak chcete napredovať vždy existuje celosvetové (objektívne) meradlo, ako dobrý/á ste.

OSOBNY_rekord_SKOKY

S prichádzajúcimi Olympijskými hrami sa mi vždy vynorí obrázok športovca, ktorý aby získal Olympijské zlato, musí dosiahnuť výsledok, aký nikdy zo seba nedal. Na Olympiáde drvivá väčšina účastníkov zlomí svoje osobné maximá. Neraz tak prepíše nielen vlastné limity, ale aj limity ľudstva. Za posledné olympiády padlo v priemere 30 svetových rekordov. To znamená, že v 30 zručnostiach človek objektívne posunul schopnosti svojho živočíšneho druhu ako takého. A čo okrem titulu svetového rekordéra je na tom závidenia hodného?

Si Olympijský víťaz?

Ak patríte medzi tých, ktorí chcú zostať na tepe odvetvia, v ktorom pracujete, potom ste si určite už položili otázku „Ako dobrý/á v skutočnosti som v tom, čo robím?“ A pre mnoho odvetví toto nie je jednoduchá otázka. Napriek tomu, že pre nemalý počet povolaní by bolo možné postaviť hodnotiace kritéria, väčšina oblastí, kde ľudia pracujú nemajú porovnanie ani medzi kolegami s rovnakým popisom práce, nie to ešte naprieč mestami, či štátmi. Ako dobrým štátnym úradníkom ste? Kto je najlepší turistický sprievodca alebo vodič autobusu na Slovensku?

Nadchádzajúce Olympijská atmosféra ma preto inšpirovala k úvahe: Ako by sa mal merať zručnosť/výkon dátového analytika? Aké osobné rekordy by sme mali mať, aby sme ich mohli prekonávať? Lebo ak nevieme preukázať, že sme pokorili nejakú objektívnu hranicu, ako vieme že napredujeme? A hlavne ako vieme, či napredujeme rovnako rýchlo ako „zvyšok pelotónu“ alebo sme dávno už Eric Moussambani olympijského bazénu?

Ako už samotný názov notoricky známej športovej relácie Góly, Body, Sekundy napovedá, ani samotné športy nemajú rovnakú metriku úspechu. goly body sekundyJe však zaujímavé, ako mnoho športov dokážu tieto 3 metriky: góly + body + sekundy zhodnotiť. Je pomerne ťažké si spomenúť na šport, v ktorom by aspoň jeden z týchto troch parametrov nebol rozhodujúci. (ak ste nad tým práve začali rozmýšľať v tomto doplnkovom blogu pre verných čitateľov nájdete odpoveď) Ak by sme zobrali analytickú prácu ako odvetvie, aké športové analógie môžu byť užitočné pre meranie napredovania v analytike?

skok do dialkyPráca s dátami zvádza k očakávaniu exaktných parametrov výkonu (ako metre, centimetre či sekundy). Napriek kvantitatívnej povahe práce, keď príde na porovnávacie kritéria jednotlivých dátových analytikov, absolútne hodnoty sa hľadajú ťažko. Áno, je možné pozerať sa na ROC, Lift, miscalassification rate alebo iné parametre kvality predikcií, ale ak defaultným nastavením natrénovaný model rozhodovací strom dosahuje lift 3.0 je vaša regresia s 3.8 liftom skutočne tak dobrá, ako by absolútne číslo napovedalo? Alebo proste jav je dobre predikovateľný a analytik tomu nepridal zásadnú pridanú hodnotu? Veci sa ešte viac skomplikujú, keď máte za úlohu segmentovať klientov pre účely zvýšenia spokojnosti klientov. Akú časť koncového efektu prisúdiť modelu a akú samotnej realizácii segmentácie po jej namodelovaní?

Tým sa dostávam k pohľadu, že analytická práca sa dá merať spôsobom ako šach, futbal či tenis. Čím viac súperov malo lepšie výsledky ako vy, Wimbledontým horšie je vaša pozícia „v rebríčku“. Ak v krajine, či nebodaj na svete, nie je nik, kto by dokázal vyrobiť lepší model ako vy, asi ste naozaj špička. Hoci tento druh merania výkonu analytikov je naozaj výpovedný, jeho problémom zostáva, že pre väčšinu pracovných úloh nemáte šancu, aby paralelne na tom istom modeli pracovali viacerí analytici. Preto pre porovnanie sa analytici musia zúčastňovať hackatonovKaggle súťaží. Nie každý si nájde na to čas (čo vám mimochodom prudko odporúčam) a preto ak nemáte v práci viac Data Scientistov (čo jej jedným zo symptómov dátovej osamelosti), ku ktorým by ste sa “pomerali“, asi ani táto vetva hodnotenia nie je pre vás veľmi prínosná.

Pri hlbšom zamyslení, však prídete na to, že práca analytika v konečnom dôsledku skôr pripomína krasokorčuľovanie alebo skoky do vody. Aby ste mohli byť svetový šampión, potrebujete poznať nielen základné prvky, ale aj zložitejšie úkony. Olympijskú medailu vám nezavesia na krk po voľnej jazde bez aspoň jedného trojitého skoku. Preto prvým záujmom dátového analytika by malo byť poznať a trénovať pokročilé postupy analytiky. A to aj v prípade, keď vášmu šéfovi „stačí“ narýchlo zbúchaná lineárna regresia. Žiaden z olympijských víťazov krasokorčuľovania neskočil rozhodujúci skok prvý krát v živote práve v Olympijskom finále. Takže trénovať treba naozaj priebežne.

krasokorculovanieV biznis realite však samozrejme nestačí iba skočiť 4té salto vzad skrčmo s 1,5 vrutom (v našej analógii, rozumej, ensemble model neurónky a spline regresií), rovnako ako v športe, ide o to, aké prevedenie prvkov zvládnete predviesť. Body za „umelecký dojem“ mnoho dátových analytikov podceňuje alebo priam odcudzuje. Aj skvelé modely tak zaniknú v ich slabej vizualizácii alebo prezentácii biznis užívateľovi.

Ak by sme mali náš exkurz do hľadania kritérií pre benchmarking dátových analytikov, znelo by to asi takto: Je fajn, keď sa snažíte vo svojich projektoch o najvyššie absolútne hodnoty úspešnosti modelov, aj keď pre porovanie s inými by malo byť zrejmé, akú pridanú hodnotu priniesol model nad rámec nejakej primitívnej metódy. (rovnako ako svetový rekord v atletike neplatí, ak bola príliš veľká nedovolená podpora vetra). Oveľa lepšiu spätnú väzbu na svoje kvality však získate, keď sa zapojíte do nejakého hackatonu alebo Kaggle súťaže. Ak ani to nie je pre vás reálne, skúste aspoň trénovať (rozumej vyskúšať v projektoch) čoraz sofistikovanejšie metódy analýzy. A nezabúdajte na umelecký dojem, dobrá vizualizácia a prezentácie výsledkov je súčasťou práce dátového analytika, aj keď niektorí nad tým ohrnú nosom.

Ak patríte medzi členov mocnedata.sk komunity, nahliadnite aj do tohto doplňujúceho blogu (budete musieť zadať heslo), kde sa dozviete nielen odpoveď na hádanku ohľadne športov nad rámec Gólov, bodov a sekúnd, ale môžete sa inšpirovať aj tým, aké KPI zvyčajne dátovým analytikom nastavujú západne firmy.

Ak ešte NIE STE členom mocnedata.sk komunity, môžete sa ním bezplatne stať hneď TU.

 

Ďalšie blogy súvisiace s Olympiádou, ktoré by vás mohli zaujímať:

Pre koho je Olympiáda nočnou morou?

Čo sa Sagan o sebe dozvedel?

Je to bezpečné, keď také množstvo ľudí letí na opačnú stranu zemegule?

Utopili by ste sa, aj keby ste boli M. Phellps

 

 


Publikované dňa 10. 2. 2018.