Čo by mal vedieť Dátový analytik? [veľký prieskum]

Počas leta 2017 sa rozhodol portál Kaggle, ktorý je známy propagovaním dátovej analytiky a organizovaním dátových súťaží, zrealizovať rozsiahly prieskum medzi odborníkmi v Data Science a dátovej analytike. Celkovo sa zúčastnilo daného prieskumu viac ako 16000 expertov, ktorí odpovedali na otázky ohľadne toho, čo reálne vo svojej práci používajú, ako si našli prácu, koľko zarábajú ale aj to, ako sa posunúť ďalej. Keďže som mal tu česť sa zúčastniť tohto odborného panelu, môžem vám teraz exkluzívne na www.mocnedata.sk sprostredkovať niektoré zaujímavé výsledky tohto prieskumu. Registrovaní členovia komunity MocneData si môžu stiahnuť celé výsledky prieskumu v tomto doplnkovom blogu. Pre otvorenie budete potrebovať heslo k uzamknutým blogom, ktoré ste dostali pri registrácii do komunity.

***** Ak ešte stále nie ste registrovaným členom komunity, za 2 minúty a úplne bezplatne sa zaregistrujete TU. *****

Aké vekové skupiny pracujú v data miningu

O tom, že práca dátového analytika je pomerne mladá profesia sme už hovorili v predchádzajúcom blogu.  Aby sme tomu však dodali úplný kontext, pozrime sa na vekové rozdelenie tejto profesie podľa odpovedí expertov z daného odvetvia. Z grafu je vidno, že medián veku Dátového analytika je približne 30 rokov, pričom “vekový chvost” sa ťahá až do 50+ ročníkov:

KAGGLE prieskum vek analytika

Ako dlho musím študovať, aby som sa uplatnil v tejto brandži?

Pri najímaní ľudí do dátových pozícií sa vedú siaho-siahle polemiky o tom, či postačuje základné vysokoškolské vzdelanie alebo by ste mali pri budovaní Data Science teamov siahať po ľudoch s doktorátmi z data analytiky. Dáta ukazujú, že väčšina teamov si vystačí bez PhD držiteľov, aj keď v skutočnosti to môže byť klasický chicken-egg problém, keď ľudí s doktorátmi v tejto oblasti je tak málo, že aj keby ste najali všetkých ľudí s PhD z tejto oblasti, tak by stále boli v menšine oproti ostatným dátovým analytikom. Nuž pohár môže byť aj poloplný aj poloprázdny, aktuálne výsledky však ukazujú, že ak sa chcete teraz zamestnať v oblasti datových analýz, len každý 4tý zamestnávateľ očakáva/ocení III. stupňové vysokoškolské vzdelanie v dátovej analytike:

KAGGLE prieskum titul

Aké metódy/algoritmy sú najčastejšie potrebné

Z môjho pohľadu veľmi zaujímavou spätnou väzbou bolo vidieť, aké metódy dátovej analytiky najčastejšie v pokročilej analytike používajú analytické teamy po celom svete. Pri vyberaní ľudí do nášho teamu sa totiž často stretávam s tým, že kandidáti básnia o tom, ako by chceli pracovať na deep learningu (neurónových sieťach). Skutočným chlebom a soľou denno-dennej analytickej práce dátových teamov sú však (zatiaľ) ešte stále Machine learningové modely. Musím povedať, že výsledky tohto zisťovania pragmaticky poukazujú na to, že dobre zvládnutá logistická regresia je stále cennou zbraňou v biznis aplikáciách data miningu.

Ak patrte medzi začínajúcich dátových analytikov, tak tento graf môžete brať ako návod, čo si naštudovať ako prvé (s čím sa najčastejšie stretnete). Rád by som upozornil aj na to, že ak si sčítate odpovede expertov v prieskume, tak priemerný dátový analytik musí ovládať minimálne 3 rôzne metódy predikcie:

KAGGLE prieskum pouzivane metody

Aký “šrobovák” na to potrebujem?

Pomerne zaujímavo vyznieva aj odpoveď, aký nástroj najčastejšie pri svojej práci Dátoví analytici používajú. Že sa oplatí zohnať si nejakého hada, sme už spolu rozoberali na tomto portáli. Takže prvenstvo Pythonu je len opätovným potvrdením, že tento trend treba brať vážne, ak chcete ďalej pracovať v dátovej analytike aj do budúcna. Z uvedeného grafu by som však chcel vypichnúť iné 2 podstatné veci. Všimnite si, že SQL je potrebné stále vo viac ako 53% prípadov. Keď sme testovali kandidátov prácu v Teamviewer Data Science teame na ich technické zručnosti, podozrivo veľa z nich malo vážne medzery v tradičnom SQL. Ako by pri celom hype okolo RNN a CNN zabúdali na to, že väčšinu dát, ktoré budú spracovávať, sú štruktúrovanej povahy a bude ich potrebné vydolovať z nejakej relačnej databázy.

Druhým podstatným javom, ktorý by nemal uniknúť vašej pozornosti, je, že v prvej desiatke najpoužívanejších nástrojov nenájdete žiaden typický proprietárny systém ako SAS, SPSS alebo nim podobné. Ak ste sa teda v minulosti spoliehali primárne na znalosť týchto softwarov, bolo by vhodné si doplniť zbierku aj o znalosti niektorých z tu uvedených Top 15.

KAGGLE prieskum nastroje

Aké dáta budem spracovávať?

Na záver nášho krátkeho exkurzu do zákutí práce dátových analytikov by som rád pridal zaujímavý pohľad, ktorý hovorí o tom, s akými druhmi dát budete pri práci dátového analytika prichádzať do styku. Asi nikoho neprekvapí, že tabuľke stále dominujú štruktúrované relačné dáta z klasických SQL zdrojov (čo podčiarkuje potrebu SQL). Čo je však zreteľu hodné, že analyzovanie textu je už potrebné pri viac ako 50% prípadov pracovných pozícii. Tu vidím asi najväčší disconnect medzi tým, kam sa odborná diskusia uberá na Slovensku a v zahraničí. Ak si zájdete na nejakú lokálnu odbornú konferenciu o analytike, príspevkov o systematickom analyzovaní textu, prípadne best practice v tejto oblasti je ako šafránu. Apelujem preto na všetkých organizátorov týchto eventov, mali by sme sa posunúť bližšie k usecasom s text miningom, ak nechceme zostať na periférií rozvoja.

data typy

Pár slov na záver

Myslím, že výsledky tohto prieskumu môžu byť cenné nielen pre jednotlivé univerzity, ktoré majú vychovávať pre náš pracovný trh dátových analytikov, ale aj pre personálne agentúry, či manažérov analytických teamov, ktorí hľadajú ľudí pre analytické teamy. Trendy, ktoré sa v tomto prieskume popisujú boli dôvodmi, prečo som sa rozhodol skúsiť šťastie v zahraničí. Myslím, že je to cenné zrkadlo aj každému z nás, ktorí v odvetví data miningu pracuje alebo plánuje pracovať. Štúdia jasne pomenúva, ako má profil žiadaného dátového analytika vyzerať a tak si každý vieme pozrieť, aký gap do tohto profilu ešte stále máme. Ak teda patríte do jednej z týchto skupín, odporúčam Vám pozrieť si aj detailné dáta z tohto prieskumu.


Publikované dňa 1. 11. 2017.