Nedávno som mal prednášku pre študentov vysokej školy, ktorí sa pripravujú na povolanie dátových analytikov. Bola to veľmi milá udalosť, po skončení prednášky som mal možnosť diskutovať so skupinkou študentov nad pizzou a kofolou o tom, čo ich trápi. Okrem tradičných “slabôstok” slovenského školstva ma zaujala jedna veta: “Nevieme sa dobre pripraviť na prax, lebo na univerzite sa nedozvieme, ktoré z množstva algoritmov, z ktorých máme skúšku, od nás budú vlastne požadovať budúci zamestnávatelia.”
Musím sa priznať, že otázka mi prišla bazálna, možno až humorná. Ale na druhé zamyslenie musím uznať, že je to pádna požiadavka. Ak aj vysoká škola ponúkne praktické cvičenia pre preberanú látku na reálnych dátach z biznis prostredia, málokedy ich má viac setov na ten istý problém. Pokojne sa vám môže stať, že logistickú regresiu sa naučíte modelovať na dátach o donoroch z neziskovky alebo na infosete o prežití na Titaniku, ale dáta na predikciu odchodovosti klientov vám asi dá málokto k dispozícii. Pritom problémom nie je to, že sa postupy učíte na inom druhu biznis problémov (nie odchodovosť ale ochota dať sponzorský dar), skutočným problémom je, že sa nedozviete, aké sú tie skutočné použitia dát vo firmách (kam sa môžete uchádzať o prácu). Ak si teda naivne nemyslíte, že firmy zachraňujú pasažierov z Titaniku.
Keď som sa pustil do písania tohto blogu, ktorým by som chcel pôvodne iba obslúžiť nástojčivú prosbu študentov, uvedomil som si, že podobný problém vás môže postretnúť, aj keď už reálne v našej branži pracujete. Stačí, že ste sa niekoľko rokov venovali analytike v tom istom odvetví. Poznáte jeho potreby, ale z prechodu do iného odvetvia máte, hm, minimálne obavy. (pozdravujem Ťa, Nika) Do ešte horšej situácie sa môžete dostať, ak ste aj pracovali v nejakom odvetví, ale manažment od vás požadoval len určitý (neraz triviálny) druh analýz. To sa môže stať, že pohoríte aj na pohovore u konkurenta, ktorý to s analytikou myslí trochu vážnejšie ako Vaša firma.
Ako čítať odporúčania
(Ešte než sa ponoríme do samotných oblastí, dovoľte mi jeden disclaimer: Nižšie uvedené uplatnenia Machine Learningu sú z biznisu. Biznis nie je jediná možnosť, kde sa dá pracovať s dátami, určite existujú aj iné oblasti pôsobenia (napr. výskum, neziskový sektor, vládne agentúry, … ), kde nižšie menované metódy nie sú až tak užitočné a musíte vedieť niečo iné. Preto nižšie uvedenými radami sa zaoberajte, iba ak ste odhodlaný/á hľadať si analytickú prácu v nejakej komerčnej firme. Rovnako pripúšťam, že uvedené oblasti biznisu by sa dali riešiť aj inak ako Machine Learningom, ale to by bolo na iný článok. ) Nakoniec je dôležité povedať, že tieto postupy ocení len erudovaný šéf. 4 typy nevhodných šéfov sme rozobrali v minulom blogu.
Základný pohľad odporúčaní je zoradený podľa oblastí prínosu analytiky pre biznis. Teda naozaj odpovedá na otázky, ako môžete byť užitoční pre svojich zamestnávateľov. Následne komentujem, pre ktoré odvetvia daná oblasť dáva najväčší úžitok (a teda, v akých firmách ho od vás budú požadovať). Na koniec pridávam aj stručný prehľad algoritmov, ktoré je nutné vedieť pre zdarnú implementáciu ML v danej oblasti, pričom ich rozdeľujem na ZÁKLADNÉ/advanced postupy. Podklady pre tieto odporúčania sú kombináciou publikácie Where Predictive Analytics Has Biggest Impact zostavenej za pomoci T. Davenporta (guru analytiky) pre Harward Business Review (Winter 2017 edition) a doplnení z mojich vlastných postrehov zo SR biznisu.
1] Vytváranie dopytu
1.a] Pravdepodobnosť nákupu konkrétneho produktu
Prediktívny model, ktorý na základe histórie nákupov daného produktu, vyšpecifikuje faktory, ktoré zvyšujú náchylnosť k nákupu daného produktu a pre (každého) klienta spočíta pravdepodobnosť nákupu daného produktu. Klienti nad stanovenú minimálnu pravdepodobnosť bývajú oslovení ponukou na kúpu daného produktu.
Odvetvia, kde používané: Ľubovoľné odvetvie, kde existuje digitálny údaj o nákupe klienta. Najpálčivejšie to je v RETAILE, POISŤOVNÍCTVE, TELCO.
Najčastejšie analytické metódy: ROZHODOVACIE STROMY, LOGISTICKÉ REGRESIE, NAIVE BAYES, / Random forests, Ensemble modely, …
1.b] Odporúčacie mechanizmy
Algoritmy, ktoré podľa podobnosti buď produktov alebo ľudí, ktorí kupujú konkrétny produkt (na základe štatistickej analýzy podobnosti), generujú návrh, čo by bol pravdepodobne vhodný doplnkový produkt. Ten sa následne klientovi ponúkne, aby sa zvýšila celková hodnota nákupu daného klienta.
Odvetvia, kde používané: Pre tento druh analýzy je potrebné mať pomerne veľký počet produktov alebo ich variantov. Zároveň o historických nákupoch musí existovať digitálna stopa, takže zrejme nebudete predikovať aká iná zmrzlina sa hodí v miestnej zmrzlinárni k vanilkovej. Z uvedených dvoch podmienok jasne plynie, že hlavnými kandidátmi na tieto postupy sú E-SHOPY a MALOOBCHOD v kamenných predajniach, ako aj ODVETVIA predávajúce ZÁBAVNÝ OBSAH (Netflix, Kiná, divadlá, knihkupectvá, …)
Najčastejšie analytické metódy: ASOCIAČNÉ pravidlá, CLUSTERING (k-means, …) / Collaborative filtering, Latent Factor Models, Content based filtering, DBSCAN, …
2] Predchádzanie nežiaducemu správaniu klienta
2.a] Pravdepodobnosť odchodu klienta
Prediktívny model, ktorý na základe už v minulosti stratených klientov sa snažíte odhaliť premenné, ktoré mali spoločné. Následne pre každého klienta učíte mieru náchylnosti (pravdepodobnosti) odísť v nejakom najbližšom časovom úseku. Klienti nad stanovenú minimálnu pravdepodobnosť bývajú oslovení špeciálnymi ponukami na veľmi výhodne produkty alebo dodatočnými službami zdarma, s cieľom udržať si ich.
Odvetvia, kde používané: Aplikovateľné v každom odvetví, ktoré nie je monopolom. Obzvlášť populárne sú však tieto postupy v odvetviach, kde pred tým vládol pokoj (klienti nepreskakovali od konkurencie ku konkurencii) a za posledné roky sa tieto “bočné” úmysly zosilnili, ako TELCO, BANKOVNÍCTVO, ELEKTRÁRNE A INÉ UTILITY ale aj akékoľvek formy PREDPLATNÉHO (Noviny).
Najčastejšie analytické metódy: ROZHODOVACIE STROMY, LOGISTICKÉ REGRESIE, K-NEAREST NEIGHBORS / Random forests, Ensemble modely, …
2.b] Credit/Payment & Process risk manažment
Manažovanie rizika má svoje všeobecné kontúry, kde hlavnými cieľmi analytky je samotná kvantifikácia miery rizika. Následne sa kvantifikované hladiny rizika používajú na výpočet potenciálnej straty (resp Value at Risk) z daného procesu/aktivity. Následne v užšom slova zmysle sa risk manažéri snažia podrobnejšie kvantifikovať riziko konkrétneho klienta v danom procese. Najbežnejším prípadom sú riziká spojené s finančnou disciplínou klienta, prípadne s budúcou finančnou situáciou daného klienta.
Odvetvia, kde používané: Všeobecnú kvantifikáciu rizika je možné realizovať vo všetkých odvetviach (kde sú nejak zmapované procesy). Tam, kde však prípadne škody majú závažné dôsledky (veľká finančná strata alebo dokonca ujmy na ľudskom zdraví) však risk management naberá na dôležitosti. Hlavnými odvetviami, kde sa risk manažment dopracoval až k sofistikovanejšej analytike sú BANKOVNÍCTVO, POISŤOVNÍCTVO, METEOROLÓGIA, ale aj MEDICÍNA a FARMÁCIA.
Najčastejšie analytické metódy: VALUE-AT_RISK, FAULT TREE ANALYSIS, Markovové procesy, Gini, PD/LGD, Altamn Z-score/Stochastické modely, MONTE CARLO metódy, Survival analysis
3] Cenotvorba
Základom tejto oblasti je odhaliť ktoré z faktorov produktu ako vplývajú na vnímanie jeho ceny, prípadne navrhnúť takú cenu, kde dopytová reakcia (buď pokles predaja po zdražení alebo nárast predaja po zlacnení) v spojitosti so samotnou zmenou jednotkovej ceny vytvárajú vyšší zisk pre spoločnosť ako v pôvodnom nastavení. Do tejto oblasti spadajú aj bočné vetvy dynamickej cenotvorby (kolísanie ceny výrobku podľa dopytu alebo typov klientov, ktorí kupujú v konkrétnu časť dňa) ako aj stratégií konkurenčného cenového vymedzenia (napr. IFTTT scenáre)
Odvetvia, kde používané: Cenu je možné optimalizovať samozrejme v každom odvetví, takže nižšie uvedené analytické metódy sa vám zídu takmer v každom odvetví. Absolútne nevyhnutné sú však pricing postupy v odvteviach rýchlo obrátkových tovarov, kde sa nákup opakuje často a teda zmena ceny dokáže mať rýchly efekt. Do tejto kategórie určite patria E-SHOPY a ODVETVIA predávajúce ZÁBAVNÝ OBSAH (Netflix, Kiná, divadlá, knihkupectvá, …) Istý potenciál predstavujú tieto metódy aj v MALOOBCHODE v kamenných predajniach, avšak do nasadenia digitálnych cenoviek je v takom supermarkete nemožné počas dňa niekoľko krát zmeniť ceny pre veľkú skupinu tovarov a tak niektoré cenové postupy tu zatiaľ majú len teoretické uplatnenie.
Najčastejšie analytické metódy: CONJOINT analýza, FACTOR ANALYSIS, MULTIVARIATE LINEAR REGRESSION, IFTTT / Anomaly detection, CLUSTERING (k-means, …), Stochastické modely, Dynamic conversion pricing
4] Optimalizácia zásobovania
Pre oblasť optimalizácie zásobovania logistiky sú najcennejšími analýzami optimalizačné metódy, ktoré dokážu, po zohľadnení daných obmedzení, určiť najkratšiu cestu, prípadne optimálnu kombináciu tovarov pre prepravu a zásielky. Dôležitým aspektom je vedieť aj odhadnúť, koľko vlastne čoho objednať, na čo sa zvyčajne používajú informácie o historickom priebehu dopytu po danom výrobku alebo simulačné modelovanie vývoja na trhu.
Odvetvia, kde používané: Využitie týchto typov analýz je zrejmý už z povahy ich názvu. Uplatnia sa tam, kde je kritické odhadnúť správne množstvo a čas, kedy má byť tovar doručený z jedného miesta na iný. Samozrejmými konzumentmi týchto druhov analýz sú teda E-SHOPY a MALOOBCHODNÉ PREVÁDZKY (najmä potraviny, drogérie, odevy a lekárne), kde absencia tovaru vedie k ušlému biznisu (ak klient potrebuje chleba a nekúpi ho u vás, zájde ku konkurencii. Ak sa to stane opakovane prestane k vám chodiť úplne) prípadne k zvýšeným nákladom (expirácia tovaru, prípadne vysoké náklady na skladovanie tovaru). Samozrejmými cieľmi tohto druhu analytiku sú aj DOPRAVNÉ a LOGISTICKÉ firmy, ktoré potrebujú prepraviť, čo najefektívnejšie náklady. Vďaka novodobej špecializácii firiem, neraz od správnej optimalizácie zásob súvisí aj efektívna VÝROBA, keďže máloktorá firma si dnes vyrába všetky súčiastky a dielce od primárneho dolovania nerastných surovín až po ich finálne vmontovanie do finálneho výrobku.
Najčastejšie analytické metódy: ARIMA (a iné analýzy časových radov), SIMPLEX (a iné optimalizačné metódy), FORECASTING (extrapolácie) / Anomaly detection, Stochastické modely, Logistická a Lineárna regresia, Analýza grafov a sietí
Koho iného by mohli zaujímať tieto dáta
Okrem vyššie uvedených dvoch cieľových skupín (budúcnosť hľadajúci študenti VŠ + v nejakom odvetví uviaznutí reálni analytici) mi napadlo ešte niekoľko skupín ľudí, ktorých by vyššie uvedené odporúčania mohli zaujať.
Manažéri analytických teamov. Ak ste sa náhodou ocitli v inom odvetví alebo od vás vo vašej práci nadriadení v minulosti chceli len limitovaný okruh analytiky, skúste sa pozrieť za odporúčania sofistikovanejších algoritmov (za lomítkom malými písmenami). Tie najpoprednejší hráči vášho odvetvia totiž už dnes používajú aj tieto sofistikovanejšie prístupy. Ak ste náhodou k nim (ani) nepričuchli, začínate zaostávať vo svojej oblasti. Na vašom aktuálnom mieste to možno do vás nikto chcieť nebude, ale akonáhle sa rozhodnete zmeniť zamestnávateľa, mohlo by si vás to škaredo počkať.
Profesori, Docenti a Asistenti na vysokých školách. Prapôvodný impulz k vzniku tohto blogu mi dali študenti, ktorí sa “posťažovali”, že na prednáškach a cvičeniach sa nestretávajú priamo s datasetmi, ktoré by kopírovali use-casy tak, ako ich budú očakávať budúci zamestnávatelia. Tomuto sa však dá pomerne jednoducho predísť. Pokúste za z Kagglu, OpenData zdrojov alebo od partnerských firiem získať anomymizované dáta, ktoré by zodpovedali priamo daným problémom. Netrénujte na cvičeniach a semestrálnych zadaniach analytické metódy na akýchkoľvek dátach, skúste simulovať priamo vyššie uvedené problémy. Keď vaši absolventi prídu na pracovný pohovor, či do reálnych pracovných zadaní, budú si vedieť spomenúť, presne ako sa s týmto problémom “popasovali” na cvičeniach. Dajte si tu námahu a zozbierajte dáta na každý druh analýz podľa vyššie pomenovaných prípadov použitia.
Zopár rád nakoniec
Ak patríte medzi študentov alebo ste v prvých rokoch svojej analytickej kariéry, dajte si záležať, aby ste vedeli to, čo si trh naozaj pýta. Na portáli mocnedáta sme tejto téme venovali niekoľko blogov, odporúčam začať TU alebo prípadne TU. Ak sa náhodou rozhodnete uchádzať o prácu v zahraničí, odporúčam prečítať si aj tento seriál blogov. Zároveň sa priamo na pohovore (dobre mienenými otázkami) uistite, že sa nerútite do náruče jedného z Analytike nerozumejúcich manažérov. To totiž často býva jedným zo spúšťačov nebezpečného javu, ktorý sa volá Osamelosť dátoveho analytika, ktorý by som vám fakt neprial zažiť. A ak už v analytike pracujete, nezabudnite si správne stanovovať analytické ciele pre seba, aby ste v rozvoji neustále napredovali.
Ak máte k niektorému z vyššie uvedených odporúčaní otázku, neváhajte sa ozvať sa mi TU. Držím palce!
Publikované dňa 22. 4. 2018.