Ak vaše rodné číslo začína niečim menším ako 9kou, tak určite bude poznať vetu legendárnu “Hujer, metalesku blesku“. Ak patríte medzi tých mladších vekom a nechcete, aby vám ušla pointa tejto analógie, tak len dávam do pozornosti, že táto legendárna veta má nielen svoje Youtube video , ale dokonca aj svoj vlastný zápis vo Wikipédii! Dôvod, prečo toto slovné spojenie spomínam je podobne kuriózny ako samotná veta. Ale o tom až o chvíľu neskôr.
—— Tento blog vznikol ako priama reakcia na prieskum o tom, aké články by sa mali na mocnedata.sk ďalej objavovať. Ak ste svoj názor ešte nevyjadrili, urobte tak prosím TERAZ. Ďakujem za váš názor. ——
Vo svojej práci sa za posledné týždne intenzívnejšie zaoberám predikčnými modelmi správania klientov. Je to taký zvláštny cocktail toho, že na jednej strane sa s teamom snažíme vytvoriť, čo najkvalitnejšie modely; ale na strane druhej čelíte otázkam úplných laikov. Pravidelne sa stáva, že na strane spoločnosti, pre ktorú model pripravujeme, sa objavia ľudia, čo (či už z nedôvery alebo bezmedznej zvedavosti), chcú vedieť, ako ste sa k finálnemu modelu dopracovali. Neodrádza ich často ani to, že pre skutočne pochopenie postupu sú príliš “na nože” s matematikou, či štatistikou. Vo väčšine prípadov je to pre analytika zdržanie, ak nie rovno strata času. Ale občas vás to prinúti sa zamyslieť: Ako svoje postupy vysvetliť/obhájiť slovami, ktoré pochopí aj piatak na ZŠ? Tak som sa zamyslel aj ja nad tým, ako vyberáme parametre do prediktívneho modelu …
Základy receptu (na bábovku)
Ak chcete upiecť bábovku, potrebujete formu, pec a suroviny. Suroviny spolu vymiešate do cesta, cesto uložíte do formy a naplnenú formu vložíte do trúby piecť. Ak chcete mať bábovku dvojfarebnú, samostatnú úlohu v recepte bude hrať kakao.
Podobne ak chcete urobiť prediktívny model, potrebujete prediktívny algoritmus, software na jeho spočítanie a prediktívne parametre. Ak navyše chcete mať model, ktorý predikuje pravdepodobnosť nejakého javu, potrebujete premennú, ktorá sa volá cieľová premenná (to bude vaše kakao). Prediktívne parametre necháte medzi sebou premiešať, vložíte ich do prediktívneho algoritmu a ten necháte “piecť” sa v softwari na jeho vytrénovanie. Tak ako v prípade receptu na bábovku, to či bábovka bude lahodná alebo nie, nie je zásluhou formy, či pece (teda ak ste ju nenechali zhorieť na uhol). Pri tradičnom pečení – ako aj prediktívnom modelovaní – najdôležitejšiu úlohu hrajú samotné suroviny, teda prediktívne parametre.
Kde zohnať suroviny ?
Na rozdiel od pečenia bábovky, k prediktívnemu modelovaniu vám nedajú zoznam surovín (parametrov), ktoré by ste mali spolu zamiesiť do cesta. Preto práve to, aké parametre pre predikciu vybrať, je tou pravou alchýmiou a know-how pri prediktívnom modelovaní. Úprimne, ako sme sa rozprávali minule, všetko ostatné okrem vymýšlania parametrov už je dnes plne nahraditeľné strojmi. Supervised machine learning model sa dokáže natrénovať aj predikovať úplne sám. Jediné, čo od vás chce, je zoznam faktorov, ktoré má zobrať do úvahy. Preto si dovolím tvrdiť, že ak dokážete dobre vymýšľať prediktívne vstupné parametre, vaša hodnota na trhu analytických jobov bude o niečo vyššia. Keďže však na túto oblasť neexistuje nejaká ustálená metodika, väčšina kolegov, analytikov, sa spolieha na “takto nejako sme to robili” skúsenosti. Ruku na srdce, tvorba zoznamu možných prediktorov tak pripomína skôr ústne podanie Dobšinského príbehov, než priamočiary ťah na bránu. Čo teda v tejto oblasti poradiť?
Keďže oblastí predikcie môže byť neskutočne veľa, dávať generické rady, nie je veľmi užitočné. Hold, existujú situácie, keď “It depends” je pravde oveľa bližšie ako akákoľvek iná odpoveď. Keď som však (vyššie uvedenými dôvodmi) bol donútený zamyslieť sa nad tým, aké parametre nie sú až tak bežné, napadla mi predsa jedna dôležitá rada. A o tú sa chcem teraz s Vami podeliť…
META blesky
Aby som bol férový, pomyselným “Newtnovym jablkom” v tomto rozlýšľaní bol príspevok Jána Slašťana z Emarku na jednej z odborných konferencií za posledný mesiac; (týmto mu ďakujem za osvietenie.) Práve počas jeho slov som si totiž uvedomil, že ak mám núdzu nájsť správne parametre na predikciu, ako prvé ich hľadám v METADÁTACH. Totiž práve metadáta ukrývajú podobnosti klientov (a ich správania), ktoré sú na prvý pohľad neintuitívne. Aby sme však boli korektní aj voči piatakom ZŠ (z druhého odseku tohto článku), poďme si najprv detailnejšie popísať, čo to tie METAdáta vlastné sú.
Zo spojenia METADÁTA je zrejmé, že ide o nejakú formu dát. Pre tých hĺbavejších rovno prezradím, že ide o formu Boring dát, o ktorých som už písal) Ak v jazyku používame predpomu META- , znamená to niečo “nad rámec alebo za hranicou pôvodného”. Ak teda hovorím o metafyzike, je to niečo za hranicou bežných fyzikálnych zákonov a pozorovaní. Na to, aby ste sa vedeli pozrieť na vec metafyzicky, musíte sa naštelovať do polohy, že vystúpite z “priestoru” a na (bežnú) fyziku sa pozerám ako vonjakší pozorovateľ. V prípade dát to znamená, že metadáta sú také údaje, ktoré nie sú šúčasťou samotného bežného procesu, ktorý skúmam. Popisujú skôr “zvonku” jednotlivé opakovania daného procesu. Aby sme boli konkrétnejší, ak mojimi primárnymi dátami sú predaje tovarov v nejakom obchode, tak meta dátami sú údaje o tom: kedy, po akej dobe znovu, na akom mieste (, … ) sa daný nákup uskutočnil. Metadáta teda nemenia samotnú podstatu údajov (žiadne metadáta mi nezvýšia ani neznížia tržby obchodu), len zasadzujú daný nákup do okolitej reality.
Azda najlepšie princíp metadát popisuje (uznávam trochu) archaický koncept kartotéčneho lístku. Predstavte si, že máte spísaný katalóg knižiek, ktoré máte doma na policiach. A to tak, že o každej knihe máte lístok veľkosti polovice A4, na ktorom sú napísané súhrné údaje o danej knihe (napr. rok vydania, počet strán, počet kapitol, typ väzby knihy, počet strán s ilustráciami, …). Tento lístok predstavuje metadáta o knihe. Lebo čokoľvek, čo je napísané na tom lístku, nijak nemení príbeh, ktorý je v knihe napísaný. Rovnako metadáta nezmenia cenu, za ktorú si knižku kúpite. Ale keď chcete vedieť, ktoré dve knihy majú najpodobnejší počet strán alebo rovnaký počet obrázkov, je takáto kartotéka veľmi užitočna. A to už sme jednou nohou pri prediktívnych parametroch …
Samozrejme metadáta už dnes nie sú (väčšinou) na papierových kartičkách. Zväčša predstavujú údaje priamo v databáze, ktoré však bývajú v inej forme (často aj iných tabuľkách) ako samotné údaje. Aby sme boli úplne presní, metadáta môžu mať tri formy:
A] priame interné metadáta [napríklad predajňa, kde sa nákup zrealizoval, či čas v rámci dňa, keď ku nákupu prišlo]. V tomto prípade ide o údaje, ktoré sa spolu s danými ostrými dátami vytvoria a niekam aj zapíšu. Len sa im neprikladá váha, lebo často nie je dôvod podľa nich údaje agregovať (len pre málo obchodov dáva zmysel pozerať si predajné dáta podľa hodiny v rámci dňa, v ktorej bol nákup realizovaný)
B] odvodené interné dáta [napríklad koľko ľudí nakúpilo za rovnakú hodinu ako ja, koľkí v poradí nákup daného klienta to bol]. Toto sú meta dáta, ktoré sa vôbec nepočítajú a je si potrebné ich pre analytiku osobitne napočítať. Sú však často najužitočnejšie, lebo “takto sa na to ešte nikto nikdy nepozeral”.
C] externé meta dáta [napríklad aký podiel populácie z daného PSČ nakupuje u mňa aspoň raz mesačne, prečítal si klient pred nákupom v e-shope niektorý z webov denníkov? , … ] Niektoré metadáta je nutné zozbierať, či priam kúpiť, z externého prostredia. Externé metadáta môžu byť neraz veľmi užitočné. Ale keďže na rozdiel od interných metadát niečo stoja, mali by ste sa k nim utiekať iba ako k tretiemu kroku, keď už ste vyčerpali studnicu poznania typu A] a B].
Prečo použiť metadáta?
Ok, tak už vieme čo sú METADÁTA, ale stále si dĺžime odpoveď: Prečo sú pre modelovanie správania klientov tak dôležité? Jadro odpovede na túto otázku tkvie v tom, že pri hľadaní vhodných prediktívnych parametrov (ingrediencií pre našu bábovku) potrebujeme, aby to boli také parametre, ktoré nie sú prvoplánovo korelované s cieľovou premennou (napr. Ak hľadám čo majú spoločné klienti, ktorí u mňa míňajú najviac peňazí, nemal by som sa spoliehať na parameter, koľko nákupov ktorý klient urobil za dané obdobie, lebo prinesie len málo “zaujímavého” do popisu bonitných klientov) a zároveň dokážu odhaliť podobnosť medzi predikovaným správaním u ľudí. Ženy na materskej v nákupoch potravín tak oveľa presnejšie odhalíte podľa metadát (najčastejšie obodbie dňa, keď nakupujú) ako podľa ostrých dát (zaplatený objem, či vek klientky). Metadáta totiž často (nepriamo) zobrazujú podobnosti klientov, ktoré sú neodhaliteľné zo samotnej podstaty (nákupov). Silu samotných metadát ilustrujú aj posledné kolá CRM hádaniek, kde metadáta zohrávali dôležitú rolu, veď presvedčte sa sami: Riešenia 6.kola, Riešenia 5.kola.
Ako čo najefektívnejšie vyťažiť metadáta?
Ak sa mi podarilo vás navnadiť, že chcete dať METADÁTAM šancu pri svojom najbližšom analytickom projekte, zostáva odpovedať ešte jednu podstatnú otázku: Ako sa k dopracovať k užitočným metadátam? Priznám sa trvalo mi pomerne dlho, kým som postupným zjednodušovaním sa dopracoval k návodu, ktorý je hutný a užitočný. Ale myslím, že ak zrealizujete nasledovné kroky, tak by ste mohli pokryť svoje metadáta príležitosti dostatočne užitočne:
- Zožeňte si všetky súvisiace údaje. (miesto, presný čas, typ platby a iné okolnosti nákupu), ktoré máte o primárnych dátach (napr. nákupoch). Tu naozaj platí: berte všetko, čo sa dá nejakým spôsobom spojiť/nalinkovať na dané primárne dáta.
- Vytvorte si PRVOSTUPŇOVÉ odvodené metadáta. Ide o metadáta, ktoré sa vzťahujú k samotnému klientovi, ktorý transakciu realizoval. Spočítajte: koľký v poradí, koľký za určitý čas to nákup bol, čo je najbežnejšie (miesto, čas, objem, spôsob) nákupu pre daného klienta, uchovajte si samostatnú informáciu o extrémoch za daného klienta (koľko najviac a najmenej nakúpil jednorázovo, koľko najviac krát nakúpil za mesiac, aké najdlhšie obdobie u vás vôbec nebol, na koľkých rôznych miestach nakúpil za dané obdobie …).
- Vytvorte si DRUHOSTUPŇOVÉ odvodené metadáta. Pozrite sa na dynamiku daného klienta: Rastie jeho mesačný objem? Klesá jeho tempo nakupovania? Rastie počet produktov, čo vyskúšal? Zmenil miesto, kam chodí nakupovať v rámci vašej siete?
- Nezabudnite aj na TREŤOSTUPŇOVÉ odvodené metadáta. Pozrite sa na správanie klienta v kontexte celého portfólia (predajne alebo) siete. Spočítajte si, či: Koľko iných klientov nakupuje v čase ako on(a)? Ako mimoriadny je jeho priemerný nákup v porovnaní so zvyškom klientov? Ako frekvencia, či objem nákupov súvisi s celkovým trendom v portfóliu? V ktorom z obchodov, kam chodí, sa jeho správanie najviac podobá zvyšku klientely? Ako sa stavia k novinkám, kupuje ich medzi prvými alebo skôr vyčkáva, kým ich vyskúšajú iní?
- Porozmýšlajte nad externými metadátami. Skúste si premyslieť, či a ako nákladne viete spojiť informácie o tom, čo klient robí pred alebo po nákupe u vás. V digitálnom svete by to vďaka cookies nemal byť problém. V offline svete porozmýšlajte, či máte nejakého sprostredkovateľa alebo servisného partnera, ktorí by vám vedeli prezradiť niečo o správaní klientov pred/po fyzickom nákupe. Pokúste sa dotiahnuť si LEGÁLNE tieto externé dáta do vašej databázy a pripárovať ich k jednotlivým nákupom alebo klientom.
A čo teda má spoločné “Hujer, metalesku blesku” s týmto blogom? Nuž, ak viete po rumunsky alebo ste čítali wikipédia link z prvého odseku blogu, tak iste viete, že daná veta v rumunčine nemá žiaden význam a bola takým”odveci úletom” autorov pri písaní scenáru. Neskôr sa však stala jedným zo symbolov daného filmu a keby ste generácii starších túto vetu povedali, tak spoľahlivo daný film zaradia ku komédiam aj do 70tych rokov, v ktorých film vznikol. A tak nejako je to aj s METAdátami. Nemusia nič sami o sebe hovoriť, ale často dokážu presne(jšie) popísať javy, ktoré sa snažíme predikovať. Na záver mi teda zostáva vam popriať len, aby sa vám pri tvorbe modelu “Hliník neodstehoval do Humpolce!”
Publikované dňa 9. 4. 2017.