Riešenia a výsledky 7. kola CRM dátových hádaniek

Aktuálne siedme kolo prinieslo hneď niekoľko fenoménov v riešení Dátových hádaniek z CRM prostredia. Okrem skvelých riešení, o ktorých si za chvíľu povieme viac, ako už bolo avizované, vznikol ACP rebríček riešiteľov. Je akousi dvoranou slávy a poctou tým, ktorí sa do riešenia zapájajú opakovane. Ak chcete vedieť, komu sa doposiaľ darilo najviac, pozrite si aktuálnu verziu rebríčka.

Ďalším fenoménom tohto kola boli veľmi kvalitné riešenia od riešiteľov. V 7. kole si bolo možné vybrať medzi Kino úlohou a Automobilovou úlohou, ktoré sa každá zakladali na iných vstupných dátach. Za riešenie každej z úloh bolo možné získať 0 – 70 bodov, ak riešiteľ zaslal riešenie oboch úloh, počítalo sa mu to lepšie skóre z oboch odovzdaných riešení.

Zaujímavé bolo, že hoci väčšina s vybrala na riešenie skôr úlohu s určením vhodného Kino predstavenia pre klienta, odpovede na túto úlohu v priemere získali len 41/70 bodov, zakiaľ riešenia Automobilovej úlohy v priemere dosahovali viac ako 48 bodov zo 70 možných. Dokonca aj u tých riešiteľov, ktorí sa podujali riešiť obe úlohy, Automobilové odpovede porazili odpovede na Kino otázku. Opäť sa tak ukázalo, že prvotný dojem o náročnosti úlohy môže byť klamlivý. Poďme si teda rozobrať jednotlivé riešenia detailnejšie:

Ako uchopiť automobily? (Úloha 7.1) 

KITT autoBol som veľmi príjmené prekvapený tým, že väčšina riešiteľov prišla na to, že vlastniť dáta o histórii volaní a pohybu klienta je v prípade auta dostatočne silným zdrojom inšpirácie. Takmer každý riešiteľ sa opieral o to, že si pozriem, do akých autoservisov klient volal, prípadne sa v ich blízkosti pohyboval. To je samozrejme silným prediktorom a hovorí niečo o tom, aké auto aktuálne jazdím. Pre úplnosť mi však chýbal argument, prečo by tam mal klient volať, čo keď má nové auto, ktoré sa ešte nepokazilo a nepotrebovalo ani servisnú prehliadku? Istou záplatou na túto chybičku by bolo vymedzenie dlhšieho častu (napr. 2 roky), prípadne prezutie gúm, aj keď to sa zas nemusí diať v plnohodnotných servisoch, ale v pneuservise.

Zaslané riešenia sa v princípe delili do dvoch prúdov. Jedna skupina sa snažila pomocou životného štýlu, rodinného stavu, ekonomického statusu a typu voľnočasových aktivít, čo najpresnejšie určiť typ alebo značku auta. Riešenia tohto prúdu boli neraz naozaj detailne prepracované, niesli si však jednu spoločnú chybu. Tým, že skupiny boli pozitívne vymedzené (čo majú spĺňať), tak neraz ten istý klient spĺňal viacero podmienok a teda nebolo jasné, ktorou s ponúk ho naozaj osloviť. Pozitívne vymedzenie je dobrý prístup, ale netreba zabúdať na prieniky a určiť nejakú prioritizáciu, aby sa stroj vedel rozhodnúť, komu čo naozaj poslať.

Druhým spôsobom boli riešenia, ktoré sa snažili vybrať konkrétnu značku klienta z jeho online aktivity (likovanie, vyhľadávanie, sledovanie videí a pod.). Tie najsofistikovanejšie sa rozhodli zohľadniť aj okolie klienta a aké značky sa objavujú v jeho okolí.

Čo som naopak pri riešeniach často postrádal bolo zmysluplnejšie vymedzenie, koho nedáva zmysel osloviť. Len málo z vás napadlo, že 70 ročný človek už zväčša nešoféruje, rovnako ako 17 ročný. u menej riešení sa bralo do úvahy aj vzdialenosť dennej polohy od miesta konania výstavy: ono predsa z toho Prešova do Nitry či Bratislavy to nie je tak úplne jednoduché prísť na otočku. Niektorí riešitelia pridali aj filter na nízku bonitu klienta (napr. dlh u mobilného operátora). Nikoho však nenapadlo nejak odhadnúť a vyčleniť ľudí, čo si kúpili auto nedávno (a teda ďalšie tak skoro zrejme potrebovať nebudú).

Tie najsilnejšie riešenia sa rozhodli určiť nejakú skupinu používateľov danej značky (kombináciou vyššie uvedených) a následne týchto klientov použiť na natrénovanie regresného modelu na priradenie značky na základe podobnosti klientov s afinitou k jednotlivým značkám. Veľmi zaujímavým parametrom, ktorý napadol len jednému z riešiteľov, bolo skontrolovať, či sa klient zúčastňoval takýchto autosalónov v minulosti (a v ktorom pavilóne sa zdržal najdlhšie).

Poďme spolu do kina (Úloha 7.2) 

Mačky čumia v KineÚloha s výberom kino predstavenia pre klienta sa zjavne mnohým veľmi páčila, riešenia totiž boli veľmi oduševnené a bolo vidno, že ich riešitelia si túto úlohu užili. Niekde nadšenie a verva do hľadania rovno konkrétnych filmov boli skôr na škodu, vzniklo však aj niekoľko pozoruhodných riešení.

Takmer každé riešenia sa pokúsilo vymedziť vhodný film nejakým vekovým, sociologickým alebo rodinným argumentom. Často sa objavovali aj nápady o tom, ako nákupy (či nenákupy) určitých tovarov vplývajú na to, čo si ideme pozrieť do kina. Pomerne odvážne, ale zaujímavé, boli aj pokusy vymedziť preferenciu žánru priamo podľa využitia bankových služieb (karta, E-banking, ATM, hypotéka a iné úvery).

Prezradím, že najbližšie pomyselnému Olympu tejto úlohy, boli riešenia, ktoré sa snažili pracovať s históriou „kino správania“ daného človeka. Platby za lístky kartou v niektorom z kín sa snažili dať do súvisu s časom v rámci dňa. Rovnako podľa času, ceny lístka a dátumu nákupu daných lístkov spárovať program kín s daným klientom. Frekvencia návštev kín zas hovorí ako ľahko ho bude „uloviť“, konkrétne predstavenia zaše môžu napovedať čo-to o obľúbenom žánri. Zaujímavým prístupom bolo aj spojenie histórie klienta s medzinárodnou IMDB databázou filmov, kde ich detailné popisy môžu predznamenať aj to, aký druh klientov na tento typ filmu chodí.

Pomyselnou korunou snaženia sa v tejto otázke bolo pripraviť na základe histórie návštevy kín za odbobie doposiaľ, pripraviť klasifikačný Mechine Learning model. Pri dostatočných vzorkách klientov pre jednotlivé žánre filmu tak je možné pripraviť predikciu náchylnosti človeka ku každému zo žánrov (na základe banke dostupných dát). Oslovenie teda nakoniec pôjde na žáner, s ktorým má klient najlepšie pravdepodobnostné skóre.

Negatívne vymedzenie občas citeľne pokrivkávalo. Väčšina sa uspokojila s odrezaním skupín podľa vzdialenosti. Len málokoho napadlo argumentovať vekom, či ekonomickou situáciou (kino nepatrí medzi základné žiotné potreby). Len jednému z riešiteľov napadlo vylúčiť aj zamestnancov kín, či kinomaniakov (aspoň raz týždenne idú sami od seba), či naopak ľudí, ktorí neboli v kine už niekoľko rokov po sebe. Perličkou v tomto ohľade bol návrh vyradiť klientov, ktorí sú slepí alebo zlabozrakí. (aj keď nebolo v riešení detailne popísané, ako ich jednoznačne identifikovať v databáze klientov).

Víťazi 7. kola a odmeny

Ako už bolo spomínané vyššie, maximálny počtom bodov za jednu úlohu bolo 70 bodov. Prvé dva stupne víťazov si pomyselne rozdelili nasledovní riešitelia:

Kučerová D.               61 bodov   [kino]

Malý Š.                        59 bodov  [automobil]

Na treťom miesta sa udiala kuriózna situácia, keď dvaja riešitelia mali zhodný počet bodov a tak o broznovú priečku sa podelia:

Biescad M.                 56 bodov [automobil]

Kokošková K.             56 bodov [kino]

Víťazom tohto kola blahoprajem a prosím, aby sa so mnou spojili emailom, aby som vedel kam im doručiť poukážky na nákup kníh. Všetkých váz zároveň pozývam pozrieť sa na ACP rating riešiteľov, ktorý sa po dnešnom kole opäť trochu premiešal.  Nuž a ja sa odoberiem rozmýšlať nad zadaním 8.kola úloh pre Vás. Dovidenia teda pri najbližšom kole Dátových CRM hádaniek!