Prekvapivé použitia dát a technológií

Dnes máme 6.júna 2017 a za chvíľu má čaká vystúpenie na konferencii Infotrendy 2017. Zadanie na prednášku, ktoré som dostal od organizátorov, je pomerne pikantné: Mnoho spoločností sa stáva technologickými lídrami, tak trochu proti prírode. Teda proti svojej prirodzenosti a neraz i proti vlastnej vôli. Ste začudovaní, ako sa dá zaviesť technologickú inováciu nedobrovoľne? Nuž pozrite si teda príklady, na ktorých to budem dnes na konferencii dokumentovať:

Obchod, v ktorom si nesmiete nič kúpiť

BONOBOSPrvou čudesnou inováciou sú obchody siete BONOBOS. Po správnosti by sme ich vlastne nemali volať obchody, lebo ich základným pravidlom je, že si v nich klient nesmie NIČ kúpiť. Teda aby ste rozumeli správne, nie je to skanzen socializmu, keď si nebolo čo kúpiť, pobočky BONOBOS siete sú plné tovaru. Ale nemajú vôbec žiadne pokladne a aj keby ste položili na stôl 10000EUR tak vám personál nič z tovaru nemôže vydať. BONOBOS totiž zvolil veľmi svojský model Multi-channel prístupu, kde v kamennej predajni si môžete vyskúšať a vybrať ľubovoľný tovar, ale kúpiť si ho môžete len vo firemnom e-shope.

Toto zdanlivo šialené pravidlo má v skutočnosti tri veľmi racionálne dôvody za sebou: 1) Firma sa rozhodla, že chce mať 100% nákupov svojich klientov identifikovaných, avšak nechce kvôli tomu zavádzať nejaké vernostné karty. Zvolila preto online model, kde musíte uviesť svoje meno a adresu pre doručenie zakúpeného tovaru. 2) Druhým dôvodom je fakt, že v BONOBOS šetria nemalé náklady na zásobovanie siete “predajní” veľkosťami modelov, ktoré sa vypredali. Takto totiž stačí mať za celú sezónu z každého modelu oblečenia maximálne 1-2 kusy pre každú konfekčnú veľkosť. Obchody teda nepotrebujú rozsiahly sklad a ich predajná plocha je oveľa nižšia. 3) Tým posledným dôvodom je, že chcú garantovať klientovi, že nech príde do ľubovoľnej pobočky siete, vždy tam nájde svoju veľkosť z ľubovoľného tovaru, ktorý je v aktuálnej ponuke. Tak čo? Ešte stále vám pripadajú BONOBOS zakladatelia ako uletenci?

Aké dne bude počasie? Tolstoj, miestami až Dan Brown

POCASIE v RUSKUPomerne otrlú dátovú inováciu prinášajú stránky ruského E-shop portálu na nákup všeličoho možného, okrem iného aj kníh. OZON.RU, akožto elektronické kníhkupectvo, vyskúmalo zaujímavú zákonitosť. Keď je vonku škaredšie počasie, ľudia majú väčšiu tendenciu čítať knihu. Tento fakt neznie úplne objavne, poviete si. Áno, každý, kto číta pravidelne, túto zákonitosť samozrejme pozná. Čo už však nie je tak priamočiare, že počas škaredých dní ľudia nielen čítajú, ale aj nakupujú viac kníh. Správa popisujúca výskum OZONu už neuvádza, či je to preto, že jednu knihu rýchlejšie dočítame a teda potrebujeme inú. V každom prípade systematická analýza predajných dát ukázala, že v slnečné dni si ľudia kupujú menej kníh (a to aj tí, ktorí sa nakupovať predsa v daný slnečný deň vydajú).

OZON.ru portál preto špecialne upravil svoj web tak, že zbiera Big Data o vývoji počasia na najbližšie dnia a podľa blížiaceho sa tepla, či frontálnej zmeny, upravuje počet odporúčaní, ktoré klient dostane počas jednotlivých dní. V škaredé dni teda vystavuje klientov väčšiemu počtu odporúčaní na ďalšiu knihu ako počas slnečných dní. A ľudia naozaj prijímajú ponuky na ďalšie knihy počas dažďa s väčšou úspešnosťou. To, čo na prvý pohľad môže vyzerať ako triviálne pravidlo, je v podmienkach Ruskej Federácie celkom náročný proces. Treba si totiž uvedomiť, že v tom istom čase môže v jednej časti krajiny snežiť a v druhej byť kľudne 32 stupnňov Celzia. Jednotlivé odporúčanie algoritmy tak musia dynamicky zohľadňovať, aké počasie má dnes región, v ktorom klient nakupuje. Vskutku veľmi elegantná Big Data inovácia.

– – – Ak vás zaujal tento článok alebo ste fanúšikom práce s dátami, pridajte sa do našej bezplatnej MocneData komunity. Členovia komunity majú prístup k prezentáciám a zamknutým, neverejným blogom. Členom sa môžete stať za necelú minútu TU. – – –

To vešiak! Prapodivné príznaky produktov

Ďalšu zaujímavou novinkou z oblasti dátovej analytiky priniesla spoločnosť JAEGER. Táto JAEGERspoločnosť predáva konfekciu v rámci siete vlastných predajní a dlhodobo sa potýkala s problémom miznúceho tovaru z predajní. Podiel “nenájadeného” tovaru počas inventúry predstavoval v odvetví neprimerane vysoké čísla. Spoločnosť sa preto rozhodla zrezlizovať detailný audit a odhaliť príčinu týchto, jemne povedané, “strát” oblečenia.

Väčšina spoločností by v takejto situácii investovala do strážnej služby pri východe z predajne, či precíznejšieho kamerového systému. JAEGER sa však vybral inou a veľmi zaujímavou cestou. Zobral si stavebné nákresy všetkých predajní a každému typu tovaru priradil dodatočné atribúty v podobe toho, v ktorých častiach predajne sa najčastejšie daná tovarová položka vystavuje. Tým dátových analytikov následne dal do súvisu polohu tovaru v obchode s mierou jeho “strácania sa”. Zaujímavé bolo, že odpoveďou na zvýšené miznutie tovaru nebola blízkosť k východu alebo nejakého tmavého kútu. Skutočne dôležitým faktorom sa ukázali určité typy regálov, ktoré používali na vystavenie tovaru iných druh vešiaku. Ten umožňoval nehlučne, a hlavne nepozorovane, zvesiť daný tovar a skryť ho pod šaty, či bundu. Akonáhle zrušili tento druh regálu a nahradili ho iným, podarilo sa im eleminovať takmer 75% percent krádeži tohto typu tovaru.

United colours of Nordstrom

S trochou uštipačnosti by sa dalo povedať, že Severo-Americká maloobchodná sieť Nordstrom by mohla ukoristiť legendárny slogan Benetonu. Tým dôvodom, prečo by si mohla tento titul uzurpovať, je pomerne unikátna stratégia, ktorú začali v NordStrome realizovať. Pri niektorých typoch tovarov, ako sú čaje, bytový textil alebo oblečenie je veľmi dôležité zachytiť správne módnu vlnu z hľadiska farieb, či iných modifikácií produktu. Práve farby sú predmetom mnohých prebdených nocí pre category manažérov nákupných oddelení konfekcie. Bude tohto roku ešte staroružová IN, alebo sa presadí horčicová, či tyrkysová farba?

NORDSTROMNiekoľko desaťročí sa reťazce vydávali na milosť módnych dizajnérov, ktorí určovali, na akú farbu v tejto rulete obchodu v daný rok staviť. Manažment NordStromu však zrejme nebol spokojný s týmto druhom “hazardu” a tak prišiel s famóznou inováciou, že farebné trendy oblečenia proste odčítajú z davu. Pomocou rozsiahlej siete Instagram fanúšikov firemného profilu, precízne sledovali aké farby sa objavujú na fotkách jednotlivých užívateľov a z miery výskytu daných farieb v Instagram postoch následne určovali farebné trendy pre danú sezónu. Táto inovatívna forma crowdsourcingu bola o to účinnejšia, že na rozdiel od celonárodných farebných trendov, ktoré presadzovali dizajnéri, podobne ako pri počasí v Rusku, Nordstrom dokázal nastavovať farebný mix podľa vývoja v danej oblasti. Vidiecke regióny tak napríklad mali svoju vlnu farieb odlišnú od mestkých farebných trendov.

Vo všetkých 4 popísaných prípadoch sa spoločnosti dostali k prevratným inováciam nepriamo alebo náhodou. Vynieslo ich to na piedestál ich odvetví, aj keď o to v prapôvodnom zámere nešlo. Spoločností, ktoré “omylom” prerazili s nejakou myšlienkou je okolo nás mnoho, tak sa vám tento druh príbehov páčil, pridajte komentár pre podporu jeho pokračovania.

– – – Ak vás zaujal tento článok alebo ste fanúšikom práce s dátami, pridajte sa do našej bezplatnej MocneData komunity. Členovia komunity majú prístup k prezentáciám a zamknutým, neverejným blogom. Členom sa môžete stať za necelú minútu TU. – – –

S pozdravom, Filip Vítek.

Rebríček riešiteľov Dátových CRM hádaniek

Mnohí riešitelia Dátových CRM hádaniek venujú tejto činnosti nemalú časť svojho voľného času. Tým najúspešnejším sa možno ujde aspoň kde-tu nejaká cena za popredné umiestnenie. Doposiaľ však nebola možnosť ako vyzdvihnúť aj tých ostatných riešiteľov. Mocnedata.sk sa preto rozhodli spustiť (a pravidelne aktualizovať) dvoranu uznania, akýsi Celkový rebríček riešiteľov (ACP).

Keďže veľká časť riešení prvých troch kôl, ktoré sa udiali ešte na TREND portáli, boli doručované len pod pseudonymom bez udania jednoznačného údaja, ktorý by umožnil spárovať výsledky naprieč kolami, do ACP rebríčka sa budú započítavať len výsledky úloh už zverejnených na portáli www.mocnedata.sk (teda od 4. kola vyššie). Keďže Dátové Hádanky majú byť primárne o Coubertinovskom duchu (“Nie je dôležité zvíťaziť, ale zúčastniť sa”), za účasť v každom z kôl dátových hádaniek získa účastník aspoň jeden bod. Víťaz daného kola berie bodov 10, strieborný riešiteľ si odnesie do tabuľky 7 bodov a tretie miesto (ak bolo vyhlasené v danom kole) získa 5 bodov.

Po spočítaní bodov za 4. – 8.kolo dátových hádaniek je aktuálne poradie v ACP rebríčku riešiteľov nasledovné:

Súťažiaci CELKOVO BODOV PORADIE
Biescad M. 37 1
Malý Š. 36 2
Kokošková K. 18 3
Kučerová D. 18 3
Gajdoščík M. 12 5
Brc J. 10 6
Babič F. 7 7
Bohmová K. 3 8
Chamrazová P. 3 8
Čopík M. 3 8
Kundrík T. 3 8
Polák T. 3 8
Čík I. 2 13
Hanušiak V. 2 13
H. M. 1 15
Halás P. 1 15
Hrtánek V. 1 15
Konkolová V. 1 15
Mišová B. 1 15
Radič S. 1 15
Richter K. 1 15
Ritomský V. 1 15
Struhár M. 1 15
Vaculčiak B. 1 15
Vansová L. 1 15

Každému z riešiteľov týmto skladám poklonu a verím, že táto malá sieň slávy mu/jej bude aspoň drobným zadosť učinením. Teším sa na ďalšie kolá a zaujímavé riešenia.

Ak vás to zaujíma, môžete si pozrieť, aké úlohy doposiaľ boli predmetom jednotlivých kôl.

Autom do kina ? [7. kolo CRM hádaniek]

Bez ohľadu na to, či sa živíš analyzovaním dát, alebo si od prírody zvedavý/á, aj Ty si môžeš skúsiť, aké je to vydolovať z dát zaujímavé údaje. Komunita ľudí, čo si chcú precibriť mozgové závity a svoje analytické rozlýšlanie utešene rastie s každým kolom CRM hádaniek. Rozhodol som sa preto neváhať a ponúknuť na www.mocnedata.sk portáli už 7. kolo CRM hlavolamov.

Tri najlepšie riešenia 7.kola opäť odmeníme cenami, tento krát to budú 30EUR, 20 EUR a 10EUR poukazy na rozvoj tvojho intelektu. Pre zapojenie sa do súťaže postačí vybrať si jednu z nasledovných úloh (7.1 a 7.2) a riešenie poslať na adresu info@mocnedata.sk v termíne do 16.5.2017. Ak ste nikdy neriešili CRM hádanky, návod ako riešiť tieto úlohy a vzorové riešenie jednej z nich nájdete TU. Ak vás zaujímajú aj staršie úlohy a ich riešenia, nakuknite na súhrn všetkých doposiaľ uverejnených CRM hádaniek.

 

 

Úloha 7.1 – Akú značku automobilu vybrať klientovi?

KITT autoSte analytikom telekomunikačného operátora, ktorý poskytuje svojim klientom klasické služby mobilného telefonovania, dátových paušálov a káblovej televízie. Oslovil vás organizátor veľkého autosalónu, že by chcel SMS správou pozvať široké publikum ľudí na blížiaci sa ročník výstavy. Dal si však podmienku, že pre každého osloveného chce SMSku personifikovať tak, aby pre neho/ju bola propagovaná expozícia konkrétnej automobilky, keďže túto priamu komunikáciu financujú priamo vystavovatelia. Na základe dvojročnej histórie o každom z klientovi za ľubovoľnú z vašich služieb, ako by ste odhadli značku automobilu (ktorú aktuálne jazdí alebo si plánuje kúpiť) každý z klientov?

Úloha 7.2 – Poďte do kina!

Dva roky dozadu ste sa ako banka uchádzali o úverovanie výstavby veľkého KINO komplexu. Ponuky všetkých konkurujúcich bánk boli pomerne podobné, tak ste pridali extra tromf na vrch, aby ste uspeli: Zaviazali ste sa, že Mačky čumia v Kinepo otvorení komplexu zabezpečíte marketingovú podporu na rozbeh fungovania kín. Od prevádzkovateľa kín máte informáciu, že v iných krajinách tento druh podpory fungoval, iba ak nešlo o všeobecnú pozvánku do kina, ale človek dostal pozvanie na konkrétny žáner (ktorý je mu najbližší). Termín spustenia kinosál sa blíži a tak ste poverili svojich analytikov, aby sa z transakčných dát o vkladoch, úveroch a používania platobných kariet pokúsili odhadnúť pre jednotlivých klientov, na aký typ filmov (horor, kreslená rozprávka, sci-fi, thriller, muzikál a pod.) by najradšej išiel do kina. O ktoré informácie z dostupných dát opriete svoje odporúčenie, aby bolo skutočne adresné pre klienta?

Spolu so 7.kolom CRM spúšťam na www.mocnedata.sk aj Celkový rebríček riešiteľov (ACP), ktorý do histórie nesmrteľne zapíše úspechy riešiteľov, ktorí sa podujali riešiť už viac kôl. Viac o tomto rebríčku sa dočítate v samostatnom blogu (už čochvíľa).

Držím palce a teším sa tvoje riešenia! Ak máš akúkoľvek otázku k úloham, neváhaj ju do termínu úloh položiť na vyššie uvedenej email adrese.

Koľko ľudí NAOZAJ prišlo na protikorupčnú demonštráciu?

Začiatkom tohto týždňa otriasla spoločnosťou iniciatíva mladých ľudí, ktorí zorganizovali pochod proti korupcii. Pomerne nepochopiteľne sa aj na strane podporovateľov tejto myšlienky strhla diskusia o tom, koľko ľudí sa ho vlastne zúčastnilo, A tak SME krájali fotky na štvorčeky a počítali ľudí … Koľko ich však prišlo NAOZAJ?

PROTEST_fotka

Panebože, prečo?

Vo svojej práci sa pravidelne potýkam s tým, že kým západné krajiny uvažujú ako použiť dáta a elektronické systémy ako prvú voľbu pri riešení problémov, u nás sa spoliehame na brute-force riešenia (teda hrubú silu). Za tie roky, čo sa s týmto frustrujúcim fenoménom potýkam som mal časť rozmýšľať: PREČO u nás siahame po manuálnych riešeniach ako po porvej voľbe?

F0rovo povedan0, za prvú časť dôvodov nemôžeme úplne sami. Totiž veľkosť našej krajiny (či trhu) spôsobuje, že hruba silamanuálny proces je ešte považovaný za schodné riešenie. Reprezentatívna vzorka SR populácie má menej ako 1500 ľudí a to si veľa ľudí vie predstaviť, že sa dá porátať ešte papierom a ceruzou. Áno, chce to veľa čiarok a zopár opakovaných prepočítaní, ale v princípe sa to ešte dá. Keby sme žili v krajine, kde základom pre výpočet nie je 5 mil, ale 100 mil, tam už je v rádoch, ktoré nikoho nenapadne rátať ručne. (Preto napríklad jedno z prvých použití počítačov bolo pre americké sčítanie obyvateľstva).

Druhou skupinou dôvodov, prečo sa u nás darí manuálnym procesom je, že máme buď žiadnu alebo len povrchnú znalosť o pokročilých metodách spracovania dát. Na západe už sa bežne aplikujú sofistikované metódy analýzy zvuku, obazu, videa. U nás stále manažéri požadujú, aby ste im to “vysypali” do excelu, že oni sa na to pozrú. Pri tom, na väčšinu zložitých algoritmov už existujú ZADARMO programy na webe. Prečo teda nepoužívame tieto možnosti? V komunite mocnedata.sk je ak niekoľko ľudí, ktorí už podobne sofistikované tooly používajú, tých prosím, aby sa nad ďalšiu vetu povzniesli: Lebo väčsina z nás je lenivých si ich vyhľadať. Proste západne dianie v oblasti práce s dátami vospolok IGNORUJEME.

Čo napočítalo SME?

Málokedy sa naskytne v bežnom živote tak flagrantná ilustrácia vyššie uvedených princípov, ako sa tomu stalo v prípade utorňajšej demonštrácie v Bratislave. Je to učebnicový príklad toho, ako hrubá sila nahradila úvahu. Aby sme sa však postúpili od príčin k samotným dôsledkom, poďme si povedať genézu tohto problému: Utorňajšej demoštrácie sa zúčastnil prekapivo veľký počet ľudí a tak sa okamžite rozprúdila diskusia o tom, koľko presne ich bolo. Ako sa nakoniec ukázalo, zvolená “hrubá sila” bola v skutočnosti pomerne “tenká”. Denník SME sa dopočítal k 5500 (už samotné okrúhle číslo vzbudzuje dojem, že sa veľa zaokrúhľovalo pri počítaní). Mestskí policajti prišli s ešte “preciznejším” odhadom 5000. Ich “zelení” kolegovi odhadli účasť na 8 – 9 tisíc. Denník N sa ujal trochu systematickejším spôsobom tejto úlohy a napočítal 7070. Aj u tohto prístupu však bol trochu chvat na škodu. Na fotke, z ktorej vychádzali, je dav useknutý, a tak je zjavné, že aj tento odhad v skutočnosti “podstrelil” realitu. Pomocou jednej metód, nižšie uvedených v tomto blogu, sa dopočítate niekde k číslu 8 349. Obsesia nad samotnými číslami však len odpútava pozornosť nesprávnym smerom. Skutočným problémom je, že vôbec existuje polemika o tom koľko, nie ani tak samotné číslo. Zvyšok tohto blogu by som teda venujem tomu, ako vyriešiť túto situáciu inak ako hrubou silou.

Plytké zamyslenie nad Hlbkovým učením

V oblasti dátovej analytiky existuje sada Deep Learning (hlbkové učenie) algoritmov, ktoré dokážu rozpoznať objekty na fotke a následne ich spočítať. A dokážu to urobiť bez akejkoľvek pomoci človeka. Ak nie ste v tejto oblasti úplne doma, tu je jeden z mojich článkov, ktorý
počítanie davu z fotografievysvetľuje podstatu. Ak by ste počítali ľudí podľa tváre alebo dáždnikov, je tu možnosť ešte zadefinovať počítaču, určitý fragment (napríklad ľudskú hlavu) a stroj dokáže pomocou Machine Learningu vytvoriť klasifikátor. Ten následne dokáže tiež spočítať počet výskytov takýchto fragmentov (farebných machúľ) na fotografii. To je postup, ktorý (podľa všetkého) použili zrejme aj v Denníku N. Pri tom naozaj smutné na tom celom je, že nástroje na takúto analýzu fotky sú dostupné voľne na webe (napr. TU alebo aj TU). Ak sa teda média nechcú blamovať a chcú profesionálne informovať o počte demonštranov, majú dve možnosti: Buď siahnu po niektorom zo spoľahlivejších samopočítacích riešení (viď ďalej v blogu) ALEBO naozaj aspoň trochu rozšíria svoje obzory pomocou googlu. Páni, určite však nie vytiahnuť fixku na väčší formát fotografie, …

Profesionálni počítači davov

Ak si dáte dva kroky späť, tak v skutočnosti existujú aj oveľa spoľahlivejšie riešenia, ako určiť počet ľudí na danom mieste, ako počítať ich z fotky. Každý demonštrujúci na tomto pochode mal nepochybne pri sebe mobil. Mobilný telefón je neustále aktívne spojený s tak zvanými BTS stanicami (laicky povedané s vykrývacími vysielačmi). Mobilný operátor teda vie pomerne presne, koľkotriangulacia signalu “ovečiek” sa mu v daný moment nachádzalo v dosahu signálu jednotlivých BTS staníc. Keďže mobil sa paralelne (kvôli stabilite hovoru a dátoveho prenosu) prihlasuje do viacerých BTS staníc súčasne, ich trianguláciou sa dajú spoľahlivo odlíšiť ľudia, ktorí idú okolo autom od tých, čo stáli na námestí aspoň 30 min nepretržite. Na Slovensku už exisutujú služby ako MarketLocator.sk, ktoré agregujú tieto údaje za všetkých operátorov. Poskytovatelia tejto služby by tak mohli byť profesionálni skrutátori, teda “počítači davu“. Som zvedavý, či chalanov z MarketLocatoru to vyprovokuje ešte k nejakej účasti na tejto “koľko tam bolo ľudí” diskusii.

Organizátori, nenechajte to na náhodu

Tou najpodstatnejšou poznámkou v tejto diskusii však je fakt, že zbytočnému bagatelizovaniu zhromaždenia mohli predísť aj samotní organizátori. Ak chcem, aby bolo zrejmé, aká veľká masa občanov na námestí prehovorila, ako organizátor by som mal medzi svoje povinnosti zahrnúť nielen povolenie od mesta či pozvanie hudobných hostí na tribúnu. Ale aj nástroj pre echo z akcie do digitálneho svetu. Veď skutočný efekt demoštrácie je v jej mediálnom ohlase, nik z vlády si nepríde vypočuť na SNP, čo im chce dav povedať. Jedna vec je teda zvolať akciu cez Facebook (pasívna podpora, ktorá sa dá neskôr spochybňovať) a druhá preukázať, že 10 000 ľudí skandovalo “Do basy” pre niektorého z politikov.

iBeacons-usageTechnologických možností sa nechať dav “samospočítať sa” je už dnes mnoho. Od špeciálnej Appky pre danú akciu, cez Wifi hot-spoty, ktoré spočítajú počet telefónov v dosahu, až po iBeacony, či iné technologie rozoznávajúce blízkosť mobilného telefónu. Ak sa niektorí nadšenci pre budúce opakovania pochodov rozhodnú vytvoriť takýto samopočítací nástroj, je potrebné ale dobre vymyslieť, ako oddeliť solidaritu s podujatím na diaľku (napr. like na facebooku, alebo stiahnutie Appky), od prítomnosti na mieste (fyzický sken MAC adresy, UID alebo iného jednoznačného ID používateľa).

Keby zhromaždenie organizovala Jednota dôchodcov, asi by bolo nemiestne od nich očakávať, že vytvoria mobilnú Appku, wifi hot-spot alebo niektorý z iných identifikátorov. Ale pri aktivite mladých ľudí to nie je horibilná požiadavka. Veď keby len organizátori vyzvali prítomných, aby do 2 min poslali SMS na určité číslo, odhad účastníkov by bol presnejší ako pokrájané-SME-fotky. Možno ste postrehli, že prezident Kiska vyhlásil hackathon súťaž na aplikácie proti extrémizmu. Čo keby niekto z mladých ako ročníkovú prácu alebo hobby vytvoril konečne rozumnú apppku na samospočítanie davu ? Schválne prijme niekto túto výzvu? TUKE, FIIT STU, anybody?

machinelearning_3b

Do momentu, kým sa tak stane budeme musieť asi strpieť “fixkové pokusy” ako náhradu. Skúste sa však všetci zamyslieť nad procesmi okolo seba. Naozaj sa nedá oprieť o nejaké už zozbierané údaje alebo požadať dav aby nám ich crowd-sourcol? Alebo je to len naša lenivosť rozhliadnuť sa, spojená s tým, že žijeme v krajine, kde 1100 je veľkosť reprezentatívnej vzorky populácie?

—- Ak vás zaujal tento článok alebo ste fanúšikom práce s dátami, pridajte sa do našej bezplatnej MocneData komunity. Členovia komunity majú prístup k prezentáciám a zamknutým, neverejným blogom. Členom sa môžete stať za necelú minútu TU. —-

O Dátach s humorom

Každá práca môže byť časom ubíjajúca. Tá data miningová pre väčšinu ľudí pripadá ako čistá nuda (ja viem, tí čo to hovoria, nevedia, čo to naozaj obnáša). Aj v živote štatistikov však existuje humor. Niekedy síce trochu špecifický, ale predsa. Na odľahčenie všetkých tých vážných tém som sa rozhodol prihodiť aj trochu humoru. Humoru štatistického:

(niektoré vtipy som musel ponechať v angličtine, lebo po prekladedo SJ  by stratili pointu alebo svoje čaro)

 

Štatistikovi sa narodia krásne dvojičky, sú celí šťastní s manželkou a rozhodnú sa nechať ich pokrstiť. Prídú teda s deťmi do kostola. Kňaz zoberie prvé dieťa a pokrstí ho. Keď siahne aj po druhom, štatistik skríkne: “Nie, počkajte, jedno pokrstíme a druhé si necháme ako kontrolnú vzorku”.

– – –

Štatistické pojmy sa rozhodli, že pôjdu na karneval a urobia si súťaž o najkrajšiu masku. Tak si každá funkcia vyrobila nejakú masku a zhromaždili sa v sále. Iba Nulová hypotéza prišla na párty bez kostýmu. Ostatné pojmy sa jej pýtajú: “Hej, Nulová hypotéza, prečo si prišla bez masky?” A ona im namrzene odvrkla “Sa tu na nič nehrajme, ak tak je všetkým jasné, že by ste ma zamietli.”

– – –

Aký je rozdiel medzi extrovertným a introvertným štatistikom? Ten extrovertný pozerá na TVOJE topánky, keď s Tebou hovorí.

– – –

Why are open source statistical programming languages the best?  Because they R.

– – –

Prečo si štatistik nikdy nepýta žuvačku od Štandardného normálneho rozdelenia? Vie, že môže očakávať nulu.

– – –

Data query comes into bar and looks around. The she comes to two tables and says … “Mind if I join you?”

– – –

Koľko štatistikov je potrebných na výmenu žiarovky? Približne 5 až 7, s  p-value = 0.01

– – –

Štatistici sú ako bikiny. To, čo odhalia je vzrušujúce, ale dôležitejšie je to, čo skrývajú.

– – –

Na lavičke sedia dvaja smutní štatistici. Príde k nim tretí a hovorí: “Nebuďte takí zronení a poďte sa zabaviť.  Žiaden rozptyl predsa nemôže byť negatívny!”

– – –

Jedného dňa vnikol požiar v kancelárii Dekana prírodných vied a tak rýchlo privolá Fyzika, Chemika a Štatistika, aby mu pomohli oheň uhasiť. Fyzik sa okamžite pustí do výpočtu, koľko energie bude treba ohňu odobrať, aby vedel koľko hasiaceho média bude treba na uhasenie požiaru. Chemik horúčkovito začne premýšlať akú čo najlepšiu dusnú látku použijú, aby zabránila oxidácii a tak udusila oheň. Kým títo dvaja počítajú, štatistik zoberie kus horiaceho nábytku a začne podpalovať ostatné kancelárie. Zdesený Dekan sa ho pýta: “Čo to preboha robíš?”. Štatistik pokojným hlasom odpovedá: “Nuž, aby sme našli optimálne riešenie, zjavne potrebujeme väčšiu štatistickú vzorku!”

 

Viete vy nejaký dobrý vtip o Štatistikoch? Pridajte ho sem.

Posadnutosť Slovákov mobilnými číslami

Jednou z výhod práce s veľkými spoločnosťami je, že v ich dátach je možné realizovať zaujímavé sociálne bádanie a experimenty. Podobnú možnosť som mal nedávno, keď sme analyzovali dáta jednej slovenskej firmy, ktorá má viac ako 1 mil klientov. Išlo o analýzu telefónnych čisiel, z ktorej vyplynuli o Slovákoch pozoruhodné závery. Veď posúďte sami:

Slováci posadnutí mobilnými číslami?!

Na mušku sme si zobrali mobilné telefónne čísla klientov. Keďže išlo o fyzické osoby, v analýze vystupovali len súkromné čísla ľudí, služobné mobily (u ktorých zväčša býva spoločný základ čísla) sa v analýze nezohľadňovali. Z medzinárodného formátu mobilného čísla +421 xxx yyy yyy sme odrezali začiatok +421 xxx, ktorý na Slovensku predstavuje predvoľbu operátora (teda aspoň v minulosti predstavoval) a zamerali sme sa len na posledných 6 čísiel “yyy yyy”, ktoré si klient môže sám zvoliť pri dojednávaní zmluvy s mobilným operátorom. Položili sme si zdanlivo jednoduchú otázku otázku: Majú slováci nejaké preferencie a úchylky pri výbere mobilného čísla? Ak sa totiž nejaká kombinácia čísiel objavuje častejšie ako by sa štatisticky mala objaviť pri náhodnom výbere čísla, je zrejmé, že klienti si túto možnosť cielene vyberajú. V čom sme teda iní v mobiloch?

Hlavne nebyť nulou v spoločnosti. Aspoň na začiatku nie

Hoci nula medzi krvnými skupinami má veľmi vysoký spoločenský kredit (môže dať krv komukoľvek inému), medzi mobilnými číslami slovákov táto cifra nežne zásadný úspech graf použitia prvej cifrya to najmä za začiatku čísla. Ak sa pozriete na graf toho, ako často sa jednotlivé cifry objavujú na prvom mieste v mobilných čísiel Slovákov, pochopíte, že máme fóbiu z NULY a SEDMIČKY na začiatku. Naopak najžiadanejší začiatok mobilného čísla pre Slováka je na jednu z cifier 1,2 alebo 3.

Komické pri tom je, že týchto dvoch cifier (7 a 0) sa zásadne bojíme len na prvom mieste mobilného čísla, keď sa pozrieme na ďalšie pozície v mobilnom čísle, tak medzi jednotlivým ciframi nie je až taký rozdiel. Pre slováka je pri výbere mobilného čísla dôležité hlavne dobre začať. A hoci so sedmičkou nie sme úplne spokojní ani v ďalších cifrách, naopak nula sa od 2. do 6. pozície stáva celkom populárnou cifrou.

výber cifry na 2. až 6. mieste

 

 

 

 

 

Obľúbené číslo? Iné v každom veku

Pri zohľadnení všetkých 6 pozícii, kde sa jednotlivé cifry môžu objaviť, Slováci si najviac prajú mať vo svojom čísle aspoň jednu “2”ku. (do svojej číselnej kombinácie si ho vyberá 49% Slovákov, teda aspoň každý druhý z nás). V priemernej štvorčlennej domácnosti, ak dáte všetky mobily dokopy, mali by ste mať v ich číslach aspoň 2 krát číslo dva. Preto ak  na najbližšie návšteve sa chcete blisnúť ako nádejný kúzelník, pobavte hostiteľov trikom, že uhádnete aspoň 2 cifry z ich mobilných čísiel.

Naopak najmenej populárnou cifrou pri výbere mobilného čísla je u slovákov číslo “9”. V mobilných číslach našich krejanov sa objavuje približne o jednu desatinu menej ako spomínaná, žiadaná 2ka. Uvedené preferencie slovákov však nie sú konzistentné naprieč generáciami. Keď sa pozrieme na obľúbené číslo podľa veku, tak každá z generácii má trochu iných favoritov:

obľúbené cifry v mobilnom čísle podľa veku klienta

Čo majú generácie spoločné je, že “fandia” pomerne rovnako číslam “2” a “3”. Pre adolescentov je však cool napríklad NULA, kdežto u ľudí stredného veku je nula najmenej obľúbené číslo. U starších ľudí je pomerne populárna ako číslica aj “5” (že by dôsledok legendárneho filmu číslo 5 žije ?), najmladší držitelia mobilov však nad týmto číslom len laxnemávnu rukou. Azda najzaujímavejším javom je, že všetky generácie vedno pramálo volia vysoké číslice 7, 8 a 9.

Mobilné číslo ako status. Ako sa hrnie Slovák za “peknými” číslami?

Možno si pamätáte, že v dobe keď sa rozbiehali mobilné telefóny, bola zhánka po zaujímavých mobilných číslach. Tato show-off tendencia plynula aj z toho, že pri zapájaní pevnej linky ste si číslo nemohli príliš vyberať, proste vám Slovenské Telekomunikácie (alebo ešte SPOJE) nejaké číslo pridelili a boli ste radi, že vôbec máte telefónnu prípojku. S príchodom mobilov, kde si klient zrazu mohol vybrať svoje číslo, sa tak rozpútal súboj o statusové číslo.

Možno aj práve preto je zrejmé, že pekné čísla išli na dračku a minuli sa oveľa skôr ako ostatné čísla. Slováci teda majú obsesiu v tom, ako ich mobilné číslo vyzerá. Veď pozrite, koľko slovákov chce …

záujem o pekné čísla

Dokopy viac ako polovica registrovaných čísiel má aspoň jeden z pekných tvarov. Ak teda slovák vyberá pre seba mobilné číslo, hlavne nech sa ľahko pamätá (čo bola najčastejšia výhovorka pre túto slabosť od majiteľov statusových čísiel).

Dátumy medzi slovákmi nefrčia

Ak by si ľudia naozaj chceli dobre pamätať telefónne číslo, stačilo si vybrať svoj dátum narodenia. Šestmiestny tvar tomu silno drukuje, lebo väčšina ľudí vtesná svoj dátum narodenia (napr. 1981 3 6) do takejto kombinácie a úplne každý môže použiť začiatok svojho rodného čísla pred lomítkom (napr. 590819 / xxxx). Na prekvapenie tento trend sa však vôbec neujal, keď sme testovali početnosť jednotlivých dní narodenia v populácii, tak vôbec nekoreloval s množstvom takto zvolených čísiel.  Iste, niekto by moho namietať, že dátum som si mohol voliť aj podľa výročia svadby alebo narodenín partnera/-ky, čo je tažk0 v dátach preukázať. Minimálne však čísla, ktoré začínajú letopočtami sú v medzi slovákmi výrazne pod priemerom.

Národ tajných agentov

Výsledok vyhľadávania obrázkov pre dopyt james bondAk by sa početnosť tajných agentov hodnotila podľa tvaru ich telefónneho čísla, tak Slovensko je skutočná veľmoc na poli tajných služieb. Na 1000 slovákov totiž pripadá až 41 James Bondov, ktorí si do svojho mobilného čísla zakomponovali kombináciu “007”. (len pre ilustráciu je to asi 4x viac ako by bolo realitou, keby si ľudia vyberali čísla náhodne). Zaujímavé je, že hoci vo filme bolo viac Bond girls a len zopár predstaviteľov tajného agenta, na Slovensku láka tento špionážny jav pomerne podobné množsvo žien aj mužov. (Jamesom sa muži stávajú len o desatinu častejšie ako ženy M alebo Money Penny 🙂

Sme aj poverčiví

Napriek tomu, že chceme mať číslo čo najkrajšie, istej trojici sa vyhýbame. Diablovo číslo (666) chce mať v telefónnom čísle len niečo menej ako 0,09% ľudí. Obava z tejto démonickej kombinácie je zreteľná, aj keď sa pozrieme na to, ako jednotlivé trojice (111 až 888) sa často obajvujú na začiatku telefónneho čísla. Je zjavné, že kombinácia troch šestiek je najmenej početná a to napriek tomu, že číslo 6 samo o sebe je pri výbere mobilného čísla vo svojej podstate pomerne populárne medzi slovákmi:

obava z 666 kobinácie

[len pre vysvetlenie používanie kombinácii 000 a 999 bolo regulované operátormi, takže ich počty nezodpovedajú slobodnej voľbe, preto sú z prehľadu vynechané]

**************    Tento článok je jedným z viac ako 50 blogov o tom, akú (občas aj zábavnú úlohu) môžu hrať dáta v našich životoch. Články sú občas zrejeňované na blogoch SME.SK alebo TREND.SK, ale väčšina nových článkov je publikovaná len tu na portáli Mocnedata.sk. Ak ak nechceš zmeškať niektorí z budúcich blogov využi bezplatnú registráciu do komunity MocneData. Registrovaní členovia komunity majú prístup aj k dodatočným článkom, videám a prezentáciam, ktoré sú dostupné len pre komunitu. Pre získanie všetkých výhod komunity stačí, keď necháte svoj email tu.   ********

Tieto (trochu uletené) analýzy su vtipnou ukážkou analytického postupu, ktoré mu sa hovorí aj ANALÝZA METADÁT. V odborných kruhoch sa pojem metadát používa najmä pre označenie vedľajšej, nie nutne informačnej, hodnoty dát. Ide teda o takú vlastnosť dát, ktoré si nesú so sebou na pozadí. Napríklad meta dáta registračnej pokladnice nie sú to, aké položky si klient kúpil a koľko zaplatil, ale v ktorú hodinu sa v rámci kalendárneho dňa sa nákup uskutočnil, prípadne v akej krajine bola registrovaná platobná karta, ktorou klient zaplatil nákup.

Keďže cifry mobilného čísla by za normálnych okolností mali byť náhodne a nemali by sa za nimi skrývať nejaké dodatočné informácie, možno ich z hľadiska profilu klienta považovať za meta dáta (aj keď sa nájdu možno aj takí, čo sa budú o tento bod so mnou prieť ). Špeciálnej verzii METADÁT, ktorá je navyše užitočná pre analyzovanie správania, som dal názov Data underdogs (viac si o nich môžete prečítať v tomto staršom blogu). Meta dáta sú ďalšou z vetiev BORING DÁTA, o ktorých som písal pár blogov dozadu. Základnou podstatou analyzovania meta dát je porovnanie voči bežnému (náhodnemu) priebehu alebo výskytu. Totiž práve tam, kde sa meta dáta začnú príliš odchyľovať od bežného štatistického priebehu, začína rásť podozrenie na nejaký skrytý jav. Tak ako tomu bolo napríklad u Slovákov pri 007, či cifre 0 na začiatku čísla.

Ak sa vám článok páčil, alebo chcete niečo autorovi naopak (kľudne aj anonymne) vytknúť, pridajte  svoj komentár tu.