Neznáme algoritmy II. – Small data pravdepodobnosti

V dnešnej dobe väčšinu analytického diskurzu zaberá BigData, pri ktorých prestáva zmysel hovoriť o vzorkách. Často máte k analýze dispozícií celú históriu javu. Pre odhad pravdepodobnosti nejakého javu v BigData stačí pozrieť ako často daná situácia už v minulosti nastala. V bežných, civilných životoch však zriedka máme k dispozícií viac než zopár opakovaní procesu. Napriek tomu však musíme byť schopní odhadnúť pravdepodobnosť daného javu. Ako nestrieľať odboku a správne odhadnúť svoje celkové šance napríklad v lotérií, z ktorej máme len zopár žrebov?

Tento blog je súčasťou seriálu o Menej známych algoritmoch v dátovej analytike. Ak si chcete prečítať aj iné články z tohto seriálu, nájdete ich tu. Ak ešte nie ste členom MOcnedata.sk komunity zadarmo sa zaregistrujte tu a budete dostávať aj rozšírene materiály k týmto blogom.

Predstavte si nasledovnú úlohu. Milujete stieracie žreby, máte radi to vzrušenie, keď zotriete polia a zistíte, či ste niečo vyhrali. Ako váš dobrý priateľ vám chcem urobiť radosť. Dám vám k dispozícii 100 EUR, za ktoré si môžete kúpiť žreby (jeden stojí 2 EUR) a vždy keď niečo vyhráte, môžete výhru opäť premeniť na ďalšie stieracie žreby. Aby príklad nebol zbytočne komplikovaný, povedzme, že na výherných žreboch sa dá vyhrať iba vždy tá istá suma = 50 EUR. Koľko žrebov celkovo zostierate, kým sa vám minú peniaze odo mňa a z potenciálnych výhier?

Úloha by bola celkom jednoduchá, keby ste vedeli pravdepodobnosť výhry. (aj tu by bola odpoveď závislá od šťastia, s akým vyberáte žreby, ale pri dostatočne vysokých počiatočných sumách na nákup žrebov, by ste sa trafili pomerne presne). Ako to už však v lotériách chodí, pravdepodobnosť výhry konkrétneho žrebu nepoznáte (väčšina lotérií je postavených tak, že jej prevádzkovateľ v konečnom dôsledku zarába aj po vyplatení všetkých výherných prémií,  takže sa pravdepodobnosťou výhry príliš nesnaží chváliť). Ako teda odhadnúť skutočnú pravdepodobnosť celkovej výhernosti v danej lotérií, keď máme iba limitovaný počet pokusov?

Aj keď ide o pomerne komplikovaný výpočet, matematikom BayesoviLaplaceovi sa už v stredoveku podarilo prísť na veľmi jednoduchý vzorec ako výpočet realizovať. Ako to už v stredovekej vede chodí, jeden o druhom navzájom nevedeli a dopracovali sa k tým istým záverom. Iróniou osudu je, že hoci väčšia časť práce by sa dala pripísať Laplacovi, do dnešného dňa nesie táto oblasť štatistiky meno práve po Bayesovi. Avšak späť k samotnému výpočtu pravdepodobnosti, ktoré znie nasledovne:

                              P = (m+1) / (n+2)

Kde p = pravdepodobnosť javu, m = počet priaznivých pokusov (v našom prípade výhier), a n= celkový počet opakovaní procesu. Ak teda máte 10 stieracich žrebov, z ktorých 4 vyhrali, tak celková pravdepodobnosť lotérie je približne 5/12 = 42%. Všimnite si, že bežný človek by predpokladal len 40% na základe histórie. Práve šírka skúsenosti s lotériou je tu mne vo vzorci premietnutá. V odbornej verejnosti sa ujal pre tento výpočet názov Laplacovo pravidlo.

Teraz však späť k lotériovej otázke z úvodu. Ak vám dám 100 eur, kúpite si zopár (napr. 10) žrebov. Na základe výsledku budete vedieť solídne odhadnúť, aká je pravdepodobnosť výhry, teda budete vedieť, koľo žrebov si budete môcť kúpiť za výhry (a následne žrebov dodatočne bude možné kúpiť z druhej, tretej, … vlny výhier).  Ak si dáte to pomeru aj (primernú) výhru k cene nového žrebu viete pomerne presne dohadnúť, koľko žrebov vlastne budete môcť zotrieť.

Toto pravidlo má však aj oveľa praktickejšie využitie ako spomínané stiracie žreby. Môžete pomocou neho totiž odhanúť šance akéhikoľvek javu, ktorý sa v živote deje často, ale vy s ním nemáte doposiaľ (skoro žiadnu) skúsenosť. Ako presné sú príchody vlakov, ak ste sa presťahovali do novej krajiny a doposiaľ ste v nej vlakom šli len zopár krát? Ako spoľahlivý je finančný partner, ktorý vám doposiaľ uhrádzal len niekoľko platieb? Ako dochvílny bude nový kolega na základe niekoľkých stretnutí, ktoré ste mail? Všade tam, kde máme málo skúsenosti, ale potrebujeme odhad pravdepodobnosti, Laplacovo pravidlo nám výborne poslúži,

A predsa sa točí…

presypacie_hodinyPravdepodobnosť určitého javu však nie je jedinou vecou, ktorú musíme v bežnom živote odhadovať z pomerne nízkeho počtu vstupných dát. Osobitnou oblasťou ľudských odhadov je snaha o odhad budúceho trvania, najmä pre veci ktoré už bežia. Koľko bude nízka nezamestnanosť, ktorú teraz máme? Koľko rokov bude žiť ešte Kim-Čong-Un? Ako dlho bude ešte fungovať Facebook?

Aj tejto otázke sa pokúšali stredovekí matematici dať ľudstvu nástroj na jednoduchý odhad. Hoci pravidlo je porovnateľne jednoduché, otvorene treba povedať, že aj výrazne menej presné.  Tzv Kopernikovo pravidlo znie:

Ak nemáte žiadne iné údaje o podstate daného javu, tak potom najpresnejší odhad trvania je predpokladať, že jav sa nachádza aktuálne presne v polovici svojho celkového trvania a teda, že celkovo bude trvať ešte toľko, koľko už trval doposiaľ.

Ak si okamžite vybavíte 75 ročného človeka, takáto rada pre odhad dĺžky jeho života je zrejme až tragikomická. Problémom v tomto ohľade je, že odhad, že 75 ročný človek by mal žiť ešte ďalších 75 rokov nám príde absurdný len preto, lebo niečo vieme o strednej dĺžke života človeka. Ak by na zemi pristáli Marťania a stretli 75 ročného človeka, pre nich by naozaj najpresnejším odhadom dožitia človeka bolo predpokladať ďalších 75 rokov. Prečo je to však vlastne tak? Prečo predpokladá Koperníkovo pravidlo, že človek má ešte raz toľko pred sebou?

Pre ľudí znalých štatistiky je odpoveď pomerne jednoducho uchopiteľná. Pointa je, že keď Marťan stretne pozemšťana v našom vyššie uvedenom prípade, nevie v ktorej časti života sa človek nachádza. Keďže stretol náhodného človeka, to v akej fáze života ho stretol podlieha normálnemu, Gaussovému rozdeleniu. V tom však platí, že najpravdepodobnejšia hodnota je hodnota presne uprostred. Z toho aj plynie, že ak stretávate ľudí, tak najviac ľudí štatisticky stretnete v ich strednom veku. Ak teda neviete nič o (štandardnom) trvaní javu, na ktorý sa pozeráte, ale potrebujete odhad toho, koľko trvá, nuž predpokladajte, že ešte raz toľko ako doposiaľ.

— Tento blog je súčasťou seriálu o Menej známych algoritmoch v dátovej analytike. Ak si chcete prečítať aj iné články z tohto seriálu, nájdete ich tu. Ak ešte nie ste členom MOcnedata.sk komunity zadarmo sa zaregistrujte tu a budete dostávať aj rozšírene materiály k týmto blogom. —