Koľko ľudí NAOZAJ prišlo na protikorupčnú demonštráciu?

Začiatkom tohto týždňa otriasla spoločnosťou iniciatíva mladých ľudí, ktorí zorganizovali pochod proti korupcii. Pomerne nepochopiteľne sa aj na strane podporovateľov tejto myšlienky strhla diskusia o tom, koľko ľudí sa ho vlastne zúčastnilo, A tak SME krájali fotky na štvorčeky a počítali ľudí … Koľko ich však prišlo NAOZAJ?

PROTEST_fotka

Panebože, prečo?

Vo svojej práci sa pravidelne potýkam s tým, že kým západné krajiny uvažujú ako použiť dáta a elektronické systémy ako prvú voľbu pri riešení problémov, u nás sa spoliehame na brute-force riešenia (teda hrubú silu). Za tie roky, čo sa s týmto frustrujúcim fenoménom potýkam som mal časť rozmýšľať: PREČO u nás siahame po manuálnych riešeniach ako po porvej voľbe?

F0rovo povedan0, za prvú časť dôvodov nemôžeme úplne sami. Totiž veľkosť našej krajiny (či trhu) spôsobuje, že hruba silamanuálny proces je ešte považovaný za schodné riešenie. Reprezentatívna vzorka SR populácie má menej ako 1500 ľudí a to si veľa ľudí vie predstaviť, že sa dá porátať ešte papierom a ceruzou. Áno, chce to veľa čiarok a zopár opakovaných prepočítaní, ale v princípe sa to ešte dá. Keby sme žili v krajine, kde základom pre výpočet nie je 5 mil, ale 100 mil, tam už je v rádoch, ktoré nikoho nenapadne rátať ručne. (Preto napríklad jedno z prvých použití počítačov bolo pre americké sčítanie obyvateľstva).

Druhou skupinou dôvodov, prečo sa u nás darí manuálnym procesom je, že máme buď žiadnu alebo len povrchnú znalosť o pokročilých metodách spracovania dát. Na západe už sa bežne aplikujú sofistikované metódy analýzy zvuku, obazu, videa. U nás stále manažéri požadujú, aby ste im to „vysypali“ do excelu, že oni sa na to pozrú. Pri tom, na väčšinu zložitých algoritmov už existujú ZADARMO programy na webe. Prečo teda nepoužívame tieto možnosti? V komunite mocnedata.sk je ak niekoľko ľudí, ktorí už podobne sofistikované tooly používajú, tých prosím, aby sa nad ďalšiu vetu povzniesli: Lebo väčsina z nás je lenivých si ich vyhľadať. Proste západne dianie v oblasti práce s dátami vospolok IGNORUJEME.

Čo napočítalo SME?

Málokedy sa naskytne v bežnom živote tak flagrantná ilustrácia vyššie uvedených princípov, ako sa tomu stalo v prípade utorňajšej demonštrácie v Bratislave. Je to učebnicový príklad toho, ako hrubá sila nahradila úvahu. Aby sme sa však postúpili od príčin k samotným dôsledkom, poďme si povedať genézu tohto problému: Utorňajšej demoštrácie sa zúčastnil prekapivo veľký počet ľudí a tak sa okamžite rozprúdila diskusia o tom, koľko presne ich bolo. Ako sa nakoniec ukázalo, zvolená „hrubá sila“ bola v skutočnosti pomerne „tenká“. Denník SME sa dopočítal k 5500 (už samotné okrúhle číslo vzbudzuje dojem, že sa veľa zaokrúhľovalo pri počítaní). Mestskí policajti prišli s ešte „preciznejším“ odhadom 5000. Ich „zelení“ kolegovi odhadli účasť na 8 – 9 tisíc. Denník N sa ujal trochu systematickejším spôsobom tejto úlohy a napočítal 7070. Aj u tohto prístupu však bol trochu chvat na škodu. Na fotke, z ktorej vychádzali, je dav useknutý, a tak je zjavné, že aj tento odhad v skutočnosti „podstrelil“ realitu. Pomocou jednej metód, nižšie uvedených v tomto blogu, sa dopočítate niekde k číslu 8 349. Obsesia nad samotnými číslami však len odpútava pozornosť nesprávnym smerom. Skutočným problémom je, že vôbec existuje polemika o tom koľko, nie ani tak samotné číslo. Zvyšok tohto blogu by som teda venujem tomu, ako vyriešiť túto situáciu inak ako hrubou silou.

Plytké zamyslenie nad Hlbkovým učením

V oblasti dátovej analytiky existuje sada Deep Learning (hlbkové učenie) algoritmov, ktoré dokážu rozpoznať objekty na fotke a následne ich spočítať. A dokážu to urobiť bez akejkoľvek pomoci človeka. Ak nie ste v tejto oblasti úplne doma, tu je jeden z mojich článkov, ktorý
počítanie davu z fotografievysvetľuje podstatu. Ak by ste počítali ľudí podľa tváre alebo dáždnikov, je tu možnosť ešte zadefinovať počítaču, určitý fragment (napríklad ľudskú hlavu) a stroj dokáže pomocou Machine Learningu vytvoriť klasifikátor. Ten následne dokáže tiež spočítať počet výskytov takýchto fragmentov (farebných machúľ) na fotografii. To je postup, ktorý (podľa všetkého) použili zrejme aj v Denníku N. Pri tom naozaj smutné na tom celom je, že nástroje na takúto analýzu fotky sú dostupné voľne na webe (napr. TU alebo aj TU). Ak sa teda média nechcú blamovať a chcú profesionálne informovať o počte demonštranov, majú dve možnosti: Buď siahnu po niektorom zo spoľahlivejších samopočítacích riešení (viď ďalej v blogu) ALEBO naozaj aspoň trochu rozšíria svoje obzory pomocou googlu. Páni, určite však nie vytiahnuť fixku na väčší formát fotografie, …

Profesionálni počítači davov

Ak si dáte dva kroky späť, tak v skutočnosti existujú aj oveľa spoľahlivejšie riešenia, ako určiť počet ľudí na danom mieste, ako počítať ich z fotky. Každý demonštrujúci na tomto pochode mal nepochybne pri sebe mobil. Mobilný telefón je neustále aktívne spojený s tak zvanými BTS stanicami (laicky povedané s vykrývacími vysielačmi). Mobilný operátor teda vie pomerne presne, koľkotriangulacia signalu „ovečiek“ sa mu v daný moment nachádzalo v dosahu signálu jednotlivých BTS staníc. Keďže mobil sa paralelne (kvôli stabilite hovoru a dátoveho prenosu) prihlasuje do viacerých BTS staníc súčasne, ich trianguláciou sa dajú spoľahlivo odlíšiť ľudia, ktorí idú okolo autom od tých, čo stáli na námestí aspoň 30 min nepretržite. Na Slovensku už exisutujú služby ako MarketLocator.sk, ktoré agregujú tieto údaje za všetkých operátorov. Poskytovatelia tejto služby by tak mohli byť profesionálni skrutátori, teda „počítači davu„. Som zvedavý, či chalanov z MarketLocatoru to vyprovokuje ešte k nejakej účasti na tejto „koľko tam bolo ľudí“ diskusii.

Organizátori, nenechajte to na náhodu

Tou najpodstatnejšou poznámkou v tejto diskusii však je fakt, že zbytočnému bagatelizovaniu zhromaždenia mohli predísť aj samotní organizátori. Ak chcem, aby bolo zrejmé, aká veľká masa občanov na námestí prehovorila, ako organizátor by som mal medzi svoje povinnosti zahrnúť nielen povolenie od mesta či pozvanie hudobných hostí na tribúnu. Ale aj nástroj pre echo z akcie do digitálneho svetu. Veď skutočný efekt demoštrácie je v jej mediálnom ohlase, nik z vlády si nepríde vypočuť na SNP, čo im chce dav povedať. Jedna vec je teda zvolať akciu cez Facebook (pasívna podpora, ktorá sa dá neskôr spochybňovať) a druhá preukázať, že 10 000 ľudí skandovalo „Do basy“ pre niektorého z politikov.

iBeacons-usageTechnologických možností sa nechať dav „samospočítať sa“ je už dnes mnoho. Od špeciálnej Appky pre danú akciu, cez Wifi hot-spoty, ktoré spočítajú počet telefónov v dosahu, až po iBeacony, či iné technologie rozoznávajúce blízkosť mobilného telefónu. Ak sa niektorí nadšenci pre budúce opakovania pochodov rozhodnú vytvoriť takýto samopočítací nástroj, je potrebné ale dobre vymyslieť, ako oddeliť solidaritu s podujatím na diaľku (napr. like na facebooku, alebo stiahnutie Appky), od prítomnosti na mieste (fyzický sken MAC adresy, UID alebo iného jednoznačného ID používateľa).

Keby zhromaždenie organizovala Jednota dôchodcov, asi by bolo nemiestne od nich očakávať, že vytvoria mobilnú Appku, wifi hot-spot alebo niektorý z iných identifikátorov. Ale pri aktivite mladých ľudí to nie je horibilná požiadavka. Veď keby len organizátori vyzvali prítomných, aby do 2 min poslali SMS na určité číslo, odhad účastníkov by bol presnejší ako pokrájané-SME-fotky. Možno ste postrehli, že prezident Kiska vyhlásil hackathon súťaž na aplikácie proti extrémizmu. Čo keby niekto z mladých ako ročníkovú prácu alebo hobby vytvoril konečne rozumnú apppku na samospočítanie davu ? Schválne prijme niekto túto výzvu? TUKE, FIIT STU, anybody?

machinelearning_3b

Do momentu, kým sa tak stane budeme musieť asi strpieť „fixkové pokusy“ ako náhradu. Skúste sa však všetci zamyslieť nad procesmi okolo seba. Naozaj sa nedá oprieť o nejaké už zozbierané údaje alebo požadať dav aby nám ich crowd-sourcol? Alebo je to len naša lenivosť rozhliadnuť sa, spojená s tým, že žijeme v krajine, kde 1100 je veľkosť reprezentatívnej vzorky populácie?

—- Ak vás zaujal tento článok alebo ste fanúšikom práce s dátami, pridajte sa do našej bezplatnej MocneData komunity. Členovia komunity majú prístup k prezentáciám a zamknutým, neverejným blogom. Členom sa môžete stať za necelú minútu TU. —-