Dáta opäť prehovorili: AKÉ SÚ ŠANCE ŠEFČOVIČA na OBRAT?

Pred 5 rokmi, medzi prvým a druhým kolom prezidentských volieb som zanalyzoval dostupné dáta a pokúsil sa ponúknuť voličom aj iný pohľad ako, prepáčte mi, otrepaný pohľad na mapu okresov, kde ktorý kandidát zvíťazil. (Analýza je stále dostupná tu). Mal som vtedy na analýzu (až prekvapivo) pozitívne ohlasy, dokonca ma citoval vo svojom vystúpení aj Marián Leško z TRENDu (pozdravujem Marián, dávam Vám šancu na repete 😊 aj tohto roku). Rozhodol som sa preto tento počin zopakovať a prinášam Vám niekoľko pohľadov, ktoré nenájdete v žiadnych iných médiách. Verím, že by Vám mohli byť užitočné pri rozhodovaní v 2. kole  prezidenstkých volieb.

 

Na volebné dáta sa dá pozerať z veľkého množstva uhlov pohľadu. Ešte než sa pustíme do samotného obsahu, dovoľte mi jeden krátky odsek o tom, prečo som vybral práve nižšie uvedené informácie. Keďže výsledok prvého kola bol pomerne jasný, väčšina výskumných agentúr sa rozhodla nerealizovať (verejné) prieskumy o tom, ako sa nálady menia po prvom kole. Zuzana Čaputová spolu s Marošom Šefčovičom mali spolu necelých 60% platných hlasov, zostáva teda 40% hlasov, ktoré sa (teoreticky) môžu prikloniť na ľubovoľnú stranu. Jediné indikácie o tom, kam by sa mohli presunúť, ponúkla Markíza v povolebnom štúdiu, ale aj tie pochádzali z vyjadrení voličov ešte pred prvým kolom. Ako voliči sme teda v informačnej tme, čo sa môže udiať s týmito 40%. Pritom ide o tak veľký balík, ktorý môže spôsobiť aj opačné poradie ako v prvom kole. Druhou podstatnou témou pre výsledok druhého kola je účasť na hlasovaní. Musím priznať, že mi dvíha dekel, ako povrchne sa diskutuje v médiách o tejto téme. Pritom dáta jednoznačne ukazujú, komu účasť prispela už v prvom kole a čo to znamená pre mobilizáciu druhého kola. Posledným fenoménom, ktorý sa vo volebných analýza hodne fláka, je pri akej úrovni sčítanosti už možno “otvoriť šampus“. Pridám preto jasnú odpoveď na túto tému, ktorá by mohla prísť vhod, keď si budete obhrýzať nechty z prvých predbežných výsledkov v sobotu v noci.

1] Ku komu inklinujú voliči kandidátov, ktorí nepostúpili do druhého kola

Jedna z vecí, ktoré ma ako voliča trápili, že pomerne veľká časť voličov (kontrétne cca 40%) je v nejasných rukách. Pritom je to balík tak závažný, že by dokázal zvrátiť celkový výsledok volieb. Medzi prvým a druhým kolom pritom nevyšiel žiaden prieskum, ktorý by monitoroval presun týchto voličov. Média to odbili komentárom, že títo voliči budú frustrovaní (a k voľbám nepôjdu) alebo sa uspokojili s výsledkami prieskumu Focusu, ktorý bol prezentovaný na TV Markíza ihneď po uzavretí volebných miestností. Problémom však je, že spomínaný prieskum bol vyhotovený ešte pred samotným prvým kolom a teda validita jeho odpovedí na to, čo by urobili sklamaní, nie je príliš veľká, keďže (minimálne voliči Harabina) to mohli brať ako hypotetickú otázku, nakoľko verili v postup svojho kandidáta.

Nedalo mi to a rozhodol som sa detailne zanalyzovať výsledok prvého kola. Pre seba a pre všetkých, ktorých to rovnako trápi. Preskúmal som, ako boli kandidáti najčastejšie podporovaní podobnými skupinami obyvateľstva a s ktorými inými kandidátmi majú v tejto podpore najväčšiu podobnosť. Celkovo bolo analyzovaných viac ako 15 dimenzií tejto podobnosti, ale pri premietnutí do 2D zjednodušenia pre 3 najsilnejších kandidátov, sa nám naskytne tento pohľad o vzájomnej podobnosti voličov jednotlivých kandidátov:

VZDANIE sa_2

 

Hneď niekoľko zistení je pritom veľmi zaujímavých. V prvom rade, podpora pre Kotlebu sa vyrázne viac podobala na podporu pre Šefčoviča ako pre Harabina. Myslím teda, že keby sa bol Kotleba vzdal v prvom kole bez odporúčania pre svojich voličov, mnohí by boli prekvapení, že náskok Šefčoviča by bol paradoxne ešte vyšší. Pomerne prekvapivým je aj zistenie, že voliči Mikloška sa svojim rozložením v spoločnosti najviac podobali na voličov Štefana Harabína, nie Zuzanu Čaputovú, ako sa všeobecne traduje. (Postrehli ste zmätočné vyjadrenie dvoch Mikloškovcov?). Keďže však František Mikloško jasne vyzval svojich voličov uvidíme, ako toto vyjadrenie prekryje oficiálnu doktrínu biskupov, ktorí drukujú Šefčovičovi. Aj keď Béla Bugár blúznil o tom, že jeho voliči radšej volili proti extrémizmu (a preto mal patetických 3.11%), v skutočnosti sa aj tí, čo mu hlas dali, veľmi silno zhodovali s tými, ktorí už v prvom kole volili Zuzanu Čaputovú. To bol koniec koncov zrejme aj dôvod, prečo rebelsky v druhom nepodporil vládneho kandidáta. Zrejme sa obával, že by tým reputačne uškodil samotnému Mostu-híd. A keďže on už nemá o čo hrať, je tento jeho krok aspoň výkrikom pudu sebazáchovy.

2] Čo to znamená pre druhé kolo

Ak vyjmeme z daného pohľadu sudcu Harabina a „donútime“ model, aby sa vyjadril o elektoráte len na základe podobnosti s kandidátmi postupivších do druhého kola, mapa kandidátov prvého kola vyzerá nasledovne:

VZDANIE sa_3

 

Z uvedeného je vidieť, že hoci len mierne, ale predsa, väčšina voličov kandidátov nepostupujúcich do druhého kola sa viac podobá na voličov Maroša Šefčoviča ako na voličov Zuzany Čaputovej. Pre druhé kolo sú tak dôležité dva faktory: 1] Ako novootvorené témy (alebo silnejší akcent už otvorených tém), dokáže mobilizovať ktorú časť voličov? Bez toho, že by som v tejto analýze priamo drukoval niektorému z kandidátov je potrebné pripomenúť, že Zuzana Čaputová skôr témy opakovala, zakiaľ Šefčovič hral všetkými farbami tém v druhom kole. 2] Druhým podstatným faktorom bude, akú mobilizáciu k účasti sa podarí jednotlivým táborom dosiahnuť. A o tom viac už hneď v najbližšom bode.

3] Akú úlohu hrala účasť už v prvom kole (a čo to hovorí pre kolo II.)

Oba tábory kandidátov druhého kola sa vyjadrovali k účasti. Opäť som však na túto tému nepostrehol v médiách žiadnu relevantnú analýzu. Naštastie o tomto aspekte hovoria výsledky prvého kola veľmi presne. Účasť sa pohybovala v jemnom nadpriemere 1. kôl prezidenstkých volieb, teda žiadna hypermobilizácia ala „zastavme mečiarizmus“ sa v prvom kole voľby nekonala. Nekonala sa však v priemere. Výsledky niektorých kandidátov, naopak, viac či menej ťažili z účasti už v prvom kole. Konkrétne, keď sa detailne pozrieme, ako účasť korelovala s relatívnym výsledkom jednotlivých kandidátov , zistíme nasledovné:

UCAST_1

Výsledok Zuzany Čaputovej nebol priamo závislý od účasti v jednotlivých okrskoch. Za to výsledok pánov Harabin, Mikloško, Chmelár a prekvapivo aj Šefčoviča už v prvom kole boli „na steroidoch účasti“. Nadpriemerne sa im darilo v okrskoch, kde bola vyššia účasť a naopak podpriemerný výsledok dosahovali v okrskoch, kde aj účasť bola podpriemerná. Zaujímavé sú výsledky kandidátov Krajniak a Bugár, ktorí zjavne podcenili mobilizáciu svojho elekorátu k voľbám. Uvedeným pánom sa naopak darilo iba tam, kde bola účasť hlboko pod priemerom a v okrskoch, kde prišlo veľa ľudí voliť si táto kandidáti „neškrtli“.

Oveľa dôležitejšie je posolstvo tohto grafu pre odhad výsledku druhého kola. Keďže ani kandidáti Harabin, Chmelár a Kotleba nedali odporúčania pre svojich voličov a na to, aby ich samotných volili, museli použiť pomerne silnú motiváciu, je vysoko pravdepodobné, že títo voliči sa druhého kola nezúčastnia. Naopak náskok Zuzany Čaputovej vznikol napriek veľmi nízkému vplyvu mobilizácie. Vo veľmi nelichotivej situácií je štáb Maroša Šefčoviča. Už výsledok prvého kola bol „vydretý“ a teda na čo i len obhájenie výsledku prvého kola bude potrebné burcovať k účasti. Navyše ich hlavné zdroje potenciálneho zlepšenia v druhom kole (elektoráty pánov Chmelár, Harabin a Kotleba) bude treba mobilizovať ešte mohutnejšie  ako v prvom kole. To je naozaj pekelne ťažká úloha. Ako relatívne cenný naopak môže byť „dar“ Bélu Bugára. Ak jeho voliči dajú na jeho odporúčanie, tak prídu k voľbám aj bez prudkej mobilizácie.

[Uvedená analýza vychádza z miery korelácie medzi výsledkom kandidáta v danom okrsku vzhladom na svoj priemerný zisk a mierou účasti v danom okrsku v porovnaní s celoslovenským priemerom. ]

4] Kedy možno otvrárať šampus ?

Jedna z vecí, ktoré ma ako dátového analytika iritujú asi najviac, sú bláboly o tom, ako treba počkať na sčítanie väčšieho počtu hlasov. Stalo sa z toho klišé, ktoré každý prijíma bez toho, že si dal námahu preveriť, ako to naozaj je. (Pritom ak rozdiel kandidátov je viac ako 15% a sčítaných je viac ako 34% hlasov, pravdepodobnosť, že sa to ešte obráti naopak, je asi taká ako na pád dopravného lietadla.) V jednej z dnešných analýz by som rád preto dal zadosť aj tejto téme. Veľkou pomocou v nastolenej otázke je fakt, že nemalá časť okrskov sa dnes už sčítava priamo za pomoci počítačov z volebných miestností. Kedysi museli predsedovia volebných komisií utekať s papierovou verziou zápisnice na obvodný úrad (ktorý bol neraz aj desiatky km ďaleko) a keď na úrad prišli, zaradiť sa do fronty s poslami z ostatných volebných miestností. Celkové sčítavanie tak malo veľa náhodnosti. Pri druhom kole prezidentských volieb však hlavný  faktor toho, keby bude okrsok započítaný, hrá počet voličov , ktorí v danej miestnosti hlasovali. Totiž otvoriť, prezrieť a spočítať hlasy z 200 obálok trvá minimálne 2krát toľko ako zo 100 obálok. (v skutočnosti je závislosť takmer kvadratická, aj keď ovplyvňuje ju aj počet členov komisie). Keďže však účasť nekolíše radikálne medzi regiónmi, počet odovzdaných obálok je silne korelovaný (konkrétne na 99%) s počtom voličov v danom okrsku. To znamená, že sa dá pomerne presne zosimulovať proces sčítavania hlasov. (ak niekde nevypadne elektrina alebo nezasiahnu iné vážne vplyvy)

Šanca zvrátiť postupne sa vyvíjajúci trend výsledkov s postupným pribúdajúcimi okrskami sa riadi nasledovnými pravidlami:

a] Výsledky kandidátov majú určitú spoločnú tendenciu, je veľmi zriedkavé, že ak v jednom dosatočne veľkom okrsku je pomer hlasov pre kandidátov 30:70, tak vo vedľajšom okrsku je naopak 70:30. Keďže sčítanie prebieha paralelne vo všetkých regiónoch, je zabezpečená relatívne silná reprezentatívnosť priebežných výsledkov. Jediným faktorom, ktorý sa otvorene priznáva je faktor väčších miest, kde väčšina okrskov má nadpriemerný počet voličov a teda sa do sčítavania dostávajú ako posledné. (Reálne prezrieť a sčítať vyše tisíc obálok vždy bude trvať zásadne viac ako 300 obálok).

b] Áno, niektorí kandidáti veria stále v zmenu aj po definitívnom sčítaní všetkých hlasov , matematika však nepustí. S pribúdajúcimi sčítanými okrskami totiž na zvrátenie potrebujete čoraz bizarnejšie výsledky v tých zatiaľ nesčítaných okrskoch.

c] Napriek tomu  že medzi podporou kandidátov v jednotlivých regiónoch existujú rozdiely, zisky jednotlivých kandidátov sú celoslovensky korelované. Napríklad dáta hovoria, že keby ste mi  povedali výsledok Zuzany Čaputovej v nejakom orsku a účasť v danom okrsku, v 49% prípadov (!) by som vám vedel povedať zisk Štefana Harabina v danom okrsku (s presnosťou na 5 hlasov). Ak by ste mi dali toleranciu plus mínus 30 hlasov, moja úspešnosť v hádani Harabinovho počtu hlasov by sa zvýšila na vyše 70% percent.

Kombinácia vyššie uvedených faktorov v skutočnosti umožňuje pomerne presne simulovať výsledky volieb: Takto napríklad vyzerali krivky volebného zisku dvoch najsilnejších kandidátov podľa postupného sčítania hlasov, pričom na x-vej osi je počet sčítaných hlasov v daný moment:

MODEL_UCASTI_1

 

Na dobrý odhad bodu, kedy možno už otvárať šampus, je teda možné použiť metódu na západe ľudovo nazývanú Point of No Return (PoNR, poďa rovnomenného fyzikálneho javu, odborne ide o progresívne binomické rozdelenie). Podstatou tejto metódy je, že sa pýta, ako by voľby dopadli, keby vo všetkých ostatných (zatiaľ nesčítaných) okrskoch hlasovanie dopadlo PRESNE NAOPAK, ako ukazujú doposiaľ sčítané okrsky. Táto metóda je skutočne vhodná, lebo požaduje veľmi radikálnu zmenu v sčítavaní okrskov. V skutočnosti sa zmeny zo 60:40 na 40:60 prakticky nedejú a teda šance na reálne zvrátenie výsledku sú ešte menšie ako prípúšťa  PoNR. Pozrime sa, aké hranice PoNR predpovedá pre model Slovenských volebných okrskov pre rozdielne hladiny náskokov jedného z kandidátov:

MODEL_UCASTI_2

Aby ste nemuseli v grafe sliepniť, prezradím vám, že bod, keď už výsledky sú bezpečné je v mieste, kde jednotlivé farebné krivky pretínajú šedú čiaru. Ak priebežné výsledky ukážu 15% náskok prvého kandidáta, tak bezpečná hladina na závery je už pri 34.2% sčítanosti hlasov. Pri 10% náskoku je potrebné si počkať do takmer 38% sčítanosti. Aj pri tesnom náskoku 2%, ak nie je rozkolísaná účasť v krajine, sú výsledky silne smerodajné pri sčítaní cca 60% hlasov. Jediné, čo by mohlo ešte zamávať istotou PoNR metódy je ak by druhý kandidát mal zásadne silnejšiu podporu veľkých miest. Graf prvého kola však ukazuje, že vo veľkých mestách výrazne dominuje Z. Čaputová, takže tento faktor zostáva len v teoretickej rovine.

Na záver jeden kratučký komentár k blogu, ktorý som napísal k prvému kolu. Hovoril som v ňom, že podpora Harabina stúpa a že v nepriamych metrikách už preskočil aj kandidáta Ševčoviča. Po výsledku prvého kola sa niektorí s úškrnom pýtali, kde je teda Harabin v druhom kole. Ak ste mali šancu sledovať v blogu načrtnuté metriky úplne do konca kampane pred prvým kolom, za posledných 5 dní od zverejnenia blogu do samotných volieb sa v mnohých metrikách Šefčovič opäť dotiahol alebo dokonca predčil Harabina. Team Šefčoviča naozaj „robil možné aj nemožné“ posledné dni, aby ho prepasíroval do druhého kola. (Spomeňte si na tancujúceho Eurokomisára z mítingu v Bratislave.) Aj keď sa nevyhýbam kritike, že nepriame metriky zrejme slabšie pokrývajú off-line svet, treba povedať, že celkový výsledok Šefčoviča z prvého kola sa od indikácií z posledného dňa pred voľbami líši približne o 1.7%, čo je pod hranicou štatistickej chyby aj reprezentatívnych prieskumov. Preto si myslím, že tento druh analýz má zmysel aj do budúcna.