POČASIE, HUSTOTA a POČET TESTOVANÍ – odpovede na pripomienky ku CORONA BLOGU

Ďakujem za vysoký záujem o blog ohľadne ďalšieho vývoja Koronavírusu na Slovensku. Dostal som aj mnoho podnetov od vás, na ktoré by som chcel reagovať. Asi najčastejšie sa objavovali tri výhrady/odporúčania:

Zahrnúť do modelu aj vplyv počasia.

Priznám sa, že som sa s touto myšlienkou pohrával. Ale sú tu tri komplikácie. 1] Samotná vedecká komunita nie je zjednotená v tom, či vonkajšia teplota má alebo nemá na šírenie víru vplyv. Po Zemeguli totiž koluje niekoľko kmeňov vírusu (ktoré navyše ďalej môžu mutovať) a teda nie je jasné, či odlišné reakcie v odlišných pásmach nespôsobujú iné verzie toho vírusu skôr ako počasie. Navyše početné prípady v Afrike, na Blízkom východe, či v Južnej Amerike dokumentujú, že vírus zjavne dokáže prežiť aj v pomerne teplých podmienkach. 2] Druhým problémom je, že zakiaľ počasie vieme priradiť geo oblastiam s pomerne veľkou presnosťou, v prípade cestujúcich ľudí (ktorí boli prví prenášači vírusu) ich nevieme stotožniť dostatočne presne s miestami, kde sa nakazili. Teda nie je možné vytvoriť spárovanie počasia so šírením vírusu. Spoliehať sa na nejaký globálny priemer počasia v krajine za dané obdobie je úplné šarlatánstvo. 3] Aj keby sme sa vedeli prelúskať cez prvé dva problémy, zahrnúť vplyv počasia by nám robilo obrovské problémy  pre modelovanie budúceho vývoja. Jednak ho vieme iba na pár dni dopredu a druhák je veľmi geograficky ťažké, predpokladať aká miera nakazenia je v ktorom meste krajiny. Zhrniem to: Počasie je zaujímavý faktor, ale v praxi reálne nezahrnuteľný do modelu.

Zahrnúť do modelu aj hustotu obyvateľstva.

Tu je oveľa jednoznačnejšia a jednoduchšia odpoveď. Nákazu vírusom neprichádza podľa toho, kde koľko ľudí žije, ale kde sa koľko ľudí nachádza v blízkom kontakte. Napríklad oficiálna hustota obyvateľstva v severnom Taliansku nie je nijak vysoká, problémom však bolo že tam pricestovalo veľa ľudí. Ak by sme teda naozaj chceli tento faktor zohľadniť, museli by sme modelovať nie hustotu obyvateľstva ale počet ľudí (napríklad podľa počtu simkariet) na daných miestach. Tieto dáta nie sú dynamicky verejne k dispozícií a teda modelovanie podľa nich je reálne nemožné. Ak stále ešte dúfate v túto metriku, skúsim ešte dva rukolapné príklady. Bratislavské letisko má jednu z najmenších hustôt osídlenia v rámci mesta, napriek tomu bolo ako vôbec prvé uzavreté karanténou. Prečo asi? Lebo je tam vysoký pohyb cestujúcich ľudí, napriek nízkej hustote. V Číne sa nákaza rozšírila aj do miest, ktoré majú oveľa vyššiu hustotu obyvateľstva ako Wuhan, napriek tomu v nich nákaza neprepukla. Lebo už dodržiavali sociálnu izoláciu, hoci majú vysokú hustotu osídlenia. Tadiaľto naozaj cesta nevedie.

Postaviť model radšej na (alebo so zahrnutím) počtov testovaní.

Za tento prístup sa ozvalo pomerne veľa ľudí. Nechcem byť nijak uštipačný, ale pripadá mi to, ako by k týmto odporúčaniam skôr motivovalo podozrenie/obava, že my na Slovensku testujeme málo prípadov. Lebo ak nemáte tento predpoklad a pozeráte sa na to čisto z hľadiska modelovania, tak zahrnúť testovania do modelu nie je až taký dobrý nápad. Pokúsim sa v skratke vysvetliť prečo. Ešte pred tým však niekoľko premís, ktoré k tomuto vysvetleniu budeme potrebovať:

Účel testovania. Ak nebažíte po senzácií čo najvyššieho počtu detegovaných, potom skutočným efektom testovania by malo byť rozptýliť pochybnosti o tom, či človek je infikovaný vírusom alebo nie. U človeka, u ktorého je zrejmé, že jasne JE alebo naopak jasne NIE JE infikovaný je testovanie neefektívne až zbytočné. Ak som bol v kontakte s nakazenou osobou, je jasné, že som kandidát na pozitívny nález aj ja. Ale ak sedím doma v karanténe a po inkubačnej dobe nemám príznaky testovať ma je zbytočné. Rovnako ak mám silné prejavy a bol som s nakazenou osobou, testovať ma je trochu zbytočné. Toto sa presne deje teraz v Taliansku. Ich počty už nestúpajú, lebo už je toľko nakazených, že aj keby chceli všetkých s príznakmi otestovať, nemajú toľko teamov v ochranných oblekoch, ktorí by im odobrali vzorky. Teda skôr či neskôr krajina cielene prestane testovať na vírus a vrhne sa radšej na riešenie prípadov, ktoré majú už v nemocniciach.

Štatistická povaha testu. V celej tejto diskusii sa nedostatočne akcentuje fakt, že každý test má chybovosť. Podľa verejne dostupných informácií test používaný na koronavírus má presnosť cca 95%, teda mylne označí niekoho za pozitívneho v 5% prípadoch. Teda bez ohľadu na to, koľko máme naozaj prípadov na Slovensku, ak by sme nechali otestovať každého, museli by sme ohlásiť cca 270 000 pozitívnych prípadov. O čo múdrejší pre modelovanie nástupu ochorenia by sme boli? Ak je počet skutočných prípadov nízky, sekundárna chyba z masového testovania by bola násobne vyššia ako skutočný počet chorých. Ja viem, niektorí budú argumentovať, že opakovanie testu by túto chybovosť znížila. Tak vedzte, že aj keby sme celú populáciu otestovali dva krát pre overenie prvotného testu, stále by sme skončili s potvrdenými 13 500 prípadmi, ktoré je asi oveľa vyššie ako skutočný počet chorých dnes.

Dôvody testovania. Ak sa zamyslite nad tým, čo sú dôvody na postúpenie testu, tak sú v princípe tri: A] ak máme pacienta, ktorý má mierny priebeh choroby, podobný aj iným potenciálnym chorobám potrebujeme test, aby sme vedeli, či ho vôbec máme na koronu riešiť.  B] ak máme človeka, u ktorého je dôvodné podozrenie, že mohol byť roznášačom a potrebujem (informovať a) izolovať ľudí, s ktorými prišiel do kontaktu. C] Ak sa sám človek nahlási a chce sa nechať otestovať. Začnem od toho posledného dôvodu. Ak by ste povedali ľuďom, že mohli prísť do kontaktu s infikovaným a dali by ste im na výber, takmer všetci by sa chceli otestovať. Aby pre istotu vedeli, na čom sú. To znamená testovať každého bez rozdielu, kto sa sám dobrovoľne prihlási je riešenie tohto pokoja v duši. Ak nie je naplnený bod B], 6e je dôvodné podozrenie, takýmito ľuďmi v masovom merítku by sme dvíhali len štatistickú chybu. Ak to podozrenie je, ale neprišiel do kontaktu s inými ľuďmi, je jednoduchšie (a efektívnejšie) odizolovať ho a pozorovať ho. (samozrejme za predpokladu, že dodržuje nariadenú izoláciu). Teda takýchto ľudí by mal štát na 14 dní poslať do Gabčíkova (alebo iných zberných centier) a nechať ho pozorovať. Áno, poslať ich domov je trochu riskantné, ale keď neviete koľko ľudí sa vám prihlási takto zajtra, tak asi aj kapacitne pochopiteľné. Skutočne užitočný je teda test najmä u skupiny A] pre nastavenie liečby. Problémom je, že zaklasifikovanie človeka do skupín A] až C] nerobí konzistentný stroj, ale rôzni ľudia na rôznych miestach, s rôznou mierou ochoty riskovať.

A teraz k samotným dôvodom prečo postaviť model vývoja aj na počtoch testovaní nie je dobrý nápad.

1] V rôznych krajinách majú rôzne Corona testy s rôznou presnosťou. Neraz sa používa aj kombinácia viacerých testov v tej istej krajine. To znamená, že nie je jasné akú štatistickú chybu ktoré krajiny majú.

2] Ako som písal vyššie, v istom momente krajina musí prestať testovať alebo minimálne pozmeniť stratégiu testovania. To sa dialo v krajinách, kde už problém prepukol (ktoré sa pre modelovanie používajú ako benchmark), ale nikde v dátach zmena prístupu k testovaniu nie je zadokumentovaná ako kvantifikovaná.

3] Ak hovoríte, že dáta sú skreslené rozličnou mierou testovania  v rozličných krajinách dopúšťate sa logickej chyby odborne nazvaná tautológia. Lebo na to, aby som mohol po tvrdiť, že v krajine sa testuje príliš málo, musel by som vedieť, že skutočných prípadov je oveľa viac ako som odhalil. Ale ako môžem vedieť, že skutočných prípadov je podstatne viac, keď práve to, koľko ich je sa snažím zistiť zohľadnením testovania? Ak vychádzate z predpokladu, že sa testuje málo, predpokladáte, že vírusu by sa našlo viac, keby sa intenzívnejšie testoval. Ale to znamená, že predpokladáte jeho rovnomerné rozloženie v populácií, lebo ako inak by ste ho náhodným testovaním odhalila viac? Ak chcete odhaliť viac nenáhodným testovaním, musíte vedieť, ktorá časť populácie je intenzívnejšie nakazená. Ale ako to viete, keď práve testovanie vám má odhaliť mieru napadnutia o jednotlivých skupín. A takto sa stále točíme v kruhu.

Áno, testovanie väčšieho počtu ľudí je v súlade s riešením našej obavy. Akosi sa cítime nesvoji, keď sa testuje menej, ako si myslíme, že by sa malo. Ale pre modelovanie vývoja je táto požiadavka závažne problematická. Totiž argument, že krajiny mohli (a zrejme mali) rôzny prístup k testovaniu totiž neponúka riešenie, ako tieto rozdielnosti kvantifikovať. Lebo tá istá metrika, ktorá by ako vstup do modelu dokázala, že jednotlivé krajiny mali odlišný prístup, je zároveň metrika, ktorú sa snaží model predpovedať. Teda ten istý ukazovateľ je aj vstupom aj výstupom modelu. To sme potom v klasickom vajce-sliepka probléme. A to proste nejde. Ak pripustíme rozdielnosť v prístupe testovania v krajinách, paralyzuje nás to pre zostavenie samotného modelu. Alebo si vstupným predpokladom, potvrdzujeme, ehm, samotný vstupný predpoklad. Lebo keď predpokladám, že odhad skutočne infikovaných je podstrelený malým testovaním, tak sa dopracujem k záveru, že skutočne infikovaných je viac. Nuž, ale veď to som predpokladal. Tomu sa hovorí odborne tautológia. Predpokladaním niečoho si potvrdzujem to, čo som predpokladal. Takže nech nás to akokoľvek škrie, že nemáme v predpovednom modeli aj mieru testovania, pre komparatívnu predpoveď na základe krajinného benchmarku ju tam vložiť proste nemôžeme. Teda môžeme, ale dôsledky vám budú už asi zrejmé.

Tým samozrejme nespochybňujem prínos zvýšeného testovania pre tlmenie samotnej epidémie. Len pre účely modelovania to, prosím, prehltnime a radšej sa spolu pozrime na to, čo vlastne predpokladaný vývoj prinesie do našich životov. Teda: „Ako sa zmení svet, kým sedím doma v karanténe?


Publikované dňa 18. 3. 2020.