Na AKÝ COVID TEST by ste sa ROZHODLI ísť dobrovoľne?

Možno vás táto otázka zaskočila. Lebo väčšina z nás má maximálne tak na výber medzi tým, či na test pôjde alebo nie. (Niektorí ešte aj v tomto majú pech.) A predstava, že na odbernom mieste pred vás postavia niekoľko rôznych krabičiek a ponúknu vás k výberu, asi pripomína skôr scénku pouličného kaukliara s tromi šálkami a guličkou pod jedným z nich. Nachvíľu však privrite oči a skúste si predstaviť, že by ste si naozaj mohli vybrať: Podľa akého kritéria by ste si test vybrali? Najrýchlejší? Čo najmenej nepríjemný?

Myslím, že väčšina z nás by si vybrala čo najpresnejší test. Lenže to je presne tá pasca diskusie. Ako sa už za chvíľu dozviete, každý test má od svojej podstaty totiž 4 metriky „správnosti“. Ak teda poviete že chcete test s 99% “kvalitou merania“, bez hlbšej znalosti veci, môžete skončiť so 4mi úplne výkonnostne odlišnými testovaniami, ktoré sú každé na 99% „presné“. (Navyše z každého vám pri opakovanom testovaní tej istej osoby vyjde úplne iný pomer pozitívny/negatívny výsledkov). Tento blog je preto o tom, ktorá z tých 4 metrík bude pre vás najdôležitejšia a ako by mala byť jej hodnota vysoká. Blog je – tak trochu- aj o tom, že túto dilemu denne riešim v svojej práci, hoci s COVID testami nepracujem vôbec. Ale o tom až úplne nakoniec.

10 yearsEšte než splním vyššie uvedený sľub zasvätenia do presností testovania, dovoľte mi prosím dve krátke,  osobné vsuvky. Tento blog som mal rozpísaný už niekoľko týždňov, ale tohtotýždňové vyhlásenie vlády SR o tom, že chce plošne pretestovať SR populáciu (antigénovými testami), má popohnalo ho rýchlo dopísať. Myslím si totiž, že informácie s tohto blogu budú pre diskurz najbližších dní (a vaše rozhodovanie o tom, či na plošný test ísť dobrovoľne) pomerne dôležité. Tým druhým osobným bodom je, že dnes je to presne 10 rokov, čo som začal písať blogy. Žiaľ, nebola žiadna torta so sviečkami.  Ale jubileum, ako vidíte, som oslávil prácou. Neviem sľúbiť, že vydržím blogovať ďalších 10 rokov.  Ale vynasnažím sa, aby aj dnešný, už 294tý blog v poradí, bol zaujímavým čítaním, a v niečom vás inšpiroval tak ako vyše pol milióna videní predchádzajúcich blogov.  A teraz už späť k testom.

4 metriky úspechu

Keď rozmýšľame o tom, ako dobre niečo funguje, predstavujeme si niečo ako % spoľahlivosti. Ak sa dočítame, že niečo funguje na 90% (alebo viac) percent, dáme sa zväčša do pohody. A ani nás nenapadne, že by mala byť ešte nejaká iná metrika úspechu. Proste očakávame, že aspoň v 9/10 prípadov to dopadne dobre.

Preto informáciu, že existujú nejaké ďalšie miery úspechu výrobku či služby, a dokonca že sú tie metriky 4, pokladáme za podraz osudu alebo slovičkárenie mudrlantov. Tento zmätok v našej hlave vzniká preto, že sa nepozeráme na veci stroho ako na fakty. Pri tom zabúdame, že skutočný stav vecí nemusí byť známy a snažíme sa ho zistiť z niekoho pozorovania. Takéto situácie sú okolo nás úplne bežné: ak sa spolužiaci hrali cez prestávku, rozbili pri tom okno a do triedy príde učiteľka, nastať môže jeden zo 4 scenárov: Okno si ty nerozbil, ale aj tak si dostal pokarhanie triednej; okno si rozbil a dostal pokarhanie právom, ale aj možnosti, že si okno rozbil a pokarhanie Ťa minulo, prípadne si okno nerozbil a ani nebol pokarhaný. (Identicky si môžete dosadiť objednávateľa vraždy Jána Kuciacka a jeho odsúdenie). Ak sa teda niekto (v našom príklade triedna učiteľka) snaží vyriešiť kauzu rozbitého okna, zrazu ma viacero cieľov: odhaliť skutočného vinníka,  krivo neobviňovať ostatné deti, dať jasne najavo, že toto sa nesmie zopakovať, …

O nič menší zmätok to nie aj ani vo vede, pri meraní, či testovaní vecí. Svedčí o tom aj fakt, že samotní vedci pomenovali metódu riešenia takýchto situácií ako Confusion Matrix (teda Matica zmätenia). Jej najjednoduchšia podoba vyzerá nasledovne:

V princípe ide o 2×2 tabuľku (mudrlanti by povedali, že môže byť aj viac ako 2×2, ale to sem teraz nepleťme). Jednu dimenziu predstavuje skutočný stav veci (rozbil okno, naozaj má COVID, naozaj si objednal vraždu, …) a druhou dimenziou je to, čo o danom stave povedal test/pozorovanie/odhad (dostal pokarhanie, výsledok COVID testu, uznal súd vinu …). Kombinácie týchto dvoch dimenzií vytvárajú 4 možné stavy:

True Positive (TP) = Skutočne pozitívny = človek, ktorému test správne odhadol, že u neho naozal nastal daný jav (napr. spravodlivo odsúdený)

False Positive (FP) = Krivo označený ako pozitívny = človek, ktorý je v skutočnosti negatívny, ale test ho krivo obvinil, že je pozitívny (napr. krivo obvinený obžalovaný)

True Negative (TN) = Človek, ktorému test správne odhadol, že naozaj je negatívny v danom jave (napr. spravodlivo oslobodený spod obžaloby)

False Negative (FN) = Mylne označený za negatívneho = človek, ktorý je v skutočnosti pozitívny, ale test to neodhalil a tvrdí o ňom, že je negatívny. (Napr. neprávom oslobodený skutočný páchateľ)

Už akosi z povahy veci, nám samozrejme nevadia TN a TP, lebo označili veci správne.  Zmätok v tom celom robia polia FN a FP. Pre správne posúdenie „kvality testu“ však sú dôležité aj ich vzájomné pomery a tak vznikli nasledovné 4 metriky na celkové posúdenie situácie:

Celková správnosť = (Accuracy  v AJ) = pomer tých, u ktorých test uhádol ich skutočný stav správne, teda = TP + TN / (FP+FN+TP+TN)

Senzitivita = (Recall  v AJ) = Miera správneho odhalenia u tých, ktorých test naozaj mal odhaliť daný jav = TP / (TP+FN). Pri stopercentnej senzitivite test odhalil každého kto bol testovaný a naozaj aj bol v skutočnosti pozitívny. Pri 50% senzitivite test “zabudol” označiť každého druhého skutočne pozitívneho.

Špecificita = (Specificity v AJ) = Miera pravdivého označenia negatívnych u testovaných = TN / (TN+FP). Pri 50% špecificite testu je polovica negatívnych mylne označená za pozitívnych.

Prediktívna hodnota pozítívneho testu = (Precision v AJ) = Pravdepodobnosť, že osoba je pozitívna, ak tak ukázal test = TP/(TP+FP)

(drobným mudrlantským tajomstvom je, že tých metrík je viac ako 4, ale ostatné sa dajú z týchto najčastejších 4 odvodiť)

Ako si správne vybrať test?

Tak, čo? Už máte svojho favorita z uvedených 4 metrík? Ak si myslíte, že stačí mať vysokú celkovú správnosť, hlboko sa mýlite. Skúste sa zamyslieť nad nasledovným príkladom: Máte 2 detektory lži, oba sú celkovo úspešné na 90%. Detektor A však zvyšných 10% nad celkovú úspešnosť má vo FP kastlíku a detektor B ich má v FN. Z hľadiska celkovej úspešnosti by vám malo byť jedno na ktorom sa necháte vyšetriť. Podstatný rozdiel medzi A a B však tu je: Vždy keď si detektor A nie je istý, tak vás označí za vinného, zatiaľ čo B vždy keď si nie je istý vás označí za nevinného. Tak ako? Ešte stále vám je jedno ktorý?

Celú vec okolo výberu tej správnej miery kvality komplikuje ešte fakt, že rôzne spoločenské procesy/rozhodnutia si vyžadujú dôraz na rôzne metriky úspechu. Pri spomínanom rozbitom okne, triedna učiteľka bude mať zrejme na zreteli, aby tento čin nezostal nepotrestaný. Preto, ak deti budú medzi sebou zapierať a navzájom sa kryť, tak (najprv pohrozí a v krajnej situácii aj) pristúpi k potrestaniu všetkých zapojených. Riadi sa teda tým, že maximalizuje Senzitivitu aj za cenu nízkej Prediktívnej hodnoty rozhodnutia. Inými slovami radšej zopár neoprávnených poznámok v žiackej ako nikto nepotrestaný za rozbité okno.

V medicíne je často najdôležitejšia tiež Senzitivita (neodhalené vnútorné krvácanie je horšie ako nesprávne podozrenie naň), ale ak ide o testy, ktoré vedú k operáciam, chemoterapii alebo iným nezvratným úkonom, veľmi dôležitá je aj Precision (=Prediktívna hodnota pozitívneho testu), lebo mať zbytočne amputovanú končatinu, či vytrhnútý zub, tiež nie je ideál zdravotnej starostlivosti.

Naopak, prezumpcia neviny v našom systéme spravodlivosti je čistá orientácia na Špecificitu aj za cenu nízkej Senzitivity. Inými slovami radšej 10 oslobodených zločincov ako 1 nespravodlivo odsúdený. To ako ťažko sa s tým zmieruje „nezávislý divák“, si táto krajina nedávno prežila.

Pre správne rozhodovanie je potrebné povedať aj to, čo sa deje, ak sú niektoré metriky slabé. Ak má nejaký rozhodovací proces nízku mieru Pozitívnej prediktívnej miery, znamená to, že mnoho ľudí bolo označených krivo za pozitívnych a to bude výrazne zrážať dole dôveryhodnosť takéhoto procesu (ľudia sa nebudú sťažovať, ak budú mylne vyhlásení za nevinných, ale budú sa búriť ak veľa označených ako vinných je v skutočnosti nevinných). Na druhej strane nízka Senzitivita vedie k tomu, že ak malo prísť niečo za výsledok pozitívneho testu (napr. liečba), mnoho ľudí to nedostane, aj keď by to potrebovalo. Čiže do hry vstupujú náklady a dôsledky neodhalených prípadov. To môže v zdravotníctve znamenať aj zbytočné úmrtia, či mnoho ďalších zbytočne infikovaných. Nízka Špecificita zas vedie k zbytočnému vystaveniu dôsledkov pozitívneho testu. Či už vo forme nespravodlivého väzenia, zbytočnej liečby a stresu ľudí, ktorí sú označení za (niekedy až smrteľne) chorých, hoci sú zdraví. Vedie však aj k zbytočnému plytvaniu peniazmi (napríklad pri udeľovaní zliav alebo rozhodovaní komu poslať list s ponukou). No a nízka celková správnosť je zlá sama o sebe a hovorí, že pravdepodobne máte nesprávny test.

Čo si z toho odniesť pre COVID testovanie

Vývoj COVID pandémie doposiaľ na stôl priniesol 3 základne typy Korona testov. Odlišné sú nielen prístupom testovania, ale žiaľ, aj tým, na ktorú metriku úspechu prikladajú dôraz. Nie je to však nedbalosť alebo zlomyseľnosť ich tvorcov, dané testy sú totiž určené pre rôzne situácie, kde tá či oná metrika úspechu hrá rôznu úlohu. Pre základnú orientáciu som zostavil pre vás tabuľku s 3 základnými typmi a ich metrikami úspechu:

Letmý pohľad do danej tabuľky ukazuje, že celkový najlepšiu správnosť dosahujú PCR testy a Antigénové testy, vybrané pre plošné SR testovanie, majú naopak najhoršie skóre. Pre korektnosť však treba povedať, že Antigénové testy sú jediné testy, s ktorými sa takéto plošné pretestovanie populácie dá fyzicky zrealizovať. Vyhodnotiť PCR testy pre celú republiku by totiž trvalo (aj s vypätím všetkých síl a pomocou zahraničia) viac ako mesiac a stálo minimálne 10x viac ako Antigénový variant. Protilátkové testy by boli aj lacnejšie aj schodnejšie ako PCR, ale ich primárnym cieľom je potvrdzovať priebeh COVID ochorenia u tých, ktorí už sú aspoň 2-3 týždne infikovaní (čo nie je zrovna nástroj na ich izolovanie a predídenie šíreniu vírusu). Vzhľadom na možnosti vlády jej teda nemožno zazlievať, že vybrali práve antigénové testy (reálne nebola iná realizovateľná možnosť). Hromadné testovanie týmto nástrojom by však uviedlo cca 80 tisíc domácností do omylu o tom, či majú alebo nemajú COVID, pričom takmer 50 000 z nich by ho malo a chlácholilo sa, že môžu robiť všetko po starom, veď predsa mali negatívny test. Ak bývate v 8 pochodovom paneláku, tak v priemere minimálne jedna rodina vo vašom vchode by bola v karanténe zbytočne. Či sa k tomuto vládnemu počinu pridáte (ak budete mať vôbec na výber), už nechám na Vašom uvážení. Zatiaľ málo diskutované sú riziká na takomto teste sa vôbec zúčastniť (napr. čakať v rade s potenciálne infikovanými, cestovať do miesta odberu, …) Tie však budú závisieť od toho, ako sa celá akcia logisticky zorganizuje. Na túto tému sme zatiaľ počuli iba to, že „to bude ako voľby“. Nuž, ak to celé má mať význam, ostáva dúfať že voľby iné ako tie do EP (,ktoré majú.na Slovensku cca 20% úšasť). Pri rozhodovaní, či ísť alebo nejsť, Vám prajem hlavne rozvahu a zdravý rozum. Verím, že aj tento blog vám dal o nejaký ten argument viac. Ak máte ešte 2 minútky, ďalší odsek popisuje ako zaujímavo do kontaktu so 4 metrikami úspechu prichádzam ja v práci.

 

Čo to celé má spoločné s mojou prácou

Pre stálych čitateľov mocnedata.sk prinášam ešte zopár riadkov o tom, aké sú najdôležitejšie závery z Confusion Matrix pre našu prácu s dátami. Väčšina modelov predikujúcich správanie má povahu (binárnych) klasifikátorov = označí, či niečo je také či onaké. To však znamená, že ide v podstate o (akoby COVID) testy. Preto uvedené 4 metriky úspechu vstupujú rovnako do rozhodovania o tom, ktorý model nasadiť do finálnej produkcie. Väčšina začiatočníkov robí pri výbere modelu chybu, že sa pozerá iba na Accuracy (= Celková správnosť modelu). Je to dané asi aj tým, že je to defaultná metrika mnohých štatistických balíkov na hodnotenie modelov. Tí pokročilejší už vedia, že v realite ide skôr o súboj Precision verzus Recall. Modely si totiž bývajú pomerne isté pri zjavne pozitívnych a zjavne negatívnych jedincoch. Problémom zostáva, kam sa priklonia v nerozhodnom strede (pamätáte si ešte detektor lži A a B?). Čo však mätie aj pokročilých (nevadí, veď je to Confusion Matrix :), je skutočnosť, že v niektorých modeloch je dôležitejší Recall ako Precision. Neveríte?

Nuž, predstavte si model, ktorý sa snaží predikovať odchodovosť (churn) klientov, aby im ponúkol nejakú drobnú úľavu a presvedčil ich tak zostať našim zákazníkom. Pre takýto model je oveľa nebezpečnejšie, keď neidentifikuje niektorých skutočne odchádzajúcich, ako keď zbytočne označí niektorých spokojných klientov. Teda optimalizovať model pre Recall je oveľa dôležitejšie ako na Precision. Ale aj naopak, ak robíme X-sell kampaň, kde posielame vzorku produktu zdarma, dobrá Precision môže byť dôležitejšia ako Recall. Ak totiž kampaň bude úspešná (veľké percento oslovených kúpi), určite poľahky dostaneme budget na ďalšie kolo takejto kampane (ktorá osloví aj tých označených (mylne) za menej pravdepodobných). Keď však v snahe zachytiť každého pošleme hneď na prvý krát zbytočne veľký počet vzoriek, kampaň na seba nezarobí a bude považovaná za prepadák.

Preto vo svojej práci musím pravidelne robiť rozhodnutie na ktorú zo 4 metrík úspechu sa budeme sústrediť. Podobne ako pri COVID testoch si teda vyberám najväčšie dobro, alebo aspoň najmenšie zlo. To sa dá robiť však iba vtedy, keď si pri každom predikčnom modeli pozeráte všetky Confusion metriky, k čomu by som vás aj týmto blogom rád popchol. Vzájomné porovnanie FP, TP, FN a TN skupín navyše môžu priniesť aj nápady, ako vylepšiť model. Ale o tom naozaj už niekedy nabudúce.

 

 


Publikované dňa 19. 10. 2020.