Deti na Titanicu to mali dosť ťažké


Ak by ste boli dieťa na Titanicu, tak by ste s 46% pravdepodobnosťou zomreli. Pomerne ponuré. Najmä ak uvážite, že celkovo prežilo na Titanicu 39% ľudí. Napriek (proklamovanej) prednosti žien a detí pri evakuácií, rozdiel medzi deťmi a celkovou úmrtnosťou bol iba 15%.  Ženy a deti FIRST teda pre deti až tak na Titanicu neplatilo. Alebo, žeby predsa?

Možno vás napadlo, že deti vo všeobecnosti asi zo všetkých troch skupín pasažierov mohli predsa najhoršie plávať, nie? Kľúč k pochopeniu ponurej situácie sa vám však odhalí, ak si rozmeníte mieru prežitia u detí na drobné podľa toho, v ktorej triede na Titanicu cestovali:

Prežitie detí na Titanicu

Deti z prvej triedy mali teda až 3-násobne vyššiu šancu prežiť než deti, ktoré cestovali v tretej triede. O plavecké schopnosti tu teda zjavne nešlo, aj keby ste boli Phelpsov syn (či skôr dedo vzhľadom na daný letopočet).

Nasledovný pohľad zároveň ukazuje, že Gentlemani z vyššej spoločnosti neboli v realite až takí gentlemani:

prežitie na Titanicu podľa cestovnej triedy a pohlavia

Z Titanicu sa zachránili muži 1. triedy v podobnej miere ako deti a ženy cestujúce v 3. triede. Naopak najobetavejší prístup zaujali muži z 2. cestovnej triedy, z ktorých prežilo len 8% na palube daného parníku. Ako to však vlastne vieme?

Kaggle je webový portál, ktorý organizuje súťaže v analyzovaní dát, akési olympiády analytikov. Na danom portáli však nájdete aj mnoho voľne dostupných data setov, ktoré majú slúžiť na tréning analytikov. Jedným z týchto datasetov je aj Titanic Survival dataset. (k stiahnutiu je TU, ale pozor musíš byť zaregistrovaný na Kaggle). Tento atraktívny dataset zhromaždil rôzne údaje o pasažieroch smutne presláveného parníku spolu s informáciou o tom, či nakoniec prežili alebo zahynuli pri havárii lode.

Pomocou Machine learning metód (na tréning ktorých data set slúži) tak môžete objaviť – okrem iného aj – ako umiestnenie vašej kajuty v trupe lode, či to, koľko ste za lístok na Titanic zaplatili, zvýšilo Vašu pravdepodobnosť prežiť. Analyzovať sa dá aj to, či viac príbuzných bolo v danom neštastí konkurenčnou výhodou alebo naopak skôr prítažou. Nebudem vás oberať o radosť zo skúmania a prezradím len toľko, že vplyvy niektorých faktorov sú pomerne cynické. Podobne ako je to s hore uvedenými deťmi.

Tak neváhajte a vyskúšajte si jednoduché Machine Learning predikcie s týmto zaujímavým a data setom a prípadne sa s čitateľmi Mocných Dát podeľte o svoje dojmy v diskusii k tomuto blogu. Na záver vám prajem, aby vaše Titanic pokusy boli rovnako presvedčivé ako Kate Winslet s Leonardom di Capriom na zábradlí 🙂


Publikované dňa 17. 6. 2017.