Blíži sa Data Science Club

Neviem, či ste postrehli, priatelia, ale Exponea spolu s FIIT organizuje v Bratislave pravidelne akciu, ktorá sa volá DataScience Club. Jej najbližšie kolo sa uskutoční už budúci štvrtok 22.3.3018 o 16:00 v Mlynskej doline a ja som tento krát od organizátorov obdržal pozvanie vystúpiť v programe. Pozvánku som prijal s veľkou radosťou, keďže odkedy pôsobím v Berlíne, je pre mňa ťažké skĺbiť know-how zdieľanie na Slovensku s pracovnými a rodinnými povinnosťami. DataScience Club preto beriem zároveň ako možnosť spojiť príjemné (opäť vás stretnúť) s užitočným (rozobrať expertnú rovinu dôležitej témy).

Celé stretnutie DataScience Clubu sa ponesie v duchu mojej líbling témy “Feature engineeringu” Aby som vás navnadil, skúsim odkryť niečo z kuchyne prípravy mojej prednášky:

Existuje hneď niekoľko dôležitých dôvodov, prečo sa výber a príprava parametrov pre prediktívne modely stali kľúčovými pre úspech Machine Learningu. My si primárne rozoberiem dva z týchto dôvodov. Jeden, ukazuje ako Feature Engineering môže byť konkurenčnou výhodou, najmä ak použitie niektoré z moderných knižníc na predikcie. Druhým dôvodom načrieme do budúcnosti ľudstva a povieme si, čo feature engineering bude znamenať pre Data Scientistov.

Keď už budeme takto patrične rozbehnutí, poďme sa pozrieť na to, ako sa vlastne zvyčajne generujú vstupné premenné pre modely. Ktoré z ciest zväčša vedú k úspechu a ktoré naopak bývajú slepou uličkou? Aké najčastejšie chyby robím pri výbere premenných pre svoj model? Ale predovšetkým, koľko by som tých premenných mal mať a prečo práve toľko?

Rozoberať len tradičné postupy tvorby premenných a ich chyby by bolo trochu nefér. Preto ponúknem aj iný pohľad na tvorbu premenných a pokúsim sa vás nadchnúť konkrétnymi príkladmi pre netradičné prístupy na generovanie premenných. Zároveň by som chcel vo vás vyvolať pokoru k výberu zostavy premenných, aby vaše modely mali naozaj zmysel.

Analýza primárnych komponentov (alebo aj PCA) je pre mnohých skôr menej známy nástroj Machine Learningu. A tak ju Data Scientisti občas používajú viac dôverčivo, ako by si zaslúžila. Aby ste sa nedopúšťali rovnakej chyby aj vy, vysvetlíme si kedy je PCA priateľom a kedy naopak vrahom vašich modelov.

V jednom zo svojich teamov v minulosti som “prichytil” analytikov, že nepoužívajú transformácie premenných. Keď som sa pýtal prečo, so sklopenými očami priznali, že vždy používali softwarom defaultne ponúknuté transformácie a nevedia, ako si vybrať ich správnu kombináciu. Zostavil som vtedy pre nich jednoduchý 1-stránkový ťahák, ktorý si spolu prejdeme. Pre prípad, že by aj vám na to váš šéf prišiel …

SciKit Learn je určite základným kameňom pre mnohé (prvé) pokusy v Machine Learningu pre pythonistov. A je to pochopiteľné, ide o súbor naozaj ľahko použiteľných a pomerne solídnych algoritmov pre strojové učenie. Má však aj svoje slabšie miesta. Rád by som vás na ne upozornil a ponúkol návod ako tieto slabiny preklenúť, ak sito váš model bude vyžadovať.

Ak budete mať budúci štvrtok popoludní voľnú chvíľu, určite sa príďte pozrieť aj na Ondreja Brichtu, ktorý bude predo mnou hovoriť o tom, ako sa popasovať s úlohou generovať premenné a prediktívne modely nad streamovanými dátami, ktoré spravidla nemusia mať ani ustálenú schému. Program bude naozaj hutný, tak neváhajte a stavte sa, rád vás znovu všetkých uvidím. Vstup je voľný a lístky sa dajú registrovať TU.

Publikované dňa 14. 3. 2018.

ZDIELAŤ

Súvisiace