Ak môžem poradiť: Zožente si hada!

Chcete pracovať v dátovej analytike aj najbližších 5 rokov? Ak áno, odporúčam si zohnať hada. A teda nie hociakého, ale najlepšie z čeľade Boidae. Myslíte si, že som dostal úpaľ a blúznim? Nuž, za posledné dni príliš slnko nesvietilo, tak si radšej pozrite ako to myslím:

Doľava či doprava

Niekoľko rokov dozadu sa svetová analytická komunita dostala na rozcestie. O priazeň analytikov sa totiž začali uchádzať paralelne dva hlavné prístupy Opensource analýzy dát. Diskusia sa rozpútala tak na akademických pôdach, ako aj v reálnom biznise. Obe skupiny majú vášnivých zástancov aj zatracujúcich. Trochu to pripomína 90 roky a Depešákov vs. Metalistov.  Čo sa začalo ako búrka v pohári, postupne prerástlo do vriaceoh hrnaca. Nuž a niekoľko rokov to v hrnci vrelo a vyzerá, že tohto roku už aj vyvrelo. Slávne anlytické vojny, zdá sa, majú víťaza.

Prečo Had?

Ak nepatríte medzi tých, čo sú v tejto téme „doma“, dovoľte len krátke telegrafické predstavenie jednotlivých „súperov“. R+ je opensource analytický nástroj vyvinutý dvoma novozélandskými chlapíkmi v roku 1995 cielene na sofistikovanú analýzu dát a ich vizualizáciu. R+ je roky zdokonalovaný (najmä vedeckými) komunitami. Jeho odlišovacími znakmi je rýchly zápis (na málo krokov dokáže urobiť veľa zmien), rozsiahle spektrum podporných knižníc, ale predovšetkým spracovanie v operačnej pamäti (čo je veľmi rýchle, ale zároveň aj náročné na HW požiadavky pri analýze veľkých súborov). R+ je najčastejším akademickým jazykom, čiže jazykom na ktorom sa pokročilejšia analytika vyučuje na univerzitách.

Naproti tomu Python je programovací jazyk zostrojený holandským programátorom Guido van Rossum (na všeobecné použitie), okrem iného aj na prácu s dátovými súbormi. Jazyk je od roku 1991 ďalej rozvíjaný komunitou, podobne ako R+, vo forme Opensource nástroja, do ktorého za posledné obdobie pribudlo veľa knižníc na pokročilú dátovú analytiku. Python podporuje objektovo orientované, štruktúrované aj funkcionálne programovanie, spustiť ho možno na 21 rôznych typoch operačného systému. Svojou konštrukciou umožňuje včleniť sofitiskovanú analýzu dát aj do iných aplikácii. Jeho silnými stránkami sú aj zbieranie dát z externého prostredia a vyššia čitateľnost kódu (odsadzovanie blokov je napríklad v Pythone povinné). Python je samozrejme v hovorovej reči aj typ nejedovatého hada, ktorí svoju obeť škrtí a potom prehltne. Z hľadiska biologickej klasifikácie spadá do čelade Boidae, preto ten vtip z úvodu.

R_verzus_PYTHON

A predsa sa točí …

Ani inkvizícia nedonútila vedcov v stredoveku odvolať svoje heliocentrické „opovážlivosti“. Mňa síce neoblizovali plane horiacej hranice, ale je nutno povedať, že s  názorom, že Python je cesta, kam to smeruje, som bol skôr za podivína. Ešte dokonca aj rok dozadu, na odbornej Datamining konferencii WIKT v Smoleniciach, kde som túto filozofiu presadzoval, stretol som sa len s veľmi kontroverzným postojom na túto tému. Ako človek z biznisu som však už v ranných počiatkoch videl, že zakiaľ R+ môže byť dobrým akademickým jazykom, pre biznisové úlohy má tromfy na ruke práve Python. To, že my v strednej Európe sa týmto trendom zmierujeme len pomaly, si ešte ukážeme. Poďme sa však najprv pozrieť na to, ako teda vojna platforiem vo svete dopadla.

Ďalej? Zrejme už čoraz viac len Python

Doma je ťažké byť prorokom. A povedzme si otvorene, Slovensko nie je ani veľmocou v oblasti Data Science. Preto sa pri rozsúdení tejto vojny pozrime na výskumy, ktoré sumarizujú používanie týchto nástrojov v analytickej komunite po celom svete. Jeden z takýchto prieskumov pravidelne realizuje portál renomovaný KDNUGGETS. Jeho výskum je pre našu debatu o to hodnotnejší, že má odmeraný aj vývoj popularity spomínanách dvoch platforiem v čase. Podľa výsledkov tohto prieskumu za posledný rok prišlo k pomerne dramatickej zmene:

python-r-other-2016-2017

Citovaný článok bližšie vysvetľuje aj to, že nejde o náhodne prehupnutie Pythonu, ale že popularita „hadieho“ jazyka systematicky rastia a posledných 5 rokov, zakiaľ R+ popularita najprv stagnovala a niekoľko posledných rokov už klesá. Ak sa teda chcete dovzdelať v obalsti Data miningu, odporúčam si vybrať hada, Ideálne z čelade Boidae 🙂

Ak neviete, či sa na nejaký jav pozeráte objektívne, pomáha pozrieť sa na vox populi. názor masy vás rýchlo uvedie do obrazu, či ste v súlade s trendom alebo skr Marťan na Zemi. Zaujímavým dôkazom vývoja Python vs. R+ súboja je aj pohľad na mieru záujmu o dané jazyky vo vyhľadávačoch. Vincent Granville to pre nás krásne zhrnul v tomto článku, z ktorého vyberám ilustračný obrázok:

Granvillová štúdie ukazuje, že Python (modrý) nielen porazil R+, ale dokonca za aktuálne mesaice je záujem o Python vo vyhľadávaní až 2-krát väčší ako o R+.  Vo svetle týchto udalostí vyznieva trochu komické, že väčšina proprietalných Business Intelligence systémov (napr. MS SQL, Qlik, SAS, …) sa snaží dobehnúť  Opensource vlak, ktorý im ušiel, práve integrovaním R+ kódov. Takže až ich budú mať zintegrované, zistia, že sa opäť môžu pustiť do nových integrácii, tentokrát s Pythonom.  🙂

A potom my v srdci Európy … 

Nuž a prečo to vlastne hovorím? Keď sa stretávam s našou analytickou komunitou, Python orientovaných ľudí je u nás stále pramálo. Kolegyňa sa minulý mesiac vybrala na 2 školenia Pythonu: jedno jej zrušili a na druhom boli z celého Slovenska len dvaja. 🙁

Zmieriť sa s týmto prichádzajúcim trendom sa nám akosi doposiaľ nepodarilo. Aby som prázdno netĺkol slamu, zrealizoval som rovnaký výpočet ako Granville, ale tento krát iba pre užívateľov, ktorí sú Slovákmi. Ako teda vojna Python vs. R+ dopadla v našom prostredí?

SK_python_R_porovnanie

Graf je zostavený rovnakou časovou logikou aj farebnou legendou (Python je stále ten modrý). A hoci ukazuje, že aj u nás klesá záujem o R+, Python sa nederie tak dopredu ako v západných krajinách. Priatelia, dovoľte, aby som apeloval na vás: Ak ste ešte nevykročili cestou opensource analytiky, skutočne už dozrel čas. A ak sa hodláte vstúpiť do tejto arény, vyzerá, že Python bude lepšia voľba. Len si pomôcky k tomuto odbornému rozvoju radšej nepýtajte od Ježiška. Aby to zle nepochopil a nenašli ste si náhodou pod stromčekom úplne nové terárium …

 

Mohlo by vás tiež zaujímať:

Ako si vyberajú Dátových manažérov na západe?

Prekvapivé použitia dát a techológií

BORING DATA – nová vetva analytiky