A Data Science szinte életünk valamennyi területén képviselteti már magát, még ha nem is vagyunk mindig tisztában vele. Amikor elfogadjuk a sütiket egy weboldalon, vagy rákattintunk egy hirdetésre a böngészőben, vagy Facebookon, egy adatbázis rögzíti azt és segítségével az érdeklődésünknek megfelelő tartalmakat kínál. Ennél azonban jóval mélyebb rétegei vannak az adatelemzés tudományának, amit három szakértő segítségével vizsgáltunk egy korábbi webináriumunk keretében.
Vendégünk volt Farkas Máté, a Microsoft Data Platform tanácsadója és hivatalos trénere, Jobbágy Szabolcs, Excel, VBA, Power BI időhatékonysági tréner, valamint Dr. Faragó Csaba, az Interactive Brokers senior szoftverfejlesztője is. Ha kívncsi vagy a teljes beszélgetésre, nézd vissza az alábbi videóra kattintva, néhány fontos elemét azonban mi is összefoglaltuk az alábbiakban írásban.
Rakjuk össze a puzzle darabjait!
“Az adattudomány tulajdonképpen olyan, mint a filozófia. Tehát kezdetben még minden filozófia volt, amiből aztán kiváltak a különböző részek, de az adattudománynak megmaradt ez a szigorúan értelmezett része és megvannak az önálló ágak.” – kezdte előadását Dr. Faragó Csaba, aki szoftverfejlesztőként vesz részt adatközpontú projektek készítésében és menedzselésében.
“Az adattudomány tulajdonképpen azt jelenti, hogy létező adatból próbálunk meg új tudást létrehozni.”
“ A gépi tanulás pedig azt jelenti, hogy van egy tanuló adatbázis, amihez összerakjuk a modellt és a rendszer ez alapján próbálja megtalálni, hogy egy bizonyos dolog milyen kategóriába esik. Valójában a gépi tanulás a mesterséges intelligencia egy része. Vagyis a mesterséges intelligenciának vannak olyan részei, amelyek nem annyira adatfejlehezek, viszont manapság a legtöbb mesterséges intelligencia dolog nem ezek közé tartozik.
Mondok egy példát, a legtöbb fordítóprogram úgy működik, hogy nagy korpuszt vesz és az Apple-t magyarra úgy fordítjuk, hogy alma, mert a legtöbb formában almára fordították.” – Ez magyarázza, hogy miért futhatunk bele félrefordításokba, illetve kommunikációs nehézségekbe a különböző internetes fordítók, vagy akár AI csevegőprogramok használatakor. Mivel ezek alapját az angol nyelv és nyelvi logika adja, amit tükörfordítással igyekeznek magyarra váltani.
“A következő szint a Big Data, aminek szintén rengeteg definíciója van. Szerintem az egyik legtalálóbb az az, hogy az adatok keletkezési sebessége annyira nagy, hogy a hagyományos módszerekkel azokat már nem lehet feldolgozni, tehát azt mindenképpen valahogy párhuzamosítani kell.”
Hasznos képletek és lekérdezések
Farkas Máté, a Microsoft hivatalos Data Platform tanácsadója és trénere az előadás következő szakaszában a leggyakoribb adatbázis lekérdezéseket mutatta be. Ezt érdemes végignézni, ha gyakran dolgzunk nagy mennyiségű adatokkal, vagy rendszeresen készítünk riportokat. A megfelelő képletek és módszerek használata ugyanis jelentősen lerövidítheti a munkaidőt és megkönnyítheti a munkánkat.
Adatok érthető formába öntve: Az adatvizualizáció
“A legtöbb cégnél már nem Access-ben vagy Excelben vannak az adatok, hanem egy SQL szerverben, esetleg SAP rendszerből ki tudjuk őket exportálni. Ezután a Power BI egy nagyon jó eszköz arra, hogy ilyen kis adatvizualizációkat csináljuk, amik nemcsak látványosak, hanem interaktívak is.” – Kezdte Jobbágy Szabolcs, aki több mint 20 éve foglalkozik adatbáziskezeléssel és számítógépes hatékonyságnöveléssel, valamint adatvizualizációs eszközökkel is.
A Webuni Data Analyst képzésén találkozhatsz vele és Mátéval is, akik segítségével a leggyakoribb SQL lekérdezésektől és az SQL szerverek használatától a Power Pivot, Power Query és Power BI alkalmazásának lépéseit is elsajátíthatod gyakorlati feladatokon keresztül 12 hét alatt. Data Science témában induló képzéseink között érdemes szétnézned, ha szeretnél jobban elmélyülni benne.