Svet podatkov: kjer hitrejši premagajo večje
V času digitalizacije se vedno več podjetij srečuje z ogromnimi količinami podatkov, ki jih zelo hitro ustvarja veliko število različnih virov. Imenujemo jih veliki podatki oziroma velepodatki (ang. big data). Kaj lahko počnemo s temi velepodatki in kakšno vlogo igrajo na področju podatkovne znanosti? Kako lahko velepodatki koristijo podjetjem, gospodarstvu in družbi? Poskusimo razložiti nekaj osnovnih pojmov in povezati te podatke med seboj v smiselno, morda celo razumljivo, celoto.
Morda vas bo zanimalo tudi:
Internet povezuje stvari v pametnih tovarnah in vsakdanjem življenju
Različne podatke lahko ustvarjajo ljudje ali pa jih generirajo stroji oziroma naprave, denimo senzorji, ki zbirajo informacije o podnebju, satelitske slike, digitalne slike in videoposnetke, zapise o nakupnih transakcijah, signale GPS in druge informacije. Glavna prednost analitike velepodatkov je, da lahko razkrije vzorce ter povezave med različnimi viri in podatkovnimi nizi, kar omogoča koristne vpoglede in boljše odločitve.
Evropska komisija na svoji spletni strani, kot primer uporabe velepodatkov, navaja področja zdravja, proizvodnje, varnosti preskrbe s hrano, inteligentne prometne sisteme, energetsko učinkovitost in urbanistično načrtovanje. Ta področja v končni fazi omogočajo večjo produktivnost in boljše storitve, ki sta vir gospodarske rasti.
Prihodnost je v podatkih
Ustvarjanje vrednosti na različnih stopnjah podatkovne vrednostne verige bo v središču prihodnjega gospodarstva znanja. Izboljšana analitika in obdelava podatkov, zlasti velikih količin, bo omogočila preoblikovanje evropskih storitvenih dejavnosti z ustvarjanjem širokega nabora inovativnih informacijskih izdelkov in storitev.
Po navedbah Evropske komisije bo analitika in obdelava velepodatkov povečala produktivnost vseh gospodarskih sektorjev z izboljšano poslovno inteligenco in omogočila učinkovitejše reševanje številnih izzivov, s katerimi se soočajo naše družbe. Komisija na tem področju pričakuje še izboljšane raziskave in pospešene inovacije, zmanjšanje stroškov z bolj prilagojenimi storitvami in povečanje učinkovitosti v javnem sektorju.
Zaradi eksponentne rasti količine, raznolikosti in hitrosti podatkov, je zbirke podatkov sicer vse težje zajemati, upravljati in obdelovati z običajnimi sredstvi. Pridobivanje vrednosti iz velikih količin podatkov, ki jih uporabniki vsakodnevno ustvarjajo, je postalo ključnega pomena pri podjetjih, kot sta denimo Google in Facebook.
Pri tem imajo tovrstna podjetja koristi od tržnih informacij v realnem času, saj drugim podjetjem olajšajo odločitve, kar lahko posledično privede do večjih prihodkov in nižjih stroškov. Analitika velikih količin podatkov lahko zagotovi podrobne poslovne informacije o obnašanju strank ali profiliranje potrošnikov.
Podatkovna znanost
Velepodatki so v bistvu posebna uporaba zapletene podatkovne znanosti, ki sicer vključuje številna specifična področja in veščine. Splošna opredelitev je, da podatkovna znanost zajema vse načine, s katerimi se iz podatkov pridobivajo informacije in znanje.
Kot smo že omenili, so podatki povsod in se nahajajo v ogromnih ter eksponentno naraščajočih količinah. Podatkovna znanost kot celota odraža načine, kako se podatki odkrivajo, pogojujejo, pridobivajo, zbirajo, obdelujejo, analizirajo, interpretirajo, modelirajo, vizualizirajo, poročajo in predstavljajo ne glede na velikost obdelovanih podatkov. Velepodatki so torej posebna uporaba podatkovne znanosti.
Podatkovna znanost je zelo zapleteno in prepleteno področje, saj vključuje matematiko, statistiko, računalništvo in programiranje, statistično modeliranje, tehnologije podatkovnih zbirk, obdelavo signalov, modeliranje podatkov, umetno inteligenco in učenje, obdelavo naravnega jezika, vizualizacijo, napovedno analitiko in tako naprej. Uporabna je na vseh področjih, ki smo jih omenili pri velepodatkih in številnih drugih.
Kako se obdelujejo podatki?
Življenjski cikel uporabnih in na različne načine zbranih podatkov običajno vključuje zajem le-teh, predobdelavo, shranjevanje, iskanje, naknadno obdelavo, analizo, vizualizacijo in podobno. Ko so podatki zajeti, se običajno imenujejo strukturirani, polstrukturirani ali nestrukturirani. Ta razlikovanja so pomembna, saj so neposredno povezana z vrsto potrebnih tehnologij podatkovnih zbirk in shranjevanja, programsko opremo in metodami, s katerimi se podatki poizvedujejo in obdelujejo, ter zapletenostjo obravnave podatkov.
Strukturirani podatki se nanašajo na podatke, ki so opredeljeni s strukturo ali shemo v zbirki podatkov ali preglednici. Nestrukturirani podatki so podatki, ki niso opredeljeni z nobeno shemo, modelom ali strukturo in niso organizirani na poseben način. Z drugimi besedami, to so samo shranjeni neobdelani podatki. Iz tega seveda sledi, da so polstrukturirani podatki kombinacija obeh.
Da bi lahko podatke smiselno uporabili, jih je treba najprej zajeti, predhodno obdelati in shraniti, navajajo strokovnjaki. Po tem postopku je mogoče podatke rudariti, obdelati, opisati, analizirati in uporabiti za oblikovanje modelov, ki so tako opisni kot napovedni. Opisna statistika je izraz, ki se uporablja za opis uporabe statističnih podatkov v nizu podatkov, da bi opisali in povzeli informacije, ki jih podatki vsebujejo. V osnovi vključuje opisovanje podatkov in pa tudi druge oblike analize in vizualizacije.
Sklepna statistika in modeliranje podatkov pa sta po drugi strani zelo močni orodji, ki ju je mogoče uporabiti za poglobljeno razumevanje podatkov ter napovedovanje pomena in rezultatov za pogoje izven tistih, v katerih so bili podatki zbrani. Z uporabo določenih tehnik je mogoče ustvariti modele in dinamično sprejemati odločitve na podlagi vključenih podatkov.
Kaj smo se naučili?
Še nikoli prej nismo zbirali toliko različnih podatkov kot danes, prav tako jih ni bilo treba tako hitro obdelati. Raznolikost in količina podatkov, ki jih zbiramo z različnimi mehanizmi, eksponentno naraščata. Ta rast zahteva nove strategije in tehnike, s katerimi se podatki zajemajo, shranjujejo, obdelujejo, analizirajo in vizualizirajo.
Podatkovna znanost je torej krovni izraz, ki zajema vse tehnike in orodja, ki se uporabljajo v fazah življenjskega cikla uporabnih podatkov. Po drugi strani pa se velepodatki običajno nanašajo na izjemno velike podatkovne nize, ki zahtevajo specializirane in pogosto inovativne tehnologije in tehnike za učinkovito uporabo podatkov.
Obe področji se bosta sčasoma še povečali in postali veliko pomembnejši. Povpraševanje po usposobljenih strokovnjakih na obeh področjih hitro narašča in postajata eni od najbolj vročih in donosnih področij za delo. Oboroženi vsaj z osnovno razlago glavnih pojmov, povezanih s podatkovno znanostjo in velepodatki, bosta morda zdaj lažje razumeli tudi nekatere druge tehnologije, ki smo jih že, oziroma jih še bomo predstavljali.
Izjava o avtorstvu in omejitvi odgovornost: Ta prispevek je del skupnega projekta Wilfried Martens Centra za evropske študije (WMSCES) in Inštituta dr. Antona Korošca (INAK). Projekt sofinancira Evropski parlament.Informacije in stališča v tem članku so avtorjevi in ne odražajo nujno uradnega mnenja institucij Evropske unije/Wilfried Martens Centre for European Studies/Inštituta dr. Antona Korošca. Zgoraj omenjene organizacije ne prevzemajo odgovornosti za informacije in stališča, izražena v tem članku, ali kakršnokoli naknadno uporabo informacij, ki jih vsebuje.
Prispevek v angleškem jeziku je dostopen na spletni strani Inštituta dr. Antona Korošca.