Opredelitev podatkovnega rudarjenja
Miscellanea / / July 04, 2021
Guillem Alsina González, v novembru 2018
Izrek, da so podatki novo olje, že dolgo poslušam, če pa bi morali soditi po imenu ene od disciplin, ki se ukvarja z njegovim izkoriščanjem in uporabo, se imenuje t.i. rudarstvo podatkov, Po analogiji njihovih oblik bi jih raje imenoval "novi premog" pridobivanje.
Podatkovno rudarjenje je disciplina, ki je sestavljena iz sklepanja iz avtomatizirane statistične analize velike zbirke podatkov.
Ti podatki lahko prihajajo iz številnih virov, imajo različne strukture ali celo niso strukturirani. Iz tega razloga rudarjenje podatkov vključuje sisteme umetna inteligenca in od strojno učenje se lahko prilagodi nestrukturiranim podatkom in jih posreduje skozi filtre, ki omogočajo njihovo analizo.
Na koncu je bistvo, da zaključki pomagajo odločanje na določenem sistemu, ki je lahko zelo raznolik: od cestnega prometa v mestu ali regiji do določbe gasilcev in drugih javnih služb za reševanje morebitnih izrednih razmer.
Gre tudi za odkrivanje vzorcev, ki jim sledijo podatki in ki so bili do zdaj skriti ali pa sredi vsega mraza nismo mogli jasno videti velike količine obstoječih podatkov.
Kaj ločuje podatkovno rudarjenje od veliki podatki? No, rudarstvo se ukvarja samo z analizo, medtem ko rudarstvo veliki podatki Gre za disciplino, ki je odgovorna za zajemanje in shranjevanje podatkov ter njihovo upravljanje.
Za analizirati podatke pravilno, najprej moramo določiti nekatere cilje, ki jim sledimo z analiza vprašanj, na katero moramo najti odgovor, saj bodo ta vodila kam moramo iskati.
Izhajajoč iz teh vprašanj v obliki prostorov, izberemo podatke, ki jih bomo obdelali (morda potrebujemo le del zbirka podatkovin ne vsi).
Faza obdelave se v vsakem primeru razlikuje in uporablja orodja za umetno inteligenco in strojno učenje, tako da se lahko dinamično prilagodijo vnesenim podatkom in po potrebi spremenijo svoje operacije.
Končni izdelek te obdelave bi moral biti vrsta zaključkov, vendar jih ne zamenjajmo s tistimi, ki jih bodo pripravili odgovorni za sistem ali tisti, ki sprejemajo končne odločitve. Ti zaključki govorijo o obsegu analiziranih podatkov.
Če znova vzamemo primer cestnega prometa v mestu, lahko dobimo sklep da določena ulica prejme pretiran pretok vozil, vendar nam sistem ne bo dal čarobnih receptov za rešitev omenjenega presežka.
Čeprav sistem premore inteligenca umetno, ki lahko predlaga rešitve, bo zadnja beseda vedno naloga človeškega osebja.
Podatkovno rudarjenje se v praksi uporablja v številnih disciplinah, med katerimi izstopajo finančne.
Tako lahko najdemo aplikacije v odsekih, kot je delniški trg (za napovedovanje vedenja delnic), pa tudi v sektorji, ki niso strogo finančni, vendar so v tesnem razmerju s sektorjem, kot to velja za zavarovanje.
Obdelava naravnega jezika, spletno iskanje ali pametni avtomobili so druge discipline, pri katerih se uporablja podatkovno rudarjenje.
Fotografije Fotolia: Moartist / Thinglass
Teme iz podatkovnega rudarjenja