Definicija rudarenja podataka
Miscelanea / / July 04, 2021
Napisao Guillem Alsina González, u studenom 2018
Već dugo slušam maksimu da su podaci novo ulje, ali ako moramo suditi po imenu jedne od disciplina koja se bavi njegovim iskorištavanjem i korištenjem, tzv. rudarstvo podataka, Radije bih ih nazvao "novim ugljenom", po analogiji njihovih oblika izvlačenje.
Data mining je disciplina koja se sastoji od donošenja zaključaka iz automatizirane statističke analize velike zbirke podataka.
Ti podaci mogu potjecati iz mnogih izvora, imati različite strukture ili čak ne biti strukturirani. Iz tog razloga, rudarenje podacima uključuje sustave umjetna inteligencija i od strojno učenje sposoban za prilagodbu nestrukturiranim podacima i prolazak kroz filtre koji omogućuju njihovu analizu.
Na kraju je poanta da zaključci pomažu u odlučivanje na određenom sustavu, koji može biti vrlo raznolik: od cestovnog prometa u gradu ili regiji, do odredba vatrogasaca i drugih javnih službi za rješavanje mogućih hitnih slučajeva.
Također se radi o otkrivanju obrazaca koje podaci slijede i koji su do sada bili skriveni ili usred sveg nereda nismo mogli jasno vidjeti veliku količinu postojećih podataka.
Što razdvaja rudarenje podataka od veliki podaci? Pa, rudarstvo se bavi samo analizom, dok se rudarstvo bavi veliki podaci Riječ je o disciplini koja je odgovorna za hvatanje i pohranu podataka, kao i njihovo upravljanje.
Do analizirati podatke ispravno, prije svega moramo odrediti neke ciljeve kojima težimo analiza, niz pitanja na koja moramo pronaći odgovor, jer će ona voditi kamo moramo pretraživati.
Polazeći od ovih pitanja u obliku premisa, mi odabiremo podatke koje ćemo obraditi (može biti da nam treba samo dio baza podatakai ne svi).
Faza obrade razlikuje se u svakom slučaju, a koristi alate umjetne inteligencije i strojno učenje, tako da se mogu dinamički prilagoditi unesenim podacima, po potrebi modificirajući svoje operacije.
Krajnji proizvod ove obrade trebao bi biti niz zaključaka, ali nemojmo ih miješati s onima koje će donijeti odgovorni za sustav ili oni koji donose konačne odluke. Ovi se zaključci odnose na količinu analiziranih podataka.
Ako opet uzmemo primjer cestovnog prometa u gradu, možemo dobiti zaključak da određena ulica prima pretjerani protok vozila, ali sustav nam neće dati čarobne recepte za rješavanje navedenog viška.
Iako sustav posjeduje inteligencija umjetno koje može predložiti rješenja, ljudsko će osoblje uvijek imati zadnju riječ.
Istraživanje podataka primjenjuje se u praksi u velikom broju disciplina, među kojima se ističu financijske.
Dakle, aplikacije možemo pronaći u odjeljcima poput burze (za predviđanje ponašanja dionica), ali i u sektori koji nisu strogo financijski, ali imaju usku vezu sa sektorom, kao što je slučaj osiguranje.
Obrada prirodnog jezika, internetska pretraživanja ili pametni automobili druge su discipline u kojima se primjenjuje istraživanje podataka.
Fotografije Fotolia: Moartist / Thinglass
Teme u rudarstvu podataka