Definícia dolovania údajov
Rôzne / / July 04, 2021
Guillem Alsina González, v nov. 2018
Maxima, že údajom je nový olej, počúvam už dlho, ale ak by sme mali súdiť podľa názvu jednej z disciplín, ktorá sa zaoberá jeho využívaním a používaním, tzv. ťažba údajov, Skôr by som ich nazval „novým uhlím“, analogicky s ich formami extrakcia.
Data mining je disciplína pozostávajúca z vyvodzovania záverov z automatizovanej štatistickej analýzy veľkého množstva údajov.
Tieto údaje môžu pochádzať z mnohých zdrojov, môžu mať odlišnú štruktúru alebo nemusia byť ani štruktúrované. Z tohto dôvodu ťažba dát zahŕňa systémy umela inteligencia a z strojové učenie schopný prispôsobiť sa neštruktúrovaným údajom a prechádzať ich cez filtre, ktoré umožňujú ich analýzu.
Nakoniec ide o to, že závery slúžia na pomoc rozhodovanie na určitom systéme, ktorý sa môže veľmi líšiť: od cestnej premávky v meste alebo regióne až po ustanovenie hasičov a iných verejných služieb pri riešení prípadných mimoriadnych udalostí.
Ide tiež o odhaľovanie vzorov, podľa ktorých sa údaje riadia a ktoré boli doteraz skryté alebo sme nemohli jasne vidieť, uprostred všetkého móresa, veľké množstvo existujúcich údajov.
Čo oddeľuje ťažbu údajov od veľké dáta? Ťažba sa zaoberá iba analýzou, zatiaľ čo ťažba veľké dáta Je to disciplína, ktorá je zodpovedná za zachytávanie a ukladanie údajov, ako aj za ich správu.
To analyzovať údaje správne, v prvom rade si musíme určiť niektoré ciele, ktoré sledujeme s analýza, séria otázok, na ktoré musíme nájsť odpoveď, pretože budú smerovať kam musíme hľadať.
Vychádzajúc z týchto otázok vo forme priestorov, vyberáme údaje, ktoré sa majú spracovať (môže sa stať, že potrebujeme iba časť databázy, a nie všetky).
Fáza spracovania sa líši v každom prípade a využíva nástroje umelej inteligencie a strojové učenie, aby sa mohli dynamicky adaptovať na zadané údaje, a v prípade potreby upraviť svoje operácie.
Konečným produktom tohto spracovania by mala byť séria záverov, nemýľme si ich však s tými, ktoré majú urobiť osoby zodpovedné za systém alebo tí, ktorí robia konečné rozhodnutia. Tieto závery sa týkajú objemu analyzovaných údajov.
Ak si vezmeme opäť príklad cestnej premávky v meste, môžeme získať záver že určitá ulica prijíma nadmerný tok vozidiel, ale systém nám neposkytne čarovné recepty na riešenie uvedeného prebytku.
Aj keď systém vlastní inteligencia umelo, ktorá môže navrhovať riešenia, bude mať vždy ľudské slovo posledné slovo.
Dolovanie dát sa v praxi uplatňuje vo veľkom počte odborov, medzi ktorými vynikajú najmä tie finančné.
Aplikácie teda nájdeme v sekciách ako napríklad akciový trh (na predikciu správania akcií), ale aj v sektory, ktoré nie sú výlučne finančné, ale majú s týmto sektorom úzke vzťahy, ako je to v prípade poistenie.
Spracovanie prirodzeného jazyka, online vyhľadávanie alebo inteligentné automobily sú ďalšie disciplíny, v ktorých sa uplatňuje dolovanie dát.
Fotky Fotolia: Moartist / Thinglass
Témy v oblasti ťažby dát