Дефиниција рударства података
Мисцелланеа / / July 04, 2021
Аутор Гуиллем Алсина Гонзалез, у новембру 2018
Већ дуже време слушам максиму да су подаци ново уље, али ако морамо да судимо по имену једне од дисциплина која се бави његовим експлоатацијом и употребом, тзв. Рударство података, Радије бих их назвао „новим угљем“, по аналогији њихових облика вађење.
Истраживање података је дисциплина која се састоји од извлачења закључака из аутоматизоване статистичке анализе велике колекције података.
Ови подаци могу доћи из многих извора, имати различите структуре или чак не бити структурирани. Из тог разлога, рударење података укључује системе вештачка интелигенција и од Машинско учење способан за прилагођавање неструктурираним подацима и пролазак кроз филтере који омогућавају њихову анализу.
На крају, поента је да закључци помажу у одлучивати на одређеном систему, који може бити врло разноврстан: од друмског саобраћаја у граду или региону, до обезбеђивање ватрогасаца и других јавних служби за решавање могућих ванредних ситуација.
Такође се ради о откривању образаца које подаци следе и који су до сада били скривени или их нисмо могли јасно видети, усред свег мора, велику количину постојећих података.
Шта раздваја рударење података од Велики података? Па, рударство се бави само анализом, док се рударство бави Велики података То је дисциплина која је одговорна за хватање и чување података, као и за њихово администрирање.
До анализирати податке тачно, пре свега морамо одредити неке циљеве којима тежимо анализа, низ питања на која морамо наћи одговор, јер ће она водити куда морамо претраживати.
Полазећи од ових питања у облику премиса, ми бирамо податке које ћемо обрадити (може бити да нам треба само део база података, и то не сви).
Фаза обраде се у сваком случају разликује и користи алате за вештачку интелигенцију и Машинско учење, тако да се могу динамички прилагодити унетим подацима, по потреби модификујући своје операције.
Крајњи производ ове обраде требало би да буде низ закључака, али немојмо их мешати са онима које ће донијети одговорни за систем или они који доносе коначне одлуке. Ови закључци се односе на обим анализираних података.
Ако поново узмемо пример друмског саобраћаја у граду, можемо добити закључак да одређена улица прима превелики проток возила, али систем нам неће дати магичне рецепте да решимо наведени вишак.
Иако систем поседује интелигенција вештачки који може да предложи решења, људски кадар ће увек имати задњу реч.
Истраживање података примењује се у пракси у великом броју дисциплина, међу којима се издвајају финансијске.
Тако апликације можемо наћи у одељцима као што је берза (за предвиђање понашања акција), али и у сектори који нису стриктно финансијски, али имају блиску везу са сектором, као што је случај осигурање.
Обрада природног језика, претраживања на мрежи или паметни аутомобили су друге дисциплине у којима се примењује рударење подацима.
Фотографије Фотолиа: Моартист / Тхингласс
Теме у рударству података