Определение за извличане на данни
Miscellanea / / July 04, 2021
От Гилем Алсина Гонсалес, през ноември. 2018
Отдавна слушам максимата, че данните са новото масло, но ако трябва да съдим по името на една от дисциплините, която се занимава с неговата експлоатация и използване, т.нар. минен на данните, По-скоро бих ги нарекъл "новите въглища", по аналогия на техните форми на екстракция.
Извличането на данни е дисциплина, която се състои в извеждане на заключения от автоматизирания статистически анализ на голяма колекция от данни.
Тези данни могат да идват от много източници, да имат различни структури или дори да не бъдат структурирани. По тази причина извличането на данни включва системи от изкуствен интелект и на машинно обучение способни да се адаптират към неструктурирани данни и да ги предават през филтри, които позволяват техния анализ.
В крайна сметка въпросът е, че заключенията служат в помощ на вземане на решение по определена система, която може да бъде много разнообразна: от пътния трафик в град или регион, до предоставяне на пожарникари и други обществени служби за справяне с възможни извънредни ситуации.
Става дума и за разкриване на модели, които данните следват и които досега бяха скрити или не можахме да видим ясно, в средата на цялата треска, голямото количество съществуващи данни.
Какво разделя извличането на данни от голяма информация? Е, майнингът се занимава само с анализ, докато копае голяма информация Това е дисциплина, която отговаря за събирането и съхраняването на данни, както и тяхното администриране.
Да се анализирам данните правилно, на първо място трябва да определим някои цели, които преследваме с анализ, поредица от въпроси, на които трябва да намерим отговор, тъй като те ще водят къде трябва да търсим.
Изхождайки от тези въпроси под формата на помещения, ние избираме данните за обработка (може да се наложи да имаме нужда само от част от база даннии не всички).
Фазата на обработка се различава във всеки отделен случай и използва инструменти за изкуствен интелект и машинно обучение, за да могат динамично да се адаптират към въведените данни, като модифицират операциите си, ако е необходимо.
Крайният продукт на тази обработка трябва да бъде поредица от заключения, но нека не ги бъркаме с тези, които трябва да се направят от отговорните за системата или тези, които вземат окончателните решения. Тези заключения са за обема на анализираните данни.
Ако отново вземем примера с пътния трафик в даден град, можем да получим заключение че определена улица получава прекомерен поток от превозни средства, но системата няма да ни даде магически рецепти за решаване на споменатия излишък.
Въпреки че системата притежава интелигентност изкуствен, който може да предлага решения, винаги ще бъде задачата на човешкия персонал да има последната дума.
Извличането на данни се прилага на практика в голям брой дисциплини, сред които се открояват финансовите.
По този начин можем да намерим приложения в раздели като фондовия пазар (за да предскажем поведението на акциите), но също така и в сектори, които не са строго финансови, но имат тясна връзка със сектора, какъвто е случаят с застраховка.
Обработката на естествен език, онлайн търсенето или интелигентните автомобили са други дисциплини, в които се прилага извличането на данни.
Fotolia снимки: Moartist / Thinglass
Теми в извличането на данни