Definition af Data Mining
Miscellanea / / July 04, 2021
Af Guillem Alsina González, i nov. 2018
Jeg har længe hørt maksimalt, at data er den nye olie i lang tid, men hvis vi skal bedømme efter navnet på en af de discipliner, der beskæftiger sig med udnyttelse og anvendelse af den, såkaldte minedrift af data, Vil jeg hellere kalde dem "det nye kul", analogt med deres former for udvinding.
Data mining er en disciplin, der består i at drage konklusioner fra den automatiserede statistiske analyse af en stor dataindsamling.
Disse data kan komme fra mange kilder, have forskellige strukturer eller ikke engang være strukturerede. Af denne grund involverer dataudvinding systemer af kunstig intelligens og af maskinelæring i stand til at tilpasse sig ustrukturerede data og føre dem gennem filtre, der tillader analyse af dem.
I sidste ende er pointen, at konklusionerne tjener til at hjælpe beslutningstagning på et bestemt system, som kan være meget varieret: fra vejtrafik i en by eller region til bestemmelse af brandmænd og andre offentlige tjenester for at håndtere mulige nødsituationer.
Det handler også om at afdække mønstre, som dataene følger, og som indtil nu var skjult eller vi kunne ikke se den store mængde eksisterende data midt i al skæbne.
Hvad adskiller data mining fra store data? Minedrift beskæftiger sig kun med analyse, mens minedrift store data Det er en disciplin, der er ansvarlig for indfangning og lagring af data samt administrationen af dem.
Til analysere dataene korrekt, først og fremmest skal vi bestemme nogle mål, som vi forfølger med analyse, en række spørgsmål, som vi skal finde svar på, da disse vil guide hvor vi skal søge.
Med udgangspunkt i disse spørgsmål i form af lokaler vælger vi de data, der skal behandles (det kan være, at vi kun har brug for en del af databaseog ikke alle).
Behandlingsfasen er forskellig i hvert tilfælde, og den bruger kunstig intelligensværktøjer og maskinelæring, så de dynamisk kan tilpasse sig de indtastede data og om nødvendigt ændre deres operationer.
Slutproduktet af denne behandling bør være en række konklusioner, men lad os ikke forveksle disse med dem, der skal drages af de ansvarlige for systemet eller dem, der træffer de endelige beslutninger. Disse konklusioner handler om analyseret datamængde.
Hvis vi tager eksemplet med vejtrafik i en by igen, kan vi få den konklusion at en bestemt gade modtager en overdreven strøm af køretøjer, men systemet vil ikke give os magiske opskrifter til at løse det overskydende.
Selvom systemet besidder intelligens kunstig, der kan foreslå løsninger, vil det altid være menneskeligt personale at have det sidste ord.
Data mining anvendes i praksis i et stort antal discipliner, blandt hvilke de økonomiske skiller sig ud.
Således kan vi finde applikationer i sektioner som f.eks. Aktiemarkedet (for at forudsige aktiernes adfærd), men også i sektorer, der ikke er strengt økonomiske, men som har et tæt forhold til sektoren, som det er tilfældet med forsikring.
Naturlig sprogbehandling, onlinesøgninger eller smarte biler er andre discipliner, hvor data mining anvendes.
Fotolia-fotos: Moartist / Thinglass
Emner i Data Mining