Definisjon av Data Mining
Miscellanea / / July 04, 2021
Av Guillem Alsina González, i nov. 2018
Jeg har hørt maksimalt at data er den nye oljen i lang tid, men hvis vi må bedømme etter navnet på en av fagområdene som handler om utnyttelse og bruk, såkalte gruvedrift av data, Jeg vil heller kalle dem "det nye kullet", analogt med deres former for utdrag.
Data mining er en disiplin som består i å trekke konklusjoner fra den automatiserte statistiske analysen av en stor datasamling.
Disse dataene kan komme fra mange kilder, ha forskjellige strukturer, eller ikke engang være strukturert. Av denne grunn involverer data mining systemer av kunstig intelligens og av maskinlæring i stand til å tilpasse seg ustrukturerte data og føre dem gjennom filtre som tillater analyse.
Til slutt er poenget at konklusjonene tjener til å hjelpe beslutningstaking på et bestemt system, som kan være veldig variert: fra veitrafikk i en by eller region, til forsyning av brannmenn og andre offentlige tjenester for å håndtere mulige kriser.
Det handler også om å avdekke mønstre som dataene følger og som til nå var skjult eller vi kunne ikke se dem tydelig, midt i den store mengden, den store mengden eksisterende data.
Hva skiller data mining fra stor Data? Vel, gruvedrift handler bare om analyse, mens gruvedrift stor Data Det er en disiplin som er ansvarlig for innsamling og lagring av data, samt administrasjon.
Til analysere dataene riktig, først og fremst må vi bestemme noen mål som vi forfølger med analyse, en serie spørsmål som vi må finne svar på, siden disse vil lede hvor vi må søke.
Med utgangspunkt i disse spørsmålene i form av lokaler velger vi dataene som skal behandles (det kan være at vi bare trenger en del av database, og ikke alle).
Behandlingsfasen er forskjellig i hvert tilfelle, og den bruker verktøy for kunstig intelligens og maskinlæring, slik at de dynamisk kan tilpasse seg de oppgitte dataene, og om nødvendig endre operasjonene.
Sluttproduktet av denne behandlingen bør være en serie konklusjoner, men la oss ikke forveksle disse med de som skal trekkes av de som er ansvarlige for systemet eller de som tar de endelige beslutningene. Disse konklusjonene handler om analysert datamengde.
Hvis vi tar eksemplet med veitrafikk i en by igjen, kan vi få tak i konklusjon at en bestemt gate mottar for stor flyt av kjøretøy, men systemet vil ikke gi oss magiske oppskrifter for å løse nevnte overskudd.
Selv om systemet har intelligens kunstig som kan foreslå løsninger, vil det alltid være menneskelig oppgave å ha det siste ordet.
Datautvinning brukes i praksis i et stort antall fagområder, blant hvilke de økonomiske skiller seg ut.
Dermed kan vi finne applikasjoner i seksjoner som aksjemarkedet (for å forutsi aksjenes oppførsel), men også i sektorer som ikke er strengt økonomiske, men som har et nært forhold til sektoren, slik det er tilfellet forsikring.
Naturlig språkbehandling, elektroniske søk eller smarte biler er andre fagområder der data mining blir brukt.
Fotolia-bilder: Moartist / Thinglass
Temaer i Data Mining