Hva er Data Mining? Grunnleggende og teknikker.

Innholdsfortegnelse:

2024 Forfatter: Geoffrey Carr | [email protected]. Sist endret: 2023-12-17 10:53

Grunnlaget for den fjerde industrielle revolusjonen vil i stor grad avhenge av Data og tilkobling. Analyse Tjenester i stand til å utvikle eller skape data mining løsninger vil spille en nøkkelrolle i denne forbindelse. Det kan bidra til å analysere og forutsi utfall av kundeinnkjøpsadferd for å målrette potensielle kjøpere. Data vil bli en ny naturressurs, og prosessen med å utvinne relevant informasjon fra denne usorterte data vil antas stor betydning. Som sådan, riktig forståelse av begrepet - Data Mining, prosesser og søknad kan hjelpe oss med å utvikle en helhetlig tilnærming til dette buzzword.

Data Mining Basics og dets teknikker

Data mining, også kjent som Kunnskapsoppdagelse i data (KDD) handler om å søke store datamengder for å avdekke mønstre og trender som går utover enkel analyse. Dette er imidlertid ikke en enkeltsteds løsning, men en flerstegs prosess og fullført i ulike stadier. Disse inkluderer:

1] Datainnsamling og forberedelse

Det starter med datainnsamling og riktig organisering. Dette bidrar til å forbedre sjansene for å finne informasjonen som kan oppdages gjennom data mining

2] Modellbygging og evaluering

Det andre trinnet i data mining prosessen er anvendelsen av ulike modellering teknikker. Disse brukes til å kalibrere parametrene til optimale verdier. Teknikker som brukes er i stor grad avhengige av analytiske evner som kreves for å møte en rekke organisasjonsbehov og å komme frem til en beslutning.

La oss undersøke noen data mining teknikker kort. Det er funnet at de fleste organisasjonene kombinerer to eller flere data mining teknikker sammen for å danne en passende prosess som oppfyller deres forretningsbehov.

Lese: Hva er store data?

Data Mining Techniques

Assosiasjon - Forening er en av de allment kjente data mining teknikker. Under dette avkrysses et mønster basert på et forhold mellom elementer i samme transaksjon. Derfor er det også kjent som relasjonsteknikk. Store merkevareforhandlere stole på denne teknikken for å undersøke kundens kjøpevaner / preferanser. For eksempel, når man sporer folks kjøpevaner, kan forhandlere identifisere at en kunde alltid kjøper fløte når de kjøper sjokolade, og derfor foreslår at neste gang de kjøper sjokolade, kan de også ønske å kjøpe krem.
Klassifisering - Denne data miningsteknikken er forskjellig fra ovenstående på en måte som den er basert på maskinlæring og bruker matematiske teknikker som Lineær programmering, Beslutningstrær, Neural nettverk. I klassifiseringen prøver bedrifter å bygge en programvare som kan lære å klassifisere dataelementene i grupper. For eksempel kan et selskap definere en klassifisering i søknaden at "gitt alle poster av ansatte som tilbød å trekke seg fra selskapet, forutsi antall personer som sannsynligvis vil gå fra selskapet i fremtiden." Under et slikt scenario Selskapet kan klassifisere rekord av ansatte i to grupper som er "permisjon" og "opphold". Den kan da bruke data mining programvare til å klassifisere de ansatte i separate grupper opprettet tidligere.
Gruppering - Ulike objekter som har lignende egenskaper grupperes sammen i en enkelt klynge via automatisering. Mange slike klynger er opprettet som klasser og objekter (med lignende egenskaper) er plassert i det tilsvarende. For å forstå dette bedre, la oss vurdere et eksempel på bokstyring i biblioteket. I et bibliotek er den store samlingen av bøker fullt katalogisert. Elementer av samme type er oppført sammen. Dette gjør det lettere for oss å finne en bok av interesse. På samme måte kan vi ved hjelp av klyngeteknikken beholde bøker som har noen slags likheter i en klynge og tildele det et passende navn. Så, hvis en leser ser etter å ta en bok som er relevant for hans interesse, må han bare gå til sokkelen i stedet for å søke hele biblioteket. Klyngeteknikk definerer således klassene og setter objekter i hver klasse, mens i klassifiseringsteknikkene blir objekter tilordnet til forhåndsdefinerte klasser.
Prediksjon - Forutsigelsen er en data mining teknikk som ofte brukes i kombinasjon med de andre data mining teknikker. Det innebærer å analysere trender, klassifisering, mønster matching og relasjon. Ved å analysere tidligere hendelser eller tilfeller i en ordentlig rekkefølge kan man trygt forutsi en fremtidig hendelse. For eksempel kan prediksjonsanalyseteknikken brukes i salget for å forutsi fremtidig fortjeneste dersom salget velges som en uavhengig variabel og profitt som variabel avhengig av salg. Deretter kan man, basert på historiske salgs- og profittdata, tegne en tilpasset regresjonskurve som brukes til fortolkning av fortjeneste.
Beslutningstrær - Innen beslutningstreet starter vi med et enkelt spørsmål som har flere svar. Hvert svar fører til et ytterligere spørsmål for å hjelpe til med å klassifisere eller identifisere dataene slik at det kan kategoriseres, eller slik at det kan foretas en prediksjon basert på hvert svar. For eksempel bruker vi følgende beslutningstreet for å avgjøre om du skal spille cricket ODI: Data Mining Decision Tree: Starte ved rotnoden, hvis værmeldingen forutser regn da, bør vi unngå kampen for dagen. Alternativt, hvis værmeldingen er klar, bør vi spille kampen.

Data Mining er hjertet av analytics innsats på tvers av en rekke bransjer og disipliner som kommunikasjon, forsikring, utdanning, produksjon, bank og detaljhandel og mer. Derfor er det viktig å ha riktig informasjon om det før du bruker de forskjellige teknikkene.