Skip to main content

Bruk av klassifisering i data mining

Zeitgeist Addendum (April 2025)

Zeitgeist Addendum (April 2025)
Anonim

Klassifisering er en data mining teknikk som tilordner kategorier til en samling av data for å hjelpe til med mer nøyaktige prediksjoner og analyser. Også kalt noen ganger kalt a Beslutningstre , klassifisering er en av flere metoder som skal gjøre analysen av svært store datasettene effektive.

Hvorfor klassifisering?

Svært store databaser blir normen i dagens verden av stor Data . Tenk deg en database med flere terabyte data - en terabyte er en billioner byte av data.

Facebook alene crunches 600 terabyte nye data hver eneste dag (fra 2014, sist gang den rapporterte disse spesifikasjonene). Den primære utfordringen med store data er hvordan du får mening om det.

Og rent volum er ikke det eneste problemet: store data har også en tendens til å være mangfoldig, ustrukturert og raskt skiftende. Vurder lyd- og videodata, sosiale medier, 3D-data eller geospatialdata. Denne typen data er ikke lett kategorisert eller organisert.

For å møte denne utfordringen er det utviklet en rekke automatiske metoder for utvinning av nyttig informasjon, blant dem klassifisering .

Hvordan klassifisering fungerer

Ved faren for å bevege seg for langt inn i teknologisk tale, la oss diskutere hvordan klassifisering fungerer. Målet er å lage et sett av klassifikasjonsregler som svarer på et spørsmål, ta en beslutning eller forutsi atferd. For å starte, er et sett med treningsdata utviklet som inneholder et bestemt sett med attributter, samt det sannsynlige resultatet.

Arbeidet med klassifikasjonsalgoritmen er å oppdage hvordan det sett av attributter når sin konklusjon.

scenario: Kanskje et kredittkortselskap prøver å avgjøre hvilke potensielle kunder som skal motta et kredittkorttilbud.

Dette kan være sitt sett med treningsdata:

Opplæringsdata
NavnAlderKjønnÅrsinntektKredittkort tilbud
John Doe25M$39,500Nei
Jane Doe56F$125,000Ja

"Predikator" -kolonnene Alder , Kjønn , og Årsinntekt bestem verdien av "prediktorattributtet" Kredittkort tilbud . I et treningssett er prediktorattributtet kjent. Klassifikasjonsalgoritmen forsøker da å bestemme hvordan verdien av prediktorattributtet ble nådd: Hvilke relasjoner eksisterer mellom prediktorene og beslutningen? Det vil utvikle et sett med prediksjonsregler, vanligvis en IF / THEN-setning, for eksempel:

IF (Alder> 18 ELLER Alder <75) OG Årlig Inntekt> ​​40 000 THEN Kredittkort Tilbud = Ja

Tydeligvis er dette et enkelt eksempel, og algoritmen vil trenge et langt større datautvalg enn de to rekordene som vises her. Videre er prediksjonsreglene sannsynligvis langt mer komplekse, inkludert underregler for å fange attributtdetaljer.

Deretter blir algoritmen gitt et "prediksjonssett" for data som skal analyseres, men dette settet mangler prediksjonsattributtet (eller avgjørelse):

Predictor Data
NavnAlderKjønnÅrsinntektKredittkort tilbud
Jack Frost42M$88,000
Mary Murray16F$0

Disse prediktordataene bidrar til å estimere nøyaktigheten av prediksjonsreglene, og reglene blir deretter tweaked til utvikleren vurderer spådommene effektive og nyttige.

Dag til dag Eksempler på klassifisering

Klassifisering og andre data mining teknikker, står bak mye av vår daglige erfaring som forbrukere.

Værmeldinger kan gjøre bruk av klassifisering for å rapportere om dagen vil bli regnfull, solrik eller overskyet. Legeselskapet kan analysere helsemessige forhold for å forutsi medisinske utfall. En type klassifiseringsmetode, Naive Bayesian, bruker betinget sannsynlighet for å kategorisere spam-e-postmeldinger. Fra svindeloppdagelse til produkttilbud, er klassifisering bak scenene hver dag å analysere data og produsere spådommer.