De k- betyr clustering algoritme er et data mining og maskin læringsverktøy brukes til å klynge observasjoner i grupper av relaterte observasjoner uten noen forkunnskaper om disse relasjonene. Ved prøvetaking forsøker algoritmen å vise i hvilken kategori eller klyngen dataene tilhører, idet antall klynger defineres av verdien k.
De k- Middelalgoritmen er en av de enkleste grupperingsteknikkene, og den brukes ofte i medisinsk bildebehandling, biometri og tilhørende felt. Fordelen med k- betyr at clustering er at den forteller om dataene dine (ved hjelp av ikke-overvåket skjema) i stedet for at du må instruere algoritmen om dataene ved starten (ved hjelp av algoritmens overvåkede form).
Det er noen ganger referert til som Lloyds algoritme, særlig i datavitenskaps sirkler fordi standardalgoritmen ble først foreslått av Stuart Lloyd i 1957. Begrepet "k-means" ble laget i 1967 av James McQueen.
Hvordan K-Means Algoritme Funksjoner
De k- betyr algoritmen er en evolusjonær algoritme som får navnet sitt fra operasjonsmetoden. Algoritmen klynger observasjoner i k grupper, hvor k er gitt som en inngangsparameter. Den tildeler deretter hver observasjon til klynger basert på observasjonens nærhet til middelklassen. Klyngens gjennomsnitt er da rekomputert og prosessen begynner igjen. Slik fungerer algoritmen:
- Algoritmen velger vilkårlig k peker som de første klyngesentrene (midlene).
- Hvert punkt i datasettet tilordnes den lukkede klyngen, basert på den euklidiske avstanden mellom hvert punkt og hvert klyngesenter.
- Hvert klyngesenter blir rekomputert som gjennomsnittet av poengene i den klyngen.
- Trinn 2 og 3 gjenta til klokka samler seg. Konvergens kan defineres forskjellig avhengig av implementeringen, men det betyr normalt at enten ingen observasjoner endrer klynger når trinn 2 og 3 gjentas, eller at endringene ikke gjør en vesentlig forskjell i definisjonen av klyngene.
Velge antall klynger
En av de viktigste ulempene for k- betyr clustering er det faktum at du må spesifisere antall klynger som en inngang til algoritmen. Som utformet, er algoritmen ikke i stand til å bestemme riktig antall klaser og avhenger av at brukeren identifiserer dette på forhånd.
Hvis du for eksempel hadde en gruppe personer som skal grupperes basert på binær kjønnsidentitet som mann eller kvinne, ringer du på k- betyr algoritme ved hjelp av inngangen k = 3 ville tvinge folket inn i tre klynger når bare to, eller en inngang av k = 2, ville gi en mer naturlig passform.
På samme måte, hvis en gruppe enkeltpersoner enkelt var gruppert basert på hjemstat og du ringte k- betyr algoritme med inngangen k = 20, Resultatene kan være for generaliserte for å være effektive.
Av denne grunn er det ofte en god ide å eksperimentere med forskjellige verdier av k å identifisere verdien som best passer dine data. Du kan også ønske å utforske bruken av andre data mining algoritmer i din søken etter maskinlært kunnskap.