Data mining con clustering K-Means

Il K- significa che l'algoritmo di clustering è uno strumento di data mining e machine learning utilizzato per raggruppare le osservazioni in gruppi di osservazioni correlate senza alcuna conoscenza precedente di tali relazioni. Campionando, l'algoritmo tenta di mostrare in quale categoria, o cluster, i dati appartengono, con il numero di cluster definiti dal valore K.

Il K- significa che l'algoritmo è una delle tecniche di clustering più semplici ed è comunemente usato nell'imaging medico, nella biometria e nei campi correlati. Il vantaggio di K- significa che il clustering indica che i tuoi dati (usando la sua forma non supervisionata) invece di dover istruire l'algoritmo sui dati all'inizio (usando la forma supervisionata dell'algoritmo).

A volte viene chiamato Algoritmo di Lloyd, in particolare nei circoli dell'informatica perché l'algoritmo standard è stato inizialmente proposto da Stuart Lloyd nel 1957. Il termine "k-means" è stato coniato nel 1967 da James McQueen.

Come funziona l'algoritmo K-Means

Il K- significa che l'algoritmo è un algoritmo evolutivo che prende il nome dal suo metodo operativo. L'algoritmo raggruppa le osservazioni in K gruppi, dove K è fornito come parametro di input. Assegna quindi ogni osservazione ai cluster in base alla vicinanza dell'osservazione alla media del cluster. La media del cluster viene quindi ricalcolata e il processo ricomincia. Ecco come funziona l'algoritmo:

L'algoritmo seleziona in modo arbitrario K indica come i centri iniziali del cluster (i mezzi).
Ogni punto nel set di dati viene assegnato al cluster chiuso, in base alla distanza euclidea tra ciascun punto e ciascun centro del cluster.
Ogni centro del cluster viene ricalcolato come media dei punti in quel cluster.
I passaggi 2 e 3 si ripetono fino a quando i cluster convergono. La convergenza può essere definita in modo diverso a seconda dell'implementazione, ma normalmente significa che nessuna osservazione modifica i cluster quando vengono ripetuti i passaggi 2 e 3 o che le modifiche non fanno una differenza sostanziale nella definizione dei cluster.

Scegliere il numero di cluster

Uno dei principali svantaggi di K- significa clustering è il fatto che è necessario specificare il numero di cluster come input per l'algoritmo. Come progettato, l'algoritmo non è in grado di determinare il numero appropriato di cluster e dipende dall'utente per identificarlo in anticipo.

Per esempio, se tu avessi un gruppo di persone che devono essere raggruppate in base all'identità di genere binaria come maschio o femmina, chiama il K- significa algoritmo utilizzando l'input k = 3 forzerebbe la gente in tre gruppi quando solo due o un input di k = 2, fornirebbe una misura più naturale.

Allo stesso modo, se un gruppo di individui fosse facilmente raggruppato in base allo stato di residenza e tu abbia chiamato il K- significa algoritmo con l'input k = 20, i risultati potrebbero essere troppo generalizzati per essere efficaci.

Per questo motivo, è spesso una buona idea sperimentare diversi valori di K per identificare il valore che meglio si adatta ai tuoi dati. Potresti anche voler esplorare l'uso di altri algoritmi di data mining nella tua ricerca di conoscenza appresa a macchina.