L'uso della classificazione nel data mining

La classificazione è una tecnica di data mining che assegna categorie a una raccolta di dati al fine di favorire previsioni e analisi più accurate. Chiamato anche a volte chiamato a Albero decisionale , la classificazione è uno dei numerosi metodi per rendere efficace l'analisi di dataset di grandi dimensioni.

Perché la classificazione?

Database di grandi dimensioni stanno diventando la norma nel mondo di oggi grandi dati . Immagina un database con più terabyte di dati: un terabyte è uno trilioni di byte di dati.

Solo Facebook scricchiola 600 terabyte di nuovi dati ogni giorno (dal 2014, l'ultima volta che ha segnalato queste specifiche). La sfida principale dei big data è come dare un senso a questo.

E il volume puro non è l'unico problema: i big data tendono anche a essere diversi, non strutturati e in rapida evoluzione. Prendi in considerazione dati audio e video, post sui social media, dati 3D o dati geospaziali. Questo tipo di dati non è facilmente classificato o organizzato.

Per far fronte a questa sfida, è stata sviluppata una serie di metodi automatici per l'estrazione di informazioni utili classificazione .

Come funziona la classificazione

A rischio di andare troppo lontano nel parlare di tecnologia, discutiamo di come funziona la classificazione. L'obiettivo è creare una serie di regole di classificazione che rispondano a una domanda, prendano una decisione o prevedano un comportamento. Per iniziare, viene sviluppato un set di dati di addestramento che contiene un certo insieme di attributi e il probabile esito.

Il compito dell'algoritmo di classificazione è scoprire come la serie di attributi raggiunge la sua conclusione.

Scenario: Forse una società di carte di credito sta cercando di determinare quali potenziali clienti dovrebbero ricevere un'offerta di carta di credito.

Questo potrebbe essere il suo set di dati di allenamento:

**Dati di allenamento**

Nome	Età	Genere	Reddito annuo	Offerta carta di credito
John Doe	25	M	$39,500	No
Jane Doe	56	F	$125,000	sì

Le colonne "predittore" Età , Genere , e Reddito annuo determinare il valore dell '"attributo predittore" Offerta carta di credito . In un set di allenamento, l'attributo predittore è noto. L'algoritmo di classificazione tenta quindi di determinare come è stato raggiunto il valore dell'attributo predittore: quali relazioni esistono tra i predittori e la decisione? Svilupperà una serie di regole di predizione, solitamente un'istruzione IF / THEN, ad esempio:

IF (Età> 18 O Età <75) E Reddito annuale> 40.000 THEN Offerta carta di credito = sì

Ovviamente, questo è un semplice esempio e l'algoritmo avrebbe bisogno di un campionamento di dati molto più ampio rispetto ai due record mostrati qui. Inoltre, è probabile che le regole di previsione siano molto più complesse, comprese le sotto-regole per acquisire i dettagli degli attributi.

Successivamente, l'algoritmo riceve un "set di predizione" di dati da analizzare, ma a questo set manca l'attributo di previsione (o decisione):

**Dati predittori**

Nome	Età	Genere	Reddito annuo	Offerta carta di credito
Jack Frost	42	M	$88,000
Mary Murray	16	F	$0

Questi dati predittivi aiutano a stimare l'accuratezza delle regole di previsione e le regole vengono quindi ottimizzate fino a quando lo sviluppatore considera efficaci e utili le previsioni.

Esempi di classificazione giorno per giorno

La classificazione e altre tecniche di data mining sono alla base della nostra esperienza quotidiana di consumatori.

Le previsioni del tempo potrebbero fare uso della classificazione per segnalare se il giorno sarà piovoso, soleggiato o nuvoloso. La professione medica potrebbe analizzare le condizioni di salute per prevedere i risultati medici. Un tipo di metodo di classificazione, Naive Bayesian, utilizza la probabilità condizionale per classificare le e-mail di spam. Dalla rilevazione di frodi alle offerte di prodotti, la classificazione è dietro le quinte ogni giorno analizzando i dati e producendo previsioni.