Quando sei alle prime armi con gli algoritmi ed i modelli di apprendimento può accadere di trovarti in una situazione antipatica: hai i tuoi dati ma non sai che algoritmo di apprendimento utilizzare.
Prima di illustrare le differenze tra le due famiglie di algoritmi e quale è più efficace per i tuoi dati, ricordiamo che stiamo operando all'interno della branca del machine learning chiamato apprendimento supervisionato.
Se non conosci le tre principali famiglie del machine learning clicca qui.
Questo tipo di apprendimento si basa su dei dati strutturati, quindi variabili indipendenti ( i valori delle X ) e la variabile di target ( il nostro obbiettivo Y).
Questi modelli o algoritmi ricevono in input X,Y e generano una funzione del tipo F(x1,x2,..,xn) = y.
Dove x1,x2, .. , xn sono le variabili che descrivono e caratterizzano il nostro target y.
Vediamo ora la differenza principale tra classificatore e regressione con alcuni esempi di utilizzo nel machine learning.
Indice
il Classificatore
I classificatori proprio come suggerisce il nome servono a catalogare o classificare il nostro target.
Il nostro target dovrà quindi essere una Classe. Facciamo qualche esempio pratico per capire quando il nostro target è una variabile da classificare e quindi una classe.
Un esempio in ambito della sentiment analyst : vogliamo classificare se un commento sotto i video dei nostri prodotti o servizi è uno spam o meno. Quindi la nostra variabile di target sarà "spam", se il commento è di spam, o "non spam" se il commento non conterrà altri prodotti o servizi di altre aziende.
Un esempio in ambito della Computer Vision : dobbiamo creare un modello in grado di distinguere se nell'immagine è presente o meno un determinato oggetto o animale. Anche questa volta il nostro modello riceverà in input un'immagine e la dovrà classificare in base alla presenza o meno dell'oggetto che cerchiamo. Quindi anche in questo caso il nostro target è una classe, "si" se l'oggetto o l'animale è presente nell'immagine oppure "no".
Un esempio nell'ambito del Marketing : supponiamo di avere i dati anagrafici, i servizi acquistati e un campo che indica se il cliente è soddisfatto o meno dei nostri clienti. Vogliamo creare un modello che passati in input nuovi dati sui clienti che hanno recentemente acquistato un servizio predica se loro sono o meno soddisfatti. Come è possibile notare il nostro target è una classe divisa in due gruppi "soddisfatto" e "non soddisfatto" quindi anche questa volta utilizzeremo un classificatore.
Un esempio in ambito della Medicina : decidiamo di creare un modello che passate in input le cartelle mediche di pazienti affetti da una determinata malattia, questo possa predire lo stadio, ad esempio "Stato iniziale", "Stato avanzato" , "Stato terminale" e "Nessuno Stato" nel caso la malattia sia regredita. Quindi anche in questo tipologia di problema il nostro target è una classe divisa in 4 gruppi :
"Stato iniziale", inizio malattia
"Stato avanzato", avanzamento della malattia
"Stato terminale" , verso il termine della malattia
"Nessuno Stato" , malattia estinta dal paziente con successo
Quindi ricapitolando gli algoritmi di classificazione si vanno ad utilizzare quando ciò che dobbiamo stimare non è una variabile che oscilla, ad esempio come il prezzo o gli indici di borsa, ma qualcosa di statico che è possibile suddividere o catalogare.
Tra gli algoritmi di Classificazione, nel campo del machine learning i più diffusi ed utilizzati sono i seguenti:
Regressione Logistica (anche se il nome tende a far pensare che sia una regressione)
Albero decisionale
Classificatore Bayesiano
kNN
la Regressione
Questi modelli al contrario, non devono trovare " uno o più piani o nodi " che classificano il target, ma una funzione che descrive il nostro target. Quindi il suo scopo è di prevedere i valori di una variabile numerica a partire da una o più variabili.
Vediamo alcuni esempi dove è utile utilizzare la regressione
Un esempio nell'ambito del Marketing : Abbiamo i dati delle nostre sponsorizzazioni sui social-network e quante vendite ci hanno portato. Quindi in questo caso dobbiamo cercare una funzione capace di descrivere quanto aumentando le sponsorizzazioni aumentano le vendite. Questo è proprio il lavoro della Regressione 😉.
Un esempio in ambito della Medicina : decidiamo di creare un modello che passato in input il numero di antenati affetti da una determinata patologia, questo possa predire le probabilità che tu la possa aver ereditata. Anche in questo caso la Regressione risolverà il problema.
Un esempio nel ramo Immobiliare: Se volessimo creare un algoritmo in grado di fare una stima del prezzo di un appartamento avremmo le nostre variabili indipendenti ( gli attributi che descrivono la casa : dimensioni, numero di stanze, numero di bagni, ecc...) che andranno a descrivere variabile di target, ossia il prezzo. In questo caso il prezzo è una variabile che a noi interessa sapere il più preciso possibile per questo motivo anche qui utilizzeremo la Regressione.
L'algoritmo più utilizzato è la regressione Lineare.
Grazie per la lettura, condividi l'articolo per supportarci.
In estrema sintesi, parafrasando, credo di poter dire che il "classificatore" opera una analisi logica, mentre il "regressore" lavora sulla derivata della funzione....