I 5 migliori algoritmi di machine learning ( ML ) che ogni principiante dovrebbe conoscere

Team I.A. Italia
23 gen 2021
Tempo di lettura: 5 min

Iniziamo questo articolo con un bellissimo teorema, chiamato " No Free Lunch(NFL)". In poche parole, afferma che :

" Dati due algoritmi di predizione qualsiasi, sono equivalenti, quando le loro prestazioni sono approssimativamente uguali su tutti i possibili problemi"

ed è particolarmente rilevante per l'apprendimento supervisionato (cioè la modellazione predittiva) perchè questo teorema va applicato quando si tratta di scegliere l'algoritmo migliore per il nostro problema .

Ad esempio, non si può dire che le reti neurali siano sempre migliori degli alberi decisionali o viceversa. Ci sono molti fattori in gioco, come la dimensione e la struttura del tuo set di dati.

Di conseguenza, dovresti provare molti algoritmi diversi per il tuo problema, mentre utilizzi un "test set" di dati per valutare le prestazioni e selezionare il vincitore.

Ovviamente, gli algoritmi che provi devono essere appropriati per il tuo problema, ed è qui che entra in gioco la scelta del compito del modello predittivo corretto. Come analogia, se hai bisogno di pulire la tua casa, potresti usare un aspirapolvere, una scopa o uno straccio , ma non tireresti fuori una pala e inizieresti a scavare.

Allora iniziamo a parlare dei 5 migliori algoritmi da imparare per risolvere semplici problemi di machine learning.

Indice

Il principio fondamentale
Regressione lineare
Regressione logistica
Analisi discriminante lineare
Classificazione e alberi di regressione
Naive Bayes
Conclusioni

5 migliori algoritmi di ML per principianti

1- Il principio fondamentale

Tuttavia, esiste un principio comune alla base di tutti gli algoritmi di apprendimento automatico supervisionato per la modellazione predittiva.

Gli algoritmi di apprendimento automatico sono descritti come l'apprendimento di una funzione di destinazione (f) che mappa al meglio le variabili di input (X) su una variabile di output (Y): Y = f (X)

Questo è un compito di apprendimento generale in cui vorremmo fare previsioni in futuro (Y) dati nuovi esempi di variabili di input (X). Non sappiamo come sia la funzione (f) o la sua forma. Se lo facessimo, lo useremmo direttamente e non avremmo bisogno di apprenderlo dai dati utilizzando algoritmi di apprendimento automatico.

Il tipo più comune di apprendimento automatico è imparare la mappatura Y = f (X) per fare previsioni di Y per il nuovo X. Questo è chiamato modellazione predittiva o analisi predittiva e il nostro obiettivo è rendere le previsioni più accurate possibili.

Per i neofiti dell'apprendimento automatico desiderosi di comprendere le basi dell'apprendimento automatico, ecco un breve tour sui 5 migliori algoritmi di apprendimento automatico utilizzati dai data scientist.

2- Regressione Lineare

La regressione lineare è forse uno degli algoritmi più noti e ben compresi in statistica e apprendimento automatico.

La modellazione predittiva si occupa principalmente di ridurre al minimo l'errore di un modello o di effettuare le previsioni più accurate possibili, a scapito della spiegabilità. Prenderemo in prestito, riutilizzeremo e ruberemo algoritmi da molti campi diversi, comprese le statistiche, e li useremo per questi scopi.

La rappresentazione della regressione lineare è un'equazione che descrive una retta che meglio si adatta alla relazione tra le variabili di input (x) e le variabili di output (y), trovando ponderazioni specifiche per le variabili di input chiamate coefficienti (C).

Ad esempio: y = Cx + C2

Prevederemo y dato l'input x e l'obiettivo dell'algoritmo di apprendimento della regressione lineare è trovare i valori per i coefficienti C e C2.

È possibile utilizzare diverse tecniche per apprendere il modello di regressione lineare dai dati, come una soluzione di algebra lineare per i minimi quadrati ordinari e l'ottimizzazione della discesa del gradiente.

La regressione lineare esiste da più di 200 anni ed è stata ampiamente studiata. Alcune buone regole pratiche quando si utilizza questa tecnica sono rimuovere le variabili che sono molto simili (correlate) e rimuovere il rumore dai dati, se possibile. È una tecnica veloce e semplice e un buon primo algoritmo da provare.

3 - REGRESSIONE LOGISTICA

La regressione logistica è un'altra tecnica presa in prestito dall'apprendimento automatico dal campo della statistica. È il metodo di riferimento per i problemi di classificazione binaria (problemi con due valori di classe).

La regressione logistica è come la regressione lineare in quanto l'obiettivo è trovare i valori per i coefficienti che pesano ogni variabile di input. A differenza della regressione lineare, la previsione per l'output viene trasformata utilizzando una funzione non lineare chiamata funzione logistica.

La funzione logistica ha l'aspetto di una grande S e trasformerà qualsiasi valore nell'intervallo da 0 a 1. Ciò è utile perché possiamo applicare una regola all'output della funzione logistica per agganciare i valori a 0 e 1 (ad esempio SE minore di 0,5 allora output 1) e prevedere un valore di classe.

A causa del modo in cui il modello viene appreso, le previsioni fatte dalla regressione logistica possono essere utilizzate anche come probabilità che una data istanza di dati appartenga alla classe 0 o alla classe 1. Ciò può essere utile per i problemi in cui è necessario fornire più motivazioni per una predizione.

Come la regressione lineare, la regressione logistica funziona meglio quando si rimuovono attributi che non sono correlati alla variabile di output e attributi molto simili (correlati) tra loro. È un modello veloce da apprendere ed efficace sui problemi di classificazione binaria.

4- ANALISI DISCRIMINANTE LINEARE

La regressione logistica è un algoritmo di classificazione tradizionalmente limitato a soli problemi di classificazione a due classi. Se si hanno più di due classi, l'algoritmo di analisi discriminante lineare è la tecnica di classificazione lineare preferita.

La rappresentazione dell'ADL è piuttosto semplice. Consiste di proprietà statistiche dei dati, calcolate per ciascuna classe. Per una singola variabile di input questo include:

Il valore medio per ogni classe.
La varianza calcolata in tutte le classi.

Le previsioni vengono effettuate calcolando un valore discriminante per ciascuna classe e facendo una previsione per la classe con il valore più grande. La tecnica presuppone che i dati abbiano una distribuzione gaussiana (curva a campana), quindi è una buona idea rimuovere prima i valori anomali dai dati. È un metodo semplice e potente per la classificazione dei problemi di modellazione predittiva.

5 - ALBERI DI CLASSIFICAZIONE E REGRESSIONE

Gli alberi decisionali sono un tipo importante di algoritmo per l'apprendimento automatico della modellazione predittiva.

La rappresentazione del modello dell'albero decisionale è un albero binario. Questo è il tuo albero binario da algoritmi e strutture dati, niente di troppo stravagante. Ogni nodo rappresenta una singola variabile di input (x) e un punto di divisione su quella variabile (assumendo che la variabile sia numerica).

I nodi foglia dell'albero contengono una variabile di output (y) che viene utilizzata per fare una previsione. Le previsioni vengono effettuate percorrendo le divisioni dell'albero fino ad arrivare a un nodo foglia e restituire il valore della classe a quel nodo foglia.

Gli alberi sono veloci da imparare e molto veloci per fare previsioni. Inoltre sono spesso accurati per un'ampia gamma di problemi e non richiedono alcuna preparazione speciale per i dati.

6 - NAIVE BAYES

Naive Bayes è un algoritmo semplice ma sorprendentemente potente per la modellazione predittiva.

Il modello è composto da due tipi di probabilità che possono essere calcolate direttamente dai dati di allenamento:

La probabilità di ogni classe
La probabilità condizionata per ogni classe dato ogni valore x.

Naive Bayes è un algoritmo semplice ma sorprendentemente potente

Una volta calcolato, il modello di probabilità può essere utilizzato per fare previsioni per nuovi dati utilizzando il teorema di Bayes. Quando i dati sono a valori reali, è comune assumere una distribuzione gaussiana (curva a campana) in modo da poter stimare facilmente queste probabilità.

Naive Bayes è chiamato ingenuo perché presuppone che ogni variabile di input sia indipendente. Questo è un presupposto forte e irrealistico per i dati reali, tuttavia, la tecnica è molto efficace su una vasta gamma di problemi complessi.

Conclusioni

Una tipica domanda posta da un principiante, di fronte a un'ampia varietà di algoritmi di apprendimento automatico, è "quale algoritmo devo usare?" La risposta alla domanda varia a seconda di molti fattori, tra cui:

la dimensione
la qualità e la natura dei dati
il tempo di calcolo disponibile
l'urgenza del compito
cosa si desidera fare con i dati.

Anche un esperto di data scientist non può dire quale algoritmo funzionerà meglio prima di provare diversi algoritmi. Sebbene esistano molti altri algoritmi di Machine Learning, questi sono i più popolari. Se sei un principiante del Machine Learning, questi sarebbero un buon punto di partenza per imparare.

Grazie mille la lettura, condividi l'articolo a chi pensi non conosca questi algoritmi.

INTELLIGENZA ARTIFICIALE ITALIA

Questa piattaforma è il punto di riferimento in Italia completamente dedicato al mondo dell' Intelligenza Artificiale

I 5 migliori algoritmi di machine learning ( ML ) che ogni principiante dovrebbe conoscere

1- Il principio fondamentale

2- Regressione Lineare

3 - REGRESSIONE LOGISTICA

4- ANALISI DISCRIMINANTE LINEARE

5 - ALBERI DI CLASSIFICAZIONE E REGRESSIONE

6 - NAIVE BAYES

Conclusioni

Post recenti

Commenti

Ciao

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

Dataset Gratis

Ebook Gratis

Editor Gratis

Progetti Gratis

App Gratis

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Ecco altre letture proposte dal nostro motore di raccomandazione simili a

I 5 migliori algoritmi di machine learning ( ML ) che ogni principiante dovrebbe conoscere

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

© Copyright 2017-2026 Intelligenza Artificiale Italia

INTELLIGENZA ARTIFICIALE ITALIA

1- Il principio fondamentale

2- Regressione Lineare

3 - REGRESSIONE LOGISTICA

4- ANALISI DISCRIMINANTE LINEARE

5 - ALBERI DI CLASSIFICAZIONE E REGRESSIONE

6 - NAIVE BAYES

Conclusioni

Commenti

Ciao

🤗 Articoli consigliati dalla nostra Intelligenza Artificiale in base ai tuoi interessi

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

Dataset Gratis

Ebook Gratis

Editor Gratis

Progetti Gratis

App Gratis

Unisciti Ora a oltre 1.000.000 di lettori e appassionanti d'I.A.

Ecco altre letture proposte dal nostro motore di raccomandazione simili a

I 5 migliori algoritmi di machine learning ( ML ) che ogni principiante dovrebbe conoscere

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

© Copyright 2017-2026 Intelligenza Artificiale Italia

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.