Come Generare dataset con python e scikit-learn

Team I.A. Italia
14 mar 2022
Tempo di lettura: 5 min

I dataset di test sono piccoli set di dati inventati che consentono di testare un algoritmo di apprendimento automatico.

I dati dei set di dati di test hanno proprietà ben definite, come linearità o non linearità, che consentono di esplorare il comportamento dell'algoritmo specifico. La libreria Python scikit-learn fornisce una suite di funzioni per la generazione di campioni da problemi di test configurabili per la regressione e la classificazione.

In questo tutorial scoprirai problemi di test e come usarli in Python con scikit-learn.

Dopo aver completato questo tutorial, saprai:

Come generare problemi di test di previsione di classificazione multi-classe.
Come generare problemi di test di previsione della classificazione binaria.
Come generare problemi di test di predizione di regressione lineare.

Come Generare dataset con python e scikit-learn

Prerequisiti :

Se non sai cosa è il Machine Learning, clicca qui
Se non sai come scaricare e gestire le librerie, clicca qui
Se non sai cosa sia un Dataset, clicca qui
Se non sai perchè utilizziamo python, clicca qui
Non hai un ambiente di sviluppo ? clicca qui

Generare dataset con python

Un problema durante lo sviluppo e l'implementazione di algoritmi di apprendimento automatico è come sapere se li hai implementati correttamente.

I set di dati di test sono piccoli problemi inventati che consentono di testare ed eseguire il debug degli algoritmi. Sono anche utili per comprendere meglio il comportamento degli algoritmi in risposta alle modifiche degli iperparametri.

Di seguito sono riportate alcune proprietà dei set di dati di test:

Possono essere generati rapidamente e facilmente.
Contengono risultati "conosciuti" o "compresi" per il confronto con le previsioni.
Sono stocastici, consentendo variazioni casuali sullo stesso problema ogni volta che vengono generati.
Sono piccoli e facilmente visualizzabili in due dimensioni.
Possono essere ridimensionati banalmente.

Consiglio di utilizzare i set di dati di test quando si inizia con un nuovo algoritmo di apprendimento automatico o quando si sviluppa un nuovo cablaggio di test.

scikit-learn è una libreria Python per l'apprendimento automatico che fornisce funzioni per generare una suite di problemi di test.

In questo tutorial, esamineremo alcuni esempi di generazione di problemi di test per algoritmi di classificazione e regressione.

Generare dataset di classificazione

La classificazione è il problema dell'assegnazione di etichette alle osservazioni.

In questa sezione esamineremo tre problemi di classificazione: blob, lune e cerchi.

Generare dataset di classificazione

La funzione make_blobs() può essere utilizzata per generare blob di punti con una distribuzione gaussiana.

Puoi controllare quanti BLOB generare e il numero di campioni da generare, oltre a una miriade di altre proprietà.

Il problema è adatto per problemi di classificazione lineare data la natura linearmente separabile dei blob.

L'esempio seguente genera un set di dati 2D di campioni con tre BLOB come problema di previsione della classificazione multi-classe. Ogni osservazione ha due input e 0, 1 o 2 valori di classe.


# Genera un dataset per la classificazione 2d 
X, y = make_blobs(n_samples=100, centers=3, n_features=2)

L'esempio completo è elencato di seguito.


from sklearn.datasets import make_blobs
from matplotlib import pyplot
from pandas import DataFrame
# Genera un dataset per la classificazione 2d 
X, y = make_blobs(n_samples=100, centers=3, n_features=2)
# Creiamo uno scatter plot per il valore della classe
df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))
colors = {0:'red', 1:'blue', 2:'green'}
fig, ax = pyplot.subplots()
grouped = df.groupby('label')
for key, group in grouped:
    group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])
pyplot.show()

Per vedere l'output Copia e Incolla il codice sul nostro editor Online dedicato al Machine Learning

L'esecuzione dell'esempio genera gli input e gli output per il problema e quindi crea un pratico grafico 2D che mostra i punti per le diverse classi utilizzando colori diversi.

Nota, il tuo set di dati specifico e la trama risultante varieranno data la natura stocastica del generatore di dati. Questa è una funzionalità, non un bug.

Useremo questa stessa struttura di esempio per i seguenti esempi.

Generare dataset di classificazione ( lune )

La funzione make_moons() è per la classificazione binaria e genererà uno schema di turbolenza o due lune.

Puoi controllare quanto sono rumorose le forme della luna e il numero di campioni da generare.

Questo problema di test è adatto per algoritmi in grado di apprendere limiti di classe non lineari.

L'esempio seguente genera un set di dati lunare con rumore moderato.


# Genera un dataset per la classificazione 2d 
X, y = make_moons(n_samples=100, noise=0.1)

L'esempio completo è elencato di seguito.


from sklearn.datasets import make_moons
from matplotlib import pyplot
from pandas import DataFrame
# Genera un dataset per la classificazione 2d 
X, y = make_moons(n_samples=100, noise=0.1)
# Creiamo uno scatter plot per il valore della classe
df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))
colors = {0:'red', 1:'blue'}
fig, ax = pyplot.subplots()
grouped = df.groupby('label')
for key, group in grouped:
    group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])
pyplot.show()

Per vedere l'output Copia e Incolla il codice sul nostro editor Online dedicato al Machine Learning

L'esecuzione dell'esempio genera e traccia il set di dati per la revisione, colorando ancora i campioni in base alla classe assegnata.

Generare dataset di classificazione ( cerchi )

La funzione make_circles() genera un problema di classificazione binaria con set di dati che rientrano in cerchi concentrici.

Ancora una volta, come con il problema del test delle lune, puoi controllare la quantità di rumore nelle forme.

Questo problema di test è adatto per algoritmi in grado di apprendere varietà non lineari complesse.

L'esempio seguente genera un set di dati circles con un po' di rumore.

# Genera un dataset per la classificazione 2d 
X, y = make_circles(n_samples=100, noise=0.05)

L'esempio completo è elencato di seguito.


from sklearn.datasets import make_circles
from matplotlib import pyplot
from pandas import DataFrame
# Genera un dataset per la classificazione 2d 
X, y = make_circles(n_samples=100, noise=0.05)
# Creiamo uno scatter plotordinato per il valore della classe
df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))
colors = {0:'red', 1:'blue'}
fig, ax = pyplot.subplots()
grouped = df.groupby('label')
for key, group in grouped:
    group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])
pyplot.show()

Per vedere l'output Copia e Incolla il codice sul nostro editor Online dedicato al Machine Learning

L'esecuzione dell'esempio genera e traccia il set di dati per la revisione.

Generare dataset di regressione

La regressione è il problema di prevedere una quantità data un'osservazione.

La funzione make_regression() creerà un set di dati con una relazione lineare tra input e output.

Puoi configurare il numero di campioni, il numero di funzioni di input, il livello di rumore e molto altro.

Questo set di dati è adatto per algoritmi in grado di apprendere una funzione di regressione lineare.

L'esempio seguente genererà 100 esempi con una funzione di input e una funzione di output con un rumore modesto.


# Generiamo un Dataset per la regressione ( regression dataset )
X, y = make_regression(n_samples=100, n_features=1, noise=0.1)

L'esempio completo è elencato di seguito.


from sklearn.datasets import make_regression
from matplotlib import pyplot
# Generiamo un Dataset per la regressione ( regression dataset )
X, y = make_regression(n_samples=100, n_features=1, noise=0.1)
# Creiamo il dataset del nostro set di dati
pyplot.scatter(X,y)
pyplot.show()

Per vedere l'output Copia e Incolla il codice sul nostro editor Online dedicato al Machine Learning

L'esecuzione dell'esempio genererà i dati e traccia la relazione X e y, che, dato che è lineare, è piuttosto noiosa.

Estensioni

Questa sezione elenca alcune idee per estendere il tutorial che potresti voler esplorare.

Confronta algoritmi . Seleziona un problema di test e confronta una suite di algoritmi sul problema e segnala le prestazioni.
Problemi aggiuntivi . La libreria fornisce una suite di problemi di test aggiuntivi; scrivi un esempio di codice per ciascuno per dimostrare come funzionano.

Se esplori una di queste estensioni, ci piacerebbe saperlo. Magari faccelo sapere nei commenti.

Ulteriori letture

Questa sezione fornisce ulteriori risorse sull'argomento se stai cercando di approfondire.

Cosa hai imparato ?

In questo tutorial, hai scoperto problemi di test e come usarli in Python con scikit-learn.

Nello specifico hai imparato:

Come generare dataset di test di previsione di classificazione multi-classe.
Come generare dataset di test di previsione della classificazione binaria.
Come generare dataset di test di predizione di regressione lineare.

Hai domande? Fai pure le tue domande nei commenti qui sotto e faremo del nostro meglio per rispondere.

INTELLIGENZA ARTIFICIALE ITALIA

Questa piattaforma è il punto di riferimento in Italia completamente dedicato al mondo dell' Intelligenza Artificiale

Come Generare dataset con python e scikit-learn

Prerequisiti :

Generare dataset con python

Generare dataset di classificazione

Generare dataset di classificazione

Generare dataset di classificazione ( lune )

Generare dataset di classificazione ( cerchi )

Generare dataset di regressione

Estensioni

Ulteriori letture

Cosa hai imparato ?

Post recenti

Commenti

Ciao

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

Dataset Gratis

Ebook Gratis

Editor Gratis

Progetti Gratis

App Gratis

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Ecco altre letture proposte dal nostro motore di raccomandazione simili a

Come Generare dataset con python e scikit-learn

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

© Copyright 2017-2026 Intelligenza Artificiale Italia

INTELLIGENZA ARTIFICIALE ITALIA

Prerequisiti :

Generare dataset con python

Generare dataset di classificazione

Generare dataset di classificazione

Generare dataset di classificazione ( lune )

Generare dataset di classificazione ( cerchi )

Generare dataset di regressione

Estensioni

Ulteriori letture

Cosa hai imparato ?

Commenti

Ciao

🤗 Articoli consigliati dalla nostra Intelligenza Artificiale in base ai tuoi interessi

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

Dataset Gratis

Ebook Gratis

Editor Gratis

Progetti Gratis

App Gratis

Unisciti Ora a oltre 1.000.000 di lettori e appassionanti d'I.A.

Ecco altre letture proposte dal nostro motore di raccomandazione simili a

Come Generare dataset con python e scikit-learn

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

© Copyright 2017-2026 Intelligenza Artificiale Italia

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.