Come preparare i dati per il Machine Learning o apprendimento automatico

Team I.A. Italia
11 feb 2022
Tempo di lettura: 4 min

Gli algoritmi di apprendimento automatico imparano dai dati. È fondamentale fornire loro i dati giusti per il problema che si desidera risolvere.

Anche se disponi di dati validi, devi assicurarti che siano in una scala, un formato utile e persino che siano incluse funzionalità significative.

Come preparare i dati per il Machine Learning o apprendimento automatico

In questo post imparerai come preparare i dati per un algoritmo di apprendimento automatico. Questo è un argomento importante e tratterai l'essenziale.

Processo di preparazione dei dati nel Machine Learning

Più disciplinato sei nella gestione dei dati, più risultati coerenti e migliori probabilmente otterrai. Il processo per preparare i dati per un algoritmo di apprendimento automatico può essere riassunto in tre passaggi:

Passaggio 1 : seleziona Dati
Passaggio 2 : preelabora i dati
Passaggio 3 : preelabora i dati

Puoi seguire questo processo in modo lineare, ma è molto probabile che sia iterativo con molti loop.

Passaggio 1: seleziona Dati

Questo passaggio riguarda la selezione del sottoinsieme di tutti i dati disponibili con cui lavorerai. C'è sempre un forte desiderio di includere tutti i dati disponibili, che la massima "più è meglio" reggerà. Questo può o non può essere vero.

Devi considerare di quali dati hai effettivamente bisogno per affrontare la domanda o il problema su cui stai lavorando. Fai alcune ipotesi sui dati di cui hai bisogno e fai attenzione a registrare tali ipotesi in modo da poterle testare in seguito, se necessario.

Di seguito sono riportate alcune domande per aiutarti a riflettere su questo processo:

Qual è l'entità dei dati che hai a disposizione? Ad esempio attraverso il tempo, le tabelle di database, i sistemi connessi. Assicurati di avere un quadro chiaro di tutto ciò che puoi utilizzare.
Quali dati non sono disponibili che vorresti avere a disposizione? Ad esempio dati che non sono registrati o non possono essere registrati. Potresti essere in grado di derivare o simulare questi dati.
Di quali dati non hai bisogno per risolvere il problema? L'esclusione dei dati è quasi sempre più semplice dell'inclusione dei dati. Annota quali dati hai escluso e perché.

È solo in piccoli problemi, come la concorrenza o i set di dati di giocattoli in cui i dati sono già stati selezionati per te.

Scarica un ebook Gratis sulla Preparazione dei dati, con esempi pratici in Python

Passaggio 2: preelabora i dati

Dopo aver selezionato i dati, devi considerare come utilizzerai i dati. Questo passaggio di pre-elaborazione riguarda l'inserimento dei dati selezionati in un modulo su cui puoi lavorare.

Tre fasi comuni di preelaborazione dei dati sono la formattazione, la pulizia e il campionamento:

Formattazione : i dati che hai selezionato potrebbero non essere in un formato adatto a te con cui lavorare. I dati possono trovarsi in un database relazionale e lo vorresti in un file flat, oppure i dati potrebbero essere in un formato di file proprietario e lo vorresti in un database relazionale o in un file di testo.
Pulizia : i dati di pulizia sono la rimozione o la correzione dei dati mancanti. Potrebbero esserci istanze di dati che sono incomplete e non contengono i dati che ritieni necessari per risolvere il problema. Potrebbe essere necessario rimuovere queste istanze. Inoltre, potrebbero esserci informazioni riservate in alcuni attributi e questi attributi potrebbero dover essere resi anonimi o rimossi completamente dai dati.
Campionamento : potrebbero essere disponibili molti più dati selezionati di quelli con cui è necessario lavorare. Più dati possono comportare tempi di esecuzione molto più lunghi per gli algoritmi e requisiti di calcolo e di memoria maggiori. Puoi prendere un campione rappresentativo più piccolo dei dati selezionati che potrebbe essere molto più veloce per l'esplorazione e la prototipazione di soluzioni prima di considerare l'intero set di dati.

Scarica un ebook Gratis sulla Preparazione dei dati, con esempi pratici in Python

Passaggio 3: trasformare i dati

Il passaggio finale consiste nel trasformare i dati di processo. L'algoritmo specifico con cui stai lavorando e la conoscenza del dominio del problema influenzeranno questo passaggio e molto probabilmente dovrai rivedere diverse trasformazioni dei tuoi dati preelaborati mentre lavori sul problema.

Tre trasformazioni di dati comuni sono il ridimensionamento, la scomposizione degli attributi e le aggregazioni degli attributi. Questo passaggio viene anche definito ingegneria delle funzionalità.

Ridimensionamento : i dati preelaborati possono contenere attributi con miscele di bilance per varie quantità come dollari, chilogrammi e volume delle vendite. Molti metodi di apprendimento automatico come gli attributi dei dati devono avere la stessa scala, ad esempio tra 0 e 1 per il valore più piccolo e più grande per una determinata funzionalità. Considera qualsiasi ridimensionamento delle funzionalità che potresti dover eseguire.
Decomposizione : potrebbero esserci funzionalità che rappresentano un concetto complesso che potrebbe essere più utile per un metodo di apprendimento automatico quando suddiviso nelle parti costituenti. Un esempio è una data che può avere componenti di giorno e ora che a loro volta potrebbero essere ulteriormente suddivise. Forse solo l'ora del giorno è rilevante per la risoluzione del problema. considera quali scomposizioni di funzionalità puoi eseguire.
Aggregazione : potrebbero esserci funzionalità che possono essere aggregate in un'unica funzionalità che sarebbero più significative per il problema che stai cercando di risolvere. Ad esempio, potrebbero esserci istanze di dati per ogni volta che un cliente accede a un sistema che potrebbe essere aggregato in un conteggio per il numero di accessi consentendo l'eliminazione delle istanze aggiuntive. Considera quale tipo di aggregazioni di funzionalità potrebbero essere eseguite.

Puoi dedicare molto tempo alla progettazione di funzionalità dai tuoi dati e può essere molto vantaggioso per le prestazioni di un algoritmo. Inizia in piccolo e sviluppa le abilità che impari.

Riepilogo

In questo post hai appreso l'essenza della preparazione dei dati per l'apprendimento automatico. Hai scoperto un framework in tre fasi per la preparazione dei dati e le tattiche in ogni passaggio:

Passaggio 1: selezione dei dati Considera quali dati sono disponibili, quali dati mancano e quali dati possono essere rimossi.
Passaggio 2: preelaborazione dei dati Organizza i dati selezionati mediante formattazione, pulizia e campionamento da essi.
Passaggio 3: trasformazione dei dati Trasforma i dati preelaborati pronti per l'apprendimento automatico progettando funzionalità utilizzando il ridimensionamento, la scomposizione degli attributi e l'aggregazione degli attributi.

La preparazione dei dati è un argomento di grandi dimensioni che può comportare molte iterazioni, esplorazioni e analisi. Diventare bravi nella preparazione dei dati ti renderà un maestro nell'apprendimento automatico. Per ora, considera solo le domande sollevate in questo post durante la preparazione dei dati e cerca sempre modi più chiari per rappresentare il problema che stai cercando di risolvere.

Grazie mille per la lettura

INTELLIGENZA ARTIFICIALE ITALIA

Questa piattaforma è il punto di riferimento in Italia completamente dedicato al mondo dell' Intelligenza Artificiale

Come preparare i dati per il Machine Learning o apprendimento automatico

Processo di preparazione dei dati nel Machine Learning

Passaggio 1: seleziona Dati

Passaggio 2: preelabora i dati

Passaggio 3: trasformare i dati

Riepilogo

Post recenti

Commenti

Ciao

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

Dataset Gratis

Ebook Gratis

Editor Gratis

Progetti Gratis

App Gratis

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Ecco altre letture proposte dal nostro motore di raccomandazione simili a

Come preparare i dati per il Machine Learning o apprendimento automatico

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

© Copyright 2017-2026 Intelligenza Artificiale Italia

INTELLIGENZA ARTIFICIALE ITALIA

Processo di preparazione dei dati nel Machine Learning

Passaggio 1: seleziona Dati

Passaggio 2: preelabora i dati

Passaggio 3: trasformare i dati

Riepilogo

Commenti

Ciao

🤗 Articoli consigliati dalla nostra Intelligenza Artificiale in base ai tuoi interessi

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

Dataset Gratis

Ebook Gratis

Editor Gratis

Progetti Gratis

App Gratis

Unisciti Ora a oltre 1.000.000 di lettori e appassionanti d'I.A.

Ecco altre letture proposte dal nostro motore di raccomandazione simili a

Come preparare i dati per il Machine Learning o apprendimento automatico

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

© Copyright 2017-2026 Intelligenza Artificiale Italia

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.