Team I.A. Italia

4 min

Come Migliorare la precisione di un modello di M.L. con il PreProcessing o pre-elaborazione dei dati

In questo post scoprirai i passaggi di pre-elaborazione dei dati che puoi utilizzare per migliorare la capacità predittiva dei tuoi modelli.

Come Migliorare la precisione di un modello di M.L. con il PreProcessing o pre-elaborazione dei dati

Cosa è la pre-elaborazione dei dati?

È necessario pre-elaborare i dati grezzi prima di modellare il problema. La preparazione specifica può dipendere dai dati che hai a disposizione e dagli algoritmi di machine learning che desideri utilizzare.

A volte, la pre-elaborazione dei dati può portare a miglioramenti imprevisti nell'accuratezza del modello. Ciò può essere dovuto al fatto che una relazione nei dati è stata semplificata o non oscurata.

La preparazione dei dati è un passaggio importante e dovresti sperimentare i passaggi di pre-elaborazione dei dati appropriati per i tuoi dati per vedere se puoi ottenere l'incremento desiderabile nella precisione del modello.

Esistono tre tipi di pre-elaborazione che puoi considerare per i tuoi dati:

  • Aggiungi attributi ai tuoi dati

  • Rimuovi gli attributi dai tuoi dati

  • Trasforma gli attributi nei tuoi dati

Analizzeremo ciascuno di questi tre tipi di pre-processo ed esamineremo alcuni esempi specifici di operazioni che è possibile eseguire.

Come Migliorare la precisione di un modello di M.L. :

1) Aggiungere attributi di dati

I modelli avanzati possono estrarre le relazioni da attributi complessi, sebbene alcuni modelli richiedano che tali relazioni siano esplicitate in modo chiaro. La derivazione di nuovi attributi dai dati di addestramento da includere nel processo di modellazione può darti un impulso nelle prestazioni del modello.

  • Attributi fittizi : gli attributi categoriali possono essere convertiti in n attributi binari, dove n è il numero di categorie (o livelli) dell'attributo. Questi attributi denormalizzati o scomposti sono noti come attributi fittizi o variabili fittizie.

  • Attributo trasformato : una variazione trasformata di un attributo può essere aggiunta al set di dati per consentire a un metodo lineare di sfruttare le possibili relazioni lineari e non lineari tra gli attributi. È possibile utilizzare trasformazioni semplici come log, quadrato e radice quadrata.

  • Dati mancanti : gli attributi con dati mancanti possono avere i dati mancanti imputati utilizzando un metodo affidabile, ad esempio k-neiest neighbors.

2) Rimuovere gli attributi dei dati

Alcuni metodi funzionano male con attributi ridondanti o duplicati. Puoi aumentare la precisione del modello rimuovendo gli attributi dai tuoi dati.

  • Proiezione : i dati di addestramento possono essere proiettati in spazi dimensionali inferiori, ma caratterizzano comunque le relazioni intrinseche nei dati. Un approccio popolare è l'analisi dei componenti principali (PCA) in cui i componenti principali trovati dal metodo possono essere presi come un insieme ridotto di attributi di input.

  • Segno spaziale : una proiezione del segno spaziale dei dati trasformerà i dati sulla superficie di una sfera multidimensionale. I risultati possono essere utilizzati per evidenziare l'esistenza di valori anomali che possono essere modificati o rimossi dai dati.

  • Attributi correlati : alcuni algoritmi degradano di importanza con l'esistenza di attributi altamente correlati. È possibile identificare attributi a coppie con alta correlazione e rimuovere dai dati gli attributi più correlati.

3) Trasformare gli attributi dei dati

Le trasformazioni dei dati di addestramento possono ridurre l'asimmetria dei dati e l'importanza dei valori anomali nei dati. Molti modelli prevedono che i dati vengano trasformati prima di poter applicare l'algoritmo.

  • Centratura : trasforma i dati in modo che abbiano una media di zero e una deviazione standard di uno. Questo è in genere chiamato standardizzazione dei dati.

  • Ridimensionamento : una trasformazione di ridimensionamento standard consiste nel mappare i dati dalla scala originale a una scala compresa tra zero e uno. Questo è in genere chiamato normalizzazione dei dati.

  • Rimuovi outliers : i dati distorti sono dati che hanno una distribuzione che viene spostata da una parte o dall'altra (valori maggiori o minori) anziché essere normalmente distribuiti. Alcuni metodi presuppongono dati normalmente distribuiti e possono funzionare meglio se viene rimossa l'inclinazione. Prova a sostituire l'attributo con il log, la radice quadrata o l'inverso dei valori.

  • Box-Cox : è possibile utilizzare una trasformata o una famiglia di trasformazioni Box-Cox per regolare in modo affidabile i dati per rimuovere l'inclinazione.

  • Binning : i dati numerici possono essere resi discreti raggruppando i valori in bin. Questo è in genere chiamato discretizzazione dei dati. Questo processo può essere eseguito manualmente, sebbene sia più affidabile se eseguito in modo sistematico e automatico utilizzando un'euristica che abbia senso nel dominio.

Letture consigliate per mettere in pratica ciò che hai letto :

  1. Manipolazione Dati con Python e Pandas

  2. Come preparare i dati per il Machine Learning o apprendimento automatico

  3. Una Guida Semplice e Completa per passare da Excel a Python

  4. Feature Engineering e Feature Selection per Principianti e non

  5. Introduzione a Scikit Learn con esempio pratico in Python

  6. Analisi esplorativa dati con Python

  7. Come rimuovere e gestire i valori anomali con python nel machine learning

  8. Trucchi Python per la data science
     

Conclusione sul Come Migliorare la precisione di un modello di M.L.

Il pre-processing dei dati è un passaggio importante che può essere richiesto per preparare i dati grezzi per la modellazione, per soddisfare le aspettative dei dati per algoritmi di apprendimento automatico specifici e può fornire miglioramenti imprevisti nell'accuratezza del modello.

In questo post abbiamo scoperto tre gruppi di metodi di pre-elaborazione dei dati:

  • Aggiunta di attributi

  • Rimozione degli attributi

  • Attributi di trasformazione

La prossima volta che cercherai un aumento della precisione del modello, considera quali nuove prospettive puoi progettare sui tuoi dati affinché i tuoi modelli possano esplorare e sfruttare.