top of page

Come Migliorare la precisione di un modello di M.L. con il PreProcessing o pre-elaborazione dei dati

In questo post scoprirai i passaggi di pre-elaborazione dei dati che puoi utilizzare per migliorare la capacità predittiva dei tuoi modelli.


Come Migliorare la precisione di un modello di M.L. con il PreProcessing o pre-elaborazione dei dati
Come Migliorare la precisione di un modello di M.L. con il PreProcessing o pre-elaborazione dei dati

Cosa è la pre-elaborazione dei dati?

È necessario pre-elaborare i dati grezzi prima di modellare il problema. La preparazione specifica può dipendere dai dati che hai a disposizione e dagli algoritmi di machine learning che desideri utilizzare.


A volte, la pre-elaborazione dei dati può portare a miglioramenti imprevisti nell'accuratezza del modello. Ciò può essere dovuto al fatto che una relazione nei dati è stata semplificata o non oscurata.


La preparazione dei dati è un passaggio importante e dovresti sperimentare i passaggi di pre-elaborazione dei dati appropriati per i tuoi dati per vedere se puoi ottenere l'incremento desiderabile nella precisione del modello.

Esistono tre tipi di pre-elaborazione che puoi considerare per i tuoi dati:

  • Aggiungi attributi ai tuoi dati

  • Rimuovi gli attributi dai tuoi dati

  • Trasforma gli attributi nei tuoi dati

Analizzeremo ciascuno di questi tre tipi di pre-processo ed esamineremo alcuni esempi specifici di operazioni che è possibile eseguire.


Come Migliorare la precisione di un modello di M.L. :


1) Aggiungere attributi di dati

I modelli avanzati possono estrarre le relazioni da attributi complessi, sebbene alcuni modelli richiedano che tali relazioni siano esplicitate in modo chiaro. La derivazione di nuovi attributi dai dati di addestramento da includere nel processo di modellazione può darti un impulso nelle prestazioni del modello.

  • Attributi fittizi : gli attributi categoriali possono essere convertiti in n attributi binari, dove n è il numero di categorie (o livelli) dell'attributo. Questi attributi denormalizzati o scomposti sono noti come attributi fittizi o variabili fittizie.

  • Attributo trasformato : una variazione trasformata di un attributo può essere aggiunta al set di dati per consentire a un metodo lineare di sfruttare le possibili relazioni lineari e non lineari tra gli attributi. È possibile utilizzare trasformazioni semplici come log, quadrato e radice quadrata.

  • Dati mancanti : gli attributi con dati mancanti possono avere i dati mancanti imputati utilizzando un metodo affidabile, ad esempio k-neiest neighbors.


2) Rimuovere gli attributi dei dati

Alcuni metodi funzionano male con attributi ridondanti o duplicati. Puoi aumentare la precisione del modello rimuovendo gli attributi dai tuoi dati.

  • Proiezione : i dati di addestramento possono essere proiettati in spazi dimensionali inferiori, ma caratterizzano comunque le relazioni intrinseche nei dati. Un approccio popolare è l'analisi dei componenti principali (PCA) in cui i componenti principali trovati dal metodo possono essere presi come un insieme ridotto di attributi di input.

  • Segno spaziale : una proiezione del segno spaziale dei dati trasformerà i dati sulla superficie di una sfera multidimensionale. I risultati possono essere utilizzati per evidenziare l'esistenza di valori anomali che possono essere modificati o rimossi dai dati.

  • Attributi correlati : alcuni algoritmi degradano di importanza con l'esistenza di attributi altamente correlati. È possibile identificare attributi a coppie con alta correlazione e rimuovere dai dati gli attributi più correlati.


3) Trasformare gli attributi dei dati

Le trasformazioni dei dati di addestramento possono ridurre l'asimmetria dei dati e l'importanza dei valori anomali nei dati. Molti modelli prevedono che i dati vengano trasformati prima di poter applicare l'algoritmo.

  • Centratura : trasforma i dati in modo che abbiano una media di zero e una deviazione standard di uno. Questo è in genere chiamato standardizzazione dei dati.

  • Ridimensionamento : una trasformazione di ridimensionamento standard consiste nel mappare i dati dalla scala originale a una scala compresa tra zero e uno. Questo è in genere chiamato normalizzazione dei dati.

  • Rimuovi outliers : i dati distorti sono dati che hanno una distribuzione che viene spostata da una parte o dall'altra (valori maggiori o minori) anziché essere normalmente distribuiti. Alcuni metodi presuppongono dati normalmente distribuiti e possono funzionare meglio se viene rimossa l'inclinazione. Prova a sostituire l'attributo con il log, la radice quadrata o l'inverso dei valori.

  • Box-Cox : è possibile utilizzare una trasformata o una famiglia di trasformazioni Box-Cox per regolare in modo affidabile i dati per rimuovere l'inclinazione.

  • Binning : i dati numerici possono essere resi discreti raggruppando i valori in bin. Questo è in genere chiamato discretizzazione dei dati. Questo processo può essere eseguito manualmente, sebbene sia più affidabile se eseguito in modo sistematico e automatico utilizzando un'euristica che abbia senso nel dominio.



Letture consigliate per mettere in pratica ciò che hai letto :


Conclusione sul Come Migliorare la precisione di un modello di M.L.

Il pre-processing dei dati è un passaggio importante che può essere richiesto per preparare i dati grezzi per la modellazione, per soddisfare le aspettative dei dati per algoritmi di apprendimento automatico specifici e può fornire miglioramenti imprevisti nell'accuratezza del modello.


In questo post abbiamo scoperto tre gruppi di metodi di pre-elaborazione dei dati:

  • Aggiunta di attributi

  • Rimozione degli attributi

  • Attributi di trasformazione

La prossima volta che cercherai un aumento della precisione del modello, considera quali nuove prospettive puoi progettare sui tuoi dati affinché i tuoi modelli possano esplorare e sfruttare.


PCR (5).gif
PCR (4).gif
PCR.gif
PCR.gif
PCR.gif
PCR.gif
PCR (5).gif
3.gif
Vediamo se riesci a cliccarmi ! Nascondo una Sorpresa... (2).png

Ciao 

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Correlazione Alta

Correlazione Media

Correlazione Bassa

Iscriviti

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

più di 150 lezioni online

Dataset Gratis

più di 150o dataset

Ebook Gratis

più di 10 libri da leggere

Editor Gratis

un editor python online

Progetti Gratis

più di 25 progetti python

App Gratis

4 servizi web con I.A.

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Tutto ciò che riguarda l'intelligenza Artificiale, in unico posto, in italiano e gratis.

MEGLIO DI COSI' NON SI PUO' FARE

Dopo l'iscrizione riceverai diversi Regali

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

Grazie

bottom of page