top of page

Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico


Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

Che cosa è l'analisi esplorativa dei dati ?

L'analisi esplorativa dei dati si riferisce al processo critico di eseguire indagini iniziali sui dati in modo da scoprire modelli, individuare anomalie, testare ipotesi e verificare ipotesi con l'aiuto di statistiche riassuntive e rappresentazioni grafiche.

È una buona pratica comprendere prima i dati e cercare di raccogliere il maggior numero di informazioni da essi. L'EDA consiste nel dare un senso ai dati in mano, prima di partire con l'implementare mille modelli predittivi e milioni di layer .

Analisi esplorativa dei dati EDA - Un esempio pratico step by step

Per condividere la mia conoscenza del concetto e delle tecniche che conosco, prenderò un esempio di variante del set di dati sulla qualità del vino disponibile su UCI Machine Learning Repository e cercherò di acquisire il maggior numero di informazioni dal set di dati utilizzando EDA.


Siccome ci teniamo a condividere con voi tutto il materiale che usiamo per scrivere gli articoli vi lasciamo qui tutti i file che potrebbero servirvi per seguirci mentre programmate.



Per cominciare, ho importato le librerie necessarie (per questo esempio pandas, numpy, matplotlib e seaborn) e caricato il set di dati.

Nota: qualsiasi deduzione che ho potuto estrarre, l'ho menzionata con punti elenco.


Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

I dati originali sono separati dal delimitatore “ ; “ in un dato set di dati.

  • Per dare un'occhiata più da vicino ai dati ci si è avvalso della funzione “ .head()” della libreria pandas che restituisce le prime cinque osservazioni del set di dati. Analogamente “.tail()” restituisce le ultime cinque osservazioni del set di dati.

Ho scoperto il numero totale di righe e colonne nel set di dati utilizzando ".shape".


Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

  • Il set di dati comprende 4898 osservazioni(righe) e 12 caratteristiche(colonne).

  • Di cui una è variabile dipendente e il resto 11 sono variabili indipendenti - caratteristiche fisico-chimiche.

È anche una buona pratica conoscere le colonne e i loro tipi di dati corrispondenti, oltre a scoprire se contengono valori null o meno.

Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

  • I dati hanno solo valori float e interi.

  • Nessuna colonna variabile ha valori nulli/mancanti.

La funzione description() in pandas è molto utile per ottenere varie statistiche di riepilogo. Questa funzione restituisce il conteggio, la media, la deviazione standard, i valori minimo e massimo e i quantili dei dati.

Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

  • Qui, come puoi notare, il valore medio è inferiore al valore mediano di ciascuna colonna che è rappresentato dal 50% (50° percentile) nella colonna dell'indice.

  • C'è in particolare una grande differenza tra il 75% e i valori massimi dei predittori "zucchero residuo", "anidride solforosa libera", "anidride solforosa totale".

  • Quindi le osservazioni 1 e 2 suggeriscono che ci sono valori estremi-Outlier nel nostro set di dati.


Alcune informazioni chiave semplicemente guardando alla variabile dipendente sono le seguenti:

Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

  • La variabile target/Variabile dipendente è di natura discreta e categorica.

  • La scala del punteggio di "qualità" varia da 1 a 10; dove 1 è scarso e 10 è il migliore.

  • 1,2 e 10 Le valutazioni di qualità non sono fornite da alcuna osservazione. Solo i punteggi ottenuti sono compresi tra 3 e 9.

Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

Questo ci dice il conteggio dei voti di ogni punteggio di qualità in ordine decrescente.

  • la “qualità” ha la maggior parte dei valori concentrati nelle categorie 5, 6 e 7.

  • Solo poche osservazioni fatte per le categorie 3 e 9.


Ho avuto una buona visione dei dati. Ma questa è la cosa con Data Science più ti coinvolgi più è difficile per te smettere di esplorare. Ora esploriamo i dati con bellissimi grafici. Python ha una libreria di visualizzazione, Seaborn , che si basa su matplotlib. Fornisce grafici statistici molto interessanti per eseguire analisi sia univariate che multivariate .

Per utilizzare la regressione lineare per la modellazione, è necessario rimuovere le variabili correlate per migliorare il modello. È possibile trovare le correlazioni utilizzando la funzione ".corr()" e visualizzare la matrice di correlazione utilizzando una mappa di calore in seaborn.

Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

Analisi esplorativa dati con la Mappa di calore e Correlazione

  • Le tonalità scure rappresentano una correlazione positiva mentre le tonalità più chiare rappresentano una correlazione negativa.

  • Se imposti annot=True, otterrai i valori in base ai quali le caratteristiche sono correlate tra loro nelle celle della griglia.


Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

È buona norma rimuovere le variabili correlate durante la selezione delle funzioni.

  • Qui possiamo dedurre che "densità" ha una forte correlazione positiva con "zucchero residuo" mentre ha una forte correlazione negativa con "alcol".

  • "anidride solforosa libera" e "acido citrico" non hanno quasi alcuna correlazione con la "qualità".

  • Poiché la correlazione è zero, possiamo dedurre che non esiste una relazione lineare tra questi due predittori. Tuttavia, è sicuro eliminare queste funzionalità nel caso in cui si applichi il modello di regressione lineare al set di dati.

Un diagramma a scatola (o diagramma a scatola e baffi) mostra la distribuzione dei dati quantitativi in ​​un modo che facilita i confronti tra le variabili. Il riquadro mostra i quartili del set di dati mentre i baffi si estendono per mostrare il resto della distribuzione. Il diagramma a scatola (noto anche come diagramma a scatola e baffi) è un modo standardizzato di visualizzare la distribuzione dei dati in base al riepilogo di cinque numeri:


  • Minimo

  • Primo quartile

  • Mediano

  • Terzo quartile

  • Massimo.

Nel box plot più semplice il rettangolo centrale si estende dal primo quartile al terzo quartile (l'intervallo interquartile o IQR).

Un segmento all'interno del rettangolo mostra la mediana e i "baffi" sopra e sotto la casella mostrano le posizioni del minimo e del massimo.


Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

Gli outlier sono 3×IQR o più al di sopra del terzo quartile o 3×IQR o più al di sotto del primo quartile.

  • Nel nostro set di dati, ad eccezione di "alcol", tutte le altre colonne delle caratteristiche mostrano valori anomali.

Ora per verificare la linearità delle variabili è una buona pratica tracciare il grafico della distribuzione e cercare l'asimmetria delle caratteristiche. La stima della densità del kernel (kde) è uno strumento molto utile per tracciare la forma di una distribuzione.


Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico
Analisi esplorativa dati con Python. Analisi esplorativa dei dati (EDA) - Esempio Pratico

  • La colonna "pH" sembra essere distribuita normalmente

  • rimanenti tutte le variabili indipendenti sono asimmetriche a destra/asimmetriche positivamente.

Infine, per riassumere tutta l'analisi esplorativa dei dati è un approccio filosofico e artistico per valutare ogni sfumatura dai dati al primo incontro.

Puoi dare un'occhiata all'intero progetto qui e provare con approcci diversi, ad es. prova un grafico a coppie e condividi tutte le inferenze che potresti trarre da esso o se non sono riuscito a catturare alcuna informazione utile nel mio approccio, condividi anche questo nei commenti.



Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
PCR (5).gif
PCR (4).gif
PCR.gif
PCR.gif
PCR.gif
PCR.gif
PCR (5).gif
3.gif
Vediamo se riesci a cliccarmi ! Nascondo una Sorpresa... (2).png

Ciao 

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Correlazione Alta

Correlazione Media

Correlazione Bassa

Iscriviti

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

più di 150 lezioni online

Dataset Gratis

più di 150o dataset

Ebook Gratis

più di 10 libri da leggere

Editor Gratis

un editor python online

Progetti Gratis

più di 25 progetti python

App Gratis

4 servizi web con I.A.

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Tutto ciò che riguarda l'intelligenza Artificiale, in unico posto, in italiano e gratis.

MEGLIO DI COSI' NON SI PUO' FARE

Dopo l'iscrizione riceverai diversi Regali

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

Grazie

bottom of page