Team I.A. Italia

3 min

Importare file excel, csv e html con Python e Pandas

Prerequisiti :

Vediamo adesso come è possibile importare un dataset per successivamente farci delle analisi o creare modelli predittivi grazie alla libreria di Python : Pandas

Prima di iniziare in questo articolo diamo per scontato che i dati siano già ordinati. Cosa significa? Che i dati siano strutturati, infatti utilizzeremo pandas per importare dati da fogli Excel, Csv & HTML

Installiamo le librerie per importare i file excel o csv

Per installare le librerie necessarie per la rappresentazione apriamo il terminale e digitiamo il seguenti comandi:

pip install pandas
 
pip3 install pandas #per python3
 
#se usi il nostro editor è già installato

e premiamo invio.

Creiamo un nuovo file Python e importiamo la libreria scaricata.

import pandas as pd

Come Importare un file excel con python

Per importare file Excel esiste un apposita funzione " read_excel() ".

Vediamo qualche esempio

#stampare i dati
 
pd.read_excel("il_tuo_file.xls", sheet_name="Sheet1")
 

 
#salvare i dati dentro una variabile
 
xlsx = pd.read_excel("il_tuo_file.xls", sheet_name="Sheet1")
 

 
#filtrare e salvare solo alcune colonne dentro una variabile
 
#in questo caso verranno selezionate la colonna A e le colonne dalla C alla E
 
xlsx = pd.read_excel("il_tuo_file.xls",'Sheet1', usecols='A,C:E')
 

 
#salvare più fogli
 
with pd.ExcelFile("il_tuo_file.xls") as xls:
 
xlsx1 = pd.read_excel(xls, 'Sheet1')
 
xlsx2 = pd.read_excel(xls, 'Sheet2')

Ed ecco il nostro DataFrame pronto da analizzare in pochi click. Questa è la magia di Python e delle sue librerie. Grandi risultati con qualche linea di codice.

Come Importare un file csv con python

Per importare file Csv o di testo esiste un apposita funzione " read_csv() ".

Vediamo qualche esempio

#stampare i dati
 
pd.read_csv("il_tuo_file.csv")
 

 
#salvare i dati dentro una variabile
 
dataset = pd.read_csv("il_tuo_file.csv")
 

 
#filtrare e salvare i dati dentro una variabile
 
#in questo caso verranno scartate tutte le righe contenti valori numerici dispari
 
dataset = pd.read_csv("il_tuo_file.csv",skiprows=lambda x:x%2!=0)
 

 
#saltare valori vuoti e salvare i dati dentro una variabile
 
dataset = pd.read_csv("il_tuo_file.csv",skip_blank_lines=True)

Ed ecco il nostro DataFrame pronto da analizzare in pochi click. Questa è la magia di Python e delle sue librerie. Grandi risultati con qualche linea di codice.

Come Importare un file html con python

Per importare file html esiste un apposita funzione " read_html() ".

Il terzo metodo che descriverò in questo articolo è come prendere le tabelle che troviamo sul web, come su wikipedia. Spesso questa funzione è molto comoda, sulla rete si trovano informazioni davvero utili.

Questo link è la pagina di wikipedia sui presidenti degli stati uniti e appena la apriamo ci accorgiamo che è composta da diverse tabelle molto ben fatte.

Vediamo qualche esempio

url = "https://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States"
 

 
#stampare i dati
 
pd.read_html(url)
 

 
#salvare i dati dentro una variabile
 
tabella = pd.read_html(url)
 

 
#filtrare e salvare i dati dentro una variabile
 
#in questo caso verranno scartate tutte le righe che non corrispondono al match
 
match = 'Barack Obama'
 
tabella = pd.read_html(url, match=match)
 

 
#saltare valori e salvare i dati dentro una variabile
 
tabella = pd.read_html(url, skiprows=range(2))

Ed ecco il nostro DataFrame pronto da analizzare in pochi click. Questa è la magia di Python e delle sue librerie. Grandi risultati con qualche linea di codice.

Vuoi mettere in pratica quello che hai letto ?

  1. Scarica Progetti già pronti

  2. Lavora con il nostro editor online senza dover installare librerie

  3. Usa i nostri set di Dati


 

Oppure segui i tutorial correlati :

Grazie mille per la lettura, condividi l'articolo per sostenerci

PROVA A VINCERE UN VIDEOCORSO SULLA DATASCEICE