Cosa è un Dataset e a cosa serve
Aggiornato il: feb 1
Ad oggi sappiamo, e non è un segreto, che l'intero mondo dell'intelligenza artificiale è interamente basato sulla presenza di una grande quantità di dati.
Grazie a tutti questi dati possiamo costruire modelli predittivi😲 ma vediamo meglio quale è il punto di partenza per poter arrivare a tali modelli.

Prima di iniziare la spiegazione sul dataset ci tengo a farti notare una differenza molto sottile ma molto importante : la differenza tra Informazione e dato
Per farti vedere graficamente questa differenza ti invito a pensare alla foto di un cane, ora immagina che questa foto sia la nostra informazione, dalla quale siamo in grado processandola di estrapolare dati utili ad esempio: il colore del pelo, la sua altezza, la sua razza e molte altre caratteristiche. Quindi, facendo un passo indietro, i dati (intesi come bit che viaggiano come schegge dentro il nostro computer) sono la nostra informazione elaborata in modo da poterci permettere di trarre dati importanti che la singola informazione nascondeva.
Il dataset è un insieme di dati strutturati ( ad esempio una tabella ) creato per essere letto ed elaborato da un algoritmo. Solitamente questo insieme di dati è molto vasto, alcuni set di dati è stato stimato che non sarebbero leggibili nemmeno in un intera vita umana, come ad esempio ( tutti i post su Instagram/Facebook )
E' possibile creare il proprio dataset ? Quali sono gli strumenti ? Ne esistono di già pronti per esercitarsi ?
Certo che è possibile creare il proprio dataset, lo puoi fare sfruttando più tecniche :
Creazione Manuale : utilizzando software come Excel è possibile giorno dopo giorno creare delle tabelle contenenti dati strutturati.
Creazione Semi-Automatica : utilizzando un motore di database puoi creare la tua base di dati, dove anche qui potrai inserire giorno per giorno nuovi dati
Creazione Automatica : sempre con l'utilizzo dei database e un applicazione web è possibile creare moduli di raccolta dati per utenti che quando interagiranno verranno automaticamente salvati.
Esistono molti strumenti per la creazione e gestione di dataset e la scelta può variare per migliorarne l'efficienza, te ne cito qui qualcuno sia per utilizzo locale sia in cloud:
Excel
LibreOffice (foglio di calcolo)
Sas
Azure
Google Cloud Platform
e motli altri
E' anche possibile trovare molti dataset già pronti e confezionati pronti all'uso. Questi dataset sono di ogni genere e categoria, potrai trovare sicuramente qualcosa che si adatta al tuo progetto. Tra i migliori siti la mia top 3 è :
Grazie mille per la lettura, condividi per sostenerci