Una buona ricerca sull'apprendimento automatico inizia con un set di dati eccezionale. Non è necessario passare la serata a creare il proprio set di dati in MySQL o Excel. Fondamentalmente, qualsiasi cosa, dalle statistiche COVID-19 alle vendite di intimo in Brasile, tu stia cercando, esiste già qualcuno che ha raccolto quei dati e messi a disposizione per la ricerca. Hai solo bisogno di trovarla.
Lascia che ti aiuti io, in questo post imparerai dove trovare i set di dati per la ricerca sull'apprendimento automatico.
Indice
Sta cercando un corso sulla DataScience? Però costano tutti un sacco di soldi e non sei sicuro questo mestiere faccia per te? Oppure più semplicemente già lavori in questo settore e vuoi approfondire argomenti come machine learning e reti neurali ?
Scopri il nostro Corso Gratuito da più di 100 Lezioni, a difficoltà crescente. L'unico corso in italiano gratuito che ti permetterà davvero di capire e approfondire temi fondamentali per questo mestiere.
Clicca qui non aspettare, intanto iscriviti è GRATIS.
Le piattaforme di OpenDataset per scaricare dataset
Le piattaforme di OpenDataset raccolgono migliaia di dataset per vari scopi.
All'interno di queste grandi piattaforme potrai trovare ogni tipo di raccolta dati, infatti ti invito a cercare qualche strano dataset e condividerlo con noi nei commenti.
Tra le piattaforme più famose abbiamo:
Kaggle
Kaggle , aggiornato ogni giorno dagli appassionati, dispone di una delle più grandi librerie di set di dati online, è una piattaforma di machine learning basata sulla community. Contiene numerosi tutorial che trattano centinaia di diversi problemi di machine learning nella vita reale. È vero che la qualità può variare. Tuttavia, tutti i dati sono completamente gratuiti. Puoi anche caricare il tuo set di dati lì.
Google Dataset Search
Dataset Search è una fonte affidabile di informazioni per la tua ricerca. È conveniente ordinare i set di dati per:
rilevanza,
formato del file,
tipo di licenza,
tema,
ora dell'ultimo aggiornamento.
I set di dati qui vengono caricati da organizzazioni internazionali come l'Organizzazione mondiale della sanità, Statista e Harvard.
Registro di dati aperti su AWS
Nel Registry of Open Data su AWS , chiunque può condividere un set di dati o trovare quello di cui ha bisogno. Puoi fare ricerche in base ai dati che trovi con l'aiuto degli strumenti di analisi dei dati di Amazon. Tra i creatori di database, troverai Facebook, Data for Good, NASA Space, Act Agreement e Space Telescope Science Institute.
Set di dati pubblici di Microsoft Azure
I set di dati pubblici di Azure dispongono di database aggiornati regolarmente per sviluppatori e ricercatori di app. Contengono dati del governo degli Stati Uniti, altri dati statistici e scientifici e informazioni sui servizi in linea che Microsoft raccoglie sui propri utenti.
Inoltre, Azure offre una raccolta di strumenti che consentono di creare database cloud personalizzati, migrare i carichi di lavoro SQL ad Azure mantenendo la completa compatibilità con SQL Server e creare applicazioni web e mobili basate sui dati.
r / set di dati
Nel subreddit dei set di dati , chiunque può pubblicare i propri database open source. Puoi andare lì, trovare un set di dati interessante e provare a fare qualcosa di carino con esso.
Repository di Machine Learning UCI
UCI offre 507 set di dati che coprono il marketing bancario, la valutazione delle auto, la diagnosi del cancro ai polmoni e molti altri argomenti diversi. Puoi ordinare i database per:
attività predefinita,
tipo di dati,
area di applicazione,
soggetto.
Librerie CMU
La Carnegie Mellon University dispone di una propria raccolta di set di dati pubblici che puoi utilizzare per le tue ricerche. Lì troverai database approfonditi sulla cultura, la musica e la storia americana che altri aggregatori non forniscono.
Fantastici set di dati pubblici su Github
Questa è una grande raccolta open source dei migliori set di dati disponibili online divisi per settore. Alcune delle librerie che puoi trovare lì le menzionerò più avanti in questo post.
I migliori set di dati pubblici per il Machine Learning e la scienza dei dati
Database specifici del dominio per veri appassionati di machine learning.
1) Analisi esplorativa
Prima di cambiare il mondo con la tua ricerca ML, può essere divertente anche solo esercitarti. Di seguito sono riportati alcuni set di dati che è possibile utilizzare per l' analisi esplorativa . Questa è la pratica di studiare i dati cercando di trovare schemi e anomalie e utilizzando queste informazioni per costruire modelli ML.
Million Song Dataset può essere utilizzato per l'analisi esplorativa e la creazione di sistemi di raccomandazione. Il database è di 280 GB, ma per la ricerca di prova, puoi anche scaricare una versione più piccola di appena 10.000 brani, che è di circa 2 GB.
Il set di dati di Game of Thrones di Myles O'Neil su Kaggle ti interesserà se sei un fan della serie di libri A Song of Fire and Ice di George RR Martin . Esplora le morti e le battaglie di questo mondo fantastico.
Il database LEGO di Rachael Tatman descrive tutte le parti / set LEGO ufficiali, i loro colori e gli inventari.
Avvistamenti UFO del National UFO Reporting Center contiene rapporti su tutti gli avvistamenti di oggetti volanti non identificati nel secolo scorso.
World University Rankings di Myles O'Neil copre le migliori università del mondo e fornisce informazioni sulla loro posizione in termini di qualità dell'istruzione, occupazione degli ex studenti, influenza e altri fattori.
I migliori set di dati pubblici per il Deep Learning
L'apprendimento profondo si basa sull'utilizzo di reti neurali artificiali per risolvere compiti. Invece di scrivere un algoritmo per l'attività, il programmatore utilizza l'apprendimento della rappresentazione e consente alla macchina di fare previsioni da sola.
1)Elaborazione di immagini e riconoscimento di oggetti per la visione artificiale
Il set di dati Open Images di Google è molto vario e contiene campioni complessi con diversi oggetti per immagine. Contiene riquadri di delimitazione degli oggetti, segmentazione degli oggetti ed etichette per aiutarti a orientarti in oltre 9 milioni di immagini.
VisualData è una piattaforma di set di dati di visione artificiale in cui è possibile trovare set di dati medici per l'apprendimento automatico, set di dati di immagini e altri fantastici campioni di dati di apprendimento automatico per il business, l'istruzione e altri tipi di ricerca ML.
xView è uno dei più grandi archivi di immagini aeree disponibili pubblicamente. Contiene immagini di scene complesse in tutto il mondo, annotate utilizzando riquadri di delimitazione.
Se stai cercando un set di dati di deep learning di qualità su larga scala, presta attenzione a Kinetics-700 . Dispone di videoclip di diverse interazioni uomo-oggetto e uomo-uomo suddivisi in classi.
ImageNet è un insieme di immagini per la visione artificiale profonda con più di 1000 classi diverse costruite secondo la gerarchia di WordNet .Il controllo qualità visivo contiene domande aperte su oltre 265.016 immagini. Può essere utilizzato per una migliore comprensione della modellazione della visione artificiale e dell'elaborazione del linguaggio.
Il database MNIST è una raccolta di campioni per il riconoscimento delle cifre scritte a mano. Contiene un set di addestramento di oltre 60.000 esempi e un set di test di 10.000. Sul sito web troverai anche una tabella che confronta l'efficacia dei diversi tipi di classificatori applicati a questo set di dati. Anche un principiante può utilizzare MNIST per addestrare il proprio modello di apprendimento profondo.
CIFAR-10 è una raccolta di immagini per l'addestramento di algoritmi di visione artificiale di apprendimento profondo. La banca dati è composta da 60000 immagini a colori 32x32 in 10 classi, 6000 immagini in ciascuna classe. Se questo non è sufficiente, prova il set di dati CIFAR-100.
COCO è un DB regolarmente aggiornato per la segmentazione e il riconoscimento degli oggetti nel contesto, sponsorizzato da Microsoft, Facebook e Mighty AI.
Labeled Faces in the Wild è un set di dati per l'addestramento e il test dei modelli di riconoscimento facciale.
Sta cercando un corso sulla DataScience? Però costano tutti un sacco di soldi e non sei sicuro questo mestiere faccia per te? Oppure più semplicemente già lavori in questo settore e vuoi approfondire argomenti come machine learning e reti neurali ?
Scopri il nostro Corso Gratuito da più di 100 Lezioni, a difficoltà crescente. L'unico corso in italiano gratuito che ti permetterà davvero di capire e approfondire temi fondamentali per questo mestiere.
Clicca qui non aspettare, intanto iscriviti è GRATIS.
2) Elaborazione del linguaggio naturale, sintesi vocale e generazione del parlato
Realizzare robot e interfacce vocali è impossibile senza corpora vocali. Usa questi set di dati per creare le tue soluzioni.
i) Audio
VoxCeleb è una raccolta audio che puoi utilizzare per attività di apprendimento approfondito come l'elaborazione del linguaggio naturale in tempo reale, il riconoscimento vocale e la generazione del parlato.
Su LibriSpeech , troverai circa 1000 ore di discorso orale in inglese a 16kHz derivato da audiolibri.
È possibile utilizzare il set di dati vocali gratuito per. Consiste in registrazioni vocali a 8kHz . Hanno un silenzio quasi minimo all'inizio e alla fine. Il set di dati è open source.
Common Voice è un'iniziativa di Mozilla che contiene centinaia di migliaia di registrazioni di voce umana. Ogni visitatore del sito Web di Common Voice può contribuire al proprio database di linguaggio umano aperto registrando la propria voce.
ii) Testo
WordNet è un database lessicale che contiene tutte le parti del discorso raggruppate in set di sinonimi. Una tale struttura lo rende uno strumento fantastico per l'elaborazione del linguaggio naturale e la ricerca linguistica.
20 Newsgroups è un set di dati che consiste di oltre 18.000 documenti di testo da 20 diversi newsgroup tra cui sport, tecnologia, arte, intrattenimento, ecc.
Sentiment140 è un set di dati di tweet che può essere utilizzato per l'analisi del sentiment o per la sintesi vocale.
Su IMDB Reviews , troverai oltre 50.000 recensioni di film non elaborate e pre-elaborate per l'analisi del sentiment con il deep learning.
Le recensioni di Yelp contengono recensioni degli utenti, informazioni aziendali e immagini che puoi utilizzare per scopi personali e accademici.
Il corpus di Wikipedia è un enorme insieme di dati con esempi di testi scritti in inglese - più di 4,5 milioni di articoli.
Se stai cercando un corpus di testo segmentato in cui i campioni sono raggruppati in base all'età degli autori, usa The Blog Authorship Corpus . Contiene post di circa 20.000 blogger raccolti da blogger.com nel 2004.
Altri database video e audio per il deep learning
YouTube 8M ha più di 6 milioni di video, etichette testate dall'uomo e circa 2,6 miliardi di funzionalità audio e video.
Ci sono milioni di clip audio di 10 secondi etichettate selezionate dai video di YouTube su AudioSet di Google .
Su FSB troverai una moltitudine di campioni sonori che vanno dai suoni umani e animali alla musica e al rumore meccanico.
Free Music Archive è un set di dati per l'analisi musicale.
1) Sistemi di raccomandazione
I sistemi di raccomandazione sono vitali per le attività di e-commerce poiché aiutano a fornire esperienze personalizzate ai clienti.
I dati dei prodotti Amazon contengono metadati e recensioni su milioni di articoli venduti su Amazon. Questa è una risorsa incredibile per chiunque sia interessato ai sistemi di raccomandazione.
MovieLens è un sito Web che fornisce consigli personalizzati sui film ai propri utenti. Hanno anche un set di dati open source che puoi utilizzare per addestrare il tuo modello.
Jester Collaborative Filtering Dataset ha più di 4 milioni di valutazioni di 100 barzellette da 73.421 utenti. Ridi a crepapelle mentre fai la tua ricerca sul machine learning.
2) Set di dati specifici del settore
È impossibile coprire ogni area in cui il ML può essere applicato con successo . Ma ho raccolto alcuni esempi di seguito per darti alcune idee.
MIMIC-III è un dataset anonimo open source di dati sanitari di oltre 40.000 pazienti in terapia intensiva. Tra i parametri coperti ci sono dati demografici, segni vitali, test di laboratorio e assunzione di farmaci.
Per comprendere il mercato azionario, può essere molto utile creare software AI. I prezzi delle azioni EOD memorizzano i dati storici sui prezzi delle azioni giornaliere, i dividendi e le suddivisioni per le azioni statunitensi.
Boston Housing Dataset in cui sono disponibili dati relativi agli alloggi nell'area di Boston Mass.
Il punteggio sulla salute dei ristoranti di San Francisco, sviluppato dal dipartimento della sanità locale, fornisce materiale interessante per i ricercatori interessati alla salute pubblica e al settore della ristorazione.
Per informazioni sui prezzi delle case e sugli affitti per dimensione, tipo e livello negli Stati Uniti, visitare il sito Web di Zillow Real Estate Research .
Il set di dati delle statistiche sull'istruzione globale della Banca mondiale contiene dati su oltre 4.000 indicatori comparabili a livello internazionale per l'accesso e il progresso all'istruzione.
Quandl è una risorsa a disposizione se stai cercando set di dati finanziari ed economici per professionisti degli investimenti.
Ci sono così tanti set di dati che le opportunità per la ricerca ML sono davvero infinite. Esplora Kaggle, Google Dataset Search e altre risorse dell'elenco per trovare ciò che ti incuriosisce.
Commenta l'articolo con il tuo dataset preferito.
Comentarios