Dove trovare i migliori Dataset per esercitarsi con il Machine learning e Deep Learning

Una buona ricerca sull'apprendimento automatico inizia con un set di dati eccezionale. Non è necessario passare la serata a creare il proprio set di dati in MySQL o Excel. Fondamentalmente, qualsiasi cosa, dalle statistiche COVID-19 alle vendite di intimo in Brasile, tu stia cercando, esiste già qualcuno che ha raccolto quei dati e messi a disposizione per la ricerca. Hai solo bisogno di trovarla.

Lascia che ti aiuti io, in questo post imparerai dove trovare i set di dati per la ricerca sull'apprendimento automatico.


Indice

  1. Le piattaforme di OpenDataset

  2. I migliori dataset pubblici per il Machine Learning e la scienza dei dati

  3. I migliori set di dati pubblici per il Deep Learning

  4. Altri dataset video e audio per il deep learning


Dove trovare i migliori Dataset per esercitarsi con il Machine learning e Deep Learning

Le piattaforme di OpenDataset

Le piattaforme di OpenDataset raccolgono migliaia di dataset per vari scopi.

All'interno di queste grandi piattaforme potrai trovare ogni tipo di raccolta dati, infatti ti invito a cercare qualche strano dataset e condividerlo con noi nei commenti.

Tra le piattaforme più famose abbiamo:


  • Kaggle

Kaggle , aggiornato ogni giorno dagli appassionati, dispone di una delle più grandi librerie di set di dati online, è una piattaforma di machine learning basata sulla community. Contiene numerosi tutorial che trattano centinaia di diversi problemi di machine learning nella vita reale. È vero che la qualità può variare. Tuttavia, tutti i dati sono completamente gratuiti. Puoi anche caricare il tuo set di dati lì.


  • Google Dataset Search

Dataset Search è una fonte affidabile di informazioni per la tua ricerca. È conveniente ordinare i set di dati per:

  • rilevanza,

  • formato del file,

  • tipo di licenza,

  • tema,

  • ora dell'ultimo aggiornamento.

I set di dati qui vengono caricati da organizzazioni internazionali come l'Organizzazione mondiale della sanità, Statista e Harvard.


  • Registro di dati aperti su AWS

Nel Registry of Open Data su AWS , chiunque può condividere un set di dati o trovare quello di cui ha bisogno. Puoi fare ricerche in base ai dati che trovi con l'aiuto degli strumenti di analisi dei dati di Amazon. Tra i creatori di database, troverai Facebook, Data for Good, NASA Space, Act Agreement e Space Telescope Science Institute.


  • Set di dati pubblici di Microsoft Azure

I set di dati pubblici di Azure dispongono di database aggiornati regolarmente per sviluppatori e ricercatori di app. Contengono dati del governo degli Stati Uniti, altri dati statistici e scientifici e informazioni sui servizi in linea che Microsoft raccoglie sui propri utenti.

Inoltre, Azure offre una raccolta di strumenti che consentono di creare database cloud personalizzati, migrare i carichi di lavoro SQL ad Azure mantenendo la completa compatibilità con SQL Server e creare applicazioni web e mobili basate sui dati.


  • r / set di dati

Nel subreddit dei set di dati , chiunque può pubblicare i propri database open source. Puoi andare lì, trovare un set di dati interessante e provare a fare qualcosa di carino con esso.


  • Repository di Machine Learning UCI

UCI offre 507 set di dati che coprono il marketing bancario, la valutazione delle auto, la diagnosi del cancro ai polmoni e molti altri argomenti diversi. Puoi ordinare i database per:

  • attività predefinita,

  • tipo di dati,

  • area di applicazione,

  • soggetto.


  • Librerie CMU

La Carnegie Mellon University dispone di una propria raccolta di set di dati pubblici che puoi utilizzare per le tue ricerche. Lì troverai database approfonditi sulla cultura, la musica e la storia americana che altri aggregatori non forniscono.


  • Fantastici set di dati pubblici su Github

Questa è una grande raccolta open source dei migliori set di dati disponibili online divisi per settore. Alcune delle librerie che puoi trovare lì le menzionerò più avanti in questo post.



I migliori set di dati pubblici per il Machine Learning e la scienza dei dati

Database specifici del dominio per veri appassionati di machine learning.


1) Analisi esplorativa

Prima di cambiare il mondo con la tua ricerca ML, può essere divertente anche solo esercitarti. Di seguito sono riportati alcuni set di dati che è possibile utilizzare per l' analisi esplorativa . Questa è la pratica di studiare i dati cercando di trovare schemi e anomalie e utilizzando queste informazioni per costruire modelli ML.

  • Million Song Dataset può essere utilizzato per l'analisi esplorativa e la creazione di sistemi di raccomandazione. Il database è di 280 GB, ma per la ricerca di prova, puoi anche scaricare una versione più piccola di appena 10.000 brani, che è di circa 2 GB.

  • Il set di dati di Game of Thrones di Myles O'Neil su Kaggle ti interesserà se sei un fan della serie di libri A Song of Fire and Ice di George RR Martin . Esplora le morti e le battaglie di questo mondo fantastico.

  • Il database LEGO di Rachael Tatman descrive tutte le parti / set LEGO ufficiali, i loro colori e gli inventari.

  • Avvistamenti UFO del National UFO Reporting Center contiene rapporti su tutti gli avvistamenti di oggetti volanti non identificati nel secolo scorso.

  • World University Rankings di Myles O'Neil copre le migliori università del mondo e fornisce informazioni sulla loro posizione in termini di qualità dell'istruzione, occupazione degli ex studenti, influenza e altri fattori.


I migliori set di dati pubblici per il Deep Learning

L'apprendimento profondo si basa sull'utilizzo di reti neurali artificiali per risolvere compiti. Invece di scrivere un algoritmo per l'attività, il programmatore utilizza l'apprendimento della rappresentazione e consente alla macchina di fare previsioni da sola.


1)Elaborazione di immagini e riconoscimento di oggetti per la visione artificiale

  • Il set di dati Open Images di Google è molto vario e contiene campioni complessi con diversi oggetti per immagine. Contiene riquadri di delimitazione degli oggetti, segmentazione degli oggetti ed etichette per aiutarti a orientarti in oltre 9 milioni di immagini.

  • VisualData è una piattaforma di set di dati di visione artificiale in cui è possibile trovare set di dati medici per l'apprendimento automatico, set di dati di immagini e altri fantastici campioni di dati di apprendimento automatico per il business, l'istruzione e altri tipi di ricerca ML.

  • xView è uno dei più grandi archivi di immagini aeree disponibili pubblicamente. Contiene immagini di scene complesse in tutto il mondo, annotate utilizzando riquadri di delimitazione.

  • Se stai cercando un set di dati di deep learning di qualità su larga scala, presta attenzione a Kinetics-700 . Dispone di videoclip di diverse interazioni uomo-oggetto e uomo-uomo suddivisi in classi.

  • ImageNet è un insieme di immagini per la visione artificiale profonda con più di 1000 classi diverse costruite secondo la gerarchia di WordNet .Il controllo qualità visivo contiene domande aperte su oltre 265.016 immagini. Può essere utilizzato per una migliore comprensione della modellazione della visione artificiale e dell'elaborazione del linguaggio.

  • Il database MNIST è una raccolta di campioni per il riconoscimento delle cifre scritte a mano. Contiene un set di addestramento di oltre 60.000 esempi e un set di test di 10.000. Sul sito web troverai anche una tabella che confronta l'efficacia dei diversi tipi di classificatori applicati a questo set di dati. Anche un principiante può utilizzare MNIST per addestrare il proprio modello di apprendimento profondo.

  • CIFAR-10 è una raccolta di immagini per l'addestramento di algoritmi di visione artificiale di apprendimento profondo. La banca dati è composta da 60000 immagini a colori 32x32 in 10 classi, 6000 immagini in ciascuna classe. Se questo non è sufficiente, prova il set di dati CIFAR-100.

  • COCO è un DB regolarmente aggiornato per la segmentazione e il riconoscimento degli oggetti nel contesto, sponsorizzato da Microsoft, Facebook e Mighty AI.

  • Labeled Faces in the Wild è un set di dati per l'addestramento e il test dei modelli di riconoscimento facciale.


2) Elaborazione del linguaggio naturale, sintesi vocale e generazione del parlato

Realizzare robot e interfacce vocali è impossibile senza corpora vocali. Usa questi set di dati per creare le tue soluzioni.

i) Audio

  • VoxCeleb è una raccolta audio che puoi utilizzare per attività di apprendimento approfondito come l'elaborazione del linguaggio naturale in tempo reale, il riconoscimento vocale e la generazione del parlato.

  • Su LibriSpeech , troverai circa 1000 ore di discorso orale in inglese a 16kHz derivato da audiolibri.

  • È possibile utilizzare il set di dati vocali gratuito per. Consiste in registrazioni vocali a 8kHz . Hanno un silenzio quasi minimo all'inizio e alla fine. Il set di dati è open source.

  • Common Voice è un'iniziativa di Mozilla che contiene centinaia di migliaia di registrazioni di voce umana. Ogni visitatore del sito Web di Common Voice può contribuire al proprio database di linguaggio umano aperto registrando la propria voce.

ii) Testo

  • WordNet è un database lessicale che contiene tutte le parti del discorso raggruppate in set di sinonimi. Una tale struttura lo rende uno strumento fantastico per l'elaborazione del linguaggio naturale e la ricerca linguistica.

  • 20 Newsgroups è un set di dati che consiste di oltre 18.000 documenti di testo da 20 diversi newsgroup tra cui sport, tecnologia, arte, intrattenimento, ecc.

  • Sentiment140 è un set di dati di tweet che può essere utilizzato per l'analisi del sentiment o per la sintesi vocale.

  • Su IMDB Reviews , troverai oltre 50.000 recensioni di film non elaborate e pre-elaborate per l'analisi del sentiment con il deep learning.

  • Le recensioni di Yelp contengono recensioni degli utenti, informazioni aziendali e immagini che puoi utilizzare per scopi personali e accademici.

  • Il corpus di Wikipedia è un enorme insieme di dati con esempi di testi scritti in inglese - più di 4,5 milioni di articoli.

  • Se stai cercando un corpus di testo segmentato in cui i campioni sono raggruppati in base all'età degli autori, usa The Blog Authorship Corpus . Contiene post di circa 20.000 blogger raccolti da blogger.com nel 2004.


Altri database video e audio per il deep learning
  • YouTube 8M ha più di 6 milioni di video, etichette testate dall'uomo e circa 2,6 miliardi di funzionalità audio e video.

  • Ci sono milioni di clip audio di 10 secondi etichettate selezionate dai video di YouTube su AudioSet di Google .

  • Su FSB troverai una moltitudine di campioni sonori che vanno dai suoni umani e animali alla musica e al rumore meccanico.

  • Free Music Archive è un set di dati per l'analisi musicale.


1) Sistemi di raccomandazione

I sistemi di raccomandazione sono vitali per le attività di e-commerce poiché aiutano a fornire esperienze personalizzate ai clienti.

  • I dati dei prodotti Amazon contengono metadati e recensioni su milioni di articoli venduti su Amazon. Questa è una risorsa incredibile per chiunque sia interessato ai sistemi di raccomandazione.

  • MovieLens è un sito Web che fornisce consigli personalizzati sui film ai propri utenti. Hanno anche un set di dati open source che puoi utilizzare per addestrare il tuo modello.

  • Jester Collaborative Filtering Dataset ha più di 4 milioni di valutazioni di 100 barzellette da 73.421 utenti. Ridi a crepapelle mentre fai la tua ricerca sul machine learning.


2) Set di dati specifici del settore

È impossibile coprire ogni area in cui il ML può essere applicato con successo . Ma ho raccolto alcuni esempi di seguito per darti alcune idee.

  • MIMIC-III è un dataset anonimo open source di dati sanitari di oltre 40.000 pazienti in terapia intensiva. Tra i parametri coperti ci sono dati demografici, segni vitali, test di laboratorio e assunzione di farmaci.

  • Per comprendere il mercato azionario, può essere molto utile creare software AI. I prezzi delle azioni EOD memorizzano i dati storici sui prezzi delle azioni giornaliere, i dividendi e le suddivisioni per le azioni statunitensi.

  • Boston Housing Dataset in cui sono disponibili dati relativi agli alloggi nell'area di Boston Mass.

  • Il punteggio sulla salute dei ristoranti di San Francisco, sviluppato dal dipartimento della sanità locale, fornisce materiale interessante per i ricercatori interessati alla salute pubblica e al settore della ristorazione.

  • Per informazioni sui prezzi delle case e sugli affitti per dimensione, tipo e livello negli Stati Uniti, visitare il sito Web di Zillow Real Estate Research .

  • Il set di dati delle statistiche sull'istruzione globale della Banca mondiale contiene dati su oltre 4.000 indicatori comparabili a livello internazionale per l'accesso e il progresso all'istruzione.

  • Quandl è una risorsa a disposizione se stai cercando set di dati finanziari ed economici per professionisti degli investimenti.


Ci sono così tanti set di dati che le opportunità per la ricerca ML sono davvero infinite. Esplora Kaggle, Google Dataset Search e altre risorse dell'elenco per trovare ciò che ti incuriosisce.



Commenta l'articolo con il tuo dataset preferito.

6,050 visualizzazioni0 commenti

Post recenti

Mostra tutti

VUOI SCRIVERE ARTICOLI PER NOI.

Se vuoi scrivere articoli sul mondo dell' AI ed avere la tua visibilità, contattaci adesso.
Grazie per l'interesse dimostrato.

VUOI DIVENTARE UN MEMBRO UFFICIALE DELLA NOSTRA COMMUNITY E TRARNE I SEGUENTI BENEFICI?

Forum

Accedi al forum e fai domande o crea discussioni con esperti del settore. Potrai anche fare proposte di lavoro, condividere i tuoi progetti ed altro

Sfide

Accedi a diverse e diverti sfide sulla programmazione e intelligenza artificiale. Appena completerai la sfida riverai la certificazione

Download

Potrai scaricare in modo gratuito tutti i file dei vari progetti nel portale. Ogni progetto è disponibile in formato PDF, PYTHON, NOTEBOOK

E molto altro

Appena ti sarai registrato ti arriverà un e-book in regalo e in futuro ne riceverai altri...

In oltre potresti ricevere sconti o buoni

Se ti piacciono i benefici, i regali e vuoi essere aggiornato quando escono nuovi articoli, progetti o news premi il tasto qui sotto e registrati/accedi con Google, Facebook o con la tua email

Se invece preferisci solo sapere quando esce un nuovo articolo Senza ricevere i privilegi nel portale sopra descritti iscriviti qui sotto alla news letter

Rimani aggiornato, tranquillo anche noi odiamo lo SPAM

Segui i nostri canali social

Segui i nostri canali social 

  • YouTube Icona sociale

Youtube

  • Instagram

Instagram

  • Spotify Icona sociale

Spotify

  • White Facebook Icon

Facebook

  • Twitter Icon sociale

Twitter

©2020 Intelligenza Artificiale Italia

  • Instagram
  • Facebook Icona sociale
  • Youtube