Cosa sono i dati sintetici? La guida completa sui dati sintetici

Team I.A. Italia
2 dic 2022
Tempo di lettura: 9 min

Sebbene i dati possano sembrare utili, possono anche essere dannosi se utilizzati in modo errato. Cosa sono i dati sintetici? Questo articolo discute la differenza tra dati sintetici e dati reali e come generare dati sintentici.

Cosa sono i dati sintetici?

I dati sintetici sono tutte le informazioni prodotte artificialmente che rappresentano eventi o oggetti nel mondo reale. Gli algoritmi creano dati sintetici utilizzati nei set di dati del modello per scopi di test o addestramento. I dati sintetici possono imitare i dati operativi o di produzione e aiutare ad addestrare modelli di machine learning (ML) o testare modelli matematici.

I dati sintetici offrono numerosi vantaggi importanti: riducono al minimo i vincoli associati all'uso di dati regolamentati o sensibili, possono essere utilizzati per personalizzare i dati in modo che corrispondano a condizioni che i dati reali non consentono e possono essere utilizzati per generare grandi set di dati di addestramento senza richiedere etichettatura manuale dei dati.

Perché i dati sintetici sono importanti?

Gli sviluppatori spesso richiedono set di dati di grandi dimensioni e accuratamente etichettati durante l'addestramento dei modelli di intelligenza artificiale. Le reti neurali raggiungono una maggiore precisione se addestrate con dati più diversi. Tuttavia, potrebbe essere irrealisticamente dispendioso in termini di tempo e denaro raccogliere ed etichettare questi grandi set di dati con migliaia o addirittura milioni di oggetti.

I dati sintetici possono ridurre notevolmente il costo di generazione dei dati di addestramento. Ad esempio, un'immagine di addestramento che costa $ 5 se proveniente da un servizio di etichettatura dei dati potrebbe costare solo $ 0,05 se generata artificialmente.

Oltre a ridurre i costi, i dati sintetici aiutano a risolvere i problemi di privacy associati a dati potenzialmente sensibili provenienti dal mondo reale. Può anche ridurre la distorsione rispetto ai dati reali, che potrebbero non riflettere accuratamente l'intera gamma di informazioni sul mondo reale. I dati sintetici possono fornire una maggiore diversità includendo casi rari che rappresentano possibilità realistiche ma possono essere difficili da ricavare da dati autentici.

Casi d'uso per dati sintetici

I dati sintetici possono essere utilizzati per creare dati di addestramento per algoritmi di machine learning. Un generatore di dati sintetici può essere eseguito più volte per simulare diversi set di dati di input. Questi dati vengono elaborati utilizzando algoritmi di apprendimento automatico e convalidati utilizzando set di test.

I dati sintetici possono essere generati da un data scientist in risposta alle esigenze dell'azienda. Tali set di dati sono in genere necessari per lo sviluppo e il test del modello o per la creazione di dati di addestramento per algoritmi di machine learning.

Vantaggi dei dati sintetici:

Ai data scientist non dovrebbe importare se i dati che utilizzano sono autentici o sintetici, purché rappresentino modelli accurati, siano equilibrati, imparziali e di alta qualità. I dati sintetici consentono l'arricchimento e l'ottimizzazione, il che consente ai data scientist di sbloccare diversi vantaggi:

Qualità dei dati : oltre a essere complicati e costosi da raccogliere, i dati del mondo reale sono spesso pieni di errori, contengono imprecisioni o rappresentano un pregiudizio che può influire sulla qualità di una rete neurale. I dati sintetici garantiscono una maggiore qualità, equilibrio e varietà dei dati. I dati generati artificialmente possono riempire automaticamente i valori mancanti e applicare etichette, consentendo previsioni più accurate.
Scalabilità : l'apprendimento automatico richiede enormi quantità di dati. Spesso è difficile ottenere dati rilevanti sulla scala necessaria per addestrare e testare un modello predittivo. I dati sintetici aiutano a colmare le lacune, integrando i dati del mondo reale per ottenere una scala più ampia di input.
Facilità d'uso : i dati sintetici sono spesso più semplici da generare e utilizzare. Quando si raccolgono dati del mondo reale, è spesso necessario garantire la privacy, filtrare gli errori o convertire i dati da formati diversi. I dati sintetici eliminano imprecisioni e duplicati e garantiscono che tutti i dati abbiano un formato e un'etichettatura uniformi.

Che cos'è un set di dati sintetico?

Un set di dati sintetico è un set di dati contenente dati generati da un algoritmo o modello anziché essere generato da umani. Un utilizzo importante per i set di dati sintetici è fornire dati robusti e versatili sufficienti per scopi di formazione ML.

I dati sintetici devono avere proprietà specifiche per essere utili per i modelli di machine learning come gli algoritmi di classificazione. Un set di dati sintetico può contenere dati binari, numerici, categorici o dati non strutturati come immagini e video. È importante controllare i processi casuali che generano dati basati su distribuzioni statistiche o modelli generativi, per garantire che il risultato sia sufficientemente diversificato, ma comunque realistico.

I dati sintetici dovrebbero essere personalizzabili. Ad esempio, può essere utile regolare il grado di separazione delle classi per simulare problemi di classificazione più difficili o più facili. D'altra parte, altre attività come la regressione possono trarre vantaggio dalla generazione di dati utilizzando processi non lineari.

Quando usare i dati sintetici?

I dati sintetici dovrebbero rappresentare accuratamente i dati originali che aumentano. I dati sintetici di alta qualità possono sostituire i dati di produzione sensibili effettivi in un ambiente non di produzione (ad esempio, formazione, test, analisi, sviluppo, ecc.).

I dati sintetici aiutano anche i data scientist a conformarsi alle normative sulla privacy dei dati come HIPAA, GDPR, CCPA e CPA. I dati sintetici sono ideali per l'utilizzo sicuro di set di dati sensibili a scopo di formazione o test. Le aziende possono estrarre approfondimenti da tali dati senza influire sulla conformità alla privacy.

I casi d'uso tipici per i dati sintetici includono:

Testing : i dati di test sintetici sono più facili da generare rispetto ai dati di test basati su regole e offrono flessibilità, scalabilità e realismo. Questi dati sono essenziali per i test basati sui dati e lo sviluppo del software.
Addestramento del modello AI/ML: l'addestramento del modello AI si basa sempre più su dati sintetici. La sintesi dei dati può aumentare i dati reali e sovracampionare eventi o pattern più rari, consentendo all'algoritmo di addestrarsi in modo più efficace. I dati di addestramento sintetici in genere hanno prestazioni migliori rispetto ai dati del mondo reale e sono fondamentali per la creazione di modelli di intelligenza artificiale di alta qualità.
Governance : i dati sintetici aiutano a rimuovere i pregiudizi presenti nei dati del mondo reale. I dati sintetici sono utili anche per sottoporre a stress test un modello di intelligenza artificiale con punti dati che raramente si verificano nel mondo reale. I dati sintetici sono essenziali per l'intelligenza artificiale spiegabile e forniscono informazioni su come si comportano i modelli.

Tipi di dati sintetici:

I data scientist utilizzano dati sintetici generati casualmente per mascherare informazioni riservate pur mantenendo le caratteristiche statisticamente rilevanti dei dati originali. I dati sintetici generalmente rientrano in tre categorie principali:

Completamente sintetico : non conserva nulla dei dati originali. Il programma di generazione dei dati in genere identifica le caratteristiche dei dati del mondo reale, come la densità delle caratteristiche, per stimare parametri realistici. Quindi genera in modo casuale dati basati su densità di caratteristiche stimate o utilizzando metodi generativi. Non vengono utilizzati dati reali con questa tecnica, quindi fornisce una solida protezione della privacy a scapito della veridicità dei dati.
Parzialmente sintetico : sostituisce i valori di determinate funzioni selezionate con valori sintetici mantenendo alcuni dei dati reali o permuta i dati non strutturati esistenti. È anche utile per colmare le lacune nei dati originali. I data scientist utilizzano metodi basati su modelli e di imputazione per generare dati parzialmente sintetici. Per i dati strutturati soggetti a restrizioni sulla privacy, questa tecnica di solito maschera solo le caratteristiche dei dati ad alto rischio o protetti dalla privacy.
Ibrido : combina dati reali e sintetici. I dati sintetici ibridi accoppiano record casuali da un set di dati reale con record sintetici ravvicinati. Offre i vantaggi di dati completamente e parzialmente sintetici, fornendo un'elevata utilità e protezione della privacy. Lo svantaggio di questo tipo di dati è il tempo di elaborazione più lungo e la memoria richiesta.

Limiti dei dati sintetici:

I dati sintetici offrono vantaggi convincenti, ma non è facile realizzarli. La generazione di dati sintetici richiede specialisti di intelligenza artificiale altamente qualificati che comprendano come funzionano i dati e siano in grado di utilizzare gli strumenti sofisticati che generano e analizzano i set di dati. Le organizzazioni devono anche stabilire un framework per convalidare il successo dei loro progetti di generazione di dati.

Ecco alcune delle sfide coinvolte nella generazione di dati sintetici:

Realismo: i dati sintetici devono riflettere accuratamente i dati originali del mondo reale. Tuttavia, i reparti aziendali, i clienti o i revisori possono anche richiedere garanzie sulla tutela della privacy. Può essere difficile generare dati realistici che non espongano dati privati effettivi. D'altra parte, se i dati sintetici non sono sufficientemente accurati, non rifletteranno i modelli cruciali per il progetto di formazione o test. Gli sforzi di modellazione basati su dati non realistici non possono generare intuizioni utili.
Bias : spesso si insinua nei modelli ML addestrati su set di dati generati artificialmente. Sia i dati del mondo reale che quelli sintetici possono contenere un pregiudizio intrinseco o storico. Se i dati sintetici imitano accuratamente l'originale, possono riprodurre gli stessi pregiudizi nei dati appena generati. I data scientist devono adattare i modelli ML per tenere conto dei bias e garantire che il set di dati sintetici sia più rappresentativo.
Privacy : alcuni tipi di dati sintetici si basano su dati del mondo reale. Se i dati sintetici generati dal modello sono troppo simili ai dati originali, ciò potrebbe creare problemi di privacy. Ciò è particolarmente vero se i dati originali utilizzati contengono informazioni di identificazione personale (PII), che possono essere soggette a norme sulla protezione della privacy.

Metodi per la generazione di dati sintetici

Per generare dati sintetici, i data scientist devono creare un modello robusto che modelli un set di dati reale. Sulla base delle probabilità che determinati punti dati si verifichino nel set di dati reale, possono generare punti dati sintetici realistici.

Le reti neurali sono particolarmente abili nell'apprendere una distribuzione dei dati sottostante e generalizzarla. Ciò consente a un'architettura di rete neurale di creare punti dati simili, ma non identici, ai campioni della distribuzione originale. Ecco alcune tecniche neurali all'avanguardia utilizzate per generare dati sintetici.

Codificatori automatici variazionali (VAE)

I VAE sono modelli generativi non supervisionati che possono apprendere la distribuzione sottostante dei dati e generare un modello complesso. Operano prendendo una distribuzione originale, trasformandola in una distribuzione latente e riportandola nello spazio originale (questo è noto come codificato-decodificato). Questo processo si traduce in un "errore di ricostruzione", che il modello mira a minimizzare.

https://www.youtube.com/watch?v=H2XgdND0DV4

I VAE sono molto utili per i dati continui ma meno efficaci per i dati categorici. Sono inoltre limitati nella loro capacità di generare immagini o altri tipi di dati non strutturati.

Generative Adversarial Network (GAN)

GAN è un modello generativo supervisionato che può essere utilizzato per generare rappresentazioni realistiche e altamente dettagliate. Funziona addestrando due reti neurali, una che genera punti dati falsi (un generatore) e l'altra che mira a distinguere punti dati falsi da quelli reali (un discriminatore). Nel corso di migliaia di cicli di addestramento, il generatore diventa sempre più efficace nel generare punti dati falsi altamente realistici che possono "ingannare" il generatore.

https://www.youtube.com/watch?v=TpMIssRdhco

I GAN hanno particolarmente successo nella generazione sintetica di immagini, video e altri dati non strutturati. Il loro punto debole è che richiedono competenze specializzate per costruire e addestrare, e che il modello può "collassare" e iniziare a produrre un insieme limitato di punti dati falsi molto simili.

Campo di radianza neurale (NeRF)

NeRF è un metodo per generare nuove viste da una scena 3D parzialmente nota. L'algoritmo acquisisce una serie di immagini, le interpola e aggiunge nuovi punti di vista dello stesso oggetto. Funziona trattando la scena statica come una funzione continua a 5 dimensioni e utilizzando una rete neurale completamente connessa per prevedere il contenuto di ciascun voxel. Per ogni raggio, fornisce un volume previsto per un voxel, riempiendo così un'intera immagine mancante nella scena.

https://www.youtube.com/watch?v=CRlN-cYFxTk

NeRF è un modo molto utile per generare immagini aggiuntive e realistiche da un set di immagini esistente. I suoi punti deboli sono che è lento da addestrare, lento da rendere e potrebbe generare immagini di bassa qualità o con alias. Sono ora disponibili diversi algoritmi di rendering neurale che affrontano queste sfide.

In che modo i dati sintetici possono aiutare la visione artificiale?

Ecco alcuni modi in cui i dati sintetici possono essere utili per la visione artificiale.

Creazione di set di dati più rapida ed economica su larga scala

Può essere dispendioso in termini di tempo e proibitivo raccogliere i dati visivi desiderati dal mondo reale, garantendo al tempo stesso una diversità sufficiente. Etichettare correttamente i punti dati è essenziale perché i dati etichettati in modo errato potrebbero generare un risultato impreciso. La raccolta dei dati e i processi di etichettatura o annotazione potrebbero richiedere mesi, consumando ampie risorse aziendali.

I dati sintetici generati in modo programmatico non richiedono la raccolta manuale dei dati o sforzi di annotazione. I data scientist possono impostare dati sintetici che includono le etichette e le annotazioni appropriate all'inizio.

Previsione dei casi limite

I set di dati del mondo reale spesso contengono uno squilibrio, perché i casi limite, che non si verificano frequentemente nella vita reale, non sono sufficientemente rappresentati. Ciò può creare distorsioni in un modello di machine learning, perché il modello potrebbe non disporre di dati sufficienti per apprendere come elaborare correttamente il caso limite. I casi limite non sono necessariamente irrilevanti: potrebbero non verificarsi molto spesso nel mondo reale, ma potrebbero essere molto significativi per il processo modellato.

Se un sistema di visione artificiale apprende solo da eventi reali, potrebbe non mancare un'esposizione sufficiente a esempi di casi limite. Ad esempio, potrebbe non essere realistico esporre naturalmente le auto a guida autonoma all'intera gamma di possibili eventi sulla strada, quindi l'algoritmo potrebbe non prevedere scenari insoliti che potrebbero portare a un incidente automobilistico.

Gli input sintetici, come video o immagini di incidenti automobilistici, possono includere diverse condizioni ed eventi (ad esempio, condizioni di luce e meteorologiche, tipi e numero di veicoli, ambienti). Gli algoritmi dei veicoli autonomi addestrati con diversi dati sintetici possono produrre una visione artificiale più sicura per le auto, tenendo conto di una più ampia varietà di rari eventi del mondo reale.

Protezione della privacy dei dati

Le leggi e i regolamenti sulla privacy dei dati possono influire sulla raccolta e l'archiviazione dei dati visivi. Il mancato rispetto di regolamenti come il GDPR può comportare gravi conseguenze legali, finanziarie o commerciali. I set di dati contenenti dati privati presentano un rischio perché il loro utilizzo nei modelli di addestramento potrebbe comportare una violazione della conformità.

Ad esempio, gli utenti con accesso API a un sistema di riconoscimento facciale possono estrarre immagini di volti riconoscibili e abbinarle ai nomi di persone reali, rappresentando una potenziale violazione della privacy.

I dati sintetici evitano il rischio di esporre informazioni private perché non contengono informazioni reali riconducibili a persone reali. Anche se un dataset sintetico si basa su dati reali (ad esempio immagini di persone reali), può preservare le caratteristiche rilevanti dei dati originali senza utilizzare alcuna informazione identificabile, eliminando il rischio di conformità.

INTELLIGENZA ARTIFICIALE ITALIA

Questa piattaforma è il punto di riferimento in Italia completamente dedicato al mondo dell' Intelligenza Artificiale