Stai pensando all'IA per la tua organizzazione? Hai identificato un caso d'uso ?
Perfetto! ma non così veloce ... hai un set di dati ? Bene, la maggior parte delle aziende sta lottando per creare un set di dati pronto per l'intelligenza artificiale o forse semplicemente ignora questo problema, ho pensato che questo articolo potrebbe aiutarti un po '.
Cominciamo con le basi ...
Un set di dati è una raccolta di dati . In altre parole, un set di dati corrisponde al contenuto di una singola tabella di database, o un singolo statistica dei dati della matrice, dove ogni colonna della tabella rappresenta una particolare variabile, ed ogni corrisponde riga per un dato membro del set di dati in questione .
Nei progetti di Machine Learning, abbiamo bisogno di un set di dati di addestramento . È il set di dati effettivo utilizzato per addestrare il modello per l'esecuzione di varie azioni.
Perché ho bisogno di un set di dati? Il machine learning dipende fortemente dai dati, senza dati è impossibile che un "AI" apprenda. È l'aspetto più cruciale che rende possibile l'addestramento degli algoritmi ... Non importa quanto sia grande il tuo team di intelligenza artificiale o la dimensione del tuo set di dati, se il tuo set di dati non è abbastanza buono, l'intero progetto AI fallirà! Ho visto progetti fantastici fallire perché non avevamo un buon set di dati nonostante avessimo il caso d'uso perfetto e scienziati dei dati molto qualificati.
Un'intelligenza artificiale supervisionata viene addestrata su un corpus di dati di addestramento.
Durante uno sviluppo di intelligenza artificiale, ci affidiamo sempre ai dati. Dall'addestramento, alla messa a punto, dalla selezione del modello al test, utilizziamo tre diversi set di dati: il set di addestramento, il set di convalida e il set di test.Per tua informazione, i set di convalida vengono utilizzati per selezionare e ottimizzare il modello ML finale.
Potresti pensare che la raccolta dei dati sia sufficiente ma è il contrario. In ogni progetto di IA, classificare ed etichettare i set di dati richiede la maggior parte del nostro tempo, in particolare i set di dati sufficientemente accurati da riflettere una visione realistica del mercato / mondo.
Voglio presentarti i primi due set di dati di cui abbiamo bisogno: il set di dati di addestramento e il set di dati di test perché vengono utilizzati per scopi diversi durante il tuo progetto AI e il successo di un progetto dipende molto da loro.
Il set di dati di addestramento è quello utilizzato per addestrare un algoritmo a capire come applicare concetti come le reti neurali, per apprendere e produrre risultati. Include sia i dati di input che l'output previsto.
I set di formazione costituiscono la maggior parte dei dati totali, circa il 70%. Durante i test, i modelli si adattano ai parametri in un processo noto come regolazione dei pesi.
Il set di dati di test viene utilizzato per valutare il livello di addestramento del tuo algoritmo con il set di dati di addestramento. Nei progetti AI, non possiamo utilizzare i dati di addestramento impostati in fase di test perché l'algoritmo conoscerà già in anticipo l'output atteso che non è il nostro obiettivo.
I set di test rappresentano il 30% dei dati. Il set di test è garantito come i dati di input raggruppati insieme agli output corretti verificati, generalmente mediante verifica umana.
Sulla base della mia esperienza, è una cattiva idea tentare ulteriori aggiustamenti dopo la fase di test. Probabilmente porterà a un overfitting.
Cos'è l'overfitting? Un problema ben noto per i data scientist ...
L' overfitting è un errore di modellazione che si verifica quando una funzione è troppo vicina a un insieme limitato di punti dati.
Quanti dati sono necessari? Tutti i progetti sono in qualche modo unici, ma direi che hai bisogno di 10 volte più dati del numero di parametri nel modello in costruzione. Più complicata è l'attività, più dati sono necessari.
Di che tipo di dati ho bisogno? Inizio sempre progetti di intelligenza artificiale ponendo domande precise al decisore aziendale. Cosa stai cercando di ottenere con l'IA? Sulla base della tua risposta, devi considerare di quali dati hai effettivamente bisogno per affrontare la domanda o il problema su cui stai lavorando. Fai alcune ipotesi sui dati di cui hai bisogno e fai attenzione a registrarle in modo da poterle testare in seguito, se necessario.
Di seguito sono riportate alcune domande per aiutarti:
Quali dati puoi utilizzare per questo progetto? Devi avere un'immagine chiara di tutto ciò che puoi usare.
Quali dati non disponibili vorresti avere? Mi piace questa domanda poiché possiamo sempre in qualche modo simulare questi dati.
Ho un set di dati, e adesso? Non così in fretta! Dovresti sapere che tutti i set di dati sono imprecisi. In questo momento del progetto, dobbiamo fare un po 'di preparazione dei dati, un passaggio molto importante nel processo di apprendimento automatico. Fondamentalmente, la preparazione dei dati consiste nel rendere il tuo set di dati più adatto per l'apprendimento automatico. È un insieme di procedure che consumano la maggior parte del tempo dedicato a progetti di machine learning.
Anche se disponi dei dati, puoi comunque riscontrare problemi con la loro qualità, nonché pregiudizi nascosti nei tuoi set di addestramento. In parole povere, la qualità dei dati di addestramento determina le prestazioni dei sistemi di apprendimento automatico.
Hai sentito parlare dei pregiudizi dell'IA? Un'intelligenza artificiale può essere facilmente influenzata ... Nel corso degli anni, i data scientist hanno scoperto che alcuni popolari set di dati utilizzati per addestrare il riconoscimento delle immagini includevano pregiudizi di genere.
Di conseguenza, la creazione delle applicazioni di intelligenza artificiale richiede più tempo perché stiamo cercando di assicurarci che i dati siano corretti e integrati correttamente.
E se non ho abbastanza dati ? Può succedere che ti manchino i dati necessari per integrare una soluzione AI. Non ti mentirò, ci vuole tempo per costruire un set di dati pronto per l'intelligenza artificiale se ti affidi ancora a documenti cartacei o. csv file. Ti consiglierei di dedicare prima del tempo a costruire una moderna strategia di raccolta dei dati.
Se hai già determinato l'obiettivo della tua soluzione ML, puoi chiedere al tuo team di dedicare del tempo alla creazione dei dati o esternalizzare il processo. Nel mio ultimo progetto, l'azienda voleva creare un modello di riconoscimento delle immagini ma non aveva immagini. Di conseguenza, abbiamo trascorso settimane a scattare foto per creare il set di dati e trovare modi per i futuri clienti di farlo per noi.
Hai una strategia sui dati? Creare una cultura basata sui dati in un'organizzazione è forse la parte più difficile dell'essere uno specialista di intelligenza artificiale. Quando cerco di spiegare perché l'azienda ha bisogno di una cultura dei dati, posso vedere la frustrazione negli occhi della maggior parte dei dipendenti. In effetti, la raccolta dei dati può essere un'attività fastidiosa che grava sui tuoi dipendenti. Tuttavia, possiamo automatizzare la maggior parte del processo di raccolta dei dati!
Un altro problema potrebbe essere l'accessibilità e la proprietà dei dati ... In molti dei miei progetti, ho notato che i miei clienti avevano dati sufficienti, ma che i dati erano bloccati e di difficile accesso. È necessario creare connessioni tra silos di dati nella propria organizzazione. Per ottenere approfondimenti speciali, è necessario raccogliere dati da più origini.
Per quanto riguarda la proprietà, la conformità è anche un problema con le fonti di dati: solo perché un'azienda ha accesso alle informazioni, non significa che abbia il diritto di usarle! Non esitate a chiedere informazioni al vostro team legale (il GDPR in Europa è un esempio).
Qualità e quantità! L'apprendimento automatico non riguarda solo grandi set di dati. In effetti, non si alimenta il sistema con tutti i punti dati noti in alcun campo correlato. Vogliamo alimentare il sistema con dati attentamente curati, sperando che possa apprendere, e forse estendere, ai margini, la conoscenza che le persone già possiedono.
La maggior parte delle aziende ritiene che sia sufficiente raccogliere tutti i dati possibili, combinarli e lasciare che l'IA trovi intuizioni.
Quando crei un set di dati, dovresti mirare a una varietà di dati. Consiglio sempre alle aziende di raccogliere dati sia interni che esterni. L'obiettivo è creare un set di dati unico che sarà difficile da copiare per i tuoi concorrenti. Le applicazioni di machine learning richiedono un numero elevato di punti dati, ma questo non significa che il modello debba considerare un'ampia gamma di funzionalità.
Vogliamo dati significativi relativi al progetto. Potresti possedere dati ricchi e dettagliati su un argomento che semplicemente non è molto utile. Un esperto di intelligenza artificiale ti farà domande precise su quali campi contano davvero e in che modo tali campi saranno probabilmente importanti per la tua applicazione delle intuizioni che ottieni.
Pre-elaborazione dei dati
Va bene, torniamo al nostro set di dati. In questa fase, hai raccolto i tuoi dati che giudichi essenziali, diversi e rappresentativi per il tuo progetto AI. La pre-elaborazione include la selezione dei dati corretti dal set di dati completo e la creazione di un set di addestramento. Il processo di mettere insieme i dati in questo formato ottimale è noto come trasformazione delle caratteristiche .
Formato: i dati potrebbero essere distribuiti in file diversi. Ad esempio, i risultati delle vendite di diversi paesi con valute, lingue, ecc. Differenti, che devono essere raccolti insieme per formare un set di dati.
Pulizia dei dati: in questa fase, il nostro obiettivo è gestire i valori mancanti e rimuovere i caratteri indesiderati dai dati.
Estrazione delle funzionalità: in questa fase ci concentriamo sull'analisi e l'ottimizzazione del numero di funzionalità. Di solito, un membro del team deve scoprire quali caratteristiche sono importanti per la previsione e selezionarle per calcoli più veloci e basso consumo di memoria.
La perfetta strategia per i dati
I progetti di IA di maggior successo sono quelli che integrano una strategia di raccolta dati durante il ciclo di vita del servizio / prodotto. In effetti, la raccolta dei dati non può essere una serie di esercizi una tantum. Deve essere integrato nel prodotto principale stesso. Fondamentalmente, ogni volta che un utente interagisce con il tuo prodotto / servizio, desideri raccogliere dati dall'interazione. L'obiettivo è utilizzare questo nuovo flusso di dati costante per migliorare il tuo prodotto / servizio.
Quando raggiungi questo livello di utilizzo dei dati, ogni nuovo cliente che aggiungi rende il set di dati più grande e quindi il prodotto migliore, il che attira più clienti, il che rende migliore il set di dati e così via. È una sorta di cerchio positivo.
I progetti ML migliori e orientati a lungo termine sono quelli che sfruttano set di dati dinamici e costantemente aggiornati. Il vantaggio di costruire tale strategia di raccolta dati è che diventa molto difficile per i tuoi concorrenti replicare il tuo set di dati. Con i dati, l'IA migliora e in alcuni casi, come il filtraggio collaborativo, è molto prezioso. Il filtraggio collaborativo fornisce suggerimenti basati sulla somiglianza tra gli utenti, migliorerà con l'accesso a più dati; più dati utente si hanno, più è probabile che l'algoritmo possa trovare un utente simile.
Ciò significa che è necessaria una strategia per il miglioramento continuo del set di dati fintanto che esiste un vantaggio per l'utente per una migliore precisione del modello. Se puoi, trova modi creativi per sfruttare anche i segnali deboli per accedere a set di dati più grandi.
Grazie mille per la lettura, condividi l'articolo con i tuoi colleghi
Comments