I dati sono carburante per l'IA: creano o rompono il modello. Quindi, se vuoi che i tuoi dati riflettano i tuoi obiettivi nel modo più completo possibile, dovresti prima fare attenzione ai rischi che un pregiudizio può comportare per i tuoi dati, algoritmo o modello. Proprio come gli esseri umani possono essere influenzati da pregiudizi cognitivi come risultato di un errore sistematico nel pensare o di un'inclinazione errata a favore o contro una certa idea, anche i modelli possono operare sulla base di un certo tipo di pregiudizio di apprendimento automatico, di cui parleremo ulteriormente in questo articolo.
Più nello specifico, parleremo di:
Bias e intelligenza Artificiale perché è importante ?
Tipi ed esempi di Bias nell' IA
Come misurare il bias suggerimenti
Ridurre al minimo i Bias
Pensieri finali
Bias e intelligenza artificiale perché è importante ?
Le applicazioni di intelligenza artificiale possono essere estese a una moltitudine di ambienti sensibili tentando di apportare miglioramenti in diversi aspetti della vita. A condizione che ciò, diventa fondamentale garantire che il modo in cui l'IA influisce sulla nostra attività quotidiana non sia discriminatorio nei confronti di una determinata idea, gruppo di persone o circostanza. Inoltre, con lo stress crescente sul lato commerciale dell'IA, essere consapevoli dei tipi di pregiudizi nell'IA, di come possono influenzare le prestazioni del modello e sapere come misurare e ridurre i pregiudizi può ridurre il tempo a lungo termine.
Tipi ed esempi di Bias nell' intelligenza artificiale :
La maggior parte dei sistemi di intelligenza artificiale sono basati sui dati e richiedono un sacco di dati su cui essere addestrati.
Ipoteticamente, se i dati di addestramento contengono errori, gli algoritmi li apprenderanno e rifletteranno tali errori nella previsione.
In alcuni casi, gli algoritmi possono persino amplificare i pregiudizi e fuorviarti nel risultato, motivo per cui è meglio evitarli. Come nel Survey on Bias and Fairness in Machine Learning dell'USC Information Science Institute, suddivideremo i tipi di pregiudizi nello spazio dell'apprendimento automatico in tre categorie principali:
Bias tra dati e algoritmi
Bias per colpa dell'algoritmo
Bias tra Dati e Utenti
Ora vediamoli nel dettaglio uno per uno
Tipi ed esempi di Bias nell' intelligenza artificiale 1
Bias tra dati e algoritmi
Qui elencheremo diversi tipi di errori nei dati che portano a risultati algoritmici distorti:
Bias di misurazione: c'è una differenza nel modo in cui valutiamo e misuriamo determinate caratteristiche rispetto al modo in cui traiamo conclusioni dai modelli osservati, che devono essere considerati per evitare bias di misurazione. Questo tipo di distorsione compare quando vengono riportate conclusioni non uniformi durante la costruzione del set di dati di addestramento. Ad esempio, non possiamo presumere che i rappresentanti dei gruppi di minoranza abbiano maggiori probabilità di commettere un crimine efferato solo perché hanno tassi di arresto più elevati: c'è una differenza nel modo in cui questi gruppi vengono valutati rispetto a come li si può percepire.
Bias di campionamento: noto anche come bias di selezione, il bias di campionamento si verifica quando i dati di addestramento non vengono campionati in modo sufficientemente casuale dai dati raccolti, creando una preferenza verso alcune popolazioni. Considera un set di dati ampio e ricco di fotografie di esseri umani di tutte le etnie che non ha alcun pregiudizio nei confronti di alcuna etnia in particolare. Se uno specifico sistema di riconoscimento facciale è addestrato in gran parte su quelle che sono fotografie di uomini bianchi, non funzionerà bene quando si identificano donne e persone di diverse etnie, anche se i dati raccolti non erano originariamente distorti. Per evitare questo tipo di distorsione, i dati di addestramento devono essere campionati il più casualmente possibile dai dati raccolti.
Bias di rappresentazione: simile al bias di campionamento, il bias di rappresentazione deriva da una raccolta di dati non uniforme. Più in particolare, si verifica quando il processo di raccolta dei dati non tiene conto dei valori anomali, della diversità della popolazione e delle anomalie. Considera lo stesso sistema di riconoscimento facciale nel bias di campionamento. Se i dati raccolti contengono principalmente fotografie di uomini bianchi, il campionamento casuale non aiuterà a evitare distorsioni, poiché la distorsione è già inerente ai dati raccolti. Questo è un esempio di distorsione di rappresentazione.
Bias di aggregazione: il bias di aggregazione si osserva quando vengono fatte false ipotesi o generalizzazioni sugli individui quando si osserva l'intera popolazione. È fondamentale che l'insieme scelto di possibili etichette che contrassegnano il set di dati di addestramento catturi le diverse conclusioni che si possono trarre dal set di dati. Ad esempio, si consideri un set di dati composto da immagini di gatti, cani e tigri, in cui un modello viene addestrato per prevedere il peso dell'animale nell'immagine. Etichettare queste immagini come "cani" o "felini" può essere fuorviante poiché tigri e gatti hanno pesi diversi. È importante che le conclusioni (peso) siano ben catturate dalla definizione dell'etichetta.
Differenza da variabile omessa: la variabile omessa riflette la distorsione di una o più variabili mancanti che possono influire sul risultato finale in un modo o nell'altro. Alla fine, il tuo modello finisce per attribuire gli effetti delle variabili mancanti a quelle incluse.
Tipi ed esempi di Bias nell' intelligenza artificiale 2
Algoritmi e Bias
Gli algoritmi esercitano un'influenza sul comportamento dell'utente. In questa sezione, ci concentreremo sui tipi di bias algoritmici che possono eventualmente agire sul comportamento degli utenti:
Bias algoritmico: semplice, qui il bias viene introdotto dall'algoritmo, non dai dati e dalle scelte che si fanno quando si ottimizzano funzioni particolari (ad esempio, la profondità di una rete neurale, il numero di neuroni per livello o la regolarizzazione) . La distorsione può anche essere avviata dalle informazioni preliminari richieste dall'algoritmo, poiché la maggior parte degli algoritmi di intelligenza artificiale necessita di un certo grado di informazioni preliminari per funzionare.
Bias di popolarità: gli articoli popolari sono più spesso esposti, il che è altrettanto veritiero in quanto soggetti a manipolazione (da parte di spam, recensioni false, pratiche SEO blackhat nei motori di ricerca, ecc.). Anche se il modello sta facendo le giuste previsioni, la conclusione finale potrebbe essere distorta a causa della popolarità di altre possibili conclusioni. Una popolarità simile potrebbe non essere un segno di qualità, ma invece approcci distorti, spesso non osservati a livello di superficie.
Bias emergente: questo tipo di bias si verifica nel tempo come risultato dell'interazione con gli utenti e può essere innescato da cambiamenti nella base di utenti target, nelle loro abitudini e valori, di solito dopo che il modello è stato progettato e distribuito.
Distorsioni di valutazione: derivanti durante la valutazione del modello, le distorsioni di valutazione possono essere il risultato di parametri di riferimento inadatti o sproporzionati, ad esempio nei sistemi di riconoscimento facciale , che risultano distorti rispetto al colore della pelle e al sesso. Non solo è importante costruire set di dati di addestramento imparziali, ma anche progettare set di dati di test privi di bias e benchmark imparziali.
Tipi ed esempi di Bias nell' intelligenza artificiale 3
Bias tra utente e dati
Poiché molti dati introdotti nei modelli sono generati dall'utente, le distorsioni intrinseche dell'utente possono riflettersi nei dati di addestramento. Ecco alcuni esempi:
Bias di popolazione: quando i dati demografici, le statistiche e i dati degli utenti, in generale, differiscono nella piattaforma da cui stai estraendo i dati (social media, ad esempio) rispetto alla popolazione target originale, hai a che fare con il bias di popolazione. Breve e dolce: sono i dati non rappresentativi che incasinano i risultati del tuo modello. Proviamo a farla ancora più facile, se analizzi il sentiment dei tweet indiani quando hai un e-commerce con clienti italiani cosa speri di trovare ? Nulla!
Pregiudizio sociale: immagina una situazione in cui dovresti valutare un servizio, hai un punteggio nella tua testa, ma leggendo le recensioni degli altri ed essendo esposto alla maggior parte delle opinioni, cambi improvvisamente idea. Quindi la recensione che hai appena lasciato, presumibilmente imparziale, viene utilizzata per addestrare un modello, ma quello che è successo invece è che le azioni degli altri hanno influenzato il tuo giudizio: questo è il pregiudizio sociale tra utente e dati.
Bias comportamentale: gli utenti reagiscono in modo diverso quando vengono esposti alle stesse informazioni, ed è così che si verifica il bias comportamentale. Ancora una volta, prendendo i social media, un'emoji può rappresentare idee totalmente diverse per persone di culture diverse, portando a direzioni di comunicazione completamente contrastanti e ciò a sua volta può riflettersi nel tuo set di dati, supponendo che quei messaggi siano i tuoi dati.
Come misurare il Bias ?
Esistono varie metriche per misurare la distorsione e i punti chiave variano a seconda dell'obiettivo del nostro progetto o dei tipi di attività che devi svolgere. Per le attività di classificazione, ti concentri sull'accuratezza delle previsioni. Quando si lavora con annotazioni basate sulla posizione con riquadri di delimitazione o poligoni, si tratta più dell'intersezione delle unità e della sovrapposizione. La misurazione della distorsione dei progetti ML supervisionati va davvero oltre, quindi ecco alcuni suggerimenti per te:
Tieni traccia dell'attività di annotazione per utente
Assicurati di poter visualizzare i progressi di ogni annotatore: in questo modo, puoi notare un'etichettatura imprecisa in tempo, identificare la fonte dell'errore e prevenire l'imminente espansione della distorsione. Ciò è particolarmente utile quando si esternalizzano i servizi di annotazione , il che significa naturalmente cedere più controllo a una terza parte. Inoltre, il monitoraggio delle attività dell'annotatore è assolutamente necessario per i progetti di etichettatura su larga scala .
Identifica le fonti e le ragioni dei Bias
Oltre a tenere traccia dei progressi individuali degli annotatori, è utile avere una panoramica generale delle annotazioni ed essere in grado di filtrare i dati necessari. Ad esempio, potresti voler visualizzare le annotazioni per un particolare punto dati, classe o attributo. In questo modo, puoi identificare le posizioni e le fonti di errore e risolverle. Altri motivi di distorsione possono includere quanto segue:
Istruzioni inefficienti con pochi o nessun esempio
Mancanza di comunicazione all'interno del team
Ora del giorno (le annotazioni fatte più avanti nel corso della giornata tendono ad essere più accurate a causa dell'illuminazione)
Analizza il tuo set di dati, prenditi il tempo necessario per considerare le possibili ragioni alla base del verificarsi di errori e pensa a un approccio strategico per risolvere gli errori esistenti e prevenire gli errori imminenti.
Come ridurre i bias nell' intelligenza artificiale ?
In effetti, la distorsione può insinuarsi in un modello a causa di una serie di fattori: scarsa qualità dei dati, mancata corrispondenza delle prestazioni del modello, fattore umano, ecc. In questa sezione, introdurremo alcuni passaggi che puoi eseguire durante lo sviluppo di un modello di intelligenza artificiale per ridurre al minimo il rischio di bias:
Seleziona i dati di allenamento giusti
Controlla problemi legati alle infrastrutture
Controlla continuamente distribuzione e feedback
I dati di allenamento giusti
Assicurati che il tuo set di dati sia diversificato, inclusivo, sufficientemente equilibrato e rappresenti i tuoi obiettivi nel modo più completo possibile. Come hai visto, anche il metodo di raccolta dei dati può introdurre pregiudizi. Assicurati che i tuoi dati coprano i casi che riguardano l'ambiente in cui opererà il tuo modello. Se hai a che fare con set di dati pubblici, sii estremamente cauto e cerca di non riutilizzarli per evitare distorsioni.
Problemi legati alle infrastrutture
I problemi con le apparecchiature possono anche presentare pregiudizi nei casi in cui ti affidi ai dati raccolti da dispositivi elettronici, smartphone, fotocamere, ecc. In effetti, questo è il tipo di bias più difficile da rilevare, ma investire nell'infrastruttura giusta può avvantaggiare il tuo modello più che sai.
Distribuzione e feedback
Una delle categorie di bias discusse in precedenza copre le distorsioni algoritmiche che influenzano il comportamento degli utenti. Per individuarlo in tempo e assicurarti che il modello funzioni come previsto, tieni sempre a mente il feedback durante la distribuzione. Fornisci spazio ai tuoi utenti finali per connettersi con te e condividere i loro pensieri sulle prestazioni del modello.
Tre esempi reali di bias dell'IA
1. Il razzismo nell'assistenza sanitaria statunitense
Nell'ottobre 2019, i ricercatori hanno scoperto che un algoritmo utilizzato su più di 200 milioni di persone negli ospedali statunitensi per prevedere quali pazienti avrebbero probabilmente bisogno di cure mediche extra favoriva i pazienti bianchi rispetto ai pazienti neri. Sebbene la razza stessa non fosse una variabile utilizzata in questo algoritmo, un'altra variabile altamente correlata alla razza lo era, che era la cronologia dei costi sanitari. La logica era che il costo riassume quanti bisogni sanitari ha una determinata persona. Per vari motivi, i pazienti neri hanno sostenuto in media costi sanitari inferiori rispetto ai pazienti bianchi con le stesse condizioni.
Per fortuna, i ricercatori hanno lavorato con Optum per ridurre il livello di bias dell'80%. Ma se non fossero stati interrogati in primo luogo, il pregiudizio dell'IA avrebbe continuato a discriminare gravemente.
2. COMPAS e i falsi positivi
Probabilmente l'esempio più notevole di pregiudizio dell'IA è l'algoritmo COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) utilizzato nei sistemi giudiziari statunitensi per prevedere la probabilità che un imputato diventi recidivo .
A causa dei dati utilizzati, del modello scelto e del processo di creazione dell'algoritmo in generale, il modello prevedeva il doppio dei falsi positivi per recidiva per i trasgressori neri (45%) rispetto ai trasgressori bianchi (23%) .
3. L'algoritmo di assunzione di Amazon
Amazon è uno dei più grandi giganti della tecnologia al mondo. E quindi, non sorprende che siano grandi utilizzatori di machine learning e intelligenza artificiale. Nel 2015, Amazon si è resa conto che il loro algoritmo utilizzato per assumere dipendenti era prevenuto nei confronti delle donne . Il motivo era che l'algoritmo si basava sul numero di curricula presentati negli ultimi dieci anni e, poiché la maggior parte dei candidati erano uomini, era stato addestrato per favorire gli uomini rispetto alle donne.
Cosa possiamo imparare da tutto questo?
È chiaro che creare algoritmi non distorti è difficile. Per creare algoritmi non distorti, i dati utilizzati devono essere privi di pregiudizi e gli ingegneri che stanno creando questi algoritmi devono assicurarsi che non trapelano nessuno dei propri pregiudizi. Detto questo, ecco altri 3 suggerimenti più umani e meno tecnici per ridurre al minimo i pregiudizi:
1) I dati che si utilizzano devono rappresentare “ciò che dovrebbe essere” e non “ciò che è”
Ciò che intendo dire con questo è che è naturale che i dati campionati casualmente abbiano pregiudizi perché vivevamo in un mondo parziale in cui le pari opportunità sono ancora una fantasia. Tuttavia, dobbiamo garantire in modo proattivo che i dati che utilizziamo rappresentino tutti allo stesso modo e in un modo che non causi discriminazioni nei confronti di un particolare gruppo di persone. Ad esempio, con l'algoritmo di assunzione di Amazon, se ci fosse stata una quantità uguale di dati per uomini e donne, l'algoritmo potrebbe non aver discriminato così tanto. Quindi per applicare questo primo suggerimento amazon avrebbe dovuto usare pari dati per dipendenti maschi e femmine anche se la realtà non è questa, così avrebbe evitato uno sbilanciamento
2) Dovrebbe essere imposto e imposto un qualche tipo di governance dei dati
Poiché sia gli individui che le aziende hanno una sorta di responsabilità sociale, abbiamo l'obbligo di regolare i nostri processi di modellazione per garantire che le nostre pratiche siano etiche. Ciò può significare diverse cose, come assumere un team di conformità interno per imporre una sorta di controllo per ogni algoritmo creato, allo stesso modo del gruppo di Obermeyer.
3) La valutazione del modello dovrebbe includere la valutazione dei gruppi sociali
Imparando dai casi precedenti, dovremmo sforzarci di garantire che parametri come la vera accuratezza e il tasso di falsi positivi siano coerenti quando si confrontano diversi gruppi sociali, indipendentemente dal fatto che si tratti di sesso, etnia o età.
Conclusione sui Bias e IA
In questo articolo, ci siamo concentrati sulla distorsione dell'apprendimento automatico, rispondendo ad alcune delle domande chiave sull'argomento, dai tipi ai metodi di misurazione e prevenzione. Ci auguriamo che tu utilizzi i suggerimenti discussi per ottenere il livello di precisione desiderato per il tuo modello.
Comments