top of page

GATO l'intelligenza artificiale generale di Google


introduzione intelligenza artificiale generale di Google

La simulazione dei processi dell'intelligenza umana da parte delle macchine, in particolare dei sistemi informatici, è nota come intelligenza artificiale. Sistemi esperti, elaborazione del linguaggio naturale, riconoscimento vocale, apprendimento automatico e visione artificiale sono esempi di applicazioni di intelligenza artificiale.


GATO l'intelligenza artificiale generale di Google
GATO l'intelligenza artificiale generale di Google

Articoli consigliati prima della lettura :


Per queste attività di cui sopra, utilizziamo diversi tipi di sistemi nell'IA. Ad esempio, nell'intelligenza artificiale, un modello basato sulla visione artificiale non è in grado di gestire le attività relative alla NLP e viceversa. Allo stesso modo, un modello addestrato per stimare i prezzi di appartamenti non riuscirà a classificare persone malate in base alle loro analisi. Ma hai mai pensato a un modello in grado di svolgere tutte queste attività senza ulteriori modifiche all'architettura del modello? O un singolo modello che può imitare il cervello umano eseguendo più compiti senza alcuna significativa influenza del mondo esterno?. Se è così sei sulla strada giusta e stai pensando all'Intelligenza Artificiale Generale (AGI) .

La capacità di un agente intelligente di comprendere o apprendere qualsiasi lavoro intellettuale che una persona può essere conosciuta come Intelligenza Generale Artificiale. L'intelligenza artificiale (AI) è il concetto di creare una macchina in grado di pensare, agire e apprendere allo stesso modo delle persone. L'intelligenza generale artificiale (AGI) è l'intelligenza di una macchina in grado di svolgere qualsiasi compito cognitivo che un essere umano può fare. Un sistema con intelligenza artificiale generale sarebbe in grado di comprendere il mondo così come qualsiasi essere umano, oltre a imparare a svolgere un'ampia gamma di attività. È un obiettivo chiave di alcune ricerche sull'intelligenza artificiale al giorno d'oggi, nonché un argomento popolare negli studi di fantascienza e futuristi. La maggior parte della ricerca sull'intelligenza artificiale che si svolge oggi sta cercando di ottenere almeno il livello minimo di AGI nei prodotti finali.

Recentemente Deepmind, una sussidiaria britannica di Alphabet di intelligenza artificiale, ha introdotto l'ultimo e più promettente modello AGI, che è GATO. Tantissimi data scientist in tutto il mondo affermano che GATO sia il primo AGI al mondo. In questo blog, cerchiamo di presentarti i dettagli interessanti di base del modello GATO.



GATO l'intelligenza artificiale generale di Google
GATO l'intelligenza artificiale generale di Google

Intelligenza artificiale Generale

L'utilizzo di un unico modello di sequenza neurale per tutte le attività presenta molti vantaggi. Elimina la necessità di creare modelli di politiche manuali per ciascuna area con adeguati pregiudizi induttivi. Poiché il modello di sequenza può utilizzare qualsiasi dato che può essere serializzato in una sequenza flat, migliora la quantità e la diversità dei dati di addestramento. Inoltre, anche all'avanguardia in termini di dati, calcolo e scala di modelli, le sue prestazioni continuano ad aumentare. Come ho accennato nella sezione introduttiva, questi tipi di architettura neurale che possono svolgere più attività sono noti come reti neurali multimodello e questi sistemi sono chiamati agenti di intelligenza generale artificiale. Oggi sono disponibili diverse architetture multimodali che mostrano un livello minimo di AGI in natura.

Deepmind ha affermato qualche giorno fa di aver sviluppato un'IA generica in grado di svolgere qualsiasi attività. Google afferma di essere in grado di eseguire 600 lavori, il che è il più vicino a prestazioni a livello umano in una varietà di impostazioni. Deepmind ha istanziato Gato come un unico, grande modello di sequenza di trasformatori. Un altro punto importante è che ogni attività svolta da GATO utilizza gli stessi pesi. Gato può:

  • generare didascalie per fotografie

  • impilare blocchi con un vero braccio robotico

  • superare gli umani nei giochi Atari

  • navigare in paesaggi 3D simulat

  • obbedire alle indicazioni

  • e altro

con un solo set di pesi.

Set di dati di Gato l'Intelligenza artificiale Generale

Gato viene addestrato utilizzando una varietà di set di dati, inclusa l'esperienza dell'agente in ambienti simulati e del mondo reale, nonché set di dati in linguaggio naturale e immagini. Le tabelle seguenti descrivono i set di dati utilizzati per l'addestramento GATO.

GATO l'intelligenza artificiale generale di Google
GATO l'intelligenza artificiale generale di Google


I dati contenuti nel set di dati finale utilizzato per addestrare il modello GATO sono ampiamente diffusi in diversi domini, quelli sono

  • Compiti di controllo simulati

    • Gato è addestrato sui set di dati presi dalle attività basate sull'apprendimento di rinforzo

  • Visione e linguaggio

    • Gato è addestrato su MassiveText, un database di grandi corpora testuali in lingua inglese raccolti da una varietà di fonti tra cui pagine Web, libri, notizie e codice.

  • Robotica – benchmark di stacking RGB (reale e sim)

    • Gato viene addestrato sulle osservazioni registrate compiendo azioni fisiche nel mondo reale usando la robotica.


GATO l'addestramento per l'Intelligenza artificiale Generale

Durante l'addestramento, i dati di una varietà di lavori e modalità vengono serializzati in una sequenza piatta di token, raggruppati ed elaborati da una rete neurale del trasformatore che funziona allo stesso modo di un grande modello linguistico. La funzione di perdita viene applicata solo agli output di destinazione, come testo e determinate azioni, a causa del mascheramento. La fase di addestramento di GATO è descritta nella figura seguente.


GATO l'intelligenza artificiale generale di Google
GATO l'intelligenza artificiale generale di Google

Il principale approccio progettuale di Gato consiste nell'esercitare il maggior numero possibile di dati rilevanti, come testo, immagini e viste, sia dati discreti che continui. Per abilitare l'addestramento nella natura multipla dei dati, GATO serializza tutti i dati in una sequenza piatta di token. Questo processo è chiamato tokenizzazione. Esistono diversi modi per eseguire la tokenizzazione. Alcuni metodi sono menzionati di seguito.

  • Il testo viene codificato tramite il metodo SentencePiece

  • Le immagini vengono inizialmente convertite in sequenze di ordine raster di patch non sovrapposte.

  • I valori discreti sono condensati in sequenze intere in ordine di riga maggiore.

  • I valori continui vengono prima convertiti in sequenze di valori a virgola mobile nell'ordine principale di riga e fanno il resto del processo

Impiegano l'ordine di sequenza canonico dopo aver trasformato i dati in token.

  • Token di testo nello stesso ordine del testo di input non elaborato

  • Token per l'applicazione di patch alle immagini in ordine raster.

  • Tensori in ordine di riga maggiore.

  • Per chiave, le strutture nidificate sono disposte in ordine lessicografico.

  • Gli episodi dell'agente come passaggi temporali in ordine di tempo

L'idea è di organizzare tutto nella stessa struttura, con una certa sequenza in base al compito come si vede nell'immagine della fase di allenamento. Dopo la tokenizzazione e il sequenziamento, le operazioni seguenti verranno eseguite a seconda della natura dell'input

  • I token di testo, le osservazioni con valori discreti o continui o le azioni per qualsiasi passaggio temporale sono incorporati in uno spazio di incorporamento vettoriale appreso utilizzando una tabella di ricerca.

  • Per ottenere un vettore per patch, i token relativi alle patch dell'immagine per qualsiasi fase temporale vengono incorporati utilizzando un singolo blocco ResNet.

I vettori di incorporamento sono generati da 1,2 miliardi di trasformatori. Gato utilizza un trasformatore solo per decodificatore di parametri da 1.2B a 24 strati con una dimensione di incorporamento di 2048 e una dimensione nascosta di feedforward post-attenzione di 8196.

Il modello rimane un modello linguistico, prevedendo la parola successiva in base alla sequenza. Il modello viene fornito con tutti i valori continui, input propriocettivi, coppie articolari e così via come un insieme di sottoparole supplementari mappate in cima all'intervallo del vocabolario testuale in [32000, 33024]. GATO è uno dei metodi per convertire un problema RL in un problema di modellazione di sequenza condizionale. Modelli come GATO utilizzano una (grande) finestra di contesto per prevedere l'azione migliore successiva piuttosto che approssimare le funzioni del valore dello stato o apprendere una regola.

Gato e l'Intelligenza artificiale Generale

È addestrato in modo regressivo, il che significa che anticipa solo quale sarà il prossimo input. Ad esempio, se riceve un testo, tenterà di indovinare l'istruzione successiva. O un'azione che si verificherà nel caso dei giochi. Il modello riceve un'inclusione ed effettua una previsione basata su di essa, che viene quindi eseguita nell'ambiente simulato, e lo stato corrente viene tokenizzato e incorporato nuovamente e inviato nuovamente al modello per produrre un'altra previsione. Controlla l'immagine qui sotto per comprendere il processo di previsione di GATO.


GATO l'intelligenza artificiale generale di Google
GATO l'intelligenza artificiale generale di Google

Possiamo vedere che ha anche un componente prompt fisso, che dice semplicemente al modello che tipo di risposta ci aspettiamo per questa raccolta di input, il che porta al comportamento multitasking del modello. Ciò significa che il modello riceve una sequenza di token registrata in precedenza di quell'attività specifica anziché un ID del tipo di attività, attivando così la finestra di contesto.

Analisi delle prestazioni di Gato l'Intelligenza artificiale Generale

Ora è il momento di mostrare il potere di GATO. Di seguito sono riportati alcuni dei risultati finali del GATO su varie attività

Gato genera didascalia delle immagini

GATO l'intelligenza artificiale generale di Google
GATO l'intelligenza artificiale generale di Google

Gato come agente di conversazione

GATO l'intelligenza artificiale generale di Google
GATO l'intelligenza artificiale generale di Google

Quando osserviamo a fondo i risultati del GATO, possiamo capire che i risultati sono promettenti in una certa misura. Un singolo modello in grado di gestire più attività fino a un certo punto rappresenta un importante passo avanti nella comunità di ricerca sulla scienza dei dati anche se i risultati ottenuti non soddisfano il livello umano. E ovviamente, GATO è un modello potente, è ancora lontano da una percezione a livello umano. Non solo le curve di ridimensionamento del modello di GATO sono molto promettenti. Sebbene il loro modello più grande utilizzasse un decodificatore di parametri da 1,2 miliardi, che al giorno d'oggi è un minuscolo trasformatore. DALL-E ha un conteggio dei parametri di 12 miliardi, mentre GLIDE ha un conteggio dei parametri di 3,5 miliardi. Ad ogni modo, questo lavoro mostra come aggiungere attività RL a modelli di testo e immagine generalisti basati su Transformer (Hats off DeepMind ).


Conclusione su Gato e l'Intelligenza artificiale Generale

Al giorno d'oggi la maggior parte dei lavori di ricerca sull'Intelligenza Artificiale stanno cercando di ottenere l'Intelligenza Generale Artificiale . In questa prospettiva, GATO è un punto di svolta in questo dominio. Deepmind ha fatto molti sforzi per portare questa natura generalizzata nel suo comportamento. Gato è un modello solo decoder che utilizza 1,2 miliardi di parametri in termini di dimensioni. I modelli di sequenza di Transformer funzionano bene come policy multi-task multi-incarnazione in una varietà di impostazioni, inclusi testo, visione e robotica del mondo reale. Si mostrano anche promettenti nell'apprendere un compito fuori distribuzione. Invece di partire da zero, tali modelli potrebbero essere utilizzati come punto di partenza predefinito per apprendere nuovi comportamenti suggerendo o perfezionando in futuro. Anche se è in grado di svolgere più attività, la dimensione GATO è molto piccola quando la confrontiamo con altri modelli appena pubblicati in AI come GPT-3 e DALL-E. Di conseguenza, l'architettura multimodello GATO è scalabile in un'ampia gamma.

In questo articolo abbiamo cercato di spiegare solo le proprietà di base del modello GATO. Per maggiori dettagli, controlla gentilmente il documento di base ufficiale qui . Ma alla fine della giornata, come vediamo nei risultati della valutazione di GATO, è certo che dovremmo ancora attendere l'arrivo di un nuovo modello che possa raggiungere il comportamento a livello umano in molti dei compiti. Speriamo di incontrare presto un nuovo vero modello AGI...!


Vuoi mettere in pratica quello che hai letto ?


Oppure segui i tutorial correlati :

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
PCR (5).gif
PCR (4).gif
PCR.gif
PCR.gif
PCR.gif
PCR.gif
PCR (5).gif
3.gif
Vediamo se riesci a cliccarmi ! Nascondo una Sorpresa... (2).png

Ciao 

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Correlazione Alta

Correlazione Media

Correlazione Bassa

Iscriviti

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

più di 150 lezioni online

Dataset Gratis

più di 150o dataset

Ebook Gratis

più di 10 libri da leggere

Editor Gratis

un editor python online

Progetti Gratis

più di 25 progetti python

App Gratis

4 servizi web con I.A.

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Tutto ciò che riguarda l'intelligenza Artificiale, in unico posto, in italiano e gratis.

MEGLIO DI COSI' NON SI PUO' FARE

Dopo l'iscrizione riceverai diversi Regali

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

Grazie

bottom of page