top of page

I migliori modelli linguistici open source

In questo articolo, discuteremo dell'importanza dei modelli linguistici di grandi dimensioni e suggeriremo alcuni dei migliori modelli open source e le attività NLP per cui possono essere utilizzati.


Cos'è un modello linguistico?

Un modello linguistico è solo una distribuzione di probabilità su sequenze di token (parole). I modelli linguistici sono il fulcro della moderna elaborazione del linguaggio naturale (NLP) e le loro applicazioni possono essere per una varietà di attività NLP come sintesi vocale, analisi del sentimento, riepilogo del testo, controllo ortografico, classificazione dei token, ecc.


Nella maggior parte della NLP compiti, i modelli linguistici possono determinare la probabilità del prossimo token analizzando il testo dato. Il modello linguistico può essere sotto forma di reti Unigrams, N-grams, Exponential o Neural.

I migliori modelli linguistici open source
I migliori modelli linguistici open source

Perhè usare i modelli linguistici ?

Nel 2019, c'è stato un grande incremento nella popolarità del Language Modeling grazie allo sviluppo di trasformatori come BERT, GPT-2 e XLM. Questi modelli basati su trasformatori possono essere adattati da un modello di linguaggio generico a un'attività a valle specifica nota come messa a punto. Il processo di ottimizzazione richiede molti meno dati rispetto all'addestramento del modello linguistico da zero. Questo è uno dei motivi che rende le modalità basate su trasformatore straordinarie rispetto ai precedenti approcci utilizzati nella modellazione linguistica. Un altro motivo per cui i modelli linguistici sono così utilizzati è che un singolo modello può essere utilizzato per più attività NLP , ad esempio come risposta alle domande, classificazione di token e testo, riassunto di documenti, generazione di testo, traduzione e molti altri. I modelli linguistici basati su trasformatore possono eseguire queste attività NLP con prestazioni molto più elevate grazie alla presenza di più parametri e più dati di addestramento.


Questo post include alcuni dei migliori modelli di linguaggio open source.


I migliori modelli linguistici 1.

GPT-Neo, GPT-J e GPT-NeoX

GPT-Neo, GPT-J e GPT-NeoX sono modelli di intelligenza artificiale molto potenti e possono essere utilizzati per problemi di apprendimento a pochi colpi. L'apprendimento immediato è come l'addestramento/la messa a punto di qualsiasi modello di apprendimento profondo, tuttavia richiede solo un numero limitato di campioni.


I modelli GPT-Neo, GPT-J e GPT-NeoX sono stati addestrati e rilasciati da EleutherAI come versioni open source di GPT-3, che è stato rilasciato da Open-AI ed è rimasto privato fino ad oggi. I modelli GPT-J e GPT-Neo sono simili a GPT-2 ed entrambi sono stati addestrati sul set di dati Pile. The Pile è un set di dati di modellazione del linguaggio open source da 825 GiB che consiste in 22 set di dati più piccoli combinati. L'importanza di Pile è la diversità delle sue fonti di dati che migliora la conoscenza generale tra domini e le attività della PNL a valle.

GPT-NeoX è un miglioramento dei modelli GPT open source rilasciati in precedenza basati principalmente su Megatron-LM e DeepSeed. A causa della complessità e delle sue dimensioni, è stato costruito su Mesh TensorFlow e progettato per GPU.


I migliori modelli linguistici open source
I migliori modelli linguistici open source

Il modello GPT-NeoX-20B ha 20 miliardi di parametri ed è stato addestrato sul Pile, il che lo rende il più grande modello autoregressivo denso disponibile pubblicamente. GPT-NeoX-20B può aiutare a sviluppare prove di concetto per misurare la fattibilità del progetto grazie all'apprendimento a colpi di poche.


I migliori modelli linguistici 2.

XLNET

I ricercatori della Carnegie Mellon University e di Google hanno sviluppato un nuovo modello chiamato XLNet per eseguire attività di NLP come la comprensione della lettura, la classificazione del testo, l'analisi del sentimento e altro. La sua formulazione autoregressiva consente l'apprendimento di contesti bidirezionali massimizzando la probabilità su tutte le permutazioni dell'ordine di fattorizzazione e supera i limiti di BERT. Segue un metodo di pre-allenamento autoregressivo generalizzato. Inoltre, XLNet integra le idee di Transformer-XL, il modello autoregressivo all'avanguardia, nel pre-training. Empiricamente, XLNet supera BERT su 20 attività, per lo più con un ampio margine, e ottiene risultati all'avanguardia su 18 attività come risposta alle domande, inferenza del linguaggio naturale, analisi del sentimento e classifica dei documenti.


I migliori modelli linguistici 3.

Roberta

I ricercatori di Facebook AI e dell'Università di Washington hanno analizzato come è stata addestrata la rappresentazione dell'encoder bidirezionale di Google da Transformers (BERT). Hanno apportato diverse modifiche al processo di allenamento e hanno anche migliorato le prestazioni. Inoltre, i ricercatori hanno utilizzato un set di dati più ampio per l'addestramento, hanno scelto mini-batch più grandi, hanno rimosso la Next Sentence Prediction (NSP) e hanno addestrato il modello con molte più iterazioni rispetto a BERT. Ciò ha portato a un modello ottimizzato chiamato RoBERTa (Robustly Optimized BERT Approach) che corrispondeva ai punteggi del modello XLNet sul benchmark GLUE (General Language Understanding Evaluation). È stato dimostrato che l'apprendimento trasferito nella PNL è altamente efficiente per le attività di classificazione del testo. I modelli RoBERTa raggiungono una precisione competitiva in un'ampia gamma di attività a valle, il che lo ha reso un modello "Go-to" per le attività di classificazione di token e testo da parte di molte aziende.


I migliori modelli linguistici 4.

DeBERTa

I ricercatori di Microsoft Research hanno proposto BERT potenziato con la decodifica con un'attenzione districata per migliorare i modelli BERT e RoBERTa utilizzando due tecniche. In primo luogo, ha districato il meccanismo dell'attenzione, in cui ogni parola è rappresentata utilizzando due vettori che ne codificano rispettivamente il contenuto e la posizione, e i pesi dell'attenzione tra le parole sono calcolati utilizzando matrici districate sul loro contenuto e posizioni relative. In secondo luogo, viene utilizzato un decodificatore maschera avanzato per sostituire il livello softmax di output per prevedere i token mascherati per il pre-training del modello. Tanya sottolinea che queste due tecniche migliorano significativamente l'efficienza del pre-addestramento del modello e l'esecuzione delle attività a valle. Il modello DeBERTa supera per la prima volta la linea di base umana sul benchmark GLUE al momento della pubblicazione. Fino ad oggi i modelli DeBERTa sono utilizzati principalmente per una varietà di attività NLP come la risposta a domande, il riepilogo e la classificazione di token e testi.


I migliori modelli linguistici open source
I migliori modelli linguistici open source


I migliori modelli linguistici 5.

XLM-RoBERTa

Nel mondo degli affari di oggi, le aziende di maggior successo hanno raggiunto il punto in cui devono offrire i propri servizi in lingue diverse dall'inglese. Grazie ai ricercatori del team AI di Facebook, XLM-RoBERTa è un modello linguistico basato su trasformatore ed è in grado di elaborare testo da 100 lingue diverse.


In passato, ciò richiedeva di moltiplicare gli sforzi per ogni nuova lingua, occupandosi dei dettagli intricati di ogni lingua. Sebbene spesso non forniscano le migliori prestazioni per attività, i modelli multilingue come XLM-RoBERTa consentono alle aziende di generare valore per gli utenti che non parlano inglese molto più velocemente.


I migliori modelli linguistici 6.

DistilBERT

Mentre altri modelli mirano a ottimizzare le prestazioni di BERT, DistilBERT ha un obiettivo diverso. Mentre XLNet, RoBERTa e DeBERTa hanno apportato miglioramenti alle prestazioni, DistilBERT cerca di migliorare la velocità di inferenza. Il suo obiettivo è ridurre le grandi dimensioni e aumentare la velocità di BERT_{BASE} e BERT_{LARGE} con parametri rispettivamente di 110M e 340M, pur mantenendo quanta più potenza possibile. DistilBERT riduce le dimensioni di BERT_{BASE} del 40% e migliora la velocità del 60% mantenendo il 97% delle sue capacità.



I migliori modelli linguistici 7.

BLOOM

Con i suoi 176 miliardi di parametri, BLOOM è in grado di generare testo in 46 linguaggi naturali e 13 linguaggi di programmazione. Per quasi tutti, come spagnolo, francese e arabo, BLOOM sarà il primo modello linguistico con oltre 100 miliardi di parametri mai creato. Questo è il culmine di un anno di lavoro che ha coinvolto oltre 1000 ricercatori provenienti da oltre 70 paesi e oltre 250 istituzioni, che ha portato a un ciclo finale di 117 giorni (11 marzo - 6 luglio) per addestrare il modello BLOOM sul supercomputer Jean Zay nel sud di Parigi, Francia grazie a una sovvenzione di calcolo del valore stimato di 3 milioni di euro dalle agenzie di ricerca francesi CNRS e GENCI.


I ricercatori possono ora scaricare, eseguire e studiare BLOOM per studiare le prestazioni e il comportamento di modelli linguistici di grandi dimensioni recentemente sviluppati fino alle loro operazioni interne più profonde. Più in generale, qualsiasi individuo o istituzione che accetti i termini della Licenza per l'IA responsabile del modello(sviluppato durante il progetto BigScience stesso) può utilizzare e costruire sul modello su una macchina locale o su un provider cloud. In questo spirito di collaborazione e miglioramento continuo, stiamo rilasciando, per la prima volta, anche i checkpoint intermedi e gli stati di ottimizzazione della formazione. Non hai 8 A100 con cui giocare? Un'API di inferenza, attualmente supportata dal cloud TPU di Google e da una versione FLAX del modello, consente anche test rapidi, prototipazione e utilizzo su scala ridotta. Puoi già giocarci su Hugging Face Hub.


Facci sapere nei commenti se conosci altri modelli linguistici open source su cui poter mettere mano !

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
PCR (5).gif
PCR (4).gif
PCR.gif
PCR.gif
PCR.gif
PCR.gif
PCR (5).gif
3.gif
Vediamo se riesci a cliccarmi ! Nascondo una Sorpresa... (2).png

Ciao 

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Correlazione Alta

Correlazione Media

Correlazione Bassa

Iscriviti

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

più di 150 lezioni online

Dataset Gratis

più di 150o dataset

Ebook Gratis

più di 10 libri da leggere

Editor Gratis

un editor python online

Progetti Gratis

più di 25 progetti python

App Gratis

4 servizi web con I.A.

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Tutto ciò che riguarda l'intelligenza Artificiale, in unico posto, in italiano e gratis.

MEGLIO DI COSI' NON SI PUO' FARE

Dopo l'iscrizione riceverai diversi Regali

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

Grazie

bottom of page