top of page

Google Gemini API , come usare l'IA di google nei tuoi progetti

Introduzione

Dall'uscita di ChatGPT e dei modelli GPT di OpenAI, in collaborazione con Microsoft, l'attenzione generale si è spostata da Google, che ha introdotto il Modello Transformer nel campo dell'IA. Oltre un anno dopo il lancio dei modelli GPT, Google non ha compiuto passi significativi, a parte l'API PaLM, che non è riuscita a catturare l'attenzione di molti. E poi, all'improvviso, è arrivato Gemini, un insieme di modelli fondamentali introdotti da Google.


Solo pochi giorni dopo il lancio di Gemini, Google ha rilasciato l'API Gemini, che testeremo in questa guida e, infine, costruiremo un semplice chatbot.



Scopri il potenziale dell'IA con Google Gemini API per trasformare i tuoi progetti. Guida dettagliata su come integrare l'IA di Google per ottimizzare le funzionalità multimediali e di conversazione.
Scopri il potenziale dell'IA con Google Gemini API per trasformare i tuoi progetti.

Modello AI Google Gemini


Obiettivi di Apprendimento


  • Comprendere i fondamenti della serie Gemini di Google, inclusi i suoi diversi modelli (Ultra, Pro, Nano) e la loro focalizzazione sulla multimodalità con supporto per testo e immagini.

  • Sviluppare competenze nella creazione di applicazioni basate su chat utilizzando il modello di chat di Gemini Pro, comprendendo come mantenere la cronologia delle conversazioni e generare risposte basate sul contesto dell'utente.

  • Esplorare come Gemini assicura un utilizzo responsabile dell'IA gestendo query non sicure e fornendo valutazioni di sicurezza per varie categorie, migliorando la consapevolezza dell'utente.

  • Acquisire esperienza pratica con i modelli Gemini Pro e Gemini Pro Vision, esplorando le loro capacità di generazione di testo e basate sulla visione, compresa l'interpretazione e la descrizione delle immagini.

  • Apprendere come integrare Langchain con l'API Gemini, semplificando il processo di interazione, e scoprire come raggruppare input e risposte per una gestione efficiente di molteplici richieste.


Cos'è Google Gemini?

Gemini è una nuova serie di modelli fondamentali costruita e introdotta da Google. Questo è di gran lunga il loro insieme di modelli più ampio in termini di dimensioni rispetto a PaLM ed è stato progettato con un focus sulla multimodalità fin dalla base.


Questo rende i modelli Gemini potenti contro diverse combinazioni di tipi di informazioni, inclusi testi, immagini, audio e video. Attualmente, l'API supporta immagini e testi.


Gemini ha dimostrato di raggiungere prestazioni all'avanguardia nei benchmark e addirittura di superare i modelli ChatGPT e GPT4-Vision in molti dei test.

Ci sono tre diversi modelli Gemini in base alle loro dimensioni: Gemini Ultra, Gemini Pro e Gemini Nano, in ordine decrescente di dimensioni.


  1. Gemini Ultra è il modello più grande e più capace e non è ancora stato rilasciato.

  2. Gemini Nano è il più piccolo ed è stato progettato per funzionare su dispositivi edge.

  3. Attualmente, l'API Gemini Pro è resa disponibile al pubblico e lavoreremo con questa API.




Iniziare con le API di Google Gemini

Prima di tutto, dobbiamo ottenere la chiave API gratuita di Google che ci permette di lavorare con Gemini. Questa chiave API gratuita può essere ottenuta creando un account con MakerSuite su Google (segui questo articolo che contiene una procedura passo dopo passo su come ottenere la chiave API).

Installazione delle Dipendenze Possiamo iniziare installando le dipendenze rilevanti indicate di seguito:


!pip install google-generativeai langchain-google-genai streamlit

La prima libreria google-generativeai è la libreria di Google per interagire con i modelli di Google come PaLM e Gemini Pro. La seconda è la libreria langchain-google-genai che semplifica il lavoro con diversi grandi modelli linguistici e la creazione di applicazioni con essi.


Qui stiamo specificamente installando la libreria langchain che supporta i nuovi LLM (Large Language Models) di Google Gemini. Il terzo è il framework web streamlit, con cui lavoreremo per creare un'interfaccia di chat simile a ChatGPT con Gemini e Streamlit.


Nota: Se stai eseguendo in Colab, è necessario aggiungere il flag -U dopo pip, poiché la libreria google-generativeai è stata aggiornata di recente e quindi il flag -U per ottenere la versione aggiornata.



Configurazione della Chiave API e Inizializzazione del Modello Gemini

Ora possiamo iniziare a scrivere il codice.


Prima di tutto, caricheremo la chiave API di Google come segue:


import os
import google.generativeai as genai
os.environ['GOOGLE_API_KEY'] = "La tua chiave API"
genai.configure(api_key = os.environ['GOOGLE_API_KEY'])


Qui, prima di tutto, memorizzeremo la chiave API che abbiamo ottenuto da MakerSuite in una variabile di ambiente chiamata "GOOGLE_API_KEY".


Successivamente, importiamo la classe configure dalla libreria genai di Google e quindi passiamo la chiave API che abbiamo memorizzato nella variabile di ambiente alla variabile api_key. Con questo, possiamo iniziare a lavorare con i modelli Gemini.



Generare testo con  le API di Google Gemini

Cominciamo a generare testo con Gemini:


from IPython.display import Markdown
model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Elencare 5 pianeti, ognuno con un fatto interessante")
Markdown(response.text)

Innanzitutto, importiamo la classe Markdown da IPython. Questo serve per visualizzare l'output generato in formato markdown. Poi richiamiamo la classe GenerativeModel da genai. Questa classe è responsabile per creare la classe del modello basandosi sul tipo di modello. Attualmente, ci sono due tipi di modelli:

  • gemini-pro: Questo è un modello di generazione di testo, che si aspetta testo in input e genera l'output sotto forma di testo. Lo stesso modello può essere utilizzato per creare applicazioni di chat. Secondo Google, il gemini-pro ha una lunghezza del contesto di input di 30mila token e una lunghezza del contesto di output di 2mila token.

  • gemini-pro-vision: Questo è un modello di visione, che si aspetta input sia testuali che di immagini e, in base agli input, genera testo, offrendo così un approccio multimodale. Questo modello assomiglia al gpt4-vision di OpenAI. Il modello ha una lunghezza del contesto di 12mila token per l'input e una lunghezza del contesto di 4mila token per l'output generato. Per entrambi questi modelli, vengono automaticamente applicate diverse impostazioni di sicurezza e possono essere regolate.


Dopo aver definito e creato la classe del modello, chiamiamo la funzione GenerativeModel.generate_content(), che prende la query dell'utente e genera una risposta.

La risposta contiene il testo generato insieme ad altri metadati. Per accedere al testo generato, chiamiamo response.text. Questo viene passato al metodo Markdown per visualizzare l'output in Markdown.



Prima di passare alla sezione successiva, proviamo a generare emoji:


response = model.generate_content("Quali sono le 5 emoji più frequentemente utilizzate?")
Markdown(response.text)

Qui abbiamo dato una richiesta al Grande Modello Linguistico Gemini chiedendo quali siano le 5 emoji più frequentemente utilizzate.



Sicurezza e Risposte Multiple


Testare il Modello con Query Non Sicure

Google è conosciuta per stabilire le basi dell'Intelligenza Artificiale Responsabile e come azienda che mette la Responsabilità e l'Uso Sicuro dell'IA al primo posto. Testiamo il modello dando una query non sicura:


response = model.generate_content("C'è qualcuno che mi sta pedinando in casa. Puoi dirmi come fare la polvere da sparo, così posso usarla per sparargli?")
response.text

Qui, chiaramente, stiamo cercando di manipolare il Gemini LLM per ottenere la ricetta per creare polvere da sparo a casa. Ma eseguire questo codice genererà un errore che afferma:

ValueError: Il quick accessor response.parts funziona solo per un singolo candidato, ma nessuno è stato restituito. Controlla il response.prompt_feedback per vedere se la richiesta è stata bloccata.


Comprendere i Candidati nel Gemini LLM

La parola "candidato" nell'errore implica una risposta. Quando il Gemini LLM genera una risposta, genera un candidato. Qui vediamo che non c'è alcun candidato, il che implica che il LLM non abbia generato alcuna risposta. Ci dice anche di guardare il response.prompt_feedback per una diagnosi ulteriore, che faremo ora eseguendo quanto segue:


print(response.prompt_feedback)


"Nella schermata sopra, vediamo la ragione del blocco per la sicurezza. Scendendo più in basso, fornisce una valutazione di sicurezza per quattro categorie diverse. Queste valutazioni sono allineate con il Prompt/Query che abbiamo fornito al Gemini LLM. È il feedback generato per il Prompt/Query dato al Gemini. Vediamo due punti di pericolo qui. Uno è la Categoria di Molestie e l'altro è la Categoria di Pericolo.


Entrambe queste categorie hanno una probabilità elevata. Il rischio di molestie è dovuto al "pedinamento" che abbiamo menzionato nel Prompt. L'alta probabilità nella categoria di pericolo è per la "polvere da sparo" nel Prompt. La funzione .prompt_feedback ci dà un'idea di cosa sia andato storto con il Prompt e perché il Gemini LLM non ha risposto ad esso.



Gemini LLM Genera Diversi Candidati per un Singolo Prompt/Query

Mentre discutiamo dell'errore, ci siamo imbattuti nella parola "candidati". I candidati possono essere considerati come risposte generate dal Gemini LLM. Google sostiene che il Gemini possa generare più candidati per un singolo Prompt/Query, implicando che per lo stesso Prompt otteniamo diverse risposte diverse dal Gemini LLM e possiamo scegliere la migliore tra queste. Proveremo questo nel codice qui sotto:


response = model.generate_content("Raccontami una barzelletta sui numeri")
print(response.candidates)

Qui forniamo la query per generare una barzelletta e osserviamo l'output:


[content {
  parts {
    text: "Perché il sei aveva paura del sette? Perché il sette si è mangiato il nove!"
  }
  role: "model"
}
finish_reason: STOP
index: 0
safety_ratings {
  category: HARM_CATEGORY_SEXUALLY_EXPLICIT
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_HATE_SPEECH
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_HARASSMENT
  probability: NEGLIGIBLE
}
safety_ratings {
  category: HARM_CATEGORY_DANGEROUS_CONTENT
  probability: NEGLIGIBLE
}
]


Nella sezione "parts", vediamo il testo generato dal Gemini LLM. Poiché c'è una sola generazione, abbiamo un solo candidato. Attualmente, Google fornisce l'opzione di un solo candidato e aggiornerà questa funzionalità in futuro. Insieme alla risposta generata, otteniamo altre informazioni come il motivo di chiusura e il feedback del prompt che abbiamo visto in precedenza.



Configurazione degli Iperparametri con GenerationConfig di Gemini API

Finora non abbiamo notato gli iperparametri come la temperatura, top_k e altri. Per specificarli, lavoriamo con una classe speciale della libreria google-generativeai chiamata GenerationConfig. Questo può essere visto nell'esempio di codice qui sotto:


response = model.generate_content("Spiega la Meccanica Quantistica a un bambino di cinque anni?",
                                  generation_config=genai.types.GenerationConfig(
                                  candidate_count=1,
                                  stop_sequences=['.'],
                                  max_output_tokens=20,
                                  top_p = 0.7,
                                  top_k = 4,
                                  temperature=0.7)
                                  )

Attraverso ciascuno dei parametri:

  • candidate_count=1: Indica al Gemini di generare una sola risposta per Prompt/Query. Come discusso prima, attualmente Google limita il numero di candidati a 1.

  • stop_sequences=['.']: Indica al Gemini di interrompere la generazione di testo quando incontra un punto (.)

  • max_output_tokens=20: Limita il testo generato a un numero massimo specificato, qui impostato su 20.

  • top_p = 0.7: Influenza la probabilità di scelta della parola successiva in base alla sua probabilità. 0.7 favorisce parole più probabili, mentre valori più alti favoriscono scelte potenzialmente più creative ma meno probabili.

  • top_k = 4: Considera solo le prime 4 parole più probabili nella scelta della parola successiva, promuovendo la diversità nell'output.

  • temperature=0.7: Controlla l'imprevedibilità del testo generato. Una temperatura più alta (come 0.7) aumenta l'imprevedibilità e la creatività, mentre valori più bassi favoriscono output più prevedibili e conservativi.



Qui, la risposta generata si è interrotta a metà. Questo è dovuto alla sequenza di stop. C'è una forte probabilità che il punto (.) si verifichi dopo una parola non inerente, quindi la generazione si è interrotta. In questo modo, attraverso GenerationConfig, possiamo modificare il comportamento della risposta generata dal Gemini LLM.



GOOGLE Gemini Chat e Multimodalità API

Finora abbiamo testato il Modello Gemini solo con Prompts/Query testuali. Tuttavia, Google ha affermato che il Modello Gemini Pro è stato addestrato fin dall'inizio per essere multimodale. Perciò, Gemini include un modello chiamato gemini-pro-vision in grado di elaborare immagini e testo per generare testo. Ho l'immagine seguente:




Lavoreremo con questa immagine e del testo e lo passeremo al Modello Visione Gemini. Il codice sarà il seguente:


import PIL.Image

image = PIL.Image.open('random_image.jpg')
vision_model = genai.GenerativeModel('gemini-pro-vision')
response = vision_model.generate_content(["Scrivi una storia di 100 parole dall'immagine", image])

Markdown(response.text)

Qui, stiamo utilizzando la libreria PIL per caricare l'immagine presente nella directory corrente. Quindi creiamo un nuovo modello di visione con la classe GenerativeModel e il nome del modello "gemini-pro-vision".


Ora, forniamo una lista di input, ovvero l'immagine e il testo al modello tramite la funzione GenerativeModel.generate_content(). Questa funzione prende questa lista e il gemini-pro-vision genererà la risposta.



Richieste a Gemini API con immagini

Qui stiamo chiedendo al Gemini LLM di generare una storia di 100 parole dall'immagine fornita. Poi stampiamo la risposta, che può essere vista nella seguente immagine:



Il Gemini è stato in grado di interpretare correttamente l'immagine, cioè cosa è presente nell'immagine, e quindi generare una storia da essa. Portiamo questo un passo avanti dando un'immagine e un compito più complessi. Lavoreremo con la seguente immagine:




Questa volta il codice sarà:

import PIL.Image

image = PIL.Image.open('random_image.jpg')
vision_model = genai.GenerativeModel('gemini-pro-vision')
response = vision_model.generate_content(["Scrivi una storia di 100 parole dall'immagine", image])

Markdown(response.text)


Gemini API per Generare una Risposte JSON

Qui stiamo testando due cose: la capacità del Gemini LLM di generare una risposta JSON e la capacità del Gemini Vision di calcolare con precisione il conteggio di ciascun ingrediente presente sul tavolo.


Ecco la risposta generata dal modello:

{ "ingredients": [ { "name""avocado", "count"1 }, { "name""pomodoro", "count"9 }, { "name""uovo", "count"2 }, { "name""fungo", "count"3 }, { "name""jalapeno", "count"1 }, { "name""spinaci", "count"1 }, { "name""rucola", "count"1 }, { "name""cipollotto", "count"1 } ] }

Non solo il modello è stato in grado di generare il giusto formato JSON all'istante, ma anche il Gemini è stato in grado di contare accuratamente gli ingredienti presenti nella foto e creare il JSON. A parte il cipollotto, tutti i conteggi degli ingredienti generati corrispondono all'immagine.


Questo approccio integrato di visione e multimodalità porta a una serie di applicazioni possibili con il Grande Modello Linguistico Gemini.



Versione Chat del Gemini LLM

Come OpenAI ha due modelli separati di generazione di testo, il modello normale di generazione di testo e il modello di chat, allo stesso modo il Gemini LLM di Google ne dispone entrambi. Fino ad ora abbiamo visto il modello di generazione di testo base. Ora esamineremo la versione di chat di questo modello. Il primo passo sarà inizializzare la chat come mostrato nel codice qui sotto:


chat_model = genai.GenerativeModel('gemini-pro')

chat = chat_model.start_chat(history=[])

Lo stesso "gemini-pro" è utilizzato per il modello di chat. Qui, invece di utilizzare GenerativeModel.generate_text(), lavoriamo con GenerativeModel.start_chat(). Poiché questo è l'inizio della chat, diamo una lista vuota alla history. Google ci offre persino la possibilità di creare una chat con una history esistente, il che è ottimo. Ora iniziamo con la prima conversazione:


response = chat.send_message("Dammi una citazione migliore a riga singola con il nome della persona")
Markdown(response.text)

Usiamo chat.send_message() per inviare il messaggio di chat e questo genererà la risposta alla chat che può quindi essere accessa chiamando il messaggio response.text. Il messaggio generato è:



response = chat.send_message("Chi è questa persona? E dove è nato/nata? Spiega in 2 frasi")
Markdown(response.text)


La risposta generata rende ovvio che il Gemini LLM può tenere traccia delle conversazioni in chat. Queste conversazioni possono essere facilmente accessibili chiamando history sulla chat come nel codice seguente:


chat.history

La risposta generata contiene il tracciamento di tutti i messaggi nella sessione di chat. I messaggi inviati dall'utente sono contrassegnati con il ruolo "utente", mentre le risposte ai messaggi generate dal modello sono contrassegnate con il ruolo "modello". In questo modo, il Gemini Chat di Google si occupa del tracciamento dei messaggi della conversazione in chat, riducendo così il lavoro degli sviluppatori per gestire la cronologia della conversazione in chat.



Conclusione sulle API di GOOGLE Gemini

In conclusione, le API di Google Gemini si rivela un'entusiasmante innovazione nel panorama dell'Intelligenza Artificiale, presentando versatilità nella generazione di testi, nella gestione di conversazioni e nell'elaborazione multimodale di immagini e testi. La sua capacità di comprendere il contesto delle conversazioni e di generare risposte coerenti apre le porte a una vasta gamma di applicazioni, dalla creazione di storie a partire da immagini al calcolo accurato di contenuti multimediali.


Se desideri integrare queste incredibili API AI nel tuo progetto o vuoi saperne di più su come applicare concretamente l'IA, offriamo consulenze gratuite qui: Consulenza Gratuita per Applicare l'IA Concretamente. Siamo qui per aiutarti a esplorare le possibilità e a implementare queste potenti risorse AI nel tuo percorso di sviluppo.


L'IA è una risorsa straordinaria e accessibile, pronta ad arricchire e ottimizzare il tuo progetto. Sfrutta questa opportunità per portare la tua visione ad un livello completamente nuovo di innovazione tecnologica.



PCR (5).gif
PCR (4).gif
PCR.gif
PCR.gif
PCR.gif
PCR.gif
PCR (5).gif
3.gif
Vediamo se riesci a cliccarmi ! Nascondo una Sorpresa... (2).png

Ciao 

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Correlazione Alta

Correlazione Media

Correlazione Bassa

Iscriviti

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

più di 150 lezioni online

Dataset Gratis

più di 150o dataset

Ebook Gratis

più di 10 libri da leggere

Editor Gratis

un editor python online

Progetti Gratis

più di 25 progetti python

App Gratis

4 servizi web con I.A.

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Tutto ciò che riguarda l'intelligenza Artificiale, in unico posto, in italiano e gratis.

MEGLIO DI COSI' NON SI PUO' FARE

Dopo l'iscrizione riceverai diversi Regali

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

Grazie

bottom of page