Cos’è Google Gemini (ex Bard)

Indice

Cos’è Google Gemini (ex Bard)?

Google Gemini, precedentemente noto come Bard, è uno strumento di chatbot di intelligenza artificiale (IA) progettato da Google per simulare conversazioni umane utilizzando l’elaborazione del linguaggio naturale (NLP) e l’apprendimento automatico. Oltre a integrare Google Search, Gemini può essere integrato in siti Web, piattaforme di messaggistica o applicazioni per fornire risposte realistiche e in linguaggio naturale alle domande degli utenti.
Google Gemini è una famiglia di modelli di linguaggio di grandi dimensioni (LLM) AI multimodali dotati di capacità di comprensione di linguaggio, audio, codice e video.

Gemini 1.0 è stato annunciato il 6 dicembre 2023 e sviluppato dall’unità aziendale Google DeepMind di Alphabet, focalizzata sulla ricerca e sviluppo di IA avanzata. Il co-fondatore di Google Sergey Brin è accreditato per aver contribuito allo sviluppo dei Gemini LLM, insieme ad altri dipendenti Google.

Al momento del suo rilascio, Gemini era il set di LLM più avanzato di Google, che alimentava Bard prima che Bard rinominasse e sostituisse il Pathways Language Model (Palm 2) dell’azienda. Come nel caso di Palm 2, Gemini è stato integrato in più tecnologie Google per fornire capacità di intelligenza artificiale generativa.

Gemini integra capacità NLP, che forniscono la capacità di comprendere ed elaborare il linguaggio. Gemini è anche utilizzato per comprendere query di input e dati. È in grado di comprendere e riconoscere immagini, consentendogli di analizzare elementi visivi complessi, come grafici e figure, senza la necessità di riconoscimento ottico dei caratteri (OCR) esterno. Ha anche ampie capacità multilingue per attività di traduzione e funzionalità in diverse lingue.
A differenza dei precedenti modelli di intelligenza artificiale di Google, Gemini è nativamente multimodale, il che significa che è addestrato end-to-end su set di dati che abbracciano più tipi di dati. Come modello multimodale, Gemini abilita capacità di ragionamento cross-modale. Ciò significa che Gemini può ragionare su una sequenza di diversi tipi di dati di input, tra cui audio, immagini e testo. Ad esempio, Gemini può comprendere appunti scritti a mano, grafici e diagrammi per risolvere problemi complessi. L’architettura Gemini supporta l’ingestione diretta di testo, immagini, forme d’onda audio e fotogrammi video come sequenze interlacciate.

[Torna su]

Come funziona Google Gemini?

Google Gemini funziona inizialmente addestrato su un corpus di dati enorme. Dopo l’addestramento, il modello utilizza diverse tecniche di rete neurale per essere in grado di comprendere il contenuto, rispondere a domande, generare testo e produrre output.

In particolare, i Gemini LLM utilizzano un’architettura di rete neurale basata sul modello del trasformatore. L’architettura Gemini è stata migliorata per elaborare lunghe sequenze contestuali su diversi tipi di dati, tra cui testo, audio e video. Google DeepMind utilizza meccanismi di attenzione efficienti nel decodificatore del trasformatore per aiutare i modelli a elaborare contesti lunghi, che abbracciano diverse modalità.

I modelli Gemini sono stati addestrati su diversi set di dati multimodali e multilingue di testo, immagini, audio e video con Google DeepMind utilizzando un filtro dati avanzato per ottimizzare l’addestramento. Poiché diversi modelli Gemini vengono distribuiti a supporto di specifici servizi Google, esiste un processo di messa a punto mirata che può essere utilizzato per ottimizzare ulteriormente un modello per un caso d’uso. Durante le fasi di formazione e inferenza, Gemini trae vantaggio dall’uso degli ultimi chip di unità di elaborazione tensoriale di Google, TPU v5, che sono acceleratori AI personalizzati ottimizzati progettati per addestrare e distribuire in modo efficiente modelli di grandi dimensioni.

Una sfida fondamentale per gli LLM è il rischio di pregiudizi e contenuti potenzialmente tossici. Secondo Google, Gemini è stato sottoposto a test di sicurezza approfonditi e mitigazione di rischi quali pregiudizi e tossicità per aiutare a fornire un certo grado di sicurezza LLM. Per aiutare ulteriormente a garantire che Gemini funzioni come dovrebbe, i modelli sono stati testati rispetto a benchmark accademici che abbracciano domini di linguaggio, immagine, audio, video e codice. Google ha assicurato al pubblico di aderire a un elenco di principi di intelligenza artificiale.

Al lancio del 6 dicembre 2023, è stato annunciato che Gemini sarebbe composto da una serie di diverse dimensioni di modello, ciascuna progettata per un set specifico di casi d’uso e ambienti di distribuzione. Il modello Ultra è il top di gamma ed è progettato per attività altamente complesse. Il modello Pro è progettato per prestazioni e distribuzione su larga scala. A partire dal 13 dicembre 2023, Google ha abilitato l’accesso a Gemini Pro in Google Cloud Vertex AI e Google AI Studio. Per il codice, una versione di Gemini Pro viene utilizzata per alimentare la tecnologia di codifica AI generativa Google AlphaCode 2.

Il modello Nano è mirato a casi d’uso su dispositivo. Esistono due diverse versioni di Gemini Nano: Nano-1 è un modello da 1,8 miliardi di parametri, mentre Nano-2 è un modello da 3,25 miliardi di parametri. Tra i luoghi in cui Nano è incorporato c’è lo smartphone Google Pixel 8 Pro.

[Torna su]

Quando è stato rilasciato per la prima volta Google Bard?

Google ha inizialmente annunciato Bard, il suo chatbot basato sull’intelligenza artificiale, il 6 febbraio 2023, con una data di rilascio vaga. Ha aperto l’accesso a Bard il 21 marzo 2023, invitando gli utenti a unirsi a una lista d’attesa. Il 10 maggio 2023, Google ha rimosso la lista d’attesa e ha reso Bard disponibile in più di 180 paesi e territori. Quasi esattamente un anno dopo il suo annuncio iniziale, Bard è stato rinominato Gemini.

Molti credevano che Google sentisse la pressione del successo e della stampa positiva di ChatGPT, portando l’azienda a lanciare Bard prima che fosse pronto. Ad esempio, durante una demo dal vivo di Google e del CEO di Alphabet Sundar Pichai, ha risposto a una query con una risposta sbagliata.

Nella demo, un utente ha chiesto a Bard: “Quali nuove scoperte del telescopio spaziale James Webb posso raccontare al mio bambino di 9 anni?” Nella risposta di Bard, ha menzionato che il telescopio “ha scattato le primissime foto di un pianeta al di fuori del nostro sistema solare”. Gli astronomi si sono subito rivolti ai social media per sottolineare che la prima immagine di un esopianeta è stata scattata da un osservatorio terrestre nel 2004, rendendo errata la risposta di Bard. Il giorno dopo, Google ha perso 100 miliardi di dollari di valore di mercato, un calo attribuito all’imbarazzante errore.

[Torna su]

Perché Google ha rinominato Bard in Gemini e quando è successo?

Bard è stato rinominato Gemini l’8 febbraio 2024. Gemini era già l’LLM che alimentava Bard. Alcuni credono che il rebranding della piattaforma in Gemini potrebbe essere stato fatto per distogliere l’attenzione dal soprannome Bard e dalle critiche che il chatbot ha dovuto affrontare quando è stato rilasciato per la prima volta. Ha anche semplificato lo sforzo di Google in materia di intelligenza artificiale e si è concentrato sul successo dell’LLM Gemini.

Il cambio di nome ha avuto senso anche da una prospettiva di marketing, poiché Google mira ad espandere i suoi servizi di intelligenza artificiale. È un modo per Google di aumentare la consapevolezza della sua offerta LLM avanzata poiché la democratizzazione e i progressi dell’intelligenza artificiale non mostrano segni di rallentamento.

Chi può usare Google Gemini?

Gemini è ampiamente disponibile in tutto il mondo. Gemini Pro è disponibile in oltre 230 paesi e territori, mentre Gemini Advanced è disponibile in oltre 150 paesi al momento della stesura di questo articolo. Tuttavia, sono in vigore limiti di età per rispettare le leggi e le normative che regolano l’intelligenza artificiale.

Gli utenti devono avere almeno 18 anni e avere un account Google personale. Tuttavia, le restrizioni di età variano per l’app web Gemini. Gli utenti in Europa devono avere 18 anni o più. Negli altri paesi in cui la piattaforma è disponibile, l’età minima è di 13 anni, salvo diversamente specificato dalle leggi locali. Inoltre, gli utenti di età inferiore a 18 anni possono utilizzare l’app web Gemini solo in inglese.

schema dei vantaggi gemini

Gemini è gratuito?

Quando Bard è diventato disponibile, Google non ha dato alcuna indicazione che avrebbe addebitato un costo per l’utilizzo. Google non ha mai addebitato costi ai clienti per i servizi, escluso l’utilizzo a livello aziendale di Google Cloud. Si presumeva che il chatbot sarebbe stato integrato nel motore di ricerca di base di Google e quindi sarebbe stato gratuito.

Dopo aver cambiato il marchio Bard in Gemini l’8 febbraio 2024, Google ha introdotto un livello a pagamento oltre all’applicazione web gratuita. Pro e Nano sono attualmente gratuiti tramite registrazione. Tuttavia, gli utenti possono accedere a Ultra solo tramite l’opzione Gemini Advanced per $ 20 al mese. Gli utenti si iscrivono a Gemini Advanced tramite un abbonamento Google One AI Premium, che include anche le funzionalità di Google Workspace e 2 TB di spazio di archiviazione.

Per cosa puoi usare Gemini? Casi d’uso e applicazioni
I modelli Google Gemini sono usati in molti modi diversi, tra cui la comprensione di testo, immagini, audio e video. La natura multimodale di Gemini consente inoltre di combinare questi diversi tipi di input per generare output.

[Torna su]

Casi d’uso

Le aziende possono usare Gemini per svolgere varie attività, tra cui:

  • Riepilogo del testo. I modelli Gemini possono riassumere il contenuto da diversi tipi di dati.
  • Generazione di testo. Gemini può generare testo in base alle richieste dell’utente. Tale testo può anche essere guidato da un’interfaccia chatbot di tipo Q&A.
  • Traduzione del testo. I modelli Gemini hanno ampie capacità multilingue, consentendo la traduzione e la comprensione di oltre 100 lingue.
  • Comprensione delle immagini. Gemini può analizzare elementi visivi complessi, come grafici, figure e diagrammi, senza strumenti OCR esterni. Può essere usato per la didascalia delle immagini e le capacità Q&A visive.
  • Elaborazione audio. Gemini supporta il riconoscimento vocale in oltre 100 lingue e le attività di traduzione audio.
  • Comprensione video. Gemini può elaborare e comprendere i fotogrammi dei videoclip per rispondere alle domande e generare descrizioni.
  • Ragionamento multimodale. Un punto di forza fondamentale di Gemini è l’uso del ragionamento AI multimodale, in cui diversi tipi di dati possono essere mescolati per un prompt per generare un output.
  • Analisi e generazione di codice. Gemini può comprendere, spiegare e generare codice nei linguaggi di programmazione più diffusi, tra cui Python, Java, C++ e Go.

Applicazioni

Google ha sviluppato Gemini come modello di base per essere ampiamente integrato in vari servizi Google. È anche disponibile per gli sviluppatori che lo utilizzano per creare le proprie applicazioni. Le applicazioni che utilizzano Gemini includono le seguenti:

  • AlphaCode 2. Lo strumento di generazione di codice AlphaCode 2 di Google DeepMind utilizza una versione personalizzata di Gemini Pro.
  • Google Pixel. Lo smartphone Pixel 8 Pro di Google è il primo dispositivo progettato per eseguire Gemini Nano. Gemini alimenta nuove funzionalità nelle app Google esistenti, come il riepilogo in Recorder e Smart Reply in Gboard per le app di messaggistica.
  • Android 14. Pixel 8 Pro è il primo smartphone Android a beneficiare di Gemini. Gli sviluppatori Android possono creare con Gemini Nano tramite la funzionalità del sistema AICore.
  • Vertex AI. Il servizio Vertex AI di Google Cloud, che fornisce modelli di base che gli sviluppatori possono utilizzare per creare applicazioni, fornisce anche l’accesso a Gemini Pro.
  • Google AI Studio. Gli sviluppatori possono creare prototipi e app con Gemini utilizzando lo strumento basato sul Web Google AI Studio.
  • Ricerca. Google sta sperimentando l’utilizzo di Gemini nella sua esperienza generativa di ricerca per ridurre la latenza e migliorare la qualità.

Quali sono le limitazioni di Gemini?

Alcune limitazioni potrebbero causare esitazione tra i potenziali utenti finali. Tra queste:

Dati di formazione. Come tutti i chatbot AI, Gemini deve imparare a fornire risposte corrette. Per fare ciò, i modelli devono essere addestrati su informazioni corrette che non è impreciso o fuorviante. Tuttavia, devono anche essere in grado di identificare informazioni errate o fuorvianti quando si presentano.
Pregiudizi e potenziali danni. L’addestramento dell’intelligenza artificiale è un processo infinito e ad alta intensità di calcolo, perché ci sono sempre nuove informazioni da apprendere. In tutti i modelli Gemini, Google ha affermato di aver seguito pratiche di sviluppo responsabili, tra cui un’ampia valutazione per aiutare a limitare il rischio di pregiudizi e potenziali danni.
Originalità e creatività. Ci sono limiti a quanto originale e creativo possa essere il contenuto prodotto da Gemini. Questo è particolarmente vero per la versione gratuita, che ha avuto problemi nell’elaborazione di prompt complicati, con più passaggi e sfumature e nella produzione di output adeguati. La versione gratuita si basa su Gemini Pro LLM, che ha capacità più limitate; le versioni a pagamento della piattaforma offrono l’accesso a funzionalità più avanzate.

Quali sono le preoccupazioni su Gemini?

Una preoccupazione su Gemini riguarda il suo potenziale di presentare informazioni parziali o false agli utenti. Qualsiasi parzialità insita nei dati di addestramento forniti a Gemini potrebbe portare a diffidenza tra gli utenti. Ad esempio, come nel caso di tutti i software di intelligenza artificiale avanzati, i dati di addestramento che escludono determinati gruppi all’interno di una determinata popolazione porteranno a output distorti.

Anche la propensione di Gemini a generare allucinazioni e altre invenzioni e a trasmetterle agli utenti come veritiere è motivo di preoccupazione. Questo è stato uno dei maggiori rischi con le risposte di ChatGPT sin dal suo inizio, come lo è con altri strumenti di intelligenza artificiale avanzati. Inoltre, poiché Gemini non sempre comprende il contesto, le sue risposte potrebbero non essere sempre pertinenti alle richieste e alle query fornite dagli utenti.

In quali lingue è disponibile Gemini?

Gemini può essere utilizzato in più di 45 lingue. Può tradurre input basati su testo in diverse lingue con una precisione quasi umana. Google prevede di espandere le capacità di comprensione del linguaggio di Gemini e di renderlo onnipresente. Tuttavia, ci sono fattori importanti da considerare, come i divieti sui contenuti generati da LLM o gli sforzi normativi in ​​corso in vari paesi che potrebbero limitare o impedire l’uso futuro di Gemini.

Gemini offre altre funzionalità in diverse lingue oltre alla traduzione. Ad esempio, è in grado di ragionare e riassumere matematicamente in più lingue. Può anche generare didascalie per un’immagine in diverse lingue.

[Torna su]

La generazione di immagini è disponibile in Gemini?

Al momento del rilascio di Gemini, Google ha pubblicizzato la sua capacità di generare immagini allo stesso modo di altri strumenti di intelligenza artificiale generativa, come Dall-E, Midjourney e Stable Diffusion. Gemini attualmente utilizza il modello di testo in immagine Imagen 2 di Google, che fornisce allo strumento capacità di generazione di immagini.

Tuttavia, alla fine di febbraio 2024, la funzionalità di generazione di immagini di Gemini è stata interrotta per essere sottoposta a riattrezzaggio dopo che è stato dimostrato che le immagini generate rappresentavano inesattezze fattuali. Google intende migliorare la funzionalità in modo che Gemini possa rimanere multimodale a lungo termine.

Prima che Google interrompesse l’accesso alla funzionalità di creazione delle immagini, gli output di Gemini variavano da semplici a complessi, a seconda degli input dell’utente finale.

Gli utenti potevano fornire prompt descrittivi per ottenere immagini specifiche. Era necessario un semplice processo passo per passo per consentire all’utente di immettere un prompt, visualizzare l’immagine generata da Gemini, modificarla e salvarla per un uso successivo.

Gemini contro GPT-3 e GPT-4

Google Gemini è un concorrente diretto dei modelli GPT-3 e GPT-4 di OpenAI. La seguente tabella confronta alcune funzionalità chiave dei prodotti Google Gemini e OpenAI.

Gemini GPT-3 and GPT-4
Developer Google DeepMind OpenAI
Chatbot interfaccia Gemini; ex Bard ChatGPT
Modalità Multimodale; trainato su testo, immagini, audio e video Originariamente sviluppato come modello linguistico solo testo; GPT-4 è multimodale
Varianti del modello Variazioni basate sulle dimensioni, tra cui Ultra, Pro e Nano Ottimizzazioni per le dimensioni, tra cui GPT-3.5 Turbo e GPT-4 Turbo
Lunghezza della finestra di contesto 32,000 tokens 32,000 tokens

Google Gemini vs. ChatGPT

Sia Gemini che ChatGPT sono chatbot AI progettati per interagire con le persone tramite NLP e apprendimento automatico. Entrambi utilizzano un LLM sottostante per generare e creare testo conversazionale.

ChatGPT utilizza l’AI generativa per produrre contenuti originali. Ad esempio, gli utenti possono chiedergli di scrivere una tesi sui vantaggi dell’AI. Anche Gemini utilizza l’AI generativa. Entrambi sono orientati a rendere la ricerca più naturale e utile, nonché a sintetizzare nuove informazioni nelle loro risposte.

A gennaio 2023, Microsoft ha firmato un accordo del valore di 10 miliardi di dollari con OpenAI per concedere in licenza e incorporare ChatGPT nel suo motore di ricerca Bing per fornire più risultati di ricerca conversazionali, simili a Google Bard all’epoca. Ciò ha aperto le porte ad altri motori di ricerca per concedere in licenza ChatGPT, mentre Gemini supporta solo Google.

Un’altra somiglianza tra i due chatbot è il loro potenziale di generare contenuti plagiati e la loro capacità di controllare questo problema. Né Gemini né ChatGPT hanno funzionalità di rilevamento del plagio integrate su cui gli utenti possono fare affidamento per verificare che gli output siano originali. Tuttavia, esistono strumenti separati per rilevare il plagio nei contenuti generati dall’intelligenza artificiale, quindi gli utenti hanno altre opzioni. Gemini è in grado di citare altri contenuti nelle sue risposte e di collegarsi alle fonti. La funzione di doppio controllo di Gemini fornisce URL alle fonti di informazioni da cui attinge per generare contenuti in base a un prompt.

[Torna su]

Alternative a Google Gemini

Gemini non è nato dal nulla. I chatbot AI esistono da un po’, in forme meno versatili. Molte startup hanno tecnologie di chatbot simili, ma senza la ribalta che ChatGPT ha ricevuto.

Esempi di concorrenti di chatbot Gemini che generano testo o codice originale, come menzionato da Audrey Chee-Read, analista principale presso Forrester Research, così come da altri esperti del settore, includono quanto segue.

Chatsonic

Commercializzato come “alternativa a ChatGPT con superpoteri”, Chatsonic è un chatbot AI basato su Google Search con un generatore di testo basato su AI, Writesonic, che consente agli utenti di discutere argomenti in tempo reale per creare testo o immagini.

Claude

Claude di Anthropic è un chatbot guidato da AI che prende il nome dall’LLM sottostante che lo alimenta. È stato sottoposto a rigorosi test per garantire che aderisca agli standard etici dell’AI e non produca output offensivi o fattualmente inaccurati.

Copy.ai

Copy.ai è stato originariamente creato per aiutare i team di vendita e marketing. Genera testo originale, come post sui social media, blog, e-mail e altri tipi di contenuti, e automatizza anche le attività del flusso di lavoro.

GitHub Copilot

GitHub Copilot è specializzato nella generazione di codice per sviluppatori. L’obiettivo è semplificare le attività di sviluppo software altrimenti noiose coinvolte nella produzione di software moderno. Sebbene non sia pensato per la generazione di testo, funge da valida alternativa a ChatGPT o Gemini per la generazione di codice.

Jasper Chat

Jasper Chat di Jasper.ai è uno strumento di intelligenza artificiale conversazionale incentrato sulla generazione di testo. È rivolto alle aziende che desiderano creare contenuti pertinenti al marchio e conversare con i clienti. Consente ai creatori di contenuti di specificare parole chiave per l ‘ottimizzazione dei motori di ricerca e tono di voce nei loro prompt.

Microsoft Bing

Microsoft e la sua partnership con OpenAI offrono esattamente ciò che Google fa con Gemini: ricerca basata sull’intelligenza artificiale che riconosce le query in linguaggio naturale e fornisce risposte in linguaggio naturale. Quando un utente effettua una query di ricerca, riceve i risultati di ricerca Bing standard e una risposta generata da GPT-4, nonché la possibilità di interagire con l’intelligenza artificiale in merito alla sua risposta.

SpinBot

Questo strumento di intelligenza artificiale generativa è specializzato nella generazione di testo originale e nella riscrittura dei contenuti ed evita il plagio. Gestisce altre semplici attività per aiutare i professionisti nella scrittura di incarichi, come la correzione di bozze.

YouChat

YouChat è il chatbot AI del motore di ricerca You.com con sede in Germania. YouChat risponde alle domande e fornisce le citazioni per le sue risposte in modo che gli utenti possano esaminare le fonti e verificare i fatti delle sue risposte.

[Torna su]

Storia e futuro di Gemini

Gemini, con il suo nome originale Bard, è stato inizialmente progettato per la ricerca. Mirava a fornire più query in linguaggio naturale, piuttosto che parole chiave, per la ricerca. La sua IA è stata addestrata su query e risposte conversazionali dal suono naturale. Invece di fornire un elenco di risposte, forniva un contesto alle risposte. Bard è stato progettato per aiutare con le domande di follow-up, qualcosa di nuovo per la ricerca. Aveva anche una funzione di condivisione della conversazione e una funzione di doppio controllo che aiutava gli utenti a verificare i risultati generati.

Bard si integrava anche con diverse app e servizi Google, tra cui YouTube, Maps, Hotels, Flights, Gmail, Docs e Drive, consentendo agli utenti di applicare lo strumento di IA ai propri contenuti personali.

La prima versione di Bard utilizzava una versione di Lamda con un modello più leggero che richiedeva meno potenza di elaborazione per adattarsi a più utenti simultanei. L’incorporazione del modello linguistico Palm 2 ha consentito a Bard di essere più visivo nelle sue risposte alle query degli utenti. Bard ha anche incorporato Google Lens, consentendo agli utenti di caricare immagini oltre a prompt scritti.

La successiva incorporazione del modello linguistico Gemini ha consentito ragionamenti, pianificazioni e comprensioni più avanzati.

Quindi, come parte del lancio iniziale di Gemini il 6 dicembre 2023, Google ha fornito indicazioni sul futuro dei suoi LLM di prossima generazione. Mentre Google ha annunciato Gemini Ultra, Pro e Nano quel giorno, non ha reso disponibile Ultra contemporaneamente a Pro e Nano. Inizialmente, Ultra era disponibile solo per clienti, sviluppatori, partner ed esperti selezionati; è stato rilasciato completamente a febbraio 2024.

Il futuro di Gemini riguarda anche un lancio più ampio e integrazioni nel portafoglio di Google. Gemini verrà infine incorporato nel browser Google Chrome per migliorare l’esperienza web per gli utenti. Google si è anche impegnata a integrare Gemini nella piattaforma Google Ads, offrendo nuovi modi per gli inserzionisti di connettersi e coinvolgere gli utenti. Anche l’assistente AI Duet è destinato a trarre vantaggio da Gemini in futuro.

Il 15 febbraio 2024, Google ha annunciato i primi test di Gemini 1.5. Questa versione è ottimizzata per una serie di attività in cui funziona in modo simile a Gemini 1.0 Ultra, ma con una funzionalità sperimentale aggiuntiva focalizzata sulla comprensione del contesto lungo. Secondo Google, i primi test mostrano che Gemini 1.5 Pro supera 1.0 Pro su circa l’87% dei benchmark di Google stabiliti per lo sviluppo di LLM. Sono previsti test in corso fino all’annuncio di un lancio completo di 1.5 Pro.

[Torna su]

Aggiornamenti recenti di Google Gemini

A maggio 2024, Google ha annunciato ulteriori progressi di Google 1.5 Pro alla conferenza Google I/O. Gli aggiornamenti includono miglioramenti delle prestazioni nelle funzionalità di traduzione, codifica e ragionamento. Google 1.5 Pro aggiornato ha anche migliorato la comprensione di immagini e video, inclusa la capacità di elaborare direttamente input vocali utilizzando la comprensione audio nativa. La finestra di contesto del modello è stata aumentata a 1 milione di token, consentendogli di ricordare molte più informazioni quando risponde ai prompt.

A maggio è stato rilasciato anche Gemini 1.5 Flash, un modello più piccolo con una latenza media del primo token inferiore al secondo e una finestra di contesto di 1 milione di token.

Oltre agli aggiornamenti del modello principale, Google ha annunciato nuove funzionalità per l’API Gemini a maggio, tra cui le seguenti:

  • Estrazione di frame video. Gli utenti possono caricare un video per generare contenuti.
  • Chiamata di funzioni parallele. Gli utenti possono impegnarsi in più di una chiamata di funzioni alla volta.

Il fornitore prevede di aggiungere la memorizzazione nella cache del contesto, per garantire che gli utenti debbano inviare parti di un prompt a un modello solo una volta, a giugno.

Le anteprime di Gemini 1.5 Pro e Gemini 1.5 Flash sono disponibili in oltre 200 paesi e territori. Questi modelli saranno generalmente disponibili a giugno 2024