+39 0874.484661 info@webdomus.net

Guida completa dai test LLM ai benchmark di Gemini 3

aggiornato a novembre 2025

Nel 2025 i modelli di intelligenza artificiale non sono più semplici generatori di testo: sono sistemi multimodali e agentici, capaci di analizzare documenti, immagini e video, risolvere problemi matematici, programmare, navigare il web, eseguire operazioni su browser o terminale e comportarsi come veri assistenti operativi. In un panorama così complesso, la domanda non è più “è un buon modello?”, ma “quanto è affidabile, competente e adatto a ciò che devo fare?“.

Per rispondere, il settore utilizza i benchmark AI, strumenti di valutazione standardizzati che misurano le reali capacità degli LLM. Sono diventati la metrica più importante per comprendere le prestazioni dei modelli generativi e per confrontare sistemi come Gemini 3, GPT-5.1, Claude 4.5 e i nuovi modelli open-source.

I benchmark non servono solo agli sviluppatori: guidano scelte strategiche nelle aziende, orientano la selezione degli strumenti in progetti complessi, chiariscono rischi e limiti dell’AI e permettono di verificare la sicurezza e la robustezza dei modelli.

Questa guida è pensata per offrire una panoramica chiara, aggiornata e completa dei benchmark nel 2025, integrando le metodologie più recenti e le migliori fonti di settore – tra cui Evidently AI e l’analisi tecnica di IBM Think – con un approfondimento dedicato ai benchmarks Gemini 3, il modello che oggi supera ogni standard.

Se vuoi approfondire questi temi anche in formato audio, ascolta il nostro podcast dedicato all’AI e ai benchmark LLM. Ci trovi su Spotify: seguici per non perdere gli episodi e rimanere aggiornato sulle evoluzioni più importanti del settore.

Benchmark significato nel contesto dell’AI

In ambito intelligenza artificiale, il termine benchmark indica un test standardizzato costruito per valutare la qualità, l’accuratezza, la capacità di ragionamento, la comprensione del linguaggio o le abilità operative di un modello. Non è un singolo test, ma una metodologia: un insieme di dati campione, domande, istruzioni e criteri di valutazione che permettono di confrontare i modelli in modo oggettivo.

Il benchmark significato nell’AI è quindi molto più profondo rispetto al senso comune: rappresenta il riferimento con cui si stabilisce se un modello “funziona davvero” e in quali ambiti eccelle o fallisce.Per questo motivo, è diventato uno strumento essenziale per aziende, sviluppatori, ricercatori, enti pubblici e realtà che utilizzano l’AI in attività critiche.

Perché i benchmark sono indispensabili nel 2025

Gli LLM moderni sono radicalmente diversi da quelli del 2023-2024. Non generano semplicemente testo: agiscono, interpretano, pianificano, risolvono, deducono.

Per questo serve una valutazione molto più articolata.

Gli LLM oggi: più competenze, più complessità

I modelli del 2025:

• sono multimodali e analizzano testi, immagini, video, grafici, screenshot e codice;• sono agentici e utilizzano strumenti, API, browser e terminali;• operano in scenari reali, come customer care, e-commerce, analisi documentale, cybersecurity;• esprimono ragionamento avanzato, non semplice completamento linguistico;• devono essere affidabili in contesti business dove una risposta errata è un rischio concreto.

Di conseguenza le aziende hanno bisogno di risposte chiare:

• quale modello ragiona meglio?• quale sbaglia meno?• quale gestisce meglio la multimodalità?• quale è più adatto a usare strumenti?• quale sa programmare davvero?• quale è più sicuro, stabile e preciso?

Senza benchmark, sarebbe impossibile rispondere.

Come funzionano i benchmark LLM

Secondo la tassonomia utilizzata nel settore, un benchmark funziona in tre fasi fondamentali.

1. Impostazione

Il benchmark mette a disposizione:

• dataset campione (codice, grafici, testi, immagini, documenti lunghi);• un insieme di compiti (ragionamento, domande a scelta multipla, coding, traduzione, sintesi, uso di strumenti);• una procedura di test.

I compiti possono essere eseguiti in modalità:

zero-shot, senza esempi;• few-shot, con alcuni esempi iniziali;• fine-tuned, quando il modello è stato addestrato su compiti simili.

2. Test

Il modello riceve l’input e deve fornire un output:

• una soluzione,• una scelta,• un codice funzionante,• una descrizione.

3. Punteggio

Il benchmark confronta l’output con la soluzione attesa e assegna un punteggio quantitativo, spesso tra 0 e 100.

L’obiettivo è dare una valutazione standardizzata, comparabile tra modelli diversi.

Le metriche con cui vengono valutati i modelli

Per misurare correttamente un LLM, i benchmark utilizzano un insieme di metriche quantitative e qualitative.

Nel 2025 le principali metriche sono:

Accuratezza

Indica la percentuale di risposte corrette. È la metrica più immediata, ma spesso insufficiente perché non distingue il tipo di errore.

Richiamo (Recall)

Misura quanti “veri positivi” il modello riconosce correttamente. È importante nei compiti in cui la mancanza di una risposta è più grave di un errore (es. document analysis o estrazione dati).

Punteggio F1

Combina precisione e richiamo in un singolo valore.È essenziale per i benchmark dove l’equilibrio tra falsi positivi e falsi negativi è cruciale.

Corrispondenza esatta

Richiede che la risposta sia identica a quella attesa.Si usa nei test di traduzione o nei QA a risposta breve.

Perplessità

Misura quanto il modello riesce a prevedere correttamente il testo successivo. Più è bassa, migliore è la comprensione del linguaggio.

BLEU (per traduzione)

Confronta n-grammi del testo generato con quelli della traduzione umana.

ROUGE (per riassunti)

Valuta quanto un riassunto dell’AI coincide con quello umano, identificando sottosequenze di testo chiave.

Valutazione umana

Nei benchmark più moderni i punteggi numerici vengono affiancati da valutatori umani che analizzano:

• coerenza,• pertinenza,• qualità argomentativa,• assenza di allucinazioni.

Solo l’unione di metriche quantitative e qualitative permette una valutazione realmente accurata.

benchmark_Infografica sulle metriche utilizzate per misurare le prestazioni degli LLM nel 2025, incluse accuratezza, punteggio F1, perplessità, BLEU e ROUGE, con confronto tra valutazione automatica e giudizio umano.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Le 5 macro-categorie di benchmark AI nel 2025

Per comprendere la complessità della valutazione dei modelli, Evidently AI identifica cinque categorie principali.

1. Benchmark di Ragionamento e Comprensione Linguistica

Questi benchmark valutano le capacità più profonde di un LLM: comprendere testi complessi, individuare relazioni logiche, affrontare problemi astratti e ragionare in modo strutturato. Sono considerati tra i test più vicini alla misurazione dell’intelligenza generale.

HellaSwag: il Test del Buon Senso

Cosa fa? Misura la capacità dell’AI di effettuare inferenze basate sul buon senso. Il benchmark presenta brevi scenari narrativi che richiedono di scegliere la conclusione più plausibile tra quattro opzioni.

Perché è difficile? Le risposte scorrette sono generate con tecniche di adversarial filtering, ossia sono linguisticamente perfette ma logicamente sbagliate. Richiede la padronanza di dinamiche causali, relazioni temporali, implicazioni pragmatiche e regole non esplicite del mondo reale.

A cosa serve? Un modello che supera HellaSwag dimostra non solo una buona capacità linguistica, ma una profonda comprensione del mondo reale.

MMLU-Pro: Conoscenze Accademiche e Professionali

Cosa fa? È l’evoluzione diretta di MMLU, un benchmark ormai “saturato”. Questa versione aggiornata include migliaia di nuove domande su oltre 50 discipline accademiche, come diritto, medicina, storia, psicologia, ingegneria e matematica avanzata.

Perché è difficile? Le domande sono formulate per evitare la memorizzazione e richiedono comprensione profonda, ragionamento multi-step e capacità di collegare concetti non immediati.

A cosa serve? MMLU-Pro è oggi uno dei migliori indicatori delle competenze accademiche e professionali di un modello.

SuperGLUE: Comprensione Linguistica Complessa

Cosa fa? È un benchmark storico ma ancora rilevante per misurare la comprensione linguistica ad alta complessità. Include compiti che richiedono inferenza naturale, identificazione di relazioni tra frasi, comprensione di coreference e risoluzione di impliciti.

Perché è difficile? Valuta la capacità di interpretare testi ambigui, riconoscere sfumature logiche e dedurre significati impliciti.

A cosa serve? Misura elementi essenziali per applicazioni come chatbot professionali, analisi documentale e redazione assistita.

ARC-AGI-2: il Test di Intelligenza Astratta

Cosa fa? Misura l’intelligenza fluida di un modello, ovvero la sua capacità di ragionare su problemi mai visti prima. Si tratta di risolvere puzzle visivi e astratti (schemi di colori su una griglia). Vengono forniti pochissimi esempi (few-shot), e l’IA deve capire la regola logica sottostante per applicarla a un nuovo schema.

Perché è difficile? L’IA non può usare la memoria. Deve dedurre e generalizzare come farebbe un essere umano. È considerato uno dei test più vicini alla vera Intelligenza Artificiale Generale (AGI), ed è tra i benchmark più difficili in assoluto.

A cosa serve? I modelli che superano l’ARC-AGI-2 dimostrano una profonda capacità di ragionamento strutturato e non solo di completamento linguistico.

MathArena Apex e il Ragionamento Matematico

Cosa fa? Valuta l’abilità di ragionamento e la matematica avanzata attraverso problemi complessi e astratti.

Perché è difficile? I test matematici avanzati (come quelli inclusi in MMLU-Pro o il benchmark specifico MathArena Apex) non testano la semplice capacità di calcolo, ma l’abilità di interpretare il problema, pianificare la soluzione e eseguire il ragionamento multi-step (cioè una sequenza di deduzioni interconnesse).

A cosa serve? La capacità di ragionare in matematica è un eccellente indicatore di come il modello gestirà problemi di logica, finanza, fisica e ingegneria nel mondo reale.

BIG-Bench: La Prova della Generalizzazione

Cosa fa? BIG-Bench (Beyond the Imitation Game) comprende oltre 200 task cognitivi che spaziano dalla matematica alla linguistica, dalla fisica ai puzzle astratti.

Perché è difficile? La sua forza sta nella varietà: molti task sono stati costruiti esplicitamente per mettere alla prova la generalizzazione, ossia la capacità del modello di affrontare problemi completamente nuovi.

A cosa serve? Mette alla prova la capacità del modello di affrontare l’ignoto, fondamentale per l’intelligenza generale.

Humanity’s Last Exam (HLE): Il Test Finale

Cosa fa? HLE è considerato il benchmark più difficile esistente nel 2025. Comprende oltre 2.500 domande multimodali di livello universitario su discipline complesse: matematica avanzata, fisica teorica, ragionamento simbolico e interpretazione visiva.

Perché è difficile? Le domande sono strutturate per annullare qualsiasi vantaggio derivante dalla memorizzazione e richiedono ragionamento autentico, capacità analitiche e competenze trasversali.

A cosa serve? Indica la profondità di comprensione di un modello, con Gemini 3 che ha ottenuto risultati eccezionali in questa categoria.

2. Benchmark di Coding

Questi benchmark misurano la capacità del modello di scrivere codice, comprendere basi di codice reali e ragionare come uno sviluppatore esperto.

SWE-Bench: Il Debugging Realistico

Cosa fa? SWE-Bench è il test più realistico nel campo del coding. Il modello deve analizzare la struttura del codice, capire dove intervenire e proporre una patch funzionante.

Perché è difficile? Simula l’ambiente di lavoro reale: la patch generata deve superare i test unitari. Richiede una comprensione contestuale profonda dell’intera base di codice.

A cosa serve? È fondamentale per valutare se un modello può essere impiegato nel debugging automatico o nello sviluppo assistito.

MBPP: La Logica Procedurale

Cosa fa? MBPP (Mostly Basic Python Problems) contiene quasi 1.000 problemi di programmazione di base in Python.

Perché è difficile? Misura la precisione nella generazione di codice, la logica procedurale, la corretta gestione dei flussi di controllo e la manipolazione di strutture dati semplici.

A cosa serve? È utile per valutare l’affidabilità dell’AI nello sviluppo quotidiano.

HumanEval: Qualità del Codice

Cosa fa? Valuta se il modello sa generare codice corretto secondo test unitari. Per ogni esercizio, il modello riceve un prompt e deve fornire una funzione Python completamente funzionante.

Perché è difficile? La metrica misura la probabilità che almeno una delle soluzioni proposte superi tutti i test. È un test di precisione e completezza.

A cosa serve? È uno degli standard principali per confrontare la qualità del codice generato dai modelli.

RepoBench: Comprendere la Codebase

Cosa fa? Testa la capacità di comprendere intere codebase, non solo singoli file. Richiede di interpretare la struttura del repository e gestire le dipendenze.

Perché è difficile? La patch o il codice generato deve essere coerente con l’intero sistema e i collegamenti tra moduli diversi.

A cosa serve? È fondamentale per valutare le capacità agentiche legate al software engineering.

DS-1000: Data Science e Analytics

Cosa fa? È un benchmark dedicato alla programmazione orientata ai dati. Misura la capacità dell’AI di analizzare dataset, eseguire trasformazioni, costruire pipeline e implementare modelli di machine learning.

Perché è difficile? Richiede una conoscenza specifica delle librerie e delle procedure utilizzate in data science e analytics.

A cosa serve? Essenziale per valutare modelli destinati a data science e analisi dei dati.

3. Benchmark per Chatbot e Conversazione

Questi benchmark valutano la qualità della comunicazione dell’AI: coerenza, profondità, stile, capacità di seguire istruzioni e mantenere contesto.

MT-Bench: Qualità del Dialogo

Cosa fa? È uno dei benchmark più utilizzati per valutare chatbot professionali. Comprende dialoghi multi-turno su otto aree, come coding, estrazione dati, matematica e scrittura creativa.

Perché è difficile? Le risposte sono valutate da un modello giudice (tipicamente GPT-4), che assegna un punteggio basato su pertinenza, coerenza e profondità argomentativa.

A cosa serve? Misura la qualità della comunicazione e l’aderenza alle istruzioni in contesti diversi.

Chatbot Arena: Preferenza Umana

Cosa fa? È una piattaforma pubblica in cui due modelli rispondono agli stessi prompt in modo anonimo, e gli utenti votano la risposta migliore.

Perché è difficile? Il successo dipende dalle preferenze umane reali in termini di utilità, stile e completezza della risposta.

A cosa serve? È uno dei sistemi più affidabili per valutare l’accettazione e preferenza umana nel dialogo.

WildChat: Il Mondo Reale

Cosa fa? Analizza conversazioni autentiche: “rumorose”, piene di errori grammaticali, slang, ambiguità e frasi incomplete.

Perché è difficile? Valuta la capacità del modello di adattarsi a input imprevedibili e mantenere la coerenza nonostante l’input sia imperfetto.

A cosa serve? Benchmark essenziale per customer care e assistenti virtuali che interagiscono con il pubblico.

MultiChallenge: Memoria Conversazionale

Cosa fa? Testa la memoria conversazionale a lungo termine e la coerenza logica.

Perché è difficile? Richiede all’AI di ricordare istruzioni fornite molte interazioni prima e sostenere un dialogo complesso.

A cosa serve? È uno dei test più severi per chatbot evoluti che devono gestire relazioni durature con l’utente.

SPC: Personalità Coerente

Cosa fa? Misura la capacità del modello di assumere e mantenere una personalità coerente (Synthetic Persona Chat).

Perché è difficile? L’AI deve modulare linguaggio, tono e informazioni in modo stabile, simulando un avatar credibile.

A cosa serve? Fondamentale per assistenti personalizzati e brand chatbot.

4. Benchmark per Agenti AI e Tool Use

Nel 2025 gli LLM devono soprattutto fare, non solo rispondere. Questi benchmark misurano la capacità di utilizzare strumenti esterni, navigare il web e operare come agenti autonomi.

Berkeley Function Calling: Uso delle API

Cosa fa? Valuta la capacità del modello di identificare la funzione corretta da usare e di compilare parametri complessi.

Perché è difficile? Richiede la capacità di prendere decisioni basate sul contesto e gestire errori complessi durante l’esecuzione.

A cosa serve? Cruciale per applicazioni che richiedono l’uso di API e automazioni complesse.

WebArena: Navigazione Autonoma

Cosa fa? Simula siti web reali (forum, CMS, e-commerce, pannelli amministrativi).

Perché è difficile? Il modello deve navigare, filtrare, cercare informazioni e completare task complessi proprio come un utente umano, interagendo con interfacce dinamiche.

A cosa serve? Misura l’abilità di operare come agente autonomo sul web.

MINT: Autoriparazione

Cosa fa? Valuta l’interazione multi-turno con strumenti.

Perché è difficile? L’AI riceve un feedback negativo dopo ogni azione e deve correggersi autonomamente (autoriparazione).

A cosa serve? È una delle misure migliori per valutare la qualità del comportamento “da agente”.

WebShop: E-commerce in Scenari Reali

Cosa fa? Simula un e-commerce reale con oltre un milione di prodotti. Il modello deve cercare, filtrare, confrontare e completare l’acquisto.

Perché è difficile? Deve gestire vincoli complessi e operare in un ambiente con un gran numero di variabili (prodotti).

A cosa serve? È tra i benchmark più vicini a scenari reali di automazione e assistenza e-commerce.

MetaTool: Coordinamento degli Strumenti

Cosa fa? Testa la capacità del modello di capire quando usare un tool e quale tool scegliere.

Perché è difficile? Richiede non solo la corretta esecuzione, ma una logica decisionale per coordinare strumenti diversi.

A cosa serve? Essenziale per agenti di pianificazione che devono orchestrare diversi strumenti digitali.

5. Benchmark per Sistemi RAG

I benchmark RAG (Retrieval-Augmented Generation) valutano la capacità del modello di integrare conoscenza esterna tramite documenti, database e repository.

Needle in a Haystack (NIAH): Memoria Estesa

Cosa fa? Il modello deve individuare un’informazione specifica (“l’ago”) nascosta in un documento estremamente lungo.

Perché è difficile? Valuta la memoria estesa e la navigazione testuale su contesti molto lunghi, dove è facile perdere informazioni chiave.

A cosa serve? Misura l’accuratezza del retrieval e la capacità di lavorare con documenti voluminosi.

RULER: Ragionamento Multi-Hop

Cosa fa? È un benchmark avanzato che include test su ragionamento multi-hop, aggregazione dati e sintesi complessa.

Perché è difficile? Richiede all’AI di collegare e sintetizzare informazioni presenti in punti diversi di contesti lunghi per rispondere a una domanda complessa.

A cosa serve? È uno dei test più completi per la gestione di contesti lunghi e complessi.

FRAMES: Dati Strutturati

Cosa fa? Valuta la capacità del modello di interpretare dati numerici e strutturati (tabelle, registri, sistemi multi-record).

Perché è difficile? Richiede precisione nell’estrazione e nell’interpretazione dei dati, dove un piccolo errore nel numero o nella cella può invalidare la risposta.

A cosa serve? Fondamentale per applicazioni business, analisi finanziarie e compliance.

BeIR: Ricerca su Dati Reali

Cosa fa? Raccoglie 18 dataset reali per il retrieval: Wikipedia, news, paper scientifici, forum.

Perché è difficile? Mette alla prova la qualità di un motore di ricerca AI-driven in scenari molto diversi tra loro, con dati reali e “sporchi”.

A cosa serve? È uno standard per valutare l’efficacia e la qualità di un motore RAG.

CRAG: Robustezza

Cosa fa? Combina domande semplici, complesse, fuorvianti e contesti dinamici.

Perché è difficile? Sviluppato da Meta, è progettato per testare la robustezza dell’AI in scenari non prevedibili e la capacità di distinguere tra informazioni accurate e false.

A cosa serve? Perfetto per testare la complessità e l’affidabilità dei sistemi RAG.

Come Google ha valutato Gemini 3

Google ha utilizzato una selezione dei benchmark più difficili al mondo per misurare Gemini 3.

Gemini 3 ha superato tutti i modelli concorrenti nei test di:

• ragionamento multimodale,• comprensione visiva,• analisi documentale,• tool use operativo,• pianificazione autonoma,• accuratezza fattuale.

Perché Gemini 3 domina i benchmark?

Gemini 3 offre prestazioni eccellenti perché:

• comprende testi lunghi e complessi senza perdere coerenza;• eccelle nella comprensione visiva (ScreenSpot-Pro, MMMU);• ragiona come nessun altro modello in compiti articolati (HLE);• esegue tool use avanzato (terminal, API, browser);• mantiene un livello di accuratezza fattuale superiore alla media.

Per un approfondimento completo invitiamo alla lettura dell’articolo dedicato.

I limiti dei benchmark nel 2025

Pur essendo strumenti indispensabili, i benchmark presentano dei limiti che vanno compresi.

  1. Possono saturarsi: quando i modelli raggiungono il massimo punteggio, il benchmark perde utilità.
  2. Possono essere contaminati: se un modello vede parte del benchmark durante il training, il punteggio risulta falsato.
  3. Non rispecchiano sempre la realtà: la complessità del mondo reale è più imprevedibile dei test.
  4. Misurano il modello, non il prodotto finale: un’applicazione AI richiede governance, sicurezza, prompt design e architettura.

Per questo i benchmark devono essere interpretati in modo critico, non dogmatico.

Conclusione

Nel 2025 i benchmark rappresentano il metodo più affidabile per misurare le reali prestazioni dei modelli di intelligenza artificiale. Non sono perfetti, ma sono indispensabili: permettono di confrontare modelli diversi, identificare punti di forza e debolezza, capire quali AI sono davvero pronte per applicazioni professionali e quali invece richiedono supervisione.

La loro importanza aumenterà nei prossimi anni, man mano che gli LLM diventeranno più autonomi, multimodali e responsabili di processi critici.

Per chi lavora con l’AI – aziende, sviluppatori, ricercatori, professionisti – comprendere i benchmark significa comprendere il valore reale dei modelli.

FAQ

1. Cosa significa benchmark negli LLM?

Un benchmark è un test standardizzato che serve a misurare le prestazioni di un modello linguistico. Valuta competenze come ragionamento, comprensione del linguaggio, coding, multimodalità e uso degli strumenti. Permette di confrontare modelli diversi in modo oggettivo.

2. A cosa servono i benchmark LLM?

Servono a capire quanto un modello è preciso, affidabile e utile in scenari reali. Misurano aspetti critici come allucinazioni, capacità di rispondere correttamente, mantenimento del contesto, ragionamento logico e performance nel coding.

3. Quali sono i benchmark più importanti per valutare un LLM?

I principali includono:MMLU-Pro (conoscenze generali),HellaSwag (buon senso),ARC-AGI-2 (ragionamento astratto),HumanEval / SWE-Bench (coding),ScreenSpot-Pro (interpretazione di interfacce),NIAH e RULER (long-context e RAG).Sono considerati i più affidabili per testare modelli moderni.

4. Perché i benchmark sono fondamentali nel 2025?

Perché gli LLM non generano solo testo: ragionano, analizzano immagini e video, eseguono codice, usano strumenti e operano come agenti autonomi. Senza benchmark sarebbe impossibile capire oggettivamente cosa sanno fare davvero.

5. I benchmark possono prevedere le prestazioni nel mondo reale?

Parzialmente. Sono eccellenti per misurare competenze specifiche, ma non catturano tutta la complessità delle interazioni reali. Per questo vanno integrati con test personalizzati, valutazioni interne e dati dell’uso quotidiano.

6. Come si misura il punteggio di un benchmark LLM?

Il punteggio si basa su metriche come accuratezza, precisione, richiamo, F1, perplessità, corrispondenza esatta, BLEU o ROUGE. Ogni benchmark usa uno schema di valutazione coerente con il tipo di attività (ragionamento, coding, RAG, multimodalità).

7. Qual è il benchmark più difficile per gli LLM?

Humanity’s Last Exam (HLE) è il più complesso: contiene domande multimodali di livello universitario su scienze, matematica avanzata, logica e grafici. ARC-AGI-2 e MathArena Apex sono tra i più difficili nel ragionamento e nella matematica.

8. Quali benchmark valutano la multimodalità degli LLM?

I principali sono MMMU-Pro, Video-MMMU, OmniDocBench e ScreenSpot-Pro. Misurano la capacità di un modello di interpretare immagini, video, documenti complessi e interfacce digitali, elementi cruciali per gli LLM moderni.

9. Esistono benchmark specifici per i sistemi RAG?

Sì. I più usati sono Needle in a Haystack (NIAH), RULER, FRAMES, BeIR e CRAG. Valutano ricerca documentale, ragionamento multi-hop, aggregazione di dati, long-context e accuratezza fattuale.

10. Qual è il modello che oggi supera più benchmark?

A novembre 2025, Gemini 3 è uno dei modelli che ottiene i punteggi più alti nei benchmark di ragionamento, multimodalità e tool use, superando GPT-5.1 e Claude 4.5 in molte categorie. La sua performance è documentata nei risultati ufficiali Google.

Seo copywriter

newsletter

Hey, ciao 👋
Piacere di conoscerti.

Iscriviti per ricevere contenuti fantastici nella tua casella di posta, ogni mese.

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.