LLM Benchmarks

Compare model performance across standardized benchmarks that test different capabilities.

Common LLM Benchmarks

GPQA

Graduate-level Problems in Quantitative Analysis (GPQA) evaluates advanced reasoning on graduate-level physics and mathematics problems.

Published2023

Scale0-100

Technical Paper View Details

MMLU

knowledge

Massive Multitask Language Understanding (MMLU) tests knowledge across 57 subjects including mathematics, history, law, and more.

Published2020

Scale0-100

Technical Paper View Details

HumanEval

coding

Evaluates code generation capabilities by asking models to complete Python functions based on docstrings and function signatures.

Published2021

Scale0-100

Technical Paper View Details

FACTS Grounding

factuality

The FACTS Grounding Leaderboard evaluates LLMs' ability to generate factually accurate long-form responses grounded in provided context documents up to 32k tokens.

Published2025

Scale0-100

Technical Paper View Details

MATH

mathematics

A dataset of 12,500 challenging competition mathematics problems requiring multi-step reasoning.

Published2021

Scale0-100

Technical Paper View Details

MMMU

multimodal

A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI with 11.5K college-level questions across 6 disciplines and 30 subjects.

Published2023

Scale0-100

Technical Paper View Details

AIME-2025

mathematics

American Invitational Mathematics Examination (AIME) 2025 problems.

Published2025

Scale0-100

Technical Paper View Details

MMLU-Pro

knowledge

MMLU-Pro is an enhanced benchmark with over 12,000 challenging questions across 14 domains including Biology, Business, Chemistry, Computer Science, Economics, Engineering, Health, History, Law, Math, Philosophy, Physics, Psychology, and Others. It features 10 answer choices per question (vs. 4 in MMLU) and focuses on complex reasoning tasks.

Published2025

Scale0-100

Technical Paper View Details

SWE-bench

coding

Software Engineering Benchmark (SWE-bench) evaluates models on real-world software engineering tasks.

Published2023

Scale0-100

Technical Paper View Details

Aider Polyglot Leaderboard

coding

Rank	Model	Provider	Score	Parameters	Released
1	o3	OpenAI	81.3		2025-04-16
2	Gemini 2.5 Pro	Google	76.5		2025-05-06
3	o4-mini	OpenAI	68.9		2025-04-16
4	Gemini 2.5 Flash	Google	61.9		2025-05-20
5	Qwen-3	Alibaba	61.8	235B (22B active)	2025-04-29

Rank	Model	Provider	Score	Parameters	Released
1	GPT-OSS-120B	OpenAI	96.6	117B total (5.1B active per token)	2025-08-05
2	GPT-OSS-20B	OpenAI	96	21B total (3.6B active per token)	2025-08-05
3	Grok 3 Mini	xAI	95.8	Unknown	2025-02-19
4	o4-mini	OpenAI	93.4		2025-04-16
5	Qwen-3	Alibaba	85.7	235B (22B active)	2025-04-29

Rank	Model	Provider	Score	Parameters	Released
1	Nemotron 3 Nano	NVIDIA	99.2	31.6B (Total), ~3.2B (Active)	2025-12-15
2	GPT-OSS-20B	OpenAI	98.7	21B total (3.6B active per token)	2025-08-05
3	GPT-OSS-120B	OpenAI	97.9	117B total (5.1B active per token)	2025-08-05
4	GLM-4.7	Z.ai	95.7	Unreleased	2025-12-22
5	Gemini 3 Pro	Google	95	Proprietary	2025-11-18

Rank	Model	Provider	Score	Released
1	o3	OpenAI	91.6	2025-04-16
2	o1-mini	OpenAI	70	2024-09-12
3	o1-preview	OpenAI	44.6	2024-09-12
4	Claude Opus 4	Anthropic	33.9	2025-05-22
5	Claude Sonnet 4	Anthropic	33.1	2025-05-22

Rank	Model	Provider	Score	Parameters	Released
1	Claude 3 Opus	Anthropic	96.4		2024-03-04
2	Claude 3 Sonnet	Anthropic	93.2		2024-03-04
3	Nemotron 3 Nano	NVIDIA	91.89	31.6B (Total), ~3.2B (Active)	2025-12-15
4	Claude 3 Haiku	Anthropic	89.2		2024-03-04
5	Mixtral 8×22B	Mistral AI	70	141B (39B active)	2024-04-17

Rank	Model	Provider	Score	Parameters	Released
1	Qwen-3	Alibaba	70.8	235B (22B active)	2025-04-29
2	Nemotron 3 Nano	NVIDIA	53.8	31.6B (Total), ~3.2B (Active)	2025-12-15

Rank	Model	Provider	Score	Released
1	Claude 3.5 Sonnet	Anthropic	93.1	2024-06-20
2	Claude 3 Opus	Anthropic	86.8	2024-03-04
3	Claude 3 Sonnet	Anthropic	82.9	2024-03-04
4	Claude 3 Haiku	Anthropic	73.7	2024-03-04
5	Gemini Diffusion	Google	15	2025-05-20

Rank	Model	Provider	Score	Released
1	Gemini 2.0 Pro	Google	59.3	2025-02-05
2	Gemini 2.0 Flash	Google	58.7	2025-02-25
3	Gemini 2.0 Flash-Lite	Google	57.4	2025-02-25

Rank	Model	Provider	Score	Parameters	Released
1	Claude Opus 4.6	Anthropic	84	Unreleased	2026-02-05
2	Kimi K2	Moonshot AI	60.2	1T total, 32B activated	2025-07-11
3	Gemini 3 Pro	Google	59.2	Proprietary	2025-11-18
4	GLM-4.7	Z.ai	52	Unreleased	2025-12-22
5	o3	OpenAI	49.7		2025-04-16

Rank	Model	Provider	Score	Released
1	o3	OpenAI	78.6	2025-04-16
2	o4-mini	OpenAI	72	2025-04-16
3	GPT-4.1	OpenAI	56.7	2025-04-14

Rank	Model	Provider	Score	Parameters	Released
1	o4-mini	OpenAI	2,719		2025-04-16
2	o3	OpenAI	2,706		2025-04-16
3	GPT-OSS-120B	OpenAI	2,622	117B total (5.1B active per token)	2025-08-05
4	GPT-OSS-20B	OpenAI	2,516	21B total (3.6B active per token)	2025-08-05
5	Qwen-3	Alibaba	2,056	235B (22B active)	2025-04-29

Rank	Model	Provider	Score	Released
1	Gemini 2.0 Pro	Google	40.6	2025-02-05
2	Gemini 2.0 Flash	Google	39	2025-02-25
3	Gemini 2.0 Flash-Lite	Google	38.4	2025-02-25

Rank	Model	Provider	Score	Parameters	Released
1	DeepSeek-R1	DeepSeek	92.2	671B (37B activated)	2025-01-20
2	DeepSeek-V3	DeepSeek	91.6	671B total, 37B activated	2024-12-26
3	Claude 3.5 Sonnet	Anthropic	87.1		2024-06-20
4	GPT-4o	OpenAI	83.4		2024-05-13
5	Claude 3.5 Haiku	Anthropic	83.1		2024-10-22

Rank	Model	Provider	Score	Parameters	Released
1	Grok 3	xAI	74.5	Unknown (multi-trillion estimated)	2025-02-19
2	Grok 3 Mini	xAI	74.3	Unknown	2025-02-19
3	Gemini 2.0 Pro	Google	71.9		2025-02-05
4	Gemini 2.0 Flash	Google	71.1		2025-02-25
5	Gemini 2.0 Flash-Lite	Google	67.2		2025-02-25

Rank	Model	Provider	Score	Released
1	Gemini 2.5 Pro	Google	87.8	2025-05-06
2	Gemini 2.5 Flash	Google	85.8	2025-05-20
3	Gemini 2.0 Flash	Google	85.6	2025-02-25
4	Gemini 2.5 Flash-Lite	Google	83.8	2025-06-17
5	Claude 3.5 Sonnet	Anthropic	83.3	2024-06-20

Rank	Model	Provider	Score	Parameters	Released
1	Gemini 2.0 Pro	Google	86.5		2025-02-05
2	Gemini 2.5 Flash-Lite	Google	84.5		2025-06-17
3	Gemini 2.0 Flash	Google	83.4		2025-02-25
4	Gemini 2.0 Flash-Lite	Google	78.2		2025-02-25
5	Nemotron 3 Nano	NVIDIA	74.47	31.6B (Total), ~3.2B (Active)	2025-12-15

Rank	Model	Provider	Score	Parameters	Released
1	Gemini 2.5 Pro	Google	88.6		2025-05-06
2	Gemma 3	Google	75.4	1B, 4B, 12B, 27B	2025-03-12

Rank	Model	Provider	Score	Parameters	Released
1	Gemini 3 Pro	Google	91.9	Proprietary	2025-11-18
2	Claude Opus 4.6	Anthropic	91.3	Unreleased	2026-02-05
3	Grok 4	xAI	87.5	Unknown	2025-07-09
4	Claude 3.7 Sonnet	Anthropic	84.8		2025-02-24
5	Grok 3 Mini	xAI	84	Unknown	2025-02-19

Rank	Model	Provider	Score	Parameters	Released
1	Claude 3 Opus	Anthropic	95.4		2024-03-04
2	Claude 3 Sonnet	Anthropic	89		2024-03-04
3	DeepSeek-V3	DeepSeek	88.9	671B total, 37B activated	2024-12-26
4	Mixtral 8×22B	Mistral AI	88	141B (39B active)	2024-04-17
5	Claude 3 Haiku	Anthropic	85.9		2024-03-04

Rank	Model	Provider	Score	Released
1	Gemini 2.0 Pro	Google	65.2	2025-02-05
2	Gemini 2.0 Flash	Google	63.5	2025-02-25
3	Gemini 2.0 Flash-Lite	Google	55.3	2025-02-25

LLM Benchmarks

Common LLM Benchmarks

GPQA

MMLU

HumanEval

FACTS Grounding

MATH

MMMU

AIME-2025

MMLU-Pro

SWE-bench

Aider Polyglot Leaderboard

AIME-2024 Leaderboard

AIME-2025 Leaderboard

AIME Leaderboard

ARC Leaderboard

Berkeley Function-Calling Leaderboard Leaderboard

BIG-bench Leaderboard

BIRD-SQL Leaderboard

BrowseComp Leaderboard

CharXiv-Reasoning Leaderboard

CodeForces Leaderboard

CoVoST 2 Leaderboard

Cybersecurity CTF Leaderboard

DROP Leaderboard

EgoSchema Leaderboard

FACTS Grounding Leaderboard

Global-MMLU-Lite Leaderboard

Global-MMLU Leaderboard

GPQA Leaderboard

GSM8K Leaderboard

HellaSwag Leaderboard

HiddenMath Leaderboard

HMMT Leaderboard

HumanEval Leaderboard

Humanitys-Last-Exam Leaderboard

IMO-AnswerBench Leaderboard

LiveBench Leaderboard

LiveCodeBench-v5 Leaderboard

LiveCodeBench v6 Leaderboard

LOFT (128k) Leaderboard

MATH 500 Leaderboard

MATH Leaderboard

MathVista Leaderboard

MGSM Leaderboard

MMLU-Pro Leaderboard

MMLU Leaderboard

MMMU Leaderboard

Michelangelo Long-Context Reasoning (128k) Leaderboard

Michelangelo Long-Context Reasoning (1M) Leaderboard

Multi-IF Leaderboard

PIQA Leaderboard

Scale-MultiChallenge Leaderboard

SimpleQA Leaderboard

SWE-bench Leaderboard

SWE-Lancer Leaderboard

TAU-bench Leaderboard

Terminal-bench Leaderboard

TruthfulQA Leaderboard

Vending-Bench Leaderboard

Vibe-Eval Leaderboard

Video-MME Leaderboard

WinoGrande Leaderboard

WMT24 Leaderboard

Rank	Model	Provider	Score	Released
1	o1-mini	OpenAI	92.4	2024-09-12
2	o1-preview	OpenAI	92.4	2024-09-12
3	Claude 3.5 Sonnet	Anthropic	92	2024-06-20
4	GPT-4o	OpenAI	90.2	2024-05-13
5	Gemini Diffusion	Google	89.6	2025-05-20

Rank	Model	Provider	Score	Parameters	Released
1	Kimi K2	Moonshot AI	44.9	1T total, 32B activated	2025-07-11
2	Claude Opus 4.6	Anthropic	40	Unreleased	2026-02-05
3	Grok 4	xAI	38.6	Unknown	2025-07-09
4	Gemini 3 Pro	Google	37.5	Proprietary	2025-11-18
5	GPT-OSS-120B	OpenAI	19	117B total (5.1B active per token)	2025-08-05

Rank	Model	Provider	Score	Parameters	Released
1	Qwen-3	Alibaba	77.1	235B (22B active)	2025-04-29
2	Kimi K2	Moonshot AI	76.4	1T total, 32B activated	2025-07-11

Rank	Model	Provider	Score	Parameters	Released
1	Grok 4	xAI	79.4	Unknown	2025-07-09
2	Gemini 2.5 Pro	Google	75.6		2025-05-06
3	Qwen-3	Alibaba	70.7	235B (22B active)	2025-04-29
4	Gemini 2.5 Flash	Google	63.9		2025-05-20
5	Grok 3	xAI	57	Unknown (multi-trillion estimated)	2025-02-19

Rank	Model	Provider	Score	Parameters	Released
1	Gemini 3 Pro	Google	90.7	Proprietary	2025-11-18
2	Kimi K2	Moonshot AI	83.1	1T total, 32B activated	2025-07-11
3	DeepSeek-V3	DeepSeek	46.9	671B total, 37B activated	2024-12-26
4	Claude Opus 4	Anthropic	44.7		2025-05-22
5	Gemini 2.5 Flash	Google	44.7		2025-05-20

Rank	Model	Provider	Score	Parameters	Released
1	DeepSeek-R1	DeepSeek	97.3	671B (37B activated)	2025-01-20
2	o1-mini	OpenAI	90		2024-09-12
3	o1-preview	OpenAI	85.5		2024-09-12
4	Nemotron 3 Nano	NVIDIA	78.63	31.6B (Total), ~3.2B (Active)	2025-12-15

Rank	Model	Provider	Score	Parameters	Released
1	Kimi K2	Moonshot AI	97.4	1T total, 32B activated	2025-07-11
2	Claude 3.7 Sonnet	Anthropic	96.2		2025-02-24
3	o1	OpenAI	94.8		2024-09-12
4	Gemini 2.0 Pro	Google	91.8		2025-02-05
5	Gemini 2.0 Flash	Google	90.9		2025-02-25

Rank	Model	Provider	Score	Parameters	Released
1	Gemini 3 Pro	Google	90.1	Proprietary	2025-11-18
2	GLM-4.7	Z.ai	87.5	Unreleased	2025-12-22
3	Kimi K2	Moonshot AI	84.6	1T total, 32B activated	2025-07-11
4	DeepSeek-R1	DeepSeek	84	671B (37B activated)	2025-01-20
5	Grok 3	xAI	79.9	Unknown (multi-trillion estimated)	2025-02-19

Rank	Model	Provider	Score	Parameters	Released
1	o1	OpenAI	92.3		2024-09-12
2	Claude Opus 4.6	Anthropic	91.1	Unreleased	2026-02-05
3	DeepSeek-R1	DeepSeek	90.8	671B (37B activated)	2025-01-20
4	o1-preview	OpenAI	90.8		2024-09-12
5	GPT-4.1	OpenAI	90.2		2025-04-14

Rank	Model	Provider	Score	Parameters	Released
1	o3	OpenAI	56.51		2025-04-16
2	o4-mini	OpenAI	42.99		2025-04-16
3	Nemotron 3 Nano	NVIDIA	38.5	31.6B (Total), ~3.2B (Active)	2025-12-15