Trends

Release, provider, and benchmark trends

BenchLM trend pages are derived from the same normalized model and benchmark dataset as the leaderboard. This page focuses on release cadence, provider depth, and whether the benchmark mix is staying fresh enough to separate current models.

Recent release momentum

All models

Mar 2024

2 releases

Top score

Claude 3 Haiku

May 2024

1 releases

Top score

GPT-4o

Jun 2024

1 releases

Top score

Claude 3.5 Sonnet

Jul 2024

1 releases

Top score

Mistral Large 2

Dec 2024

3 releases

Top score

Jan 2025

3 releases

Top score

o3-mini

Feb 2025

1 releases

Top score

Grok 3 [Beta]

Apr 2025

5 releases

Top score

May 2025

1 releases

Top score

Claude 4 Sonnet

Jul 2025

1 releases

Top score

Grok 4

Aug 2025

3 releases

Top score

GPT-OSS 120B

Oct 2025

1 releases

Top score

Claude Haiku 4.5

Dec 2025

4 releases

Top score

GPT-5.2

Feb 2026

5 releases

Top score

Gemini 3.1 Pro

Mar 2026

2 releases

Top score

GPT-5.4 Pro

Provider progression snapshot

OpenAI

GPT-5.4

Avg. top 3

80.3

Ranked

Anthropic

Claude Opus 4.6

Avg. top 3

73.7

Ranked

Google

Gemini 3.1 Pro

Avg. top 3

73.5

Ranked

DeepSeek

DeepSeek Coder 2.0

Avg. top 3

60.7

Ranked

Mistral

Mistral Large 2

Avg. top 3

Ranked

Alibaba

Qwen2.5-1M

Avg. top 3

Ranked

NVIDIA

Nemotron 3 Ultra 500B

Avg. top 3

Ranked

Zhipu AI

GLM-4.7

Avg. top 3

56.3

Ranked

Moonshot AI

Kimi K2

Avg. top 3

Ranked

xAI

Grok 4

Avg. top 3

Ranked

Benchmark freshness snapshot

Agentic

Coding

Reasoning

Multimodal

Knowledge

Multilingual

Instruction Following

Math