Software Engineering Benchmark Verified (SWE-bench Verified)

Name: Software Engineering Benchmark Verified
Creator: BenchLM

A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-source Python repositories like Django, Flask, and scikit-learn.

Top models on SWE-bench Verified — June 2, 2026

As of June 2, 2026, Claude Mythos Preview leads the SWE-bench Verified leaderboard with 93.9% , followed by Claude Opus 4.8 (88.6%) and Claude Opus 4.7 (Adaptive) (87.6%).

1Closed

Claude Mythos Preview

Anthropic

93.9%

Overall 99Context 1M

2Closed

Claude Opus 4.8

Anthropic

88.6%

Overall 95Context 1M

3Closed

Claude Opus 4.7 (Adaptive)

Anthropic

87.6%

Overall 85Context 1M

49 modelsCoding13% of category scoreRefreshingUpdated June 2, 2026

According to BenchLM.ai, Claude Mythos Preview leads the SWE-bench Verified benchmark with a score of 93.9%, followed by Claude Opus 4.8 (88.6%) and Claude Opus 4.7 (Adaptive) (87.6%). The scores show moderate spread, with meaningful differences between the top tier and mid-tier models.

49 models have been evaluated on SWE-bench Verified. The benchmark falls in the Coding category. This category carries a 20% weight in BenchLM.ai's overall scoring system. Within that category, SWE-bench Verified contributes 13% of the category score, so strong performance here directly affects a model's overall ranking.

About SWE-bench Verified

Year

2024

Tasks

500 verified issues

Format

Code patch generation

Difficulty

Professional software engineering

SWE-bench Verified is the gold standard for evaluating AI coding agents on real-world software engineering tasks. Each task requires understanding codebases, writing patches, and passing test suites.

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

BenchLM freshness & provenance

Version

SWE-bench Verified 2024

Refresh cadence

Annual

Staleness state

Refreshing

Question availability

Public benchmark set

Refreshing

BenchLM uses freshness metadata to decide whether a benchmark should still be treated as a strong differentiator, a benchmark to watch, or a display-only reference. For the full scoring policy, see the BenchLM methodology page.

Leaderboard (49 models)

Claude Mythos Preview

AnthropicClosed

93.9%

Claude Opus 4.8

AnthropicClosed

88.6%

Claude Opus 4.7 (Adaptive)

AnthropicClosed

87.6%

GPT-5.3 Codex

OpenAIClosed

85%

Claude Opus 4.5

AnthropicClosed

80.9%

Claude Opus 4.6

AnthropicClosed

80.8%

DeepSeek V4 Pro (Max)

DeepSeekOpen

80.6%

MiniMax M3

MiniMaxOpen

80.5%

Qwen3.7 Max

AlibabaClosed

80.4%

Kimi K2.6

Moonshot AIOpen

80.2%

GPT-5.2

OpenAIClosed

80%

Claude Sonnet 4.6

AnthropicClosed

79.6%

DeepSeek V4 Pro (High)

DeepSeekOpen

79.4%

DeepSeek V4 Flash (Max)

DeepSeekOpen

79%

Qwen3.6 Plus

AlibabaClosed

78.8%

DeepSeek V4 Flash (High)

DeepSeekOpen

78.6%

MiMo-V2-Pro

XiaomiClosed

78%

GLM-5

Z.AIOpen

77.8%

Mistral Medium 3.5 128B

MistralOpen

77.6%

Muse Spark

MetaClosed

77.4%

Qwen3.6-27B

AlibabaOpen

77.2%

Claude Sonnet 4.5

AnthropicClosed

77.2%

Kimi K2.5 (Reasoning)

Moonshot AIClosed

76.8%

Kimi K2.5

Moonshot AIOpen

76.8%

Grok 4.20

xAIClosed

76.7%

Qwen3.5 397B

AlibabaOpen

76.2%

MiMo-V2-Omni

XiaomiClosed

74.8%

Laguna M.1

PoolsideClosed

74.6%

Claude 4.1 Opus

AnthropicClosed

74.5%

Hy3 Preview

TencentOpen

74.4%

GLM-4.7

Z.AIOpen

73.8%

DeepSeek V4 Flash

DeepSeekOpen

73.7%

DeepSeek V4 Pro

DeepSeekOpen

73.6%

Qwen3.6-35B-A3B

AlibabaOpen

73.4%

MiMo-V2-Flash

XiaomiOpen

73.4%

Claude Haiku 4.5

AnthropicClosed

73.3%

Claude 4 Sonnet

AnthropicClosed

72.7%

Qwen3.5-27B

AlibabaOpen

72.4%

Qwen3.5-122B-A10B

AlibabaOpen

72%

Grok Code Fast 1

xAIClosed

70.8%

Laguna XS.2

PoolsideOpen

69.9%

Qwen3.5-35B-A3B

AlibabaOpen

69.2%

Gemini 2.5 Pro

GoogleClosed

63.8%

GPT-4.1

OpenAIClosed

54.6%

ZAYA1-74B-Preview

ZyphraOpen

53.2%

o3-mini

OpenAIClosed

49.3%

Claude 3.5 Sonnet

AnthropicClosed

49%

DeepSeek V3

DeepSeekOpen

42%

GPT-4.1 mini

OpenAIClosed

23.6%

FAQ

What does SWE-bench Verified measure?

A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-source Python repositories like Django, Flask, and scikit-learn.

Which model scores highest on SWE-bench Verified?

Claude Mythos Preview by Anthropic currently leads with a score of 93.9% on SWE-bench Verified.

How many models are evaluated on SWE-bench Verified?

49 AI models have been evaluated on SWE-bench Verified on BenchLM.

Compare Top Models on SWE-bench Verified

Claude Mythos Preview vs Claude Opus 4.8 Claude Opus 4.8 vs Claude Opus 4.7 (Adaptive)Claude Opus 4.7 (Adaptive) vs GPT-5.3 Codex GPT-5.3 Codex vs Claude Opus 4.5

Learn More

Read our explainer: SWE-bench Verified benchmark deep dive

Last updated: June 2, 2026 · BenchLM version SWE-bench Verified 2024

The AI models change fast. We track them for you.

For engineers, researchers, and the plain curious — a weekly brief on new models, ranking shifts, and pricing changes.

Free. No spam. Unsubscribe anytime.