BenchLM recommendation

Best Proprietary LLMs in 2026

Data verified July 20, 2026

As of July 20, 2026, the top model in best proprietary llms on the BenchLM leaderboard is Claude Mythos 5 with a score of 83.9.

Last verified: July 20, 2026

Top proprietary/closed-source AI models ranked by benchmark performance.

Unless noted otherwise, ranking surfaces on this page use BenchLM's provisional leaderboard lane rather than the stricter sourced-only verified leaderboard.

Bottom line: Claude Fable 5 leads proprietary models overall, with Gemini 3.1 Pro and GPT-5.4 close behind. The top tier is competitive — choice often comes down to pricing, latency, and API ecosystem.

Claude Mythos 5 leads this ranking with a score of 83.9, followed by Claude Fable 5 (83.7) and GPT-5.6 Sol (82). The top three are separated by just a few points — any of them would perform well for this use case.

All models in this ranking are proprietary. No open-weight alternatives are available for this category.

This ranking is based on provisional overall weighted scores across BenchLM.ai's scoring formula tracked by BenchLM.ai. For detailed model profiles, click any model name below. To compare two specific models head-to-head, use the "vs #" links.

1Closed

Claude Mythos 5

Anthropic · 1M+

83.9BenchAlign v5

2Closed

Claude Fable 5

Anthropic · 1M+

83.7BenchAlign v5

Highest proprietary score. Leads agentic and coding.

3Closed

GPT-5.6 Sol

OpenAI · 1M

82BenchAlign v5

What changed

Claude Fable 5 entered at #1 across proprietary models with the highest overall score.

Gemini 3.1 Pro strong #2 among proprietary models — best non-reasoning option.

GPT-5.4 leads knowledge benchmarks at 98 and holds a strong #3.

How to choose

Best proprietary model regardless of cost?

Claude Fable 5 — highest overall score

Best without chain-of-thought?

Gemini 3.1 Pro — top non-reasoning proprietary

Knowledge and factual accuracy?

GPT-5.4 — leads knowledge benchmarks at 98

Cost-effective proprietary?

Gemini 3.1 Pro — strong scores at competitive pricing

Full Rankings (113 models)

Claude Mythos 5

Anthropic·Proprietary·1M+

83.9

BenchAlign v5

vs #2

Claude Fable 5

Anthropic·Proprietary·1M+

83.7

BenchAlign v5

vs #3

GPT-5.6 Sol

OpenAI·Proprietary·1M

BenchAlign v5

vs #4

Claude Opus 4.8

Anthropic·Proprietary·1M

78.3

BenchAlign v5

vs #5

Muse Spark 1.1

Meta·Proprietary·1M

77.4

BenchAlign v5

vs #6

Grok 4.5

xAI·Proprietary·500K

76.7

BenchAlign v5

vs #7

GPT-5.4

OpenAI·Proprietary·1.05M

74.2

BenchAlign v5

vs #8

GPT-5.5

OpenAI·Proprietary·1M

73.5

BenchAlign v5

vs #9

Qwen3.7 Max

Alibaba·Proprietary·1M

72.8

BenchAlign v5

vs #10

GPT-5.6 Terra

OpenAI·Proprietary·1M

72.6

BenchAlign v5

vs #11

Claude Opus 4.7

Anthropic·Proprietary·1M

71.9

BenchAlign v5

vs #12

Muse Spark

Meta·Proprietary·262K

BenchAlign v5

vs #13

MiMo-V2.5-Pro

Xiaomi·Proprietary·1M

70.2

BenchAlign v5

vs #14

Claude Opus 4.6

Anthropic·Proprietary·1M

68.6

BenchAlign v5

vs #15

MiMo-V2-Pro

Xiaomi·Proprietary·1M

67.8

BenchAlign v5

vs #16

Gemini 3 Pro

Google·Proprietary·2M

67.7

BenchAlign v5

vs #17

Qwen3.7 Plus

Alibaba·Proprietary·1M

67.2

BenchAlign v5

vs #18

GPT-5.6 Luna

OpenAI·Proprietary·1M

67.2

BenchAlign v5

vs #19

GPT-5.2 Pro

OpenAI·Proprietary·400K

BenchAlign v5

vs #20

GLM-5-Turbo

Z.AI·Proprietary·200K

66.9

BenchAlign v5

vs #21

GPT-5.4 nano

OpenAI·Proprietary·400K

66.8

BenchAlign v5

vs #22

GPT-5.3 Codex

OpenAI·Proprietary·400K

66.7

BenchAlign v5

vs #23

Claude Opus 4.7 (Adaptive)

Anthropic·Proprietary·1M

66.3

BenchAlign v5

vs #24

Claude Sonnet 5

Anthropic·Proprietary·1M

65.3

BenchAlign v5

vs #25

Qwen3.6 Plus

Alibaba·Proprietary·1M

65.2

BenchAlign v5

vs #26

Grok 4.3

xAI·Proprietary·1M

65.1

BenchAlign v5

vs #27

Claude Sonnet 4.6

Anthropic·Proprietary·200K

65.1

BenchAlign v5

vs #28

Gemini 3.5 Flash

Google·Proprietary·1M

64.8

BenchAlign v5

vs #29

Claude Opus 4.5

Anthropic·Proprietary·200K

64.2

BenchAlign v5

vs #30

Claude Opus 4.6 (Adaptive)

Anthropic·Proprietary·1M

64.2

BenchAlign v5

vs #31

GPT-5.5 Pro

OpenAI·Proprietary·1M

63.7

BenchAlign v5

vs #32

GLM-5V-Turbo

Z.AI·Proprietary·200K

63.5

BenchAlign v5

vs #33

MiMo-V2-Omni

Xiaomi·Proprietary·262K

63.2

BenchAlign v5

vs #34

Gemini 3 Pro Deep Think

Google·Proprietary·2M

61.3

BenchAlign v5

vs #35

GPT-5.4 Pro

OpenAI·Proprietary·1.05M

60.9

BenchAlign v5

vs #36

Grok 4.1 Fast (Reasoning)

xAI·Proprietary·2M

60.5

BenchAlign v5

vs #37

Gemini 3 Flash

Google·Proprietary·1M

60.5

BenchAlign v5

vs #38

Grok 4

xAI·Proprietary·128K

60.4

BenchAlign v5

vs #39

Grok 4.1

xAI·Proprietary·1M

BenchAlign v5

vs #40

Qwen 3.6 Max (preview)

Alibaba·Proprietary·256K

59.7

BenchAlign v5

vs #41

MiniMax M2.5

MiniMax·Proprietary·128K

59.5

BenchAlign v5

vs #42

Kimi K2.5 (Reasoning)

Moonshot AI·Proprietary·128K

59.4

BenchAlign v5

vs #43

GPT-5.2-Codex

OpenAI·Proprietary·400K

59.1

BenchAlign v5

vs #44

GPT-5.2 Instant

OpenAI·Proprietary·128K

BenchAlign v5

vs #45

GPT-5.3 Instant

OpenAI·Proprietary·400K

58.9

BenchAlign v5

vs #46

MiMo-V2.5

Xiaomi·Proprietary·1M

58.6

BenchAlign v5

vs #47

GPT-5 (high)

OpenAI·Proprietary·128K

58.6

BenchAlign v5

vs #48

GPT-5.2

OpenAI·Proprietary·400K

58.4

BenchAlign v5

vs #49

GLM-4.5

Z.AI·Proprietary·128K

57.6

BenchAlign v5

vs #50

Claude Opus 4.5 Thinking

Anthropic·Proprietary·200K

57.4

BenchAlign v5

vs #51

Gemini 2.5 Pro

Google·Proprietary·1M

57.3

BenchAlign v5

vs #52

GPT-5.3-Codex-Spark

OpenAI·Proprietary·256K

56.9

BenchAlign v5

vs #53

GPT-5.4 mini

OpenAI·Proprietary·400K

56.8

BenchAlign v5

vs #54

Grok 4 Fast (Reasoning)

xAI·Proprietary·2M

56.6

BenchAlign v5

vs #55

Claude Haiku 4.5

Anthropic·Proprietary·200K

56.6

BenchAlign v5

vs #56

Gemini 3.1 Pro

Google·Proprietary·1M

55.3

BenchAlign v5

vs #57

GPT-5 (medium)

OpenAI·Proprietary·128K

55.2

BenchAlign v5

vs #58

Grok 4.20

xAI·Proprietary·2M

54.7

BenchAlign v5

vs #59

GPT-5.1-Codex-Max

OpenAI·Proprietary·400K

54.5

BenchAlign v5

vs #60

GPT-5.1

OpenAI·Proprietary·200K

53.7

BenchAlign v5

vs #61

Claude Sonnet 4.5

Anthropic·Proprietary·200K

53.6

BenchAlign v5

vs #62

GPT-5.1-Codex

OpenAI·Proprietary·400K

52.7

BenchAlign v5

vs #63

Mercury 2

Inception·Proprietary·128K

51.3

BenchAlign v5

vs #64

Grok 4.1 Fast

xAI·Proprietary·1M

51.3

BenchAlign v5

vs #65

GPT-4.1

OpenAI·Proprietary·1M

51.1

BenchAlign v5

vs #66

Gemini 3.1 Flash-Lite

Google·Proprietary·1M

50.8

BenchAlign v5

vs #67

Mistral Large 3

Mistral·Proprietary·128K

50.4

BenchAlign v5

vs #68

Seed 1.6

ByteDance·Proprietary·256K

50.2

BenchAlign v5

vs #69

o4-mini (high)

OpenAI·Proprietary·200K

BenchAlign v5

vs #70

Seed-2.0-Lite

ByteDance·Proprietary·256K

49.8

BenchAlign v5

vs #71

o1-preview

OpenAI·Proprietary·200K

49.1

BenchAlign v5

vs #72

Aion-2.0

Aion Labs·Proprietary·128K

48.7

BenchAlign v5

vs #73

K-Exaone

LG AI Research·Proprietary·256K

48.5

BenchAlign v5

vs #74

o3-pro

OpenAI·Proprietary·200K

48.3

BenchAlign v5

vs #75

Qwen3 Max

Alibaba·Proprietary·1M

48.2

BenchAlign v5

vs #76

OpenAI·Proprietary·200K

48.1

BenchAlign v5

vs #77

Gemini 2.5 Flash

Google·Proprietary·1M

48.1

BenchAlign v5

vs #78

OpenAI·Proprietary·200K

47.9

BenchAlign v5

vs #79

Claude 3.5 Sonnet

Anthropic·Proprietary·200K

47.7

BenchAlign v5

vs #80

GLM-4.5-Air

Z.AI·Proprietary·128K

47.7

BenchAlign v5

vs #81

Qwen3.5 Flash

Alibaba·Proprietary·1M

47.7

BenchAlign v5

vs #82

o3-mini

OpenAI·Proprietary·200K

47.4

BenchAlign v5

vs #83

Qwen3.5 Plus

Alibaba·Proprietary·1M

47.2

BenchAlign v5

vs #84

GPT-5 nano

OpenAI·Proprietary·400K

46.4

BenchAlign v5

vs #85

o1-pro

OpenAI·Proprietary·200K

45.9

BenchAlign v5

vs #86

Claude 4.1 Opus

Anthropic·Proprietary·200K

45.9

BenchAlign v5

vs #87

Z-1

Z·Proprietary·128K

45.1

BenchAlign v5

vs #88

Seed 1.6 Flash

ByteDance·Proprietary·256K

45.1

BenchAlign v5

vs #89

Moonshot v1

Moonshot AI·Proprietary·128K

44.8

BenchAlign v5

vs #90

Seed-2.0-Mini

ByteDance·Proprietary·256K

44.6

BenchAlign v5

vs #91

GPT-4.1 mini

OpenAI·Proprietary·1M

44.2

BenchAlign v5

vs #92

GPT-5 mini

OpenAI·Proprietary·128K

43.9

BenchAlign v5

vs #93

Mistral Medium 3

Mistral·Proprietary·128K

43.2

BenchAlign v5

vs #94

Claude 4 Sonnet

Anthropic·Proprietary·200K

42.8

BenchAlign v5

vs #95

GPT-4.1 nano

OpenAI·Proprietary·1M

42.1

BenchAlign v5

vs #96

Mistral Large 2

Mistral·Proprietary·128K

41.8

BenchAlign v5

vs #97

GPT-4o

OpenAI·Proprietary·128K

41.5

BenchAlign v5

vs #98

Solar Pro 2

Upstage·Proprietary·128K

41.2

BenchAlign v5

vs #99

Claude 3 Opus

Anthropic·Proprietary·200K

41.1

BenchAlign v5

vs #100

100

Grok 3 [Beta]

xAI·Proprietary·128K

40.4

BenchAlign v5

vs #101

101

Grok Code Fast 1

xAI·Proprietary·256K

38.6

BenchAlign v5

vs #102

102

GPT-4o mini

OpenAI·Proprietary·128K

37.9

BenchAlign v5

vs #103

103

Claude 4.1 Opus Thinking

Anthropic·Proprietary·200K

36.6

BenchAlign v5

vs #104

104

Gemini 1.5 Pro

Google·Proprietary·2M

35.7

BenchAlign v5

vs #105

105

GPT-4 Turbo

OpenAI·Proprietary·128K

27.4

BenchAlign v5

vs #106

106

Kimi K2

Moonshot AI·Proprietary·128K

27.2

BenchAlign v5

vs #107

107

MiniMax M1 80k

MiniMax·Proprietary·80K

25.1

BenchAlign v5

vs #108

108

Gemini 1.0 Pro

Google·Proprietary·32K

21.8

BenchAlign v5

vs #109

109

Claude 3 Haiku

Anthropic·Proprietary·200K

21.4

BenchAlign v5

vs #110

110

Nova Pro

Amazon·Proprietary·128K

20.3

BenchAlign v5

vs #111

111

LFM2-24B-A2B

LiquidAI·Proprietary·32K

18.9

BenchAlign v5

vs #112

112

LFM2.5-1.2B-Thinking

LiquidAI·Proprietary·32K

16.2

BenchAlign v5

vs #113

113

LFM2.5-1.2B-Instruct

LiquidAI·Proprietary·32K

15.5

BenchAlign v5

Key Takeaways

The top model is Claude Mythos 5 by Anthropic with a BenchAlign v5 score of 83.9 and Supported evidence.

113 models are included in this ranking.

Score in Context

What these scores mean

Models are ranked by the same overall BenchLM score used across all leaderboards. Comparing within proprietary's lineup helps identify which model fits your use case and budget.

Known limitations

This page only shows proprietary models. Cross-provider comparison requires the overall or category-specific leaderboards. Newer models may have limited benchmark coverage initially.

Explore More

Last updated: July 20, 2026

Choose a model with this week’s evidence

Join 2,000+ readers for ranking moves, pricing changes, and the claims that still need proof.

One email each week. Unsubscribe anytime.