Decision workspace

Compare AI Models

Pick two models to compare head-to-head across 107 benchmarks.

Step 1: Pick Model AStep 2: Pick Model B

Popular Comparisons

GPT-5.6 SolvsClaude Sonnet 5

81.96 vs 65.32

Kimi K3vsGPT-5.6 Sol

80.96 vs 81.96

GPT-5.6 SolvsClaude Opus 4.8

81.96 vs 78.34

GPT-5.6 TerravsGemini 3.5 Flash

72.57 vs 64.75

GPT-5.6 LunavsGemini 3.5 Flash

67.17 vs 64.75

Claude Sonnet 5vsClaude Opus 4.8

65.32 vs 78.34

Claude Opus 4.8vsGPT-5.5

78.34 vs 73.51

Claude Opus 4.8vsClaude Opus 4.7 (Adaptive)

78.34 vs 66.27

Gemini 3.5 FlashvsGPT-5.5

64.75 vs 73.51

Gemini 3.5 FlashvsClaude Opus 4.7

64.75 vs 71.94

Gemini 3.5 FlashvsGemini 3.1 Pro

64.75 vs 55.3

GPT-5.5vsClaude Opus 4.7

73.51 vs 71.94

GPT-5.5vsClaude Opus 4.7 (Adaptive)

73.51 vs 66.27

GPT-5.5vsClaude Fable 5

73.51 vs 83.68

GPT-5.5vsClaude Mythos 5

73.51 vs 83.93

GPT-5.5vsGemini 3.1 Pro

73.51 vs 55.3

GPT-5.5vsGemini 3.1 Flash-Lite

73.51 vs 50.83

GPT-5.5vsGLM-5.2

73.51 vs 63.96

GPT-5.5vsGLM-5.1

73.51 vs 67.74

GPT-5.5vsKimi K2.7 Code

73.51 vs 55

GPT-5.5 ProvsClaude Opus 4.7

63.69 vs 71.94

Claude Opus 4.7vsGemini 3.1 Pro

71.94 vs 55.3

GLM-5 (Reasoning)vsGPT-5.5

59.77 vs 73.51

GLM-5.2vsKimi K2.7 Code

63.96 vs 55

GLM-5.1vsKimi K2.7 Code

67.74 vs 55

Ling 2.6 FlashvsKimi K2.7 Code

43.87 vs 55

Ling 2.6 FlashvsGPT-5.5

43.87 vs 73.51

Ling 2.6 FlashvsGLM-5.1

43.87 vs 67.74

Ling 2.6 FlashvsClaude Opus 4.7

43.87 vs 71.94

Qwen3.6-27BvsQwen3.6-35B-A3B

53.82 vs 51.47

Qwen3.6-27BvsQwen3.5-27B

53.82 vs 60.7

Qwen3.6-27BvsGemma 4 31B

53.82 vs 61.08

Claude Mythos 5vsGPT-5.5 Pro

83.93 vs 63.69

Claude Mythos 5vsClaude Opus 4.7

83.93 vs 71.94

Claude Fable 5vsClaude Opus 4.8

83.68 vs 78.34

Claude 3.5 SonnetvsGrok 4

47.74 vs 60.42

GPT-4ovsGrok 4.1

41.49 vs 59.97

Gemini 2.5 Provso3

57.25 vs 47.89

Kimi K2.7 CodevsKimi K2.6

55 vs 56.79

Claude Opus 4.7vsGrok 4.20

71.94 vs 54.68

41.49 vs 60.42

Claude 4.1 Opus ThinkingvsGrok 4

36.55 vs 60.42

Claude Opus 4.7vsGrok 4.1 Fast

71.94 vs 51.25

Gemini 3.1 ProvsGrok 3 [Beta]

55.3 vs 40.43

Claude 4 SonnetvsGrok 4

42.79 vs 60.42

Claude Opus 4.7vsGPT-4o

71.94 vs 41.49