Best LLMs for Reasoning in 2026

Top AI models ranked by reasoning benchmark performance including SimpleQA and MuSR.

OpenAIProprietary1M

94

avg

GoogleProprietary1M

94

avg

Claude Opus 4.6

AnthropicProprietary1M

94

avg

4

OpenAIProprietary400K

94

avg

5

xAIProprietary128K

94

avg

6

OpenAIProprietary400K

94

avg

7

OpenAIProprietary400K

94

avg

8

Gemini 3 Pro Deep Think

GoogleProprietary2M

94

avg

9

Claude Sonnet 4.6

AnthropicProprietary1M

94

avg

10

Claude Opus 4.5

AnthropicProprietary200K

94

avg

11

GoogleProprietary2M

94

avg

12

GPT-5.1-Codex-Max

OpenAIProprietary400K

93

avg

13

OpenAIProprietary400K

92

avg

14

GLM-5 (Reasoning)

Zhipu AIOpen Weight200K

91

avg

15

Claude Sonnet 4.5

AnthropicProprietary1M

90

avg

16

xAIProprietary2M

89

avg

17

OpenAIProprietary128K

88

avg

18

OpenAIProprietary200K

87

avg

19

Kimi K2.5 (Reasoning)

Moonshot AIOpen Weight128K

87

avg

20

OpenAIProprietary128K

86

avg

21

Qwen3.5 397B (Reasoning)

AlibabaOpen Weight128K

86

avg

22

OpenAIProprietary200K

85

avg

23

OpenAIProprietary128K

83

avg

24

OpenAIProprietary200K

83

avg

25

Zhipu AIOpen Weight200K

83

avg

26

xAIProprietary128K

82

avg

27

DeepSeek V3.2 (Thinking)

DeepSeekOpen Weight128K

82

avg

28

Zhipu AIOpen Weight200K

81

avg

29

AlibabaOpen Weight1M

80

avg

30

GoogleProprietary2M

80

avg

31

DeepSeekOpen Weight128K

80

avg

32

AlibabaOpen Weight128K

79

avg

33

OpenAIProprietary200K

79

avg

34

AlibabaOpen Weight128K

79

avg

35

DeepSeek Coder 2.0

DeepSeekOpen Weight128K

77

avg

36

DeepSeek LLM 2.0

DeepSeekOpen Weight128K

76

avg

37

DeepSeekMath V2

DeepSeekOpen Weight128K

76

avg

38

XiaomiOpen Weight128K

75

avg

39

Claude 4.1 Opus

AnthropicProprietary200K

73

avg

40

Moonshot AIOpen Weight128K

73

avg

41

Mistral Large 3

MistralOpen Weight128K

72

avg

42

Claude 4 Sonnet

AnthropicProprietary200K

70

avg

43

Nemotron 3 Ultra 500B

NVIDIAOpen Weight32K

70

avg

44

MiniMaxProprietary128K

69

avg

45

MetaOpen Weight128K

67

avg

46

GoogleProprietary1M

66

avg

47

Mistral Large 2

MistralProprietary128K

65

avg

48

Claude Haiku 4.5

AnthropicProprietary200K

64

avg

49

OpenAIProprietary128K

63

avg

50

MistralOpen Weight32K

62

avg

51

Claude 3.5 Sonnet

AnthropicProprietary200K

62

avg

52

Zhipu AIOpen Weight200K

62

avg

53

GoogleProprietary2M

61

avg

54

Nemotron 3 Super 100B

NVIDIAOpen Weight32K

61

avg

55

Grok Code Fast 1

xAIProprietary256K

60

avg

56

GoogleProprietary32K

59

avg

57

Gemini 3.1 Flash-Lite

GoogleProprietary1M

59

avg

58

AnthropicProprietary200K

58

avg

59

OpenAIProprietary128K

57

avg

60

MetaOpen Weight128K

55

avg

61

AnthropicProprietary200K

53

avg

62

Nemotron 3 Nano 30B

NVIDIAOpen Weight32K

53

avg

63

NVIDIAOpen Weight32K

51

avg

64

Moonshot AIProprietary128K

50

avg

65

ZProprietary128K

49

avg

66

OpenAIOpen Weight128K

48

avg

67

Gemini 2.5 Flash

GoogleProprietary1M

47

avg

68

Nemotron Ultra 253B

NVIDIAOpen Weight32K

46

avg

69

Llama 4 Behemoth

MetaOpen Weight32K

45

avg

70

MetaOpen Weight32K

44

avg

71

Llama 4 Maverick

MetaOpen Weight32K

43

avg

72

GoogleOpen Weight32K

42

avg

73

DeepSeekOpen Weight128K

41

avg

74

AlibabaOpen Weight32K

40

avg

75

xAIProprietary128K

39

avg

76

Nova AIProprietary128K

38

avg

77

Qwen3 235B 2507 (Reasoning)

AlibabaOpen Weight128K

37

avg

78

Qwen3 235B 2507

AlibabaOpen Weight128K

36

avg

79

Claude 4.1 Opus Thinking

AnthropicProprietary200K

35

avg

80

TsinghuaProprietary128K

34

avg

81

MiniMaxProprietary80K

33

avg

82

TsinghuaProprietary128K

32

avg

83

DeepSeek V3.1 (Reasoning)

DeepSeekOpen Weight128K

31

avg

84

DeepSeekOpen Weight128K

30

avg

85

Moonshot AIProprietary128K

29

avg

86

OpenAIOpen Weight128K

28

avg

87

Mistral 7B v0.3

MistralOpen Weight32K

27

avg

88

Mistral 8x7B v0.2

MistralOpen Weight32K

26

avg

Key Takeaways

The top model is GPT-5.4 by OpenAI with a score of 94.
The best open-weight model in this ranking is GLM-5 (Reasoning) at position #14.
88 models are included in this ranking.