Best Multimodal & Grounded AI Models in 2026

Multimodal and grounded benchmarks test whether a model can reason over visual content — images, charts, documents, screenshots, and spreadsheets — not just process plain text. This category carries a 12% weight in BenchLM.ai's overall score. MMMU-Pro tests frontier-difficulty visual reasoning, while OfficeQA Pro focuses on enterprise document workflows. For products where users upload images, share PDFs, or need models to read dashboards and data tables, scores here are a better predictor of real performance than chat-only benchmarks. Most top proprietary models are competitive; open-weight models show wider spread.

According to BenchLM.ai, GPT-5.2 Pro leads this ranking with a score of 96, followed by GPT-5.4 (95.5) and GPT-5.2 (95). The top three are separated by just a few points — any of them would perform well for this use case.

The best open-weight option is GLM-5 (Reasoning) (ranked #30 with a score of 78.5). Proprietary models hold a clear advantage in this category, though open-weight options may suffice for less demanding use cases.

This ranking is based on average scores across all multimodalGrounded benchmarks tracked by BenchLM.ai. For detailed model profiles, click any model name below. To compare two specific models head-to-head, use the "vs #" links.

GPT-5.2 Pro

OpenAIProprietary400K

avg

vs #2

GPT-5.4

OpenAIProprietary1.05M

95.5

avg

vs #3

GPT-5.2

OpenAIProprietary400K

avg

vs #4

GPT-5.3 Instant

OpenAIProprietary128K

avg

vs #5

Gemini 3.1 Pro

GoogleProprietary1M

avg

vs #6

Gemini 3 Pro Deep Think

GoogleProprietary2M

avg

vs #7

GPT-5.4 Pro

OpenAIProprietary1.05M

94.9

avg

vs #8

Claude Opus 4.6

AnthropicProprietary1M

94.6

avg

vs #9

Grok 4.1

xAIProprietary1M

93.2

avg

vs #10

GPT-5.2 Instant

OpenAIProprietary128K

93.1

avg

vs #11

Gemini 3 Pro

GoogleProprietary2M

93.1

avg

vs #12

Claude Sonnet 4.6

AnthropicProprietary200K

91.9

avg

vs #13

GPT-5.1

OpenAIProprietary200K

91.8

avg

vs #14

Claude Sonnet 4.5

AnthropicProprietary200K

91.4

avg

vs #15

GPT-5.3 Codex

OpenAIProprietary400K

91.3

avg

vs #16

Claude Opus 4.5

AnthropicProprietary200K

90.9

avg

vs #17

GPT-5 (high)

OpenAIProprietary128K

89.4

avg

vs #18

GPT-5.3-Codex-Spark

OpenAIProprietary256K

88.3

avg

vs #19

GPT-5.1-Codex-Max

OpenAIProprietary400K

88.2

avg

vs #20

GPT-5 (medium)

OpenAIProprietary128K

88.1

avg

vs #21

GPT-5.2-Codex

OpenAIProprietary400K

87.6

avg

vs #22

Grok 4.1 Fast

xAIProprietary1M

87.4

avg

vs #23

Gemini 2.5 Pro

GoogleProprietary1M

85.1

avg

vs #24

GPT-5 mini

OpenAIProprietary128K

83.8

avg

vs #25

Claude 4.1 Opus

AnthropicProprietary200K

80.7

avg

vs #26

Claude 4 Sonnet

AnthropicProprietary200K

79.7

avg

vs #27

Seed 1.6

ByteDanceProprietary256K

79.6

avg

vs #28

Seed-2.0-Lite

ByteDanceProprietary256K

79.6

avg

vs #29

Gemini 3 Flash

GoogleProprietary1M

79.6

avg

vs #30

GLM-5 (Reasoning)

Zhipu AIOpen Weight200K

78.5

avg

vs #31

Claude Haiku 4.5

AnthropicProprietary200K

78.4

avg

vs #32

Grok 4

xAIProprietary128K

78.2

avg

vs #33

MiMo-V2-Flash

XiaomiOpen Weight128K

75.8

avg

vs #34

o1-preview

OpenAIProprietary200K

75.6

avg

vs #35

Mistral Large 3

MistralProprietary128K

75.5

avg

vs #36

Claude 3.5 Sonnet

AnthropicProprietary200K

74.8

avg

vs #37

o3-mini

OpenAIProprietary200K

74.4

avg

vs #38

Kimi K2.5 (Reasoning)

Moonshot AIProprietary128K

74.3

avg

vs #39

o3-pro

OpenAIProprietary200K

74.1

avg

vs #40

Gemini 1.5 Pro

GoogleProprietary2M

74.1

avg

vs #41

GPT-4.1

OpenAIProprietary1M

73.6

avg

vs #42

Seed 1.6 Flash

ByteDanceProprietary256K

73.1

avg

vs #43

Gemini 3.1 Flash-Lite

GoogleProprietary1M

73.1

avg

vs #44

Seed-2.0-Mini

ByteDanceProprietary256K

73.1

avg

vs #45

OpenAIProprietary200K

72.3

avg

vs #46

GPT-4o

OpenAIProprietary128K

72.2

avg

vs #47

Ministral 3 14B (Reasoning)

MistralOpen Weight128K

71.5

avg

vs #48

DeepSeek V3.2 (Thinking)

DeepSeekOpen Weight128K

avg

vs #49

Qwen3.5 397B (Reasoning)

AlibabaOpen Weight128K

70.8

avg

vs #50

OpenAIProprietary200K

70.7

avg

vs #51

GLM-4.7

Zhipu AIOpen Weight200K

70.5

avg

vs #52

Ministral 3 14B

MistralOpen Weight128K

70.5

avg

vs #53

Claude 3 Opus

AnthropicProprietary200K

70.3

avg

vs #54

GPT-4.1 mini

OpenAIProprietary1M

69.6

avg

vs #55

GLM-5

Zhipu AIOpen Weight200K

69.2

avg

vs #56

Claude 3 Haiku

AnthropicProprietary200K

68.7

avg

vs #57

Qwen2.5-1M

AlibabaOpen Weight1M

68.4

avg

vs #58

Mercury 2

InceptionProprietary128K

68.3

avg

vs #59

o4-mini (high)

OpenAIProprietary200K

68.3

avg

vs #60

DeepSeekMath V2

DeepSeekOpen Weight128K

68.1

avg

vs #61

Gemini 1.0 Pro

GoogleProprietary32K

68.1

avg

vs #62

Gemini 2.5 Flash

GoogleProprietary1M

67.7

avg

vs #63

Nemotron 3 Ultra 500B

NVIDIAOpen Weight10M

66.9

avg

vs #64

Step 3.5 Flash

StepFunOpen Weight256K

66.7

avg

vs #65

Qwen2.5-72B

AlibabaOpen Weight128K

66.7

avg

vs #66

DeepSeek V3.2

DeepSeekOpen Weight128K

avg

vs #67

Aion-2.0

Aion LabsProprietary128K

avg

vs #68

Kimi K2.5

Moonshot AIOpen Weight128K

64.6

avg

vs #69

DeepSeek LLM 2.0

DeepSeekOpen Weight128K

64.5

avg

vs #70

GLM-4.7-Flash

Zhipu AIOpen Weight200K

62.5

avg

vs #71

Llama 3.1 405B

MetaOpen Weight128K

62.3

avg

vs #72

MiniMax M2.5

MiniMaxProprietary128K

avg

vs #73

Qwen3.5 397B

AlibabaOpen Weight128K

61.4

avg

vs #74

Mistral Large 2

MistralProprietary128K

avg

vs #75

Nemotron 3 Super 120B A12B

NVIDIAOpen Weight256K

60.4

avg

vs #76

Nemotron 3 Super 100B

NVIDIAOpen Weight1M

60.4

avg

vs #77

GPT-4o mini

OpenAIProprietary128K

60.2

avg

vs #78

GPT-4.1 nano

OpenAIProprietary1M

59.3

avg

vs #79

Claude 4.1 Opus Thinking

AnthropicProprietary200K

59.3

avg

vs #80

DeepSeek Coder 2.0

DeepSeekOpen Weight128K

58.6

avg

vs #81

Llama 4 Scout

MetaOpen Weight10M

57.8

avg

vs #82

Llama 4 Maverick

MetaOpen Weight1M

56.8

avg

vs #83

GPT-5 nano

OpenAIProprietary400K

56.7

avg

vs #84

GPT-4 Turbo

OpenAIProprietary128K

55.3

avg

vs #85

Llama 4 Behemoth

MetaOpen Weight32K

55.1

avg

vs #86

Moonshot v1

Moonshot AIProprietary128K

52.6

avg

vs #87

Llama 3 70B

MetaOpen Weight128K

52.3

avg

vs #88

Qwen2.5-VL-32B

AlibabaOpen Weight32K

52.2

avg

vs #89

Z-1

ZProprietary128K

50.5

avg

vs #90

Grok Code Fast 1

xAIProprietary256K

50.4

avg

vs #91

Nemotron-4 15B

NVIDIAOpen Weight32K

49.6

avg

vs #92

GPT-OSS 120B

OpenAIOpen Weight128K

48.8

avg

vs #93

o1-pro

OpenAIProprietary200K

48.5

avg

vs #94

Mistral 8x7B

MistralOpen Weight32K

48.3

avg

vs #95

DeepSeek-R1

DeepSeekOpen Weight128K

47.5

avg

vs #96

Phi-4

MicrosoftOpen Weight16K

46.8

avg

vs #97

Nemotron 3 Nano 30B

NVIDIAOpen Weight32K

45.2

avg

vs #98

Nemotron Ultra 253B

NVIDIAOpen Weight32K

44.7

avg

vs #99

Grok 3 [Beta]

xAIProprietary128K

43.2

avg

vs #100

100

Qwen3 235B 2507 (Reasoning)

AlibabaOpen Weight128K

42.1

avg

vs #101

101

Gemma 3 27B

GoogleOpen Weight32K

41.7

avg

vs #102

102

LFM2-24B-A2B

LiquidAIProprietary32K

41.7

avg

vs #103

103

Qwen3 235B 2507

AlibabaOpen Weight128K

41.6

avg

vs #104

104

DeepSeek V3.1 (Reasoning)

DeepSeekOpen Weight128K

41.5

avg

vs #105

105

Nova Pro

Nova AIProprietary128K

41.1

avg

vs #106

106

GLM-4.5

TsinghuaProprietary128K

avg

vs #107

107

GLM-4.5-Air

TsinghuaProprietary128K

39.6

avg

vs #108

108

DeepSeek V3.1

DeepSeekOpen Weight128K

39.5

avg

vs #109

109

Kimi K2

Moonshot AIProprietary128K

39.5

avg

vs #110

110

MiniMax M1 80k

MiniMaxProprietary80K

avg

vs #111

111

GPT-OSS 20B

OpenAIOpen Weight128K

avg

vs #112

112

DBRX Instruct

DatabricksOpen Weight32K

35.6

avg

vs #113

113

Mixtral 8x22B Instruct v0.1

MistralOpen Weight64K

35.5

avg

vs #114

114

Ministral 3 8B (Reasoning)

MistralOpen Weight128K

33.4

avg

vs #115

115

LFM2.5-1.2B-Thinking

LiquidAIProprietary32K

32.4

avg

vs #116

116

Ministral 3 8B

MistralOpen Weight128K

32.4

avg

vs #117

117

Mistral 7B v0.3

MistralOpen Weight32K

32.4

avg

vs #118

118

LFM2.5-1.2B-Instruct

LiquidAIProprietary32K

32.4

avg

vs #119

119

Mistral 8x7B v0.2

MistralOpen Weight32K

32.3

avg

vs #120

120

Ministral 3 3B (Reasoning)

MistralOpen Weight128K

30.4

avg

vs #121

121

Ministral 3 3B

MistralOpen Weight128K

30.4

avg

Key Takeaways

According to BenchLM.ai, the top model is GPT-5.2 Pro by OpenAI with a score of 96.
The best open-weight model in this ranking is GLM-5 (Reasoning) at position #30.
121 models are included in this ranking.

Explore More

Compare Pricing Which LLM Should I Use? Benchmark Explainers

Last updated: March 12, 2026

Weekly LLM Benchmark Digest

Get notified when new models drop, benchmark scores change, or the leaderboard shifts. One email per week.

Free. No spam. Unsubscribe anytime. We only store derived location metadata for consent routing.