AI Model Sandwich Benchmark Rankings

Ranking snapshot

Percent Forecast Benchmark Ratings

HumanHuman

Score100.0

Crowd match100.0%

ConfidenceReference

OfficialHuman

Runs0

Costn/a

🥇 1

openai/o3

Score72.8

Crowd match90.6%

ConfidenceHigh

OfficialPending

Runs10

Cost$0.57

🥈 2

openai/gpt-5.1

Score72.1

Crowd match90.8%

ConfidenceHigh

Official#10

Runs32.3

Cost$0.57

🥉 3

anthropic/claude-opus-4.5

Score71.0

Crowd match89.5%

ConfidenceHigh

Official#26

Runs32.4

Cost$2.56

openai/gpt-5.4-pro

Score65.9

Crowd match88.0%

ConfidenceHigh

Official#12

Runs31.2

Cost$0.14

openai/gpt-5.1-codex

Score64.3

Crowd match90.3%

ConfidenceHigh

Official#4

Runs32.2

Cost$0.57

openai/gpt-4.1

Score64.2

Crowd match87.7%

ConfidenceHigh

Official#15

Runs32.4

Cost$0.82

anthropic/claude-opus-4.6

Score63.7

Crowd match87.1%

ConfidenceHigh

Official#28

Runs32.1

Cost$2.60

openai/gpt-5.1-chat

Score63.5

Crowd match89.4%

ConfidenceHigh

Official#6

Runs31.9

Cost$0.58

x-ai/grok-4

Score62.1

Crowd match88.3%

ConfidenceHigh

Official#19

Runs31.8

Cost$3.40

openai/gpt-4o

Score59.5

Crowd match87.9%

ConfidenceHigh

Official#23

Runs32

Cost$0.97

openai/o1

Score59.5

Crowd match87.4%

ConfidenceHigh

OfficialPending

Runs10

Cost$15.10

qwen/qwen3.5-122b-a10b

Score58.0

Crowd match87.6%

ConfidenceHigh

Official#5

Runs32

Cost$0.87

openai/gpt-4o-2024-11-20

Score57.4

Crowd match87.8%

ConfidenceHigh

Official#22

Runs32.3

Cost$1.00

anthropic/claude-haiku-4.5

Score56.1

Crowd match86.2%

ConfidenceHigh

Official#41

Runs32.4

Cost$0.50

anthropic/claude-sonnet-4.6

Score54.5

Crowd match86.0%

ConfidenceHigh

Official#38

Runs101

Cost$6.99

google/gemini-3.1-pro-preview

Score52.0

Crowd match85.0%

ConfidenceHigh

OfficialPending

Runs11

Cost$2.03

openrouter/healer-alpha

Score51.4

Crowd match88.3%

ConfidenceHigh

Official#2

Runs32.1

Cost$0.00

bytedance-seed/seed-2.0-mini

Score50.7

Crowd match87.2%

ConfidenceHigh

Official#20

Runs32.2

Cost$0.11

19nvidia/nemotron-nano-12b-v2-vl

Score50.6

Crowd match88.7%

ConfidenceHigh

Official#1

Runs32.4

Cost$0.27

google/gemini-3-flash-preview

Score46.2

Crowd match84.6%

ConfidenceHigh

Official#47

Runs33.9

Cost$0.33

moonshotai/kimi-k2.5

Score46.2

Crowd match85.8%

ConfidenceHigh

OfficialPending

Runs28.8

Cost$0.85

google/gemma-3-27b-it

Score42.0

Crowd match83.7%

ConfidenceHigh

Official#43

Runs32.5

Cost$0.01

openai/gpt-5.2

Score38.7

Crowd match84.7%

ConfidenceHigh

Official#21

Runs31.9

Cost$0.95

qwen/qwen3.5-27b

Score38.2

Crowd match85.3%

ConfidenceHigh

Official#7

Runs30.7

Cost$0.73

google/gemini-2.5-pro

Score34.4

Crowd match84.0%

ConfidenceHigh

Official#44

Runs44.6

Cost$4.60

perplexity/sonar-pro-search

Score32.6

Crowd match87.0%

ConfidenceHigh

OfficialPending

Runs10

Cost$2.19

mistralai/pixtral-large-2411

Score32.5

Crowd match85.1%

ConfidenceHigh

Official#25

Runs32.3

Cost$1.79

bytedance-seed/seed-2.0-lite

Score32.0

Crowd match82.6%

ConfidenceMedium

Official#31

Runs31.9

Cost$0.53

qwen/qwen3.5-plus-02-15

Score29.0

Crowd match82.9%

ConfidenceHigh

Official#24

Runs32.2

Cost$0.68

google/gemini-3.1-flash-lite-preview

Score28.4

Crowd match82.2%

ConfidenceMedium

Official#53

Runs34.1

Cost$0.16

qwen/qwen3.5-35b-a3b

Score28.2

Crowd match83.4%

ConfidenceHigh

Official#27

Runs31.1

Cost$0.42

qwen/qwen3-vl-30b-a3b-thinking

Score27.1

Crowd match84.2%

ConfidenceHigh

Official#14

Runs32.2

Cost$0.19

qwen/qwen3.5-flash-02-23

Score24.5

Crowd match81.3%

ConfidenceHigh

Official#30

Runs32.4

Cost$0.16

google/gemini-3-pro-image-preview

Score24.3

Crowd match83.7%

ConfidenceHigh

Official#33

Runs31.9

Cost$3.07

openai/gpt-4.1-mini

Score23.0

Crowd match82.1%

ConfidenceMedium

Official#32

Runs32

Cost$0.20

bytedance-seed/seed-1.6-flash

Score20.6

Crowd match82.0%

ConfidenceHigh

Official#17

Runs32.4

Cost$0.05

x-ai/grok-4.20-beta

Score20.3

Crowd match81.5%

ConfidenceMedium

Official#50

Runs31.9

Cost$0.28

qwen/qwen3.5-397b-a17b

Score19.7

Crowd match83.2%

ConfidenceMedium

Official#18

Runs31.3

Cost$1.00

z-ai/glm-4.6v

Score19.5

Crowd match81.3%

ConfidenceMedium

Official#54

Runs32.3

Cost$0.20

allenai/molmo-2-8b

Score18.1

Crowd match83.5%

ConfidenceHigh

Official#3

Runs32.5

Cost$0.09

openai/gpt-5.4

Score17.7

Crowd match81.0%

ConfidenceMedium

Official#37

Runs32.5

Cost$0.99

meta-llama/llama-4-scout

Score17.0

Crowd match79.3%

ConfidenceMedium

Official#59

Runs32.3

Cost$0.06

qwen/qwen2.5-vl-72b-instruct

Score16.1

Crowd match81.0%

ConfidenceMedium

Official#13

Runs32.4

Cost$0.32

google/gemini-3.1-flash-image-preview

Score15.3

Crowd match80.0%

ConfidenceMedium

Official#35

Runs32.3

Cost$0.14

google/gemini-2.5-flash

Score11.2

Crowd match79.1%

ConfidenceMedium

Official#45

Runs34.5

Cost$0.30

openai/gpt-4o-mini

Score11.1

Crowd match79.2%

ConfidenceMedium

Official#55

Runs32.2

Cost$1.50

mistralai/mistral-large-2512

Score10.8

Crowd match78.6%

ConfidenceMedium

Official#49

Runs32.6

Cost$0.22

qwen/qwen-2-vl-72b-instruct

Score10.4

Crowd match80.6%

ConfidenceMedium

Official#11

Runs32

Cost$0.31

bytedance-seed/seed-1.6

Score9.4

Crowd match83.2%

ConfidenceLow

Official#57

Runs32.3

Cost$0.25

x-ai/grok-4-fast

Score8.8

Crowd match84.2%

ConfidenceMedium

Official#29

Runs31.9

Cost$0.09

meta-llama/llama-4-maverick

Score6.1

Crowd match79.1%

ConfidenceMedium

Official#46

Runs32.2

Cost$0.14

x-ai/grok-4.1-fast

Score2.6

Crowd match81.4%

ConfidenceMedium

Official#42

Runs32.2

Cost$0.13

google/gemma-3-12b-it

Score0.1

Crowd match79.8%

ConfidenceMedium

Official#39

Runs31.9

Cost$0.06

minimax/minimax-01

Score-5.4

Crowd match78.3%

ConfidenceLow

Official#34

Runs31.8

Cost$0.45

qwen/qwen3-vl-235b-a22b-instruct

Score-5.6

Crowd match78.7%

ConfidenceLow

Official#58

Runs32.2

Cost$0.10

qwen/qwen2.5-vl-32b-instruct

Score-6.9

Crowd match81.5%

ConfidenceMedium

Official#16

Runs32.1

Cost$0.08

qwen/qwen3-vl-30b-a3b-instruct

Score-12.5

Crowd match77.7%

ConfidenceLow

Official#56

Runs32.4

Cost$0.05

amazon/nova-pro-v1

Score-13.5

Crowd match76.6%

ConfidenceMedium

Official#9

Runs32.5

Cost$0.63

qwen/qwen3.5-9b

Score-14.7

Crowd match78.8%

ConfidenceLow

Official#48

Runs40.9

Cost$0.06

google/gemini-2.5-flash-lite

Score-28.5

Crowd match74.5%

ConfidenceLow

Official#60

Runs34.5

Cost$0.08

amazon/nova-lite-v1

Score-36.5

Crowd match74.8%

ConfidenceLow

Official#36

Runs32

Cost$0.05

amazon/nova-2-lite-v1

Score-57.4

Crowd match71.9%

ConfidenceLow

Official#52

Runs32.5

Cost$0.17

baidu/ernie-4.5-vl-28b-a3b

Score-69.8

Crowd match69.6%

ConfidenceLow

Official#51

Runs32.3

Cost$0.06

openai/gpt-4.1-nano

Score-91.7

Crowd match70.6%

ConfidenceLow

Official#40

Runs32.3

Cost$0.07

meta-llama/llama-3.2-11b-vision-instruct

Score-178.0

Crowd match69.3%

ConfidenceLow

Official#8

Runs30.8

Cost$0.09

Rank	Model	Score	Confidence	Crowd Match	Official	Total Eval Runs	Tokens	Total Cost
Human	Human	100.0	Reference	100.0%	Human	0	0	n/a
🥇 1	openai/o3	72.8	High	90.6%	Pending	10	171,761	$0.57
🥈 2	openai/gpt-5.1	72.1	High	90.8%	#10	32.3	300,160	$0.57
🥉 3	anthropic/claude-opus-4.5	71.0	High	89.5%	#26	32.4	393,861	$2.56
4	openai/gpt-5.4-pro	65.9	High	88.0%	#12	31.2	399,519	$0.14
5	openai/gpt-5.1-codex	64.3	High	90.3%	#4	32.2	299,162	$0.57
6	openai/gpt-4.1	64.2	High	87.7%	#15	32.4	352,622	$0.82
7	anthropic/claude-opus-4.6	63.7	High	87.1%	#28	32.1	391,068	$2.60
8	openai/gpt-5.1-chat	63.5	High	89.4%	#6	31.9	297,799	$0.58
9	x-ai/grok-4	62.1	High	88.3%	#19	31.8	621,741	$3.40
10	openai/gpt-4o	59.5	High	87.9%	#23	32	342,939	$0.97
11	openai/o1	59.5	High	87.4%	Pending	10	354,187	$15.10
12	qwen/qwen3.5-122b-a10b	58.0	High	87.6%	#5	32	678,789	$0.87
13	openai/gpt-4o-2024-11-20	57.4	High	87.8%	#22	32.3	349,155	$1.00
14	anthropic/claude-haiku-4.5	56.1	High	86.2%	#41	32.4	391,593	$0.50
15	anthropic/claude-sonnet-4.6	54.5	High	86.0%	#38	101	1,767,562	$6.99
16	google/gemini-3.1-pro-preview	52.0	High	85.0%	Pending	11	362,486	$2.03
17	openrouter/healer-alpha	51.4	High	88.3%	#2	32.1	1,397,734	$0.00
18	bytedance-seed/seed-2.0-mini	50.7	High	87.2%	#20	32.2	744,033	$0.11
19	nvidia/nemotron-nano-12b-v2-vl	50.6	High	88.7%	#1	32.4	959,862	$0.27
20	google/gemini-3-flash-preview	46.2	High	84.6%	#47	33.9	536,822	$0.33
21	moonshotai/kimi-k2.5	46.2	High	85.8%	Pending	28.8	601,658	$0.85
22	google/gemma-3-27b-it	42.0	High	83.7%	#43	32.5	171,166	$0.01
23	openai/gpt-5.2	38.7	High	84.7%	#21	31.9	379,640	$0.95
24	qwen/qwen3.5-27b	38.2	High	85.3%	#7	30.7	660,238	$0.73
25	google/gemini-2.5-pro	34.4	High	84.0%	#44	44.6	1,158,206	$4.60
26	perplexity/sonar-pro-search	32.6	High	87.0%	Pending	10	24,153	$2.19
27	mistralai/pixtral-large-2411	32.5	High	85.1%	#25	32.3	859,930	$1.79
28	bytedance-seed/seed-2.0-lite	32.0	Medium	82.6%	#31	31.9	803,039	$0.53
29	qwen/qwen3.5-plus-02-15	29.0	High	82.9%	#24	32.2	683,216	$0.68
30	google/gemini-3.1-flash-lite-preview	28.4	Medium	82.2%	#53	34.1	532,366	$0.16
31	qwen/qwen3.5-35b-a3b	28.2	High	83.4%	#27	31.1	591,082	$0.42
32	qwen/qwen3-vl-30b-a3b-thinking	27.1	High	84.2%	#14	32.2	394,611	$0.19
33	qwen/qwen3.5-flash-02-23	24.5	High	81.3%	#30	32.4	630,868	$0.16
34	google/gemini-3-pro-image-preview	24.3	High	83.7%	#33	31.9	376,073	$3.07
35	openai/gpt-4.1-mini	23.0	Medium	82.1%	#32	32	479,700	$0.20
36	bytedance-seed/seed-1.6-flash	20.6	High	82.0%	#17	32.4	448,861	$0.05
37	x-ai/grok-4.20-beta	20.3	Medium	81.5%	#50	31.9	172,186	$0.28
38	qwen/qwen3.5-397b-a17b	19.7	Medium	83.2%	#18	31.3	538,278	$1.00
39	z-ai/glm-4.6v	19.5	Medium	81.3%	#54	32.3	468,574	$0.20
40	allenai/molmo-2-8b	18.1	High	83.5%	#3	32.5	475,028	$0.09
41	openai/gpt-5.4	17.7	Medium	81.0%	#37	32.5	376,950	$0.99
42	meta-llama/llama-4-scout	17.0	Medium	79.3%	#59	32.3	564,966	$0.06
43	qwen/qwen2.5-vl-72b-instruct	16.1	Medium	81.0%	#13	32.4	399,314	$0.32
44	google/gemini-3.1-flash-image-preview	15.3	Medium	80.0%	#35	32.3	168,091	$0.14
45	google/gemini-2.5-flash	11.2	Medium	79.1%	#45	34.5	788,489	$0.30
46	openai/gpt-4o-mini	11.1	Medium	79.2%	#55	32.2	10,053,142	$1.50
47	mistralai/mistral-large-2512	10.8	Medium	78.6%	#49	32.6	409,822	$0.22
48	qwen/qwen-2-vl-72b-instruct	10.4	Medium	80.6%	#11	32	390,857	$0.31
49	bytedance-seed/seed-1.6	9.4	Low	83.2%	#57	32.3	447,740	$0.25
50	x-ai/grok-4-fast	8.8	Medium	84.2%	#29	31.9	327,819	$0.09
51	meta-llama/llama-4-maverick	6.1	Medium	79.1%	#46	32.2	570,979	$0.14
52	x-ai/grok-4.1-fast	2.6	Medium	81.4%	#42	32.2	398,917	$0.13
53	google/gemma-3-12b-it	0.1	Medium	79.8%	#39	31.9	165,769	$0.06
54	minimax/minimax-01	-5.4	Low	78.3%	#34	31.8	2,217,245	$0.45
55	qwen/qwen3-vl-235b-a22b-instruct	-5.6	Low	78.7%	#58	32.2	311,617	$0.10
56	qwen/qwen2.5-vl-32b-instruct	-6.9	Medium	81.5%	#16	32.1	391,561	$0.08
57	qwen/qwen3-vl-30b-a3b-instruct	-12.5	Low	77.7%	#56	32.4	314,236	$0.05
58	amazon/nova-pro-v1	-13.5	Medium	76.6%	#9	32.5	751,156	$0.63
59	qwen/qwen3.5-9b	-14.7	Low	78.8%	#48	40.9	529,777	$0.06
60	google/gemini-2.5-flash-lite	-28.5	Low	74.5%	#60	34.5	774,167	$0.08
61	amazon/nova-lite-v1	-36.5	Low	74.8%	#36	32	731,108	$0.05
62	amazon/nova-2-lite-v1	-57.4	Low	71.9%	#52	32.5	419,711	$0.17
63	baidu/ernie-4.5-vl-28b-a3b	-69.8	Low	69.6%	#51	32.3	398,173	$0.06
64	openai/gpt-4.1-nano	-91.7	Low	70.6%	#40	32.3	710,909	$0.07
65	meta-llama/llama-3.2-11b-vision-instruct	-178.0	Low	69.3%	#8	30.8	1,920,663	$0.09

Model-by-model sandwich analytics

Percent Forecast Benchmark Ratings