如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-22 06:00:14
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-28 08:05:16为什么各大品牌内存条包装都那么low?
- 2025-06-28 08:35:15同身高体重亚洲人体格比欧美人小很多?是骨架的问题吗?
- 2025-06-28 09:05:15为什么大部分人都认为2560x1440是2K?
- 2025-06-28 09:25:16为什么我觉得 AI 写代码纯属添乱?
- 2025-06-28 08:50:16有谁组装NAS时,尝试过的最低配置是什么?
- 2025-06-28 09:10:16小米 YU7 推出晕车舒缓模式,晕车发生率降低 51%,如何看待此功能?抗晕能力未来会成为汽车标配吗?
- 2025-06-28 08:30:15如果苹果真的下架了微信的话,会发生什么?
- 2025-06-28 09:10:16nodejs适合作为后端主要技术栈吗?
- 2025-06-28 08:05:16你见过身边身材最好的女生是什么样子的?
- 2025-06-28 07:50:15为什么有人嘲笑练瑜伽的女性?
推荐产品
-
为什么都认为无GC语言一定会比有GC语言要快?
我们产品一个go实现的后台,高并发大流量时cpu十分繁忙,g -
golang和rust你选择哪个?
我自觉是无法参与基础设施建设的开发者,所以对 Rust 不是 -
为什么一部分 Go 布道师的博客不更新了?
哈哈,首先我不是布道师,算是 go 语言的爱好者吧。 😄 自 -
曹玉磊冒充「清华院长」频繁参加活动遭官方打***,他为何能堂而皇之以***身份开展活动?其将受到哪些处罚?
社会上对于顶级名校的“专家教授”亲赴“野鸡场景”讲课是存在刚
新闻动态
最新资讯