如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-20 18:00:17来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架？

下一篇 : 鸿蒙电脑正式发布，今年的大一新生会不会扎堆购买鸿蒙电脑？

相关文章：

{dede:myad name='右侧广告位'/}

华为Pura 80首销遇冷，是否说明消费者已经开始对麒麟芯片性能有所觉醒？

我看截止6 ️1号的数据，华为mate70系激活数量累计超过...
2025-06-20阅读全文 >>
Rust 的设计缺陷是什么？

刚看上一个大佬回答的评论区，我认为其实Rust最核心的设计缺...
2025-06-20阅读全文 >>
新疆维吾尔自治区，经济发展的真实前景如何？

我不看好，就一个原因，地下水位，大家有兴趣可以去南疆，和田，...
2025-06-20阅读全文 >>
如果全球都停止出口粮食，中国能否自给自足？

不能，没有一丁点可能根据海关总署数据，2024年共进口小...
2025-06-20阅读全文 >>
电视剧《长安的荔枝》17-20 集拍得如何？有哪些值得关注的剧情点？

说句实话，这部剧真的是拍得拖沓，即使算不上是又臭又长，也是无...
2025-06-20阅读全文 >>

养花知识本月排行

1鱼缸氨氮含量低，但是硝酸盐和亚硝酸盐爆表，已经一个多周了，咋办？
新手养鱼，养什么鱼好？
鱼缸过滤全天开着太耗电，关掉半天又容易水浑，有什么好办法？
JetBrains 放弃 AppCode 是否是一个错误决定？
印度空难客机两个黑匣子均已找到，最新发现的为驾驶舱语音记录器，会对事故调查带来哪些帮助？
如何评价张靓颖刘宇宁《九万字》?
做引体向上可能会诱发腰肌劳损吗？
狸花猫打架是不是很厉害？
伊朗发布「霍拉姆沙赫尔-4」导弹发射画面，被认为是伊朗破坏力最强导弹，其威力有多大？
SpaceX 星舰 36 号火箭静态点火测试爆炸，爆炸的原因是什么？会对星舰发展产生什么影响？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐