“最聪明人工智能”Grok 3竟答不出9.11和9.9哪个大？马斯克：会快速改进_财经动态

迪丽瓦拉

2025-02-19 16:38:18

0次

2月18日，马斯克及其 xAI 团队在直播中正式发布了 Grok 3，此前马斯克通过持续的预热宣传，将外界对 Grok3 的期待值推向了前所未有的高度。然而，被马斯克称为“地球上最聪明人工智能”的Grok 3，似乎也翻车了。

昨日在发布会上，马斯克宣称 Grok 3 在数学、科学与编程的基准测试中超越了所有主流模型，并计划将其应用于 SpaceX 的火星任务计算，甚至预测未来三年内将实现诺贝尔奖级别的突破。

发布会后，一些媒体测试了最新的Beta版Grok 3，并提出了那个经典的用来刁难大模型的问题：“9.11与9.9哪个大？”

遗憾的是，号称目前最聪明的 Grok 3，仍然无法正确回答这个问题，被网友戏称为“天才不愿意回答简单问题”。

据第一财经此前报道，就此问题，记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字，认为9.11大于9.9，考虑到数字涉及的语境问题，记者将其限定为在数学语境下，如ChatGPT这样的大模型也照样答错。

在这背后，大模型数学能力较差是长期存在的问题，有行业人士认为，生成式的语言模型从设计上就更像文科生而不是理科生。不过，针对性地语料训练或许能在未来逐步提升模型的理科能力。

此外，在 xAI 发布会直播中，在分析游戏《流放之路 2》的职业与升华效果时，Grok 3 也给出了大量错误答案，并且马斯克也没有看出这些明显的错误。

马斯克在社交媒体上表示，“Grok 3版本本周每天都会快速改进”，并邀请用户反馈使用问题。

(齐鲁晚报·齐鲁壹点客户端编辑石卉综合IT之家、第一财经、快科技等）