“最聪明人工智能”Grok 3竟答不出9.11和9.9哪个大?马斯克:会快速改进
迪丽瓦拉
2025-02-19 16:38:18
0

2月18日,马斯克及其 xAI 团队在直播中正式发布了 Grok 3,此前马斯克通过持续的预热宣传,将外界对 Grok3 的期待值推向了前所未有的高度。然而,被马斯克称为“地球上最聪明人工智能”的Grok 3,似乎也翻车了。

昨日在发布会上,马斯克宣称 Grok 3 在数学、科学与编程的基准测试中超越了所有主流模型,并计划将其应用于 SpaceX 的火星任务计算,甚至预测未来三年内将实现诺贝尔奖级别的突破。

发布会后,一些媒体测试了最新的Beta版Grok 3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”

遗憾的是,号称目前最聪明的 Grok 3,仍然无法正确回答这个问题,被网友戏称为“天才不愿意回答简单问题”。

据第一财经此前报道,就此问题,记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9,考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。

在这背后,大模型数学能力较差是长期存在的问题,有行业人士认为,生成式的语言模型从设计上就更像文科生而不是理科生。不过,针对性地语料训练或许能在未来逐步提升模型的理科能力。

此外,在 xAI 发布会直播中,在分析游戏《流放之路 2》的职业与升华效果时,Grok 3 也给出了大量错误答案,并且马斯克也没有看出这些明显的错误。

马斯克在社交媒体上表示,“Grok 3版本本周每天都会快速改进”,并邀请用户反馈使用问题。

(齐鲁晚报·齐鲁壹点客户端编辑石卉 综合IT之家、第一财经、快科技等)

相关内容

热门资讯

广发基金宣布增加瑞银证券为云计... 广发基金管理有限公司近日发布公告,宣布增加瑞银证券为旗下部分ETF的一级交易商。此次新增的一级交易商...
神宇股份涨3.85%,成交额2... 5月6日,神宇股份涨3.85%,成交额2.29亿元,换手率5.11%,总市值65.05亿元。 异动分...
特斯拉一季度净利锐减71%!马... 当地时间4月22日,特斯拉首席执行官埃隆·马斯克表示,他计划在5月“大幅”减少为特朗普政府工作,以专...
湖北国资:一年收了4家上市公司... 你好,我是涛哥,专注于并购重组投资。这是涛哥的第69篇原创文章。 2024年,湖北国资收了4家上市公...
红利策略进化论:从防御盾牌到现... 当前市场对贸易摩擦的敏感度明显降低,近期各类关税消息虽然层出不穷,但A股基本走出脱敏行情,相关板块波...
原创 腾... 海内外大厂大模型研发正在进入新升级周期,为了加速补齐技术短板,腾讯混元近日进行了大幅架构调整,重构研...
紫燕食品发布2024年年报:创... 4月17日晚,上海紫燕食品股份有限公司(简称:紫燕食品,603057.SH)发布2024年年度报告。...
钧达股份通过港股IPO聆讯:光... 瑞财经 吴文婷 4月21日,海南钧达新能源科技股份有限公司(以下简称“钧达股份”)通过港交所聆讯,华...
影响市场大事件:央行副行长陆磊... 每经记者:杨建 每经编辑:肖芮冬 |2025年4月24日 星期四| NO.1央行副行长:人民币已成为...
我市加快建设水利基础设施持续增... 我市加快建设水利基础设施持续增强水利支撑能力 ■ 截至目前,全市136个项目已开工建设,累计完成投资...