清华学霸归国,腾讯混元再添新将
迪丽瓦拉
2026-01-31 23:09:08
0

1月29日,清华大学计算机系博士、可信机器学习与生成式模型领域的杰出青年学者庞天宇在个人社交媒体更新了自己的工作变动信息,官宣加入腾讯混元团队,担任多模态强化学习(Multimodal RL)方向的 Tech Lead,负责前沿算法探索,隶属于混元多模态部的 Exploration Center。

这个安排,释放出了AI竞赛的关键信号。

过去一年,国内大模型的竞争重点,主要集中在参数规模、推理能力、生成效果这三件事上。

而随着模型能力逐步趋同,新的瓶颈也正在浮现:

模型“会不会行动”、“能不能在环境中做决策”正在变成下一个分水岭。

从“会说”到“会做”

简单说,大模型虽然已经越来越擅长“说话”和“生成”,但距离“在真实或复杂环境中持续决策”还有很长一段路要走。

多模态强化学习,就是要打通这条路径,让模型在视觉、语言、动作等多种信号中进行联合感知,并通过反馈不断优化策略。

这项能力对腾讯来说有着极强的落地价值。无论是游戏、虚拟世界、机器人,还是未来的 AI Agent体系,都迫切需要模型能够理解环境,在现有条件下采取合适的行动。

庞天宇的研究方向,恰好踩在这个交汇点上。

为什么是庞天宇

与一些“单点爆发型”的研究者不同,庞天宇的学术路径有着丰富的基础理论 + 强工程指向的鲜明特点。

他早期深耕对抗鲁棒性、可信机器学习,这类研究并不追求短期效果,但直接关系到模型在复杂环境中的稳定性。近几年,他逐步转向生成模型、多模态理解与强化学习的结合。在 Sea AI Lab 的经历,也让他熟悉工业环境中模型落地所面临的真实约束,而不只是论文指标。

这就是为什么,腾讯并没有把他放在一个“象征性”的学术岗位,而是直接让其担任多模态 RL 的技术负责人。

腾讯的“野心”

如果把腾讯混元当前的核心技术布局拆解,会发现一个逐渐清晰的结构:

姚顺雨: 聚焦Reasoning / Agent,解决模型“如何思考、规划复杂任务”

庞天宇:聚焦 Multimodal RL,解决模型“如何感知环境并采取行动”

一个负责“想清楚”,一个负责“做出来”。

在业内,“会推理但不会交互”和“会生成但不会决策”,正在成为通用模型的共同短板,腾讯选择在这个时间点补齐两端,意味着其 AI 战略已经从单纯的模型能力追赶,转向系统能力构建。

庞天宇的加入,更像是一个技术路线上的“落子”,而不是单点补强。

当大模型进入“会行动”的阶段,腾讯追求的是率先跑通完整闭环的能力

从姚顺雨到庞天宇,腾讯正在做的,并不是简单堆人,而是逐步搭建一个从推理、到感知、到决策的完整能力栈。这条路难度极高,也未必立刻见效,但一旦跑通,壁垒同样极高。

大模型竞赛已然进入下半场。真正拉开差距的,可能不再是谁生成得“更像人”,而是谁的模型能在真实世界里“成为人”。(转载自AI普瑞斯)

相关内容

热门资讯

神宇股份涨3.85%,成交额2... 5月6日,神宇股份涨3.85%,成交额2.29亿元,换手率5.11%,总市值65.05亿元。 异动分...
广发基金宣布增加瑞银证券为云计... 广发基金管理有限公司近日发布公告,宣布增加瑞银证券为旗下部分ETF的一级交易商。此次新增的一级交易商...
湖北国资:一年收了4家上市公司... 你好,我是涛哥,专注于并购重组投资。这是涛哥的第69篇原创文章。 2024年,湖北国资收了4家上市公...
特斯拉一季度净利锐减71%!马... 当地时间4月22日,特斯拉首席执行官埃隆·马斯克表示,他计划在5月“大幅”减少为特朗普政府工作,以专...
红利策略进化论:从防御盾牌到现... 当前市场对贸易摩擦的敏感度明显降低,近期各类关税消息虽然层出不穷,但A股基本走出脱敏行情,相关板块波...
紫燕食品发布2024年年报:创... 4月17日晚,上海紫燕食品股份有限公司(简称:紫燕食品,603057.SH)发布2024年年度报告。...
原创 腾... 海内外大厂大模型研发正在进入新升级周期,为了加速补齐技术短板,腾讯混元近日进行了大幅架构调整,重构研...
钧达股份通过港股IPO聆讯:光... 瑞财经 吴文婷 4月21日,海南钧达新能源科技股份有限公司(以下简称“钧达股份”)通过港交所聆讯,华...
鲁东红:提振消费政策落到实处,... 编者按:提振消费、扩大内需是促进经济持续回升向好的关键之举。近日,中国人民大学重阳金融研究院 宏观研...
我市加快建设水利基础设施持续增... 我市加快建设水利基础设施持续增强水利支撑能力 ■ 截至目前,全市136个项目已开工建设,累计完成投资...