图片来源:Unsplash
导语
投资人正在急切地寻找下一个百亿级估值的引爆点。如果说过去两年,有一家公司一个刺激大家神经,那无疑是Mercor,它重新定义了LLM时代的数据基础设施。
这家成立不到三年、团队平均年龄仅22岁的初创公司,在新一轮融资中,估值一举突破100亿美元,成为AI基础设施赛道最年轻的百亿美金独角兽。这个数字,是它转型前估值的五倍。
硅谷看重Mercor的,远不止一个高效的人才市场,其真正的价值,在于它大胆尝试重构了AI研发的生产关系。Mercor精准地找到了其利基市场,并将这个时代最核心、最昂贵的三种关键要素——高阶人力、专用算力与数据资产——进行了平台化的深度整合与云化交付,成功构筑了“高阶人力+算力+数据”的新型生产范式。
当 Mercor 的故事被反复讲述,硅谷已经开始寻找下一个基础设施级机会。在这条路径上,一匹“黑马”闯入了硅谷的核心生态,并正以一种几乎不被外界察觉的方式迅速崛起——Lightwheel。在 Scale AI 入局、具身数据赛道加速洗牌的当下,Lightwheel选择了最垂直、也最“重”的仿真数据源作为起点,如今却反而掌控了世界模型与具身智能领域最核心的一层数据供给。一个新的三足鼎立格局正在逐步形成:Scale、Mercor以及 Lightwheel。
如果说 Mercor 重新定义了 LLM 时代的数据平台,那么问题正在被重新抛回到硅谷投资人面前——在通往世界模型与具身智能的下一阶段里,Lightwheel能否成为下个范式革命中新的的“基础设施底座”?
1.硅谷的隐秘战场:两代数据基础设施独角兽的养成
硅谷过去十年的一个共性规律: 每一轮AI技术范式迁移,从计算机视觉(CV)到大型语言模型(LLM),最终都会在“数据层”沉淀出一次基础设施级的巨大机会。
这一轮由大语言模型驱动的技术革命,其核心竞争要素已经清晰:模型层决定能力上限,而数据层是驱动突破的核心燃料。除了模型层存在大机会,数据层同样孕育着下一个基础设施级的平台机会。关键在于,谁能规模化地解决“高质量数据从哪里来”这一根本问题,谁就能掌握通向未来的钥匙。上一轮AI范式的赢家,正是专注于此的Scale AI,它已然证明了数据基础设施的巨大价值。
Scale AI最初的突破口,在于自动驾驶领域对数据标注的刚性需求。在CV和自动驾驶爆发的初期,最大的瓶颈并非算法,而是:市场上没有足够多、足够便宜、足够标准化的标注数 没有足够多、足够便宜、足够标准化的标注数据。Scale AI的成功用“平台+标注工具+交付体系“模式,将分散的标注人力接入统一的软件平台,通过标准化工具链与网络化协作机制,将传统“数据外包”升级为可规模化、可管控的数据工业化流水线。这种模式不仅提升了数据生产的效率与一致性,更关键的是实现了质量可控的大规模交付。
之后,Scale AI迅速锁定了包括云厂商、头部自动驾驶公司以及顶尖AI实验室如OpenAI、Meta、微软在内的核心客户群,从而完成了从标注服务商到“AI训练数据基础设施平台”的关键跃迁——成为AI开发流程中不可或缺的一环。故事的结局众所周知,Meta以约148亿美元的价格收购了Scale AI 49%股份的收购。
随着LLM规模化(Scale Up)的技术演进,以及模型推理时代的到来,竞争的核心已从数据规模转向数据质量与多元性。这意味着,下一代AI基础设施的关键,在于能否规模化地解决高质量、专业化数据的持续供给问题。如果说Scale AI以工业化流程攻克了海量标准化数据的标注难题,成为上一代AI的基础设施;那么当下真正的战略高地,则在于系统化获取需要人类专业判断与领域知识的高阶数据。
这一转变,正催生出一个明确的高价值利基市场:即对高端、复杂、依赖专业智力的任务需求。而市场供给却存在显著断层——自建团队成本过高,传统外包模式又无法兼顾质量、速度与稳定性。因此,能够系统化提供高质量人工评估与反馈的能力,本身构成了一个具有高壁垒的战略性基础设施市场。
图片来源:Mercor
Mercor精准锚定了这一利基市场。凭借其在尖端人才招聘领域的深厚积累,Mercor构建了一个能够系统性汇聚全球AI研究员、领域专家与高阶自由职业者的平台网络。数据显示,Mercor如今管理着全球超过30000名合约工作者,将包括科学家、医生、律师、银行家和顾问在内的各领域专家。该平台的核心机制,在于将离散分布的专业智力,转化为可规模化调度、高质量交付的标准化服务。这使得全球最前沿的智慧,能以高效率、可扩展的方式,直接注入AI模型的训练、评估与关键对齐流程。
随之,当我们展望AI的终极应用:进入并理解物理世界,一个更深层的“上限问题”随之浮现:如果说Mercor的成功公式是“人×人力密度”,那么,理解物理世界是否需要一种根本不同的范式?这是否预示着一个更庞大的基础设施平台机会?
2.Scale AI与Mercor之后,第三代数据平台长什么样?
眼前的游戏规则已发生根本性转变。若想AI真正“像人一样理解世界”,不能再依赖对语言符号的概率预测,而必须构建一整套对物理现实进行感知、推理与模拟的新认知范式。这也决定了,多模态模型的演进,其终极目标绝非简单的“模态拼接”。它指向一个更触到本质的答案:世界模型(World Model)。新的共识已在硅谷成形:定义并构建“世界模型”,成为人工智能下一个十年的决定性主战场。
历史是范式转型的最佳注脚。过去来看,数据基础设施的演进,清晰地分为两个时代:Scale AI以工业流程解决了标准化数据的规模问题;Mercor正以平台化机制,系统化地供给高阶智力数据。两者共同构成了数据基础设施演进的上下篇章。随着世界模型时代的到来,必然将催生与之匹配的“第三代数据基础设施平台公司”。
这也自然引出了一个更具前瞻性的问题:这个即将诞生的数据平台机会,究竟长什么样子?支撑“世界模型”崛起的数据,将呈现何种前所未有的形态?
一个关键前提在于,下一代数据平台的服务对象正在发生根本性转移:它正从服务语言模型的“文本大脑”,转向服务世界模型的“认知大脑”。数据也不再只是用于训练机器对语言的理解与生成,而是开始承担起支撑机器理解物理世界、形成真实行为能力的底层燃料角色。
在这一前提之下,要定义下一代数据平台的形态,必须锚定三个核心维度:人力、技术与世界模型,并围绕它们回答三个关键问题:谁在生产数据、生产什么样的价值数据?通过什么工具,才能实现数据的规模化与自动化生产?以及,在世界模型体系中,究竟什么才是“有效数据”?
从Scale AI与Mercor的成功实践中可以看到,这类平台的轮廓已经逐渐清晰:它们正演化为一个通过标准化工具链与自动化流程,为构建世界模型持续提供规模化、结构化“物理经验燃料”的基础设施。其本质,不再是传统意义上的数据平台,而是一个 可编程、可扩展的“世界模拟练兵场”。
由此也引出了一个关键判断:为世界模型提供燃料的数据革命,已经无法再依靠传统“人力堆砌”的方式完成。与语言模型不同,物理世界的数据不是静态文本,而是包含连续动作、因果反馈、环境变化与失败结果的高维交互过程。理解这一世界所需的数据量级与复杂度,早已超出人工标注与任务外包模式的可扩展边界。真正可行的路径,只能是 “AI+高保真仿真(Simulation)”驱动的自动化生产范式——由算法不断生成、试错、验证,并在虚拟世界中完成大规模闭环迭代。
正是在这一新范式之下,一批全新的公司开始从传统数据产业之外生长出来。例如Lightwheel、MaxInsight、Xdof、Mecka,分别从仿真环境、合成数据、物理引擎、仿真到现实迁移等不同切口切入同一个核心命题:如何为世界模型源源不断地提供可规模化、可复用、可验证的“物理经验数据”。这是世界模型范式下心的新基础设施层机会。
正是在这条被资本与技术同时推高的路径上, Lightwheel 走入了硅谷的视野中心。这家公司最早并未从最热闹的数据标注或人力平台切入,而是反其道而行之,从最垂直、也最重的仿真数据源起步,并在逐步成长为世界模型与具身智能所依赖的核心“底层数据基础设施核心平台”之一。与多数仍停留在“单点工具”层面的玩家不同,Lightwheel从一开始就将目标锚定在更底层的能力构建上:不是简单替人“做数据”,而是通过仿真、AI Agents等技术体系,系统性放大人力资产的产出效率与边际价值。
如果说过去十年,Scale AI们解决的是“如何让机器更好地理解语言”,那么Lightwheel所面对的,则是一个更有挑战、也具长期价值的问题:如何成为世界模型变化演进中关键的数据基础设施平台。
3.通往下一代Mercor之路:卡位AI理解物理世界的“总开关”
世界模型的范式变化正在催生第三代基础设施数据平台机会,Lightwheel也不只是是一家“机器人数据公司”,而是——世界模型的数据供应商”。它正在关键的环节支撑大模型学会理解整个物理世界是如何运转的,这也是它与传统机器人数据公司的根本分野。
这匹“黑马”已经在在硅谷的真实研发体系中得到了验证。目前,包括英伟达、DeepMind、Figure、Hugging Face在内的一批世界模型与具身智能核心玩家,已经在其技术路径中使用Lightwheel的数据体系。比如,Lightwheel和英伟达的合作贯穿从底层技术到上层应用的全链路。在数据层面,Lightwheel为GR00T等机器人基础模型提供高质量的合成数据;在资产层面,其为Omniverse与Isaac Sim提供高保真“SimReady”仿真资产,确保虚拟环境的物理真实性与交互准确性。
图片来源:NVIDIA
此前在一场黄仁勋之女黄敏珊与Lightwheel创始人谢晨的直播中,双方观点不谋而合:“我们越来越相信,合成数据未来将占据数据总量的绝大部分。”“英伟达内部有很多项目,都需要Lightwheel的支持”,黄敏珊说道,她将电缆仿真定义为机器人学习的“圣杯”级难题,Lightwheel是英伟达解决上述问题的关键,双方正在研发电缆仿真专用求解器和仿真资产。
这是一个清晰的技术信号——在当下硅谷世界模型阵营中,Lightwheel的数据正在被反复复用,成为不同模型、不同系统共同选择的“公共底座”。它所处的位置,本质上等同于当年LLM体系中各家选择Scale AI,或全球工程网络选择Mercor的节点它被默认为“基础设施级选项”。
从数据形态上看,Lightwheel正在从仿真数据开始,扩展到第一视角(Egocentric)的人类行为数据,用于刻画人如何在真实世界中完成复杂操作、形成决策路径,后者正在成为推动模型跨越能力天花板的关键变量。据我们了解,Lightwheel构建了一个以人为中心的人体数据解决方案:Lightwheel EgoSuite,可以实现工业级的以人为中心的数据采集和结构化。
这一数据战略的精准性,正直击当前具身和世界模型数据领域的根本痛点:由于网络数据多而浅,无法承载物理细节与因果逻辑;而机器人远程操作数据又极其昂贵且难以规模化,整个领域陷入高质量训练数据匮乏的困境。Lightwheel提供的这种第一视角人类行为数据因其“本体无关的数据特性”提供了一个关键的解题思路。
“本体无关性”正是Lightwheel长期坚持并持续加注的核心战略:他们选择不绑定任何具体机器人形态,不依赖单一传感器架构,也不服务于某一家世界模型公司。其规模化效率与复用价值,是传统本体相关数据的数十倍。截至目前,Lightwheel已累计交付百万小时级别的“本体无关数据”,其中有30万小时的人类数据,是业内第一梯队水平,已经被硅谷最主要的一批大模型与世界模型厂商所采用。
更重要的是,它所对应的需求并不是一次性交付式的采购,而是来自世界模型与具身智能研发过程中的持续滚动需求:模型在迭代,仿真在升级,数据标准也在不断被刷新与扩展。在硅谷具身智能与世界模型生态中,其SimReady资产的市占率已超过 80%,并且这一比例仍处在上升通道。
基于这一通用性与复用效率,Lightwheel已从一家合成数据公司演进为同时覆盖仿真与人类行为数据的隐形冠军。其价值不再取决于卖出多少数据包,而在于是否正在成为世界模型时代的默认数据入口:这正是它有机会成为下一代Mercor的关键。
4.从数据供应商到共生中枢:Lightwheel的生态位跃迁
从生态位来看,Lightwheel已经是数据领域毋庸置疑的一匹黑马,同时它在朝着 “下一代Mercor”的形态演化。它与头部世界模型公司的关系,已经不再是单向的“供需合作”,而是在现实运行中形成了一种高度绑定的 共生结构。
在A面,Lightwheel为这些世界模型玩家持续提供高质量、高复用度的仿真数据与第一视角行为数据,充当它们构建物理认知能力的上游燃料;而在B面,Lightwheel本身又是这些客户的重要使用者——它大量采购对方的云算力、基础模型与世界模型能力,反过来放大自身的数据生产效率与仿真规模。换言之,客户既是Lightwheel的数据“消费者”,也是它能力放大的“基础设施提供者”。
在这个数据平台的构建过程中,Lightwheel自身的仿真系统、AI Agents与世界模型训练过程,又进一步形成了一个内生自强化的数据飞轮:世界模型越复杂,对仿真数据的需求就越高;仿真环境越逼真,模型对现实世界的理解就越深入;而理解能力的提升,又反过来推高了对更高阶数据与更大规模仿真的需求。
也正是在这一循环中,Lightwheel的角色不再只是“数据提供方”,而更像是被嵌入研发体系深处的“数据调度中枢”——它决定什么样的物理经验可以被快速生产,什么样的交互路径可以被反复复现,什么样的场景可以被标准化调用。一旦这种调度能力在生态中形成事实标准,数据就不再是一次性消耗品,而会转化为一种持续复用、不断增值的系统资产。
在更大的系统层面,Lightwheel与企业之间,进一步共同构成一种极为典型的“数据×模型×算力”飞轮结构:模型越强,Lightwheel的数据生产能力越强;数据越多、越好,世界模型的训练与迭代速度也越快;而模型能力的进一步进化,又会持续推高对更高阶数据与更大规模仿真的需求。这一结构使得Lightwheel不再只是产业链中的一环,而逐渐沉入到整个世界模型研发体系的底层运转结构之中。
从这个意义上看,Lightwheel所处的位置,与当年的Mercor高度相似。Mercor的成功,本质上来自一个极为明确的时代红利窗口:LLM爆发,数据需求发生结构性跃迁,高阶数据平台成为刚需基础设施。今天,Lightwheel所卡住的机会窗口从语言智能,切换到了物理AI与世界模型。如果说Mercor是LLM时代的数据平台,那么Lightwheel所瞄准的,正是世界模型时代的底层数据基础设施。
从更宏观的视角看,硅谷长期追逐的,从来不是某一家“做数据的公司”,而是:谁能够成为下一个时代的“生产力底座”。当年Mercor改写的,是 “人如何参与AI的生产过程”;而Lightwheel之所以能从数据这个激烈的赛道冲出成为“黑马”,正是基于它试图改写的,则是 “现实世界如何被大模型系统性地理解、学习与复现”。
眼下的Lightwheel正在被放到一个更宏大的赛道中被审视:即“下一代世界模型的核心基础设施”。毕竟,在我们造出真正聪明的世界模型大脑之前,需要先为它建好一所能够理解现实的“学校”。