死磕机器人大脑的北大副教授,和我们聊了聊具身领域最大的“偏见” 文|富充 编辑|苏建勋 2026年,具身智能会有怎样的分化?北京大学计算机学院副教授、 “智在无界”创始人卢宗青向我们抛出一个判断: “软硬分化。” 软,是模型大脑,硬,是机器人本体;分化,是不同的公司各有所 长,各司其职。 “智在无界”所在的北京鼎好大厦,是个被智源研究院、零一万物、 银河通用等一众明星AI机构坐拥的大楼。在这里,人工智能的非共识 ,每天都在发生。 卢宗青的观点也和具身行业发展现状大相径庭。如今,获得高估值 的具身创业公司,不论是已成为“独角兽”的智元机器人、银河通用, 还是融资势头强劲的星动纪元、星海图,都在执着地追求一件事:软 硬一体,做全栈。 尽管如此,卢宗青与他于2025年创立的“智在无界”,还是选择“逆 势”做一家模型公司,只研发机器人大脑,并不涉足硬件制造。 智能涌现独家获悉,智在无界已于近日完成天使轮,融资金额为数 千万元,由拉卡拉旗下考拉基金领投,领航新界、灵心巧手跟投,老 股东联想之星和星连资本持续加注。 “具身行业对‘纯软’这件事,有比较大的偏见,国内是这样,国外 也是,”卢宗青的态度单刀直入。他举了个例子,软硬都做的美国具 身智能创业公司Figure,比只做具身模型的Physical Intelligence 估值要高上数倍。 不过,2026开年发生在美国机器人圈的一笔大交易,为“一级市场 重新定价具身模型公司”这件事开了个好头:1月14日,机器人模型初 创企业Skild AI完成14亿美元C轮融资、估值翻了三倍后达到超 140 亿美元,成为2026年机器人行业最早诞生的千亿独角兽。 这笔交易把问题摆到台面上:如果模型公司做出不同本体、任务通 用的大脑,具身智能企业是不是没必要把整条技术栈都背在自己身上 ? 智在无界想证明的正是这一点——做跨品牌、跨形态的具身智能模型 。 目前,公司已推出灵巧手操作模型Being-H系列,可以控制双足机 器人移动和操作的模型Being-M正在研发中。最新发布的Being-H0.5 模型已能够控制30种不同机器人;因为经过推理优化,端侧部署在英 伟达Orin-NX等常用机器人小型芯片上,也可以实时跑起来。 目前,公司客户已包括PND、灵心巧手等硬件公司。PND近日与智在 无界联合发布的Adam-U Ultra机器人,就是“软硬协作”的典型故事。 接入Being-H后,PND高自由度机器人可以“开箱即用”整理桌面、分 拣扫码等通用技能;再配合智在无界的增值服务Being-Dex做少量数 据的后训练,数小时就能学会新任务。 实现上述能力的核心,在于超3万小时预训练数据——卢宗青介绍, 这已是当前全球规模最大的具身智能模型训练数据集。这背后,是一 套独特的“人类动作视频”方案。 (《智能涌现》注:此处“最大”特指用于具身智能模型预训练的数 据集。) 这套方案可以在人类正常工作生活中,通过头戴摄像头,录制第一 视角的手部动作视频,因此数据规模大、成本低,更能完整记录人类 复杂操作。相比之下,多数全栈公司依赖的“遥操作采集”模式,则因 需人工操控特定机器人,存在成本高、规模小、数据与硬件深度绑定 的局限。 图片:https://img.36krcdn.com/hsossms/20260124/v2_fa46b550 e59a4999a8b83226f5cd4aff@6227116_oswg357943oswg1080oswg606_i mg_000?x-oss-process=image/format,jpg/interlace,1 △头戴摄像头可以在不干扰操作者正常工作的情况下,录制第一视 角的手部动作视频,图片:采访人提供 2023年底,卢宗青就开始使用该数据思路做模型训练。他记得,当 时这一方案并未引起太大反响,业界还是以仿真和真机数据为主。但 2025年起,包括特斯拉Optimus在内,更多机器人公司开始采用人类 视频数据方案。 卢宗青判断,2026年行业内会有更多公司认清“软硬分化”的价值。 原因在于背后一笔经济账:纯自研一个具身模型,算上买卡、招人等 成本,年开销高达数千万甚至上亿;相比之下,外采一台机器人“大 脑”的一次性成本只需几万元。 在他看来,“软硬一体”因为布局全面而更受一级市场青睐,但现实 是技术栈太长——做模型和做硬件本就是两套能力体系,一家公司很难 两头都做深。 过去一年里,也因此出现一些“为了全栈而全栈”的公司:套壳VLA 、做出看似能干活的Demo,拿到了融资,却无法在真实场景里落地赚 钱,或因模型套壳被曝光而遭到技术能力的质疑。这促使更多创业者 开始审视全栈路线的难度与性价比。 “我不想把资源分散在不擅长的硬件上。”卢宗青说,技术还没收敛 ,探索更要保持轻量,这也是他选择死磕“大脑”的原因。 图片:https://img.36krcdn.com/hsossms/20260124/v2_42174ca1 01ac4920aa5ca9a2d8b76347@6227116_oswg66270oswg1080oswg720_im g_jpeg?x-oss-process=image/quality,q_100/format,jpg/interlac e,1 △卢宗青,图片:采访人提供 以下为《智能涌现》与卢宗青的访谈,内容经作者整理: 具身模型与本体,分工将会更明确 智能涌现:国内头部具身企业还是以“软硬一体”为主,智在无界只 做模型,会在融资时遇到困难吗?你怎么看这个情况? 卢宗青:智在无界正式开始运营是在2025年5月,当时纯模型的路 线想要融资还是不容易的。其实美国市场的情况也类似,软硬都做的 Figure会比只做具身模型的Physical Intelligence估值要高。 (作者注:2025年9月,Figure估值约为390亿美元;2025年11月, Physical Intelligence估值约为56亿美元。) 我认为原因是,具身是一个全新的行业,最初大家也不知道未来的 产业链的形式会是怎样的,所以早期投资人更愿意把钱投给什么都做 的企业。 但估值只是暂时的,它从本质上不代表公司的业务会做好。我想要 做的是OpenAI那样的企业,一开始更偏向科研,能第一个做出“ChatG PT”,然后开展商业。 智能涌现:怎么才算“公司业务做好”?或者说,一个好的具身大脑 模型,核心解决什么问题? 卢宗青:我认为是通过预训练模型,为机器人赋予一种基础的“运 动与操作基因”。 人虽然不像马、鹿等动物,一生下来就有很强的运动水平,但人类 的基因赋予了我们较好的运动能力,通过后天的训练可以激发出来。 机器人也是一样,预训练模型相当于赋予了机器人“开箱即用”的初步 运动能力。 智在无界也会基于具体任务,到不同的机器人本体上做后训练,如 果预训练的大脑模型能力强,那后训练加部署的环节里,大概30分钟 就能让机器人学会一个新任务。 智能涌现:但估值高会带来更多资金的储备,所以可以做更多技术 上的探索,这在技术没收敛的阶段能否加大“做好模型业务”的概率? 卢宗青:但估值高了也会有恶性循环,企业可能会去尝试各种技术 和商业化的路线。投了各种各样的钱,但没做出成果。至少,估值和 业务成败不是绝对的关系。 智能涌现:所以现在能感受到一级市场的变化吗?你认为原因是什 么? 卢宗青:现在可以看到具身模型公司的估值越来越贵了。 原因是,从业务层面来看,现在很多机器人本体公司会来找我们合 作。大家算过“自研模型能不能赚钱”这笔账之后,逐渐意识到,具身 智能本体公司做不做模型本质上是个商业行为。我认为行业会越来越 走向软硬分化的形态。 智能涌现:从算账的角度来看,训一个好的具身模型,一年要花几 千万至一亿元? 卢宗青:对。一个模型大概需要10个人,年薪就要2000万元。算力 也很贵,如果是100台机器,每台机器8张卡,用A800的卡,每个月需 要大概300万元;如果H200的卡,每个月的成本就要900万元了(包括 存储)。 这还没有算数据和其他的成本。现在最便宜的第一视角视频数据, 大概是几十元一小时;动捕数据大概在几百元一小时。 智能涌现:智在无界现在的付费模式是什么,为什么说比企业自研 要便宜?一个硬件厂商,会不会担心软硬分化以后,自己因为没有软 的能力,而被模型公司“坐地起价”? 卢宗青:现在收费是一台机器人,部署要花一笔一次性的License 费用,在几万-十万元,对于出货量不多的公司来说还是小于自研成 本的,此外我们还有根据数据量收费的后训练服务Being-Dex。 当本体企业出货量达到一定程度的时候,可以有类似Saas年包的付 费方式。到时候,模型公司也会有多家,大家有竞争,本体厂商就不 怕某一家“坐地起价”。 智能涌现:如果技术收敛了,不再用花那么多的成本搞研发了,本 体公司会不会自己就把模型的业务做了,这样会对纯模型公司的生意 造成威胁吗? 卢宗青:如果真到了技术收敛、一个通用模型能做很多事情的阶段 ,机器人会进入家庭。那时我反而认为模型公司的市场会更大,甚至 可以做 To C。 届时可能会出现像微软那样的大软件公司;也可能像华为那样同时 具备软硬产品。到了那个阶段,我们也可能通过 OEM去做真正的机器 人产品。 图片:https://img.36krcdn.com/hsossms/20260124/v2_993c5485 aa264a0aa9b359d7bb9a0a3f@6227116_img_000?x-oss-process=image /format,jpg/interlace,1 △Being-H模型控制的PND机器人正在给快递扫码,图片:采访人提 供 2027年,100万小时数据量涌现模型能力质变 智能涌现:你此前一直从事的是计算机领域的研究,怎么开始和具 身智能交叉的? 卢宗青:2023年,我通过多模态大语言模型去玩开放世界游戏《荒 野大镖客2》,但发现模型的任务理解和动作完成能都十分有限。我 当时意识到,模型交互能力弱,根本瓶颈在于缺乏对视觉和空间的理 解,要提升这一点,与真实世界的交互数据必不可少。 这成为我最初投入具身智能模型研究的契机。 智能涌现:你说智在无界正式创立后不久,就利用2025年暑假去好 几家工厂调研具身智能落地情况。发现了行业怎样的问题或者现状吗 ? 卢宗青:印证了之前的判断,就是现阶段的具身智能远远没到可以 落地真干活的水平,核心卡点在泛化性。 比如,束线整理、精密组装这类动作非标且复杂的工序上,具身智 能“独立自主完成工作”的能力仍然有限。行业对外讲的“工业场景落 地”,大部分还停留在演示或短周期的POC(概念验证)里。 智能涌现:原因是什么? 卢宗青:原因一部分在硬件,缺稳定好用的高自由度灵巧手;灵巧 手也缺触觉,这意味着接触点等等重要的力反馈信息是缺失的。 另一部分原因在模型,过去业内更多用二指夹爪,行业还没研发出 真正能干活的灵巧手模型。 智能涌现:你早于业界共识提出采用人的视频做预训练数据。智在 无界发布的第一个模型时,业内反馈如何? 卢宗青:2025年七八月份,我们做出了第一个灵巧手模型 Being-H 0,业内反馈还不错。英伟达总部也专门派人过来,了解这个模型在 算力方面的细节。 当时大家普遍觉得这是个新思路,那时候业内主要还是在用以机器 人为主体采集的数据。我们是第一个采用大规模人类视频数据做模型 预训练的,Being-H0用了大约100万条第一人称视角下、人手操作的 视频。 智能涌现:你从2023年底开始用人类视频数据的技术路线训练具身 模型,行业去年也是紧锣密鼓地迭代各种技术方案,但为什么至今还 是没做出一个泛化性好、真能干活的具身模型? 卢宗青:我们在具身模型的训练上花了大约两年时间。过去的问题 中,最本质的有两点,一是在于数据不够多;二是模型训练还缺乏很 好的范式。 智能涌现:具身智能要具备泛化能力,多大量级的数据才够? 卢宗青:我们目前积累的数据在四五万小时左右,包含第一人称视 频和一部分机器人真机数据。 我认为,数据规模可能需要达到100万小时量级,才更有可能让机 器人能够快速学会复杂的新任务,具备真正的泛化能力,从而在产线 上实际用起来。这个量级大概在2027年可以达到。 另外,数据来源不能只局限于单一或少数场景。我们收集数据时, 会注重多样性,不同场景、不同任务的数据都在持续积累。 智能涌现:之前做了一两年,才积累了四五万小时的视频,如何在 2027年就把量堆到100万小时? 卢宗青:过去视频量级一直只有四五万小时,原因是当时技术路线 还没转到“人的视频”,所以很少有人系统地做这件事。 我们早期的数据一部分来自互联网,比如用GoPro拍的第一视角; 也有我们自己采集的,包括第一人称视频,以及用动捕设备捕捉的动 作数据。 现在行业对视频训练数据的需求起来了,最近也出现了不少专门生 产视频数据的创业公司。我们这边还有合作工厂提供数据,比如工人 头戴摄像头工作时拍摄的手部数据。 智能涌现:你说,从方法论来看,训练的大框架其实都差不多,真 正的差异在细节和工程上,智在无界是怎么做的? 卢宗青:智在无界在“预训练-后训练”双层框架中,先在预训练阶 段通过大量人类视频让模型模仿人类,理解视觉、文本,输出人类动 作。 在后训练阶段,将预训练中基于二维画面学到的信息,与物理空间 对齐,转成可以在物理世界中驱动机器人的控制信号,适配不同本体 。 在这些环节中,我们做了一些细节的工程工作。比如,数据处理上 ,我们建立了一套自动化的数据处理工作流,整个过程基本无需人工 干预。系统会自动爬取网络上的视频,调用模型标注视频动作的文字 描述,再将视频中有用的片段截取出来。另外,我们还通过给视频中 的关节进行标注,让不同来源、不同角度、不同清晰度的视频里的二 维动作画面,都能统一进同一个3D空间里,最终整理成可直接用于训 练的“视频-文字描述-动作”数据对。 后训练阶段,我们会更积极地探索多模态的融合,比如加入触觉带 来的力反馈,补充模型学习需要的重要信息。 智能涌现:除了灵巧手大模型,听说智在无界即将发布一个适用于 双足人形全身的大模型,这个可以先大概介绍一下吗? 卢宗青:这是我们做的多模态移动操作模型,Being-M 系列。它的 数据会复杂一些,同一个动作,既包括第一和第三人称视频,也包括 动捕数据,它们是对齐的。 我们在预训练阶段,先用模型把第三人称视频中人的姿态提取出来 ,再给这个动作配上文本标注。目前我们用大约1500万个“文本 + 动 作”配对训练它,再配合人的第一视角视频,相当于把视觉模态也加 进来。 举例来说,像“走路绕过面前障碍物”这种动作,我们既有全身动作 和文字描述,也有人眼睛看到的第一视角视觉数据。把这些加在一起 ,就可以生成对应的动作序列;再用我们的动作跟随模型 Being-W, 控制机器人去跟随刚才模型生成的动作序列。 图片:https://img.36krcdn.com/hsossms/20260124/v2_3e9470c9 7a174517bcc2da1bb92ddedc@6227116_oswg816187oswg1080oswg608_i mg_000?x-oss-process=image/format,jpg/interlace,1 △Being-H模型控制的机器人正在将不同形状的零件进行分拣归纳, 图片:采访人提供 套壳做Demo挺常见,但解决不了实际问题 智能涌现:所以我们现在距离理想中能独立工作、能泛化的具身模 型还有多远? 卢宗青:我要是能判断还有多远就好了(笑)。但我们在2026年1 月推出的Being-H0.5灵巧手模型,会比半年前推出的Being-H0在泛化 性以及跨本体性能上有非常高的提升。 智能涌现:那你认为模型能力产生质变,是会突然涌现还是循序渐 进的过程? 卢宗青:不会是循序渐进的。可能会基于方法上的变化,或者是模 型层面的变化。但从科研角度来看的话,不会是一成不变坚持做(现 在的方法)就能做出来的。 智能涌现:新发布的Being-H0.5模型,表现如何? 卢宗青:Being-H0.5的预训练除了包含大量视频数据,也采用了来 自30种不同构型本体的真机数据,实现了跨本体的大规模数据融合。 模型训练完成后,可以同时部署5个不同本体。其中让我觉得惊艳 的瞬间是,用宇树 G1 采集的快递扫码分拣任务数据训出来的模型, 首次上机就能直接让PND的Adam-U成功执行同一个任务。 而且Being-H 0.5具备很高的端侧部署速度,在常见的小型算力板O rin-NX上,能达到模型动作生成与机器人运动实时进行。 智能涌现:泛化性这件事如何评定?具身模型现在有比较公认的Be nchmark吗? 卢宗青:其实我们说的就是任务的成功率。现在业内有一些Benchm ark,比如LIBERO、RoboCasa,不过具身的Benchmark还在迭代。 智能涌现:叫Being-H 0.5会和PI 0.5有关吗? 卢宗青:无关,只是我们认为现在模型能力还在0.5的阶段。 市面上确实有一些号称自研模型的公司,其实是套壳PI 0.5的具身 模型,只是在后训练时加了一些数据而已。但我们不是。我们除了VL 基座模型,剩下都是自己训的。 智能涌现:现实很骨感,看Demo却让很多人误以为机器人已经可以 做很多事了,听说Demo的拍摄也有很多“技巧”? 卢宗青:Demo的坑还是挺多的。比如没有特殊说明自主操作的情况 下,有些Demo里的任务可能是遥操控制的。 智能涌现:所以其实落地在工厂里真干活还是不容易的? 卢宗青:对,如果眼下就能落地干活,其实就不会建那么多数采工 厂,收集那么大量的数据做训练了。 智能涌现:最后讨论一下当下的热点方向“世界模型”吧。很多人认 为这个技术会在2026年解决具身泛化性的题,你似乎有不同看法 ? 卢宗青:我对“世界模型”这个说法一直比较谨慎,现在世界模型的 定义很混乱。 如果它只是用来在训练过程中提供一些合成数据、生成训练数据, 这当然可以,最多就是做一个“数据生成器”。 但如果最后讲的故事,是把它部署到机器人上直接控制操作,那就 会变得极其复杂、极其消耗算力。因为它需要把机器人每一步Action 都考虑进去,生成一条轨迹,还要预测大量可能发生的情况。 用它来控制机器人还是非常有难度的。