京东动员数十万人采集数据,能否为具身智能“炼”出未来?

   发布时间:2026-03-19 08:01 作者:唐云泽

京东宣布建成全球规模最大、场景最全的具身智能数据采集中心,这一消息犹如投入平静湖面的巨石,在机器人赛道激起层层涟漪。在当前模型架构逐渐稳定、算力门槛相对清晰的背景下,高质量的物理交互数据成为机器人能否在各行业广泛应用的关键因素,京东此举无疑是在这场数据争夺战中投下重磅砝码。

京东发起这场数据采集“人海战”,源于其庞大且复杂的自营实体供应链。与纯软件互联网公司不同,京东本身就是一个与物理世界深度互动的庞大体系,具身智能的成熟对其未来履约成本和运营效率影响巨大。北京亦庄的机器人产业生态与京东的布局深度契合,亦庄集聚了300余家机器人相关企业,产业链规模超百亿元,开放40余个真实应用场景,京东作为扎根此地的“链主”企业,此前已发布机器人产业加速计划。此次建设数据采集中心,是在补齐产业链中缺失的数据环节,与亦庄的硬件优势形成互补,试图构建从数据到硬件的商业闭环。

这场数据采集行动规模空前,涵盖内部超10万员工、外部最多50万各行业人员,仅在宿迁就动员超10万市民。采集场景覆盖物流、工业、零售等多个领域,实际操作中可能借助京东现有的数字化管理网络,让一线员工佩戴带有视觉甚至力觉传感器的可穿戴设备作业。然而,如此大规模的人员调度面临诸多挑战。从员工角度看,他们无形中成为机器人的“数据老师”,而机器人未来可能替代部分人力劳动,因此如何设计合理的薪酬激励和利益分配机制,避免员工抵触,是京东需要解决的问题。目前,具体实施情况尚未传达至员工层面,部分京东员工表示尚未听闻此事,若有相应报酬,会视个人情况决定是否参与。

在数据合规方面,此次行动也面临考验。以快递场景为例,仓储流水线相对标准化,但快递配送涉及千家万户,零售场景包含大量消费者面部特征与隐私习惯。在数据合规要求日益严格的当下,数十万人采集的非结构化数据,其脱敏、清洗的合规成本可能极高。

具身智能发展面临诸多困境,其中数据问题是核心。1988年,机器人学家汉斯・莫拉维克指出,让计算机在智力测试或下棋中达到成人水平相对容易,但让其拥有一岁婴儿的感知和运动能力却极其困难,这一现象在当今具身智能领域主要体现在数据匮乏上。大模型的成功得益于互联网三十年积累的高质量文本语料,但物理世界缺乏这样的“现成资源”,具身智能要实现缩放定律,面临巨大的数据障碍。

目前行业获取数据的方式存在明显分化与瓶颈。多数初创公司依赖仿真环境,如英伟达的Isaac Sim或MuJoCo等物理引擎,让机器人在虚拟世界强化学习。这种方式成本低、速度快,且无需担心硬件损坏。然而,“Sim-to-Real(仿真到现实)”存在局限性,物理世界的复杂性,如线缆柔性形变、衣服非刚性拉扯等微观物理法则,目前的物理引擎难以完美模拟,导致仿真中表现完美的模型在真机上出现动作失真。因此,许多企业转向真实世界获取数据,如斯坦福的Mobile ALOHA、Figure AI、宇树、智元等头部企业,采用遥操作方式,由人类操控机器人记录数据,这是目前公认质量最高的数据获取方式。

但数据采集还存在投入产出比不符合经济效益的问题。单台全尺寸人形机器人硬件成本高昂,遥操作采集数据不仅硬件折旧费高,还需支付专业操作员人力成本。据行业测算,单条高质量复杂交互任务数据的采集和清洗成本可能高达数百美元,且失败率高,这种作坊式数据采集模式无法满足具身智能通用化所需的海量参数规模。为降低成本,谷歌等巨头发起Open X-Embodiment等开源数据集计划,国内也有企业开源百万级真机数据集。

机器人硬件本体的碎片化也给数据采集带来工程难题。不同类型、不同厂家的人形机器人,其关节自由度、电机扭矩、传感器布局和重心结构差异巨大,一台机械臂训练出的高质量抓取数据无法直接用于其他机器人,导致现有开源数据成为孤岛,难以形成规模效应。

在此背景下,具身智能赛道的商业竞争逻辑发生改变,拥有真实落地场景的企业具备持续获取廉价、高质量闭环数据的优势。特斯拉依托超级工厂,让Optimus在真实电池分拣流水线试错;京东则借助物流网络、产业工人和实体零售体系打造数据流水线,将供应链壁垒转化为数据壁垒。相比之下,没有自有场景的机器人初创公司面临困境,有的亏本向高校和科研机构兜售硬件换取数据,有的花重金租赁场地或雇佣数据服务商定制数据。京东的入局使具身智能行业进入拼资金、场景和人力调度的重资产竞争阶段,掌握真实物理世界交互入口的巨头正在构建通往AGI的网络。

面对京东计划“两年内积累超1000万小时真实场景数据”,业内人士保持冷静审视。在具身智能领域,数据的质量和模态远比时长重要。当前行业缺乏包含精确物理反馈的“状态 - 动作对”数据,宿迁市民逛超市或快递员送货产生的海量视觉数据,对训练机器人世界模型有价值,但对训练控制策略作用有限。有机器人行业人士认为,京东此举类似流程外包的BPO生意,提供人员和场地。人类物理抓取时伴随的复杂触觉、力觉和空间坐标微调,普通可穿戴设备难以捕捉,若京东人力仅贡献视频,后期转化为机器人可执行动作的损耗率将极高。另有国内头部机器人企业负责人指出,行业缺乏统一的数据集定义标准,京东采集的人类动作数据难以重定向映射到不同构型机器人本体上,若缺乏统一标准,这些数据可能仅能用于京东自研机器人,难以推动全行业发展。因此,京东首年规划特别强调“100万小时的机器人本体数据采集”,行业真正发展方向是结合人类泛化视频预训练、机器人本体高质量数据微调和强化学习自我探索。

京东建设具身智能数据采集中心,为国内企业应对机器人产业数据短缺提供了新思路,通过实体场景与大规模人力结合积累数据。但要实现机器人“智能涌现”,仅靠数据规模堆砌远远不够,还需保障数据高维度与高质量、建立统一数据标准以及妥善处理规模化采集中的隐私与合规问题,这些都是企业和行业在迈向商业化阶段必须解决的问题。

 
 
更多>同类内容
全站最新
热门内容
本栏最新