(文/李哲)2025年12月2日至7日,第三十九届神经信息处理系统大会(Conference on Neural Information Processing Systems,简称NeurIPS 2025)在圣地亚哥和墨西哥城同步举行。
作为机器学习与人工智能领域的顶级会议,NeurIPS 2025主赛道共收到21,575篇有效投稿,最终录用5,290篇,录用率为24.52%。被录用的论文根据原创性、技术质量、潜在影响力及写作清晰度等标准,分为口头报告(Oral)、亮点报告(Spotlight)与海报展示(Poster)三类。

图为王涵(右一)在NeurIPS 2025圣地亚哥会场展示其论文成果
软件工程师王涵参与完成的论文《PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning》成功入选主会,并以海报形式在圣地亚哥的线下会场展示。这篇论文的入选,不仅印证了她在多模态机器人感知领域的技术贡献,更展示了她将计算机图形学与3D感知经验转化为智能决策能力的综合实力。
核心突破:PointMapPolicy提升机器人对3D环境的多模态理解能力
在机器人模仿学习领域,3D点云数据作为关键感知输入,其结构化处理与多模态融合一直是技术痛点。传统方法往往难以兼顾点云几何信息的完整性与处理效率,导致机器人在复杂场景下的决策精度不足、泛化能力有限。
王涵与团队提出的PointMapPolicy框架,创新性地实现了3D几何信息与高效2D视觉架构的深度融合,为多模态模仿学习提供了一种兼具性能与实用性的新方法。该研究聚焦结构化点云处理核心技术,通过优化特征编码与模态融合机制,让机器人能更精准地解析环境空间结构,结合视觉、语言等多模态信息完成复杂任务。
实验表明,该方法在CALVIN(Composing Actions from Language and Vision,语言引导长时序操作基准)和RoboCasa(Large-Scale Dataset for Household Task Learning in Simulation,面向家庭场景的大规模仿真数据集)等主流具身智能评测基准上,PointMapPolicy在零样本泛化设置下,达到与当前最优方法相当的性能。此外,研究团队还在真实Franka Panda机械臂上验证了从仿真到现实的迁移能力。该方法通过高效融合完整3D几何与视觉语义信息,弥补了现有模仿学习在精细空间感知方面的不足。其技术路径为服务机器人等需要高保真环境理解的场景提供了新的可能性。
系统性探索:X-IL框架赋能模仿学习策略设计空间研究
PointMapPolicy的技术突破并非孤立事件,王涵还作为重要贡献者参与了另一项研究《X-IL: Exploring the Design Space of Imitation Learning Policies》。该论文已成功入选国际学习表征大会2025(International Conference on Learning Representations,简称ICLR)下属机器人学习研讨会(Workshop on Robot Learning,简称WRL),并从入选论文中脱颖而出,进一步获选为口头报告(Oral Presentation)。该研究提出高度模块化的开源框架,为系统探索模仿学习策略的设计空间提供了高效工具,其核心价值与技术创新性获得领域同行的广泛认可。
值得关注的是,ICLR与NeurIPS、ICML并称为机器学习与深度学习领域的三大顶级会议,以开放评审机制和对表征学习的深度聚焦闻名业界。而WRL作为ICLR的核心附属研讨会,汇聚了全球机器人学习领域的顶尖研究者,是交流前沿方法、分享系统性实证研究的重要平台。论文入选并获口头报告资格,在印证研究实用价值的同时,也从侧面反映了王涵在专业领域的深厚积淀。
技术赋能:从产业实践到学术的持续跨越
无论是入选NeurIPS主会的PointMapPolicy,还是在ICLR机器人学习研讨会展示的X-IL,这些学术成果的底层逻辑都扎根于王涵多年的实操积累。在Snap Inc.任职期间,她参与AR内容引擎Lens Studio的图形与物理仿真工具链开发,积累了面向实时交互的3D系统构建经验;在滴滴美国研究院(DiDi Research America, LLC),她主导高保真LiDAR仿真系统与3D资产库建设,深入掌握传感器建模、点云生成与仿真-感知闭环优化;加入Meta Platforms, Inc.(前身为Facebook公司)后,她在Codec Avatars项目中推动高保真虚拟人的端侧重建与解耦表征学习,进一步锤炼多模态3D表示与高效推理能力。
这些横跨AR、自动驾驶与元宇宙的工程实践,共同塑造了她对高保真3D感知、结构化几何表示与跨模态融合的系统性理解。这些经验为PointMapPolicy中点云结构化表示与多模态融合的设计提供了直接支撑。这种从真实场景出发的问题定义方式,使得其研究成果(如PointMapPolicy)在CALVIN、RoboCasa及真实Franka Panda机械臂上均展现出良好的泛化性能与迁移能力。
结语:融合产业经验与学术探索,持续推动机器人感知技术创新
从打造AR交互工具、构建自动驾驶仿真系统,再到攻关元宇宙虚拟人技术,王涵凭借对多模态智能与机器人感知领域的持续深耕,走出了一条兼具技术深度与实用价值的成长之路。此次《PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning》入选NeurIPS 2025,不仅是对她个人创新能力的高度认可,也印证了她在交叉技术领域的国际认可度。
未来,她将继续聚焦3D结构化感知、多模态融合与智能体决策系统的交叉研究,推动相关技术在家庭服务机器人等实际场景中的可靠部署。我们有理由期待,这种扎根于实操、前瞻于学术的探索,将为具身智能的未来发展注入更多务实的创新动力。