大模型+Machine=更高级的Robot来了｜蓝驰机器人系列沙龙

2023-06-29 09:00 星期四

AI+machine=Robot，当AI产生进步，机器人的进阶就是必然结果。

在机器人的上一轮创新周期中，AI算法的提升带来了机器人自主移动能力的跃升，终结了依靠轨道、二维码等标志物移动的局面。现在，大模型又会为机器人开启怎样的创新周期？
近日，蓝驰创投机器人系列沙龙上新第二期，本期邀请到了来自科研前线的哈尔滨工业大学（深圳）副教授、广东季华省重点实验室双聘研究员王宏博士，中国科学院自动化研究所研究员、博士生导师王鹏博士，新加坡科技研究局研究科学家、新加坡南洋理工大学讲师许悦聪博士，及来自产业前线的高仙机器人CTO秦宝星、蓝芯科技视觉技术研发VP郑卫军。蓝驰创投合伙人曹巍与他们探讨了四个务实的关键问题：大模型能在哪些维度改变机器人；其落地需要解决哪些问题；不同场景适用的模型是什么；数据的获取和处理。我们提炼了不超过3000字的精华内容，希望能对创业者们有所帮助——

01 大语言模型怎么改变机器人

| 王宏

机器人本身是非常综合的技术，它区别于其他机械设备最大的特点体现在智能上。如果智能上没有明显突破，那跟一般的自动化设备没什么本质区别。智能主要有两大应用：对任务的理解、对环境的感知。目前机器人能够实现的无非是在轨迹上走，碰上障碍物停下来避障。只有在任务语言理解上有突破，机器人才算得上真正的智能机器，才能够代替人在自动化工作上有更大的应用场景。

机器人自动编程原先有几个方法，一种是借助视觉，利用三维模型自动生成机器人的工作轨迹；还有一种是借助自然语言，由机器人去理解生成相应的机器人工作轨迹的编程语言。但是这几种方式探索的路径其实都很有限。

| 许悦聪

以往的CNN、RNN是通过不断堆叠网络，而Transformer可以一步到位做全局特征提取，这种全局特征适用于自然语言，也适用于CV，包括一些传感器，尤其是激光雷达这种带有一定语义信息的传感器。

| 秦宝星

大模型的潜力主要在两个方面：一、以前语言、语义和图像是分开的，缺乏串联。有了大模型以后，空间里不同状态的东西可以通过大模型连接到一起。二、泛化能力，过去针对不同任务倾向于用不同模型、不同数据训练。但是大模型可以用通用模型或者是通用底层能力，以zero shot或one shot的方式来解决。

高仙机器人目前更多是分门别类地穷举来解决场景理解问题。但是清洁机器人在一个相对开放的人机共融的场景里会遇上非常多长尾问题，比如地面材质、垃圾类型的不同。大模型可以为以有限的问题集合去解决无限的问题集合提供解决方案，未来可能会有更多机器自动生成的动作逻辑来解决问题。

模型在环境感知、场景理解上的能力对于机器人易用性的作用可以通过汽车行业略作说明。汽车行业现在有两个路线：Map light approach和Map heavy approach。Map light approach能够在不依赖地图覆盖度的情况下保持乘用车自动驾驶功能。环境会发生变化，因此地图源对地图元素预先标注的依赖是越低越好的，同时做地图元素标注需要大量人工成本。所以如果要去提升用户体验、降低对用户专业技能的要求，保证机器人长期稳定运行，对环境方面的语义理解是必须的。

| 郑卫军

现在绝大部分工业机器人都靠机器人厂家培训出来的专家部署，只有很少客户自身能完成部署。如果机器人自身的理解能力能增强，并且可以达到同样的可靠性，这就是很大的一个想象空间。

02 待解决的问题

| 王宏

如果要把大模型应用到机器人上，最大障碍可能是轻量化部署问题。模型需要解决在每个终端应用的平台计算能力还有能耗。现在头部企业做大模型训练都得是在夜深人静的时候，把服务器资源让出来给模型训练用。

| 王鹏

机器人不像做互联网，可以通过云端直接访问。它的应用具有一定实时性，如何把边缘计算和云端结合，可能需要对复杂任务进行拆解，有些放在云端处理，实时性要求比较高的在边缘侧处理。

还有数据获取问题。如何去获取并真实运用跟移动、操作有关的数据？现在有很多不同的物理引擎可以通过虚拟环境去获取，但实际上机器人领域能获取的数据量还是非常小。

机器人毕竟需要有实体跟环境交互，真正把模型用在机器人上不光需要构建语言模型，还要能结合机器人所在的环境、机器人本身的结构和硬件约束、任务特点选择较优解。

机器人与互联网最大的不同是机器人有实体，所以对结果精准性、安全性的要求非常高。ChatGPT有时候是有逻辑地胡说八道，如果把机器人的决策能力、规划能力、感知能力交给它，可能会带来一些问题。所以大模型在机器人领域的应用可能需要分层，比如顶层的用大模型去做，涉及到跟执行跟动作、和环境交互比较多的可能还需要去细化，用一些可靠的手段、甚至是非学习的手段去解决。

| 许悦聪

关于一本正经地胡说八道，也可以参考无人驾驶的经验来解决。无人驾驶最开始用深度学习来指导路径规划和决策。用传统的模型方法或者基于深度学习生成很多决策或轨迹的candidate，再通过人类编写的打分机制或仲裁器进行可靠结果的判断。只要有鉴别能力，就不怕它不靠谱。

03 大模型VS小模型

| 王鹏

大模型是相对的，结合具体任务、应用场景、机器人特点，可以把大模型本地化成一个小模型，方便部署和应用，不一定非要上来就追求模型的规模，或者它能覆盖的环境、任务对象等，只要能够解决问题就可以。对创业公司来说，还是要结合行业本身的数据积累。如果没有足够的数据积累，性能是做不到极致的。

| 秦宝星

必须要强调一点，大模型在感知领域不是最优解。公开数据到底有多少是能够被用于日常训练或者日常构建模型的，这是非常重要的问题。机器人感知所需要的数据远少于传统的几项任务或者更传统的图像识别，但是大模型的成功不仅仅是模型本身的成功，更因为有大量的数据积累。在数据量小的情况下，Transformer的表现是不如小模型的。

场景定义产品，场景需求决定对模型的需求。越是开放场景，作业形态越多样，对大模型的通用要求会更高；而工厂更需要在某个垂类里面做到极致的模型，可以把小脑性质的任务部署到单侧机器人端做实时推理和响应。大模型适合云端，像瑞士军刀；小模型适合机房，像菜刀。不一定所有情况都需要瑞士军刀。

| 许悦聪

04 数据与仿真系统

| 王宏

构建数据体系和建立仿真环境存在三个重点：第一点是数据获取问题。需要获取大量数据去构建大模型，大模型本身也可以作为生成数据的手段。

第二点是测评数据本身。现在很多数据都是在虚拟环境下生成之后，用这些数据构建新的模型，再把它迁移到实际机器人平台当中。很多数据和实际场景下差异非常大，训练出的模型真正迁移到机器人平台上后性能会大幅损失。但是点云数据不一样，因为虚拟环境下生成的点云数据基本上都带有标签，虽然迁移到机器人平台上性能略有损失，但基本上是能用的。

第三点是数据生成问题，早期机器人通过互联网去搜集数据来训练，可能对机器人的宏观决策有用，但对安全性要求比较高的机器人就需要通过实际场景获取数据，或者在虚拟环境构建完成后通过一定测评和筛选去获取高质量的数据，进而获得高质量模型。

| 王鹏

关于数据有两个任务：1、数据获取、采集；2、数据消化。特斯拉在数据采集链条里面做了很多trigger，异常情况可以自动触发数据采集。另外，特斯拉通过把time window拉长来标注数据，用长时间优化后的结果去标注。第二种是影子模式，更多是去标注这种情况下车辆的驾驶行为。第三种是通过3D的re-construction，把整个环境通过社会学习的方式建立起来，通过这种方式反向标注每一帧。

| 郑卫军

可以将收集到的点云数据和纹理数据相结合，收集起来喂到大模型里，让它自动生成更多环境。目前收集到的数据是按结构划存，依据各种场景分门别类，后面可以利用这些数据去生成更通用数据。

仿真常用在任务调度上，整个工厂所有的机台数据都可以放在仿真平台上，完全模拟实际情况。在进厂之前，可以通过仿真确定由多少台机器人完成多少条任务。工厂里面有很多突发情况，突发情况肯定只能通过模型生成，通过仿真过程发现应对突发情况的不合理之处，也是一个闭环的训练过程，可以使整个系统有更大提升。