自成立以来,机器人行业一直致力于通过将数学模型与高级计算相结合来创造能够处理复杂任务的机器。现在,社区发现自己在如何最好地实现这一目标上存在分歧。
今年早些时候,来自世界各地的一群机器人学家在 IEEE 机器人与自动化国际会议 (ICRA) 上研究了这一鸿沟。节目以六位领先机器人学家之间的辩论结束:
- Daniela Rus,CSAIL 主任和 Andrew (1956) 和 Erna Viterbi 电气工程和计算机科学教授。Rus 还在今年早些时候的机器人峰会暨博览会上发表了主题演讲。
- Russ Tedrake,他是 CSAIL、EECS 和航空航天系的丰田教授。
- 莱斯利·凯尔布林 (Leslie Kaelbling),麻省理工学院松下计算机科学与工程教授。
- 奥德·比拉德 (Aude Billard),洛桑瑞士联邦理工学院 (EPFL) 工程学院教授。
- 首尔国立大学机械工程教授弗兰克·朴。
- Animesh Garg,佐治亚理工学院交互计算学院的 Stephen Fleming 早期职业助理教授。
加州大学伯克利分校的肯·戈德堡 (Ken Goldberg) 主持了这场辩论,他以以下问题来构建讨论:“机器人技术的未来是用代码还是数据编写?
数据优先方法的论点
Rus 和 Tedrake 认为,数据驱动的方法,特别是由大规模机器学习提供支持的方法,对于释放机器人在现实世界中可靠运行的能力至关重要。
“物理学为我们提供了受控环境的干净模型,但当我们走出去的那一刻,这些假设就崩溃了,”罗斯说。“现实世界的任务是不可预测的,以人为本。机器人需要经验来适应,而这来自数据。
在 CSAIL,Rus 的分布式机器人实验室已经接受了这种想法。该团队正在构建人类执行日常任务的多模态数据集,从烹饪、倒酒到交接物品。Rus 表示,这些录音捕捉了人类动作的微妙之处,从手部轨迹和关节扭矩到凝视和力交互,为训练人工智能系统提供了丰富的数据来源。
目标不仅仅是让机器人复制动作,而是使它们能够跨任务进行泛化并在条件变化时进行调整。
例如,在 CSAIL 的厨房测试台上,Rus 的团队在志愿者切菜、倒液体和组装饭菜时为他们配备了传感器。这些传感器不仅记录关节和肌肉运动,还记录眼睛注视、指尖压力和物体交互等细微线索。
然后,根据这些数据训练的人工智能模型可以精确而稳健地在机器人上执行相同的任务,学习如何在食材打滑或工具错位时恢复。这些真实世界的数据集使研究人员能够捕捉“长尾”场景——仅靠基于模型的编程会错过的罕见但关键的事件。
大规模数据可以改变作业
Tedrake 讨论了扩展数据如何改变机器人作业。他的团队训练机器人执行灵巧的任务,例如切苹果、观察不同的结果以及从错误中恢复。
“机器人现在正在开发灵巧任务的常识,”他说。“这与我们在语言和视觉中看到的效果相同:一旦你扩展数据,就会出现令人惊讶的稳健性。”
在一个例子中,他展示了一个配备简单夹具的双手机器人,该机器人学会了去核和切片苹果。每个苹果的大小、硬度或形状都略有不同,但机器人会自动适应,根据之前的经验调整抓握和切片动作。
Tedrake 解释说,随着演示数据集扩展到多个任务,恢复行为(一旦手动编程)开始自然出现,这表明数据可以编码有关物理交互的微妙、高级常识性知识。
数学模型带有理论理解
凯尔布林也在活动中发表了讲话,他与比拉德和帕克一起论证了数学模型、第一性原理和理论理解的持续重要性。
“数据可以向我们展示模式,但模型可以让我们理解,”凯尔布林说。“如果没有模型,我们就会冒着有效的系统的风险,直到它们突然失效。安全关键型应用需要比试错学习更深入的东西。
Billard 表示,机器人技术与视觉或语言有着根本的不同:现实世界的数据稀缺,模拟仍然有限,任务涉及无限的可变性。虽然大型数据集推动了感知和自然语言理解方面的进步,但她警告说,在没有底层结构的情况下盲目扩展数据可能会产生脆弱的系统。
Park 强调了物理学和生物学的归纳偏差的丰富性——运动、力、顺应性和分层控制的原理——仅靠数据驱动的方法无法完全捕捉到这些偏见。他指出,精心设计的模型可以指导数据收集和解释,有助于确保复杂任务的安全性、效率和稳健性。
寻找中间立场
与此同时,Garg 阐明了将数据驱动学习与结构化模型相结合的好处。他强调,虽然大型数据集可以揭示模式和行为,但模型对于概括这些见解并使其具有可作性是必要的。
“最好的前进道路可能是混合方法,”他说,“我们利用数据规模,同时尊重模型提供的约束和见解。
Garg 用协作作任务的例子来说明这一点,其中纯粹根据原始数据进行训练的机器人在物理模型可以预测的边缘情况下遇到困难。
这场辩论也产生了历史相似之处。人类往往先获得“诀窍”,然后再获得“为什么”。从帆船和内燃机到飞机和早期计算机,工程师在完全理解基本科学原理之前很久就依赖经验观察。
罗斯和泰德雷克认为,现代机器人技术正在遵循类似的轨迹:数据允许机器人在混乱、不可预测的环境中获得实践经验,而模型则提供了解释和概括这种经验所需的结构。他们说,这种组合对于从实验室实验转向能够在家庭、医院和其他现实环境中运行的机器人至关重要。
思想的多样性是机器人技术的优势
在整个辩论过程中,小组成员强调了机器人领域本身的多样性。虽然深度学习改变了感知和语言任务,但机器人技术也面临着许多挑战。其中包括高维控制、可变的人类环境、与可变形物体的交互以及安全关键约束。
Tedrake 指出,将语言的大型预训练模型直接应用于机器人是不够的;成功需要多模态学习和集成捕获力、运动和触觉反馈的传感器。
Rus 补充说,跨多个机器人平台构建大型数据集对于泛化至关重要。“如果我们希望机器人在不同的家庭、医院或工厂中运行,我们必须捕捉现实世界的多样性和不可预测性,”她说。
“解决机器人技术是一个长期议程,”Tedrake 反映道。“这可能需要几十年的时间。但辩论本身是健康的。这意味着我们正在测试我们的假设并磨砺我们的工具。事实是,我们可能需要数据和模型——但哪个处于领先地位,以及何时起见,仍然悬而未决。