机械臂与灵巧手在虚拟环境和真实世界中进行训练与测试。受访者供图
仿生灵巧手转动骰子示意图。受访者供图
凌晨4点,耿逸然和安博施的闹钟同时响起。一个小时后,第36届神经信息处理系统大会(NeurIPS 2022)即将开始,作为大会中Myo Challenge挑战赛骰子重定向(Die Reorientation)赛道冠军,这两位来自北京大学信息科学技术学院2020级图灵班的大三学生,即将迎来各自人生中首次在国际顶级会议上的亮相。
“还是很激动和紧张的。”2022年12月,该会议在美国举办。北京时间清晨5点,耿逸然和安博施线上参会,在15分钟的全英文报告中,他们对参赛方案的完整阐释,将来自世界各地的听众带回2022年的夏天。
去年8月,两人在导师的推荐下了解到,NeurIPS推出了一项比赛,要求参赛者设计一套人工智能算法,控制仿生灵巧手完成随机的抓取、转动骰子等任务,最终成功率最高、需要肌肉施加力最小的团队获胜。
赛事通知让他们立即兴奋起来。两人的导师、北京大学人工智能研究院助理教授、北京通用人工智能研究院研究员杨耀东和计算机学院前沿计算研究中心助理教授董豪长期从事机械臂和灵巧手的人工智能与环境交互研究,在这几位老师的指导下,耿逸然和安博施也一直在学习,如何在这一领域成为训练人工智能的“优秀教师”。此外,他们在汇集顶级人工智能专家的北京通用人工智能研究院长期与许多优秀研究员共同工作,积累了很多宝贵经验。用国际顶级人工智能会议的大赛检验自己,既是绝佳的练兵机会,也是展示学习所得的机会。
比赛发令枪响,耿逸然和安博施的“全速奔跑”开始了。和他们一起合作的,还有同样来自北京通用人工智能研究院的大学生钟伊凡、吉嘉铭、陈源培等。尽管他们对机械臂的人工智能控制已经相对熟悉,但这次比赛中要面对的,是一只截然不同的“虚拟仿生手”。在电脑屏幕上的模拟器中,这只手“有血有肉”,银灰色的手部骨骼外,覆盖着由红色线条表示的一束束肌肉,如同真正的手一样,各个关节和每条肌肉密切联动,“牵一发而动全身”,和常见的只能控制每个独立关节的实体机械手相比,复杂程度多了不是一点半点。
花了大约一周时间熟悉仿生灵巧手的关节与肌肉之间的关系后,他们开始制订培训这位人工智能“学生”的方案。抓取、转动骰子,对仿生手来说相当复杂,他们就将动作拆解,如同体操教练教学员完成一套复杂的转体、曲体组合动作时,先教各个分解动作,再进一步完成动作组合。如同水族馆表演的海豚,通过奖励塑造,人工智能在完成目标动作时,一个相当于小鱼的奖励函数会对它进行“激励”,以促进其更好地“学习”。
这些听起来简单的操作,背后是无数争分夺秒的努力。电脑随身携带,耿逸然有时就趁着上课前的10分钟,打开电脑修改代码。每天面对黑色屏幕上一行行白色字母组成的代码难免枯燥,但早上醒来打开头天晚上训练的模型,一个好的实验结果足以让人雀跃。“这个过程就像开盲盒。”安博施介绍,研发的过程没有正确答案,一切都是摸着石头过河,“前一天训练了10个模型,第二天跑完数据可能有8个结果一般、1个不好、还有1个非常好。每天都很期待,会有更多好的结果。”
凭着长期打下的基础和比赛期间的用心,第一次上传参赛代码,他们就高居首位,随着之后不断调整方案,也一直处于领先。但就在接近比赛截止日期的一个凌晨4点,从睡梦中醒来的耿逸然突然发现,有其他参赛者的成绩超过了他们。他一下就清醒了,套上衣服就冲进隔壁宿舍,摇醒了安博施。两个眼睛还没睁开的人大脑已经无比清醒,迅速冲出宿舍,冲进实验室,紧锣密鼓地开始调整方案。
10月末,比赛截止。在之后公布的结果中,在全球10多个国家的40个参赛队伍提交的340余份有效方案中,他们的方案位居榜首。
在2022年末的学术会议召开前,耿逸然和安博施分工合作,为了他们共同的第一次英文学术报告反复推敲,拟定表述方式、写下逐字稿、互相给对方试讲,一直磨到凌晨3点。两个小时后,他们的报告结束,一位来自瑞士的教授向安博施发出邀约:“你们的讲述非常好,希望你可以考虑申请我的博士项目。”
2023年年初,两位搭档了一年多的伙伴再次合作,以共同第一作者的身份,在2023年国际机器人与自动化大会(ICRA 2023)中,发表研究论文《基于端到端可操作性学习的机器人操纵框架》。“论文里介绍了我们探索出的机械臂抓取物件的方法。”比起参加比赛,日常的学术研究需要更加深入的方法探索,通过他们开发的这套方法,机械臂可以通过作用域物体的关键点,如柜子的拉手、锅盖的抓手等,实现拉开柜门、提起锅盖等操作。
但比赛的过程也对他们启发颇多。“之前觉得让灵巧手转动一个骰子很简单,但这次比赛中使用的仿生灵巧手模拟了真实的骨骼和肌肉关系,我们发现动物的日常动作远比机械精细的多,且不说大脑,动物小脑中就不知有多少我们还没发现的秘密。”他们知道,想让人工智能实现更精细的功能,一代代计算机人还有很长的路要走。(记者毕若旭)