2019 DeeCamp人工智能训练营成果展示暨结营典礼在中国科学院大学雁栖湖校区举办,在过去的四周时间里,学员们完成了由 22 家企业发起的 50 个 AI 相关课题,接受了总计 115 位来自企业的技术负责人和工程师的课题辅导。实验室博士张天昊带领的一支队伍在短短三周时间里从 0 到 1,成功打造出了一个高成熟度的 AI 斗地主产品,拿下了今年 DeeCamp 最佳团队奖。

  

  为此,雷锋网与张天昊同学进行了一次交流,本文截取了部分采访内容。

  记者:参加训练营的初衷?

  张天昊:去年我舍友参加了 DeeCamp,当时是在北大举办的,近水楼台,我就蹭了不少专业的课程,尤其是开复老师的课程让我印象特别深刻,让我从产业的角度思考人工智能的发展。后来全程关注舍友的课题项目,是关于机械臂抓取,让我感觉到学员确实可以从项目中学习到很多东西,于是我关注了今年的报名情况,发现有关于游戏 AI 的项目,这与我群体机器人智能控制的科研方向比较贴近,都是关于智能体在环境中做决策的,于是想来学习一下。

  记者:项目中你们是如何组队和分工的?

  我们是随机组队的,组队之前我们彼此都不认识。队长是后面自己去推选的。我们组很幸运,大家都有自己擅长的技术领域,并且都是抱着学习的心态来的,都想要在这个夏令营中有所收获。我们通过对论文的研读与讨论,找到了每个同学在三周内比较适合去突破的研究方向,并从一开始就高效地进行讨论与尝试,我特别感谢组员对于我项目规划的信任。我们只有三周的时间,要从零开始做出一个大家还比较满意的项目,在时间上来说是非常紧张的。因为这个项目除去算法方面外,还有很多工程上的东西要去解决,比如游戏的引擎,游戏的服务器、数据库,游戏前端,游戏界面、音乐等等。在那段时间里,我们大概平均每天的睡眠时间就五个小时。甚至还有可能存在一些轮岗,一个同学干完一个通宵之后,他去休息五个小时,另外一个同学起来之后接着他的进度去做一些调整,然后两个人再做一些讨论。除了创新工场提供的开放日之外,大家基本上都没有出去玩。

  

  记者:能否向我们详细解读你们的模型实践?

  我们创新性地提出了一个多模型融合的斗地主 AI 框架,首先设计了多个斗地主 AI 模型,并通过离线学习的形式使它们各自都有一定的斗地主能力,最后再通过强化学习来做多模型融合,最终选择其中一种模型的决策结果。

  算法框架如下:

  

  记者:你们的模型效果如何?

  我们的每个模型都取得了一定的斗地主能力,其中我们提出的强化学习模型在于相同 baseline 对抗的情况下,取得了比现有论文还要高的胜率。其次是监督学习模仿人类玩家出牌行为的模型,在测试集上也达到了 76.5% 的预测准确率,这还只是通过黄金分段的 35W 条数据训练的模型,如果拿到的数据更多,效果是否会更好,我们不得而知。但是可以明显地感觉到这个 AI 确实存在一定模仿行为。

  记者:这一次你最大的收获和感受是什么?

  我的收获超出了预期。 最开始,我的预期是算法,怎么去解决决策问题。但是,DeeCamp 不仅仅只是涉及到算法,它让我们知道大家应该如何一起分工去完成一个项目,完成一个真正的产品。我很庆幸我们团队中有各种各样的人才。我们需要每天进行讨论交流,巧合的是,我们的队员正好都在一个寝室。于是,每两天晚上我们会开一次小会,五天一次总结,看进度,找结合,然后安排队员做一些交叉和技术上的对接。这个可能更像是在团队在做一些事情。项目开始之后,我们需要明白其他人在做什么。我觉得这些东西对于将来进入企业工作非常重要,你要知道怎么去和人配合,他们想要什么,你能提供什么,你想要什么,你需要他们提供什么,这也是很重要的。

  

  记者:你是怎么平衡学业和参赛时间的,导师支持吗?

  这件事情挺难的,因为博士生的科研任务是比较重的,老师也会担心我去参加 DeeCamp 的收获不如在实验室科研。这一个月时间耽误了实验室一个项目和两篇论文的进度,除此之外,由于北大本科生暑期的时候会在实验室科研,我只能远程和跟着我做科研的本科生进行项目讨论。我们现在的研究算是一个交叉的方向,数学、物理学、自动化、机械和计算机我们都会一些,老师希望我不要走到纯粹的计算机方向去,他认为这会丧失我的优势,我也比较认可老师的观点。所以说,我特别感谢我导师谢广明教授对我的支持,并且感谢实验室同门来帮助我分担原来实验室的工作。

  记者:接下来你的研究计划是什么?

  我做的是多水下机器人群体控制,这里面涉及到水面和水底的感知与控制,与 AI 结合的有水面物体识别,水下图像增强,机器人传感器数据处理,机器人鲁棒性控制等。现在陆域资源开发得差不多了,海洋还没有大开发,除此之外,国家还提出了「海洋强国」的口号,所以说水下机器人的研究关乎到了生活与国家多个方面。我们实验室研发了很多水下机器人,这些机器人也协助过国家科考人员去南北极做一些勘探,还可以在渔业、水质监测、救援等方面有特别多应用。

  文章节选自雷锋网,原文标题为“牺牲睡眠、耽误论文、三周开发出‘斗地主’AI,他们拿下了今年DeeCamp最佳团队奖”,作者skura,如需转载请至雷锋网官网申请授权。

  地址   https://www.leiphone.com/news/201908/fxbKOrgvOni8WVAy.html