腾讯的 AI 进化了!王者荣耀「绝悟」升级,全英雄池解禁

AI 王者「绝悟」升级了,能达到精通金庸武侠里所有武功的那种水平。

今天,腾讯宣布,由腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI「绝悟」推出升级版本“绝悟完全体”。

这一升级的背后,则是腾讯策略协作型 AI 算法能力的进一步提升,与之相关的研究也已被 AI 顶级会议 NeurIPS 2020 与顶级期刊 TNNLS 收录。

英雄池完全解禁

在王者荣耀中,若每个职业都有 4 个紫色熟练度英雄,就能解锁“全能高手”称号。但受到练习时间与精力限制,很少有人能精通所有英雄,但「绝悟」做到了。

那么,王者再进化,将有多强?

据了解,「绝悟」一年内掌握的英雄数从 1 增加到 100+,王者荣耀英雄池也实现了完全解禁,不但掌握了所有英雄的全部技能,能应对高达 10 的 15 次方的英雄组合数变化,甚至还“自带军师”,可做出最佳的英雄博弈策略选择,综合自身技能与对手情况等多重因素,派出最优英雄组合。

目前,“绝悟完全体”已在王者荣耀 App 限时开放,玩家都可与之对战,亲身体验 AI 在复杂策略、团队协作与微观操作方面的强大能力。

11 月 14-30 日,「绝悟」在 20 个关卡的能力将不断提升,最强的 20 级于 11 月 28 日开放,接受 5v5 组队挑战。

AI 教练的田忌赛马术

AI+游戏研究,是腾讯攻克 AI 的终极研究难题,也是通用人工智能(AGI)的关键一步。

腾讯技术团队的长期目标不仅是让“绝悟”学会所有英雄的技能,而且每个英雄都要达到顶尖水平,可以根据阵型排列组合打出制胜局。

但难点就在于,「绝悟」的不同英雄会共享一个模型参数,从零学会单个阵容易如反掌,但面对多英雄组合时就难如登天。对战中,因为地图庞大且信息不完备,不同的 10 个英雄组合有不同的策略规划、技能应用、路径探索及团队协作方式,这将使决策难度几何级增加。

同时不可忽略的是“灾难性遗忘”问题,模型容易边学边忘,这也长期困扰着开发者。

毕竟,一场比赛胜负的关键不仅在于拥有顶尖选手,排兵布阵的教练也非常重要。

基于此,技术团队为「绝悟」找了一个能排兵布阵的 AI 教练,也就是在游戏 BP 环节(禁选英雄)的最优策略。

【绝悟 vs 人类 BP 测试】

受到围棋 AI 算法的启发,研究团队创新地采用了蒙特卡洛树搜索(MCTS)和神经网络结合的自动 BP 模型,能够又快又准地选出具备最大长期价值的英雄。

具体来讲,先采用引入“老师分身”模型,每个 AI 老师在单个阵容上训练至精通,再引入一个 AI 学生模仿学习所有的 AI 老师。

最终,「绝悟」掌握了所有英雄的全部技能,正所谓“少林有七十二艺,功夫既有不同,练习之法,亦必各异。学者苟能尽之,则无敌于世矣。”

「绝悟」手握强兵善用兵

自然,团队的长期目标,就是要让「绝悟」手握强兵,且每个英雄都能达到顶尖水平,因此技术上有了三项重点突破:

首先,团队构建了一个最佳神经网络模型,让模型适配 MOBA 类任务、表达能力强、还能对英雄操作精细建模。

模型综合了大量 AI 方法的优势,如:

在时序信息上引入长短时记忆网络(LSTM)优化部分可观测问题; 在图像信息上选择卷积神经网络(CNN)编码空间特征; 用注意力(Attention)方法强化目标选择; 用动作过滤(Action Mask)方法提升探索效率; 用分层动作设计加快训练速度; 用多头值估计(Multi-Head Value)方法降低估计方差。

其次,团队研究出了拓宽英雄池,让「绝悟」掌握所有英雄技能的训练方法——CSPL(Curriculum Self-Play Learning,课程自对弈学习)。

根据下图可以看出,使用 CSPL 方法扩展英雄池有明显优势。

据悉,这是一种让 AI 从易到难的渐进式学习方法——第一步是挑选多组覆盖全部英雄池的阵容,在小模型下用强化学习训练;第二步是蒸馏,把第一步得到的多个模型的能力迁移到同一个大模型中;第三步是随机阵容的强化训练,在蒸馏后的大模型里,随机挑选阵容继续强化训练和微调。

最后,团队搭建了大规模训练平台腾讯开悟(aiarena.tencent.com),依托项目积累的算法经验、脱敏数据及腾讯云的算力资源,为训练所需的大规模运算保驾护航。

2020 年 8 月,开悟平台对 18 所高校开放,未来希望为更多科研人员提供技术与资源支持,深化课题研究。

早在 2018 年 12 月的 KPL 秋季总决赛中,「绝悟」就曾公开亮相对战人类玩家。

当时,团队研发了监督学习(SL)方法,针对大局观和微操策略同时建模,使得「绝悟」同时拥有优秀的长期规划和即时操作,达到了非职业玩家的顶尖水平。

但其实,团队对于监督学习的研发一直在进行——今年 11 月 14 日起开放的绝悟第 1 到 19 级,就有多个关卡由监督学习训练而成。

理论上,监督学习训练出的 AI 表现逊于强化学习的结果,但这一方向极具研究与应用价值,相关成果也入选了顶刊 TNNLS 。

如今,「绝悟」前有强兵,后有军师,不折不扣的一代宗师终于练成了。

雷锋网雷锋网雷锋网

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.chunwan.co/202011/2138.html