挑战王者荣耀“绝悟” AI,我输了!
作者 | 马超
责编 | 伍杏玲
出品 | CSDN(ID:CSDNnews)
腾讯 AI Lab 与王者荣耀联合研发的策略协作型AI,“绝悟”首次开放大规模开放:5月1日至4日,玩家从王者荣耀大厅入口,进入“挑战绝悟”测试,“绝悟”在六个关卡中的能力将不断提升,用户可组队挑战“绝悟”。这不是腾讯 AI Lab首次大展伸手了,例如去年“中信证券怀”世界智能围棋公开赛的冠军就是来自于腾讯AI Lab的“绝艺”。
本次在王者荣耀上线的“绝悟”真的是令人觉悟,笔者做为老的DOTATER,MOBA类游戏的水平,自认还是相当不错的,不过亲测了几局,始络不能在路人匹配的情况下通过第三关。“绝悟”的1v1版本曾在2019年的China Joy上开放,在与顶级业余玩家的 2100多场,AI胜率为 99.8%,此次是“绝悟” 5v5 版本首次公开。如果以后挂机队友都能用“绝悟”托管,那估计今后匹配到掉线玩家的队伍,是做梦都要笑醒吧。
“绝悟”如何“开悟”?
在柯洁等人类顶尖棋手纷纷败于AlphaGo后,AI已经破解了围棋的难题,大面积目前多人在线战术竞技类游戏(MOBA)成为测试和检验前沿人工智能的复杂决策、行动、协作与预测能力的重要平台。
比如在去年的DOTA顶级赛事TI8上,在OpenAI与世界冠军OG战队之间的一场DOTA2比赛上,AI战队以2:0完胜了人类冠军。虽然笔者认为OG在TI8上夺冠不太有说服力,去年的LGD和Liquid比OG厉害,不过AI在两场比赛中,尤其在第二场15分钟就完成战斗,展现的强大到碾压的能力令人惊叹。
但是到OpenAI的MOBA游戏的AI模型是有限定条件的,不允许人类选手选择幻影长矛手及分身斧等幻象、分身类道具,虽然王者荣耀游戏中不涉及此类情况,但是与棋类游戏相比,MOBA类游戏的AI模型至少在以下几个方面是完全不同的。
一、复杂度:
王者荣耀的正常游戏时间大约是20分钟,一局中大约有20,000帧。在每一帧,玩家有几十个选项来做决定,包括有24个方向的移动按钮,和一些相应的释放位置/方向的技能按钮。王者峡谷地图分辨率为130,000×130,000像素,每个单元的直径为1,000。在每一帧,每个单位可能有不同的状态,如生命值,级别,黄金。同样,状态空间的大小为10^20,000,其决策点要玩大于棋类游戏。
二、信息不对称:
MOBA类游戏中一般都有视野的范围,这造成了信息的对称,也就是说AI无法像棋类游戏一样获得全部的对局信息。
三、团队配合:一般如王者荣耀等MOBA类游戏都是5V5的集体类游戏,那么整个团队需要有宏观的策略,也需要微观的精细执行。
在游戏的各个阶段,玩家对于决策的分配权重是不同的。例如在对线阶段,玩家往往更关注自己的兵线而不是支持盟友,在中后期阶段,玩家应关注团战的动态。每个AI玩家对队友的配合操作纳入计算范围,这将提高计算量。
四、奖励函数难以制订:
MOBA类游戏到比赛的最后时刻存在悬念,不像棋类游戏中吃子或者提子等奖励来得那么直接。这让MOBA类的AI的奖励函数非常难以制订。
走近强化学习
“绝悟”背后是一种名为“强化学习”(reinforcement learning,RL)的AI技术,其思想源自心理学中的行为主义理论,因此该学习方法与人类学习新知识的方式存在一些共通之处。
游戏作为真实世界的模拟与仿真,一直是检验和提升 AI 能力的试金石,复杂游戏更被业界认为是攻克 AI 终极难题——通用人工智能(AGI)的关键一步。如果在模拟真实世界的虚拟游戏中,AI 学会跟人一样快速分析、决策与行动,就能执行更困难复杂的任务并发挥更大作用。
强化学习做一系列基于时间序列的决策。它先假定每个问题都对应一个Environment,这时每一个Agent在Environment中采取的每一步动作都是一个Action,做出Action之后,Agent从Environment中得到observation与reward,再不断循环这个过程,以达到总体reward最大化。
从RL的原理中能看出,RL是一种在不确定且复杂的环境中通过不断试错,并根据反馈不断调整策略,最终完成目标的AI,这和游戏的实践场景可谓非常的契合。
虽然目前RL在一些具体的场景中,如控制步进马达、电子竞技方面取得了很多突破性的进展。截止目前“绝悟”的RL框架还没有开源,不过好在Open AI的gym框架是开源,并提供了RL完整的接口。可以让我们通过玩游戏,来了解深度学习的原理。安装gym十分简单,只是记得要执行这个命令pip install gym[atari]即可。
其示例代码如下:
import gymenv = gym.make('UpNDown-ramDeterministic-v4')#初始化环境
for i_episode in range(900000):observation = env.reset()#重置观察for t in range(100):env.render()#渲染环境print(observation)#将观察值打印出来action = env.action_space.sample()#按照sample进行动化,当然也可以自行实现observation, reward, done, info = env.step(action)print(reward)#将奖励值打印出来if done:print("Episode finished after {} timesteps".format(t+1))break
env.close()
其运行效果如下:
通关小贴士
如何打败AI这点上,我们可以参考而三年前李世石战胜AlphaGo的第四局对弈,其中第78手这一挖,此招一出当时技惊四座,甚至被围棋界认为是“捍卫了人类智慧文明的瑰宝”。
随后AlphaGo被李世石的“神之一手”下得陷入混乱,走出了黑93一步常理上的废棋,导致棋盘右侧一大片黑子“全死”。
此后,“阿尔法围棋”判断局面对自己不利,每步耗时明显增长,更首次被李世石拖入读秒。最终,李世石冷静收官锁定胜局。后来通过仔细复盘人们发现这78手并非无解,只是骗到了当时的AlphaGo引发了AI的Bug才使人类能够赢下一盘。
可以说打败AI最关键的决窍就是,千万不要在AI的空间和AI斗,一定不能按照常理出牌。“绝悟”虽强,但目前肯定还不是完全体,正如我们前文所说,MOBA类AI模型的奖励函数是非常难以制订的,很可能是因为在开局战争迷雾未解开的情况下,入侵野区的收益值不如抱团清线来得高,因此“绝悟”开局大励套路比较单一。那么笔者做为一个菜鸡玩家,通过上述分析给大家一些建议。
一、 选择强势入侵阵容,不断蚕食AI经济。因为AI一般在明确打不过的情况下就会直接放弃,亲测如果人类玩家强势入侵,那么AI一般会选择放弃,不过这个策略对于普通玩家也没有太大用处,因为即使本方经济领先,一般的玩家也依然没法打过AI。
二、 偷塔。由于王者荣耀等MOBA类游戏归底结底还是推塔的游戏,从“绝悟”学习成果结果来看,其对于击杀和远古生物的给予的奖励权重明显更高,这也不难理解,因为在普通的比赛中这两点的确是胜负的关键。
正如上文所说,打败AI的关键点就在于不要按照常理出牌,使用李元芳、米莱迪、周渝这种强势推塔阵容,趁对面在打暴君、主宰等远谷生物时赶快偷塔,实测发现尤其在前4分钟防御塔有隔挡机制时,“绝悟”对于守塔不太感冒。趁这时赶快偷塔,往往是记得比赛的关键。
三、 反杀关键韧性鞋。王者荣耀中有一个非常特殊的道具韧性鞋,能减少被控制的时间,“绝悟”在进行越塔击杀,往往借助于连续的控制。笔者在实测中看到人类玩家反杀“绝悟”的情况,基本都是留好韧性鞋的金钱,等待“绝悟”控制技能施法前摇时,瞬间购买,从而避免被控制至死,进而实现反杀大业,最差也能拖慢AI的节奏,为队友争取偷塔时间。
后记
我们知道现实生活中的许多真实的问题(如股票)没有明确的规则,或者规则会变动,需要具体决策需要AI自行摸索,这是强化学习的优势所在。
长远来看,AI+游戏研究将是攻克 AI 终极研究难题——通用人工智能(AGI)的关键一步。不断让 AI 从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。
未来我们还有哪些“绝悟”AI式的惊喜,让我们拭目以待。
推荐阅读
饿了么交易系统5年演化史
360金融首席科学家张家兴:别指望AI Lab做成中台
我们想研发一个机器学习框架,6 个月后失败了
那个分分钟处理 10 亿节点图计算的 Plato,现在怎么样了?
中国 App 出海“变形记”
詹克团反攻比特大陆:一场失去人心的自我挽留
你点的每个“在看”,我都认真当成了AI
相关文章:

java 注解类说明
一、类中注解 SuppressWarnings ("serial"); 关键字 用途deprecation使用了不赞成使用的类或方法时的警告unchecked执行了未检查的转换时的警告,例如当使用集合时没有用泛型 (Generics) 来指定集合保存的类型。fallthrough当 Switch 程序块直接通往下一种…

《ArcGIS Runtime SDK for Android开发笔记》——(13)、图层扩展方式加载Google地图...
1、前言 http://mt2.google.cn/vt/lyrsm225000000&hlzh-CN&glcn&x420&y193&z9&sGalil 通过图层扩展类的方式加载Google地图的是我们通常获取Google地图的一种方式,根据这种方式我们可以通过拼接地图瓦片Url字符串获取瓦片数据,关…
调试JDK源码-一步一步看HashMap怎么Hash和扩容
调试JDK源码-一步一步看HashMap怎么Hash和扩容 调试JDK源码-ConcurrentHashMap实现原理 调试JDK源码-HashSet实现原理 调试JDK源码-调试JDK源码-Hashtable实现原理以及线程安全的原因 还是调试源码最好。 开发环境 JDK1.8NetBeans8.1 说明:调试HashMap的 publ…
开源一年,阿里轻量级AI推理引擎MNN 1.0.0正式发布
在经过充分的行业调研后,阿里淘系技术部认为当时的推理引擎如TFLite不足以满足手机淘宝这样一个亿级用户与日活的超级App。于是,他们从零开始自己搭建了属于阿里巴巴的推理引擎MNN。1年前,MNN在Github上开源,截止目前获得了3.9k S…

人生在成败中进步
参考文献《佛经》 人生在成败中进步佛经中有云:“菩萨者,福慧深利,道观双流。”“福慧双修”、“福慧双全”是众生成佛的必由之道,也是众生修行的理想追求。人生中,虽然不可能人人都能成佛,但是佛经有云&am…

【原】YUI压缩与CSS media queries下的bug
大概是上个月,使用YUI压缩一个css文件后,发现只要是被压缩后的css文件有部分根本无法工作,一直都不知啥问题引起的,让我感到头疼。 今天发现了只要是在媒体查询中的样式无法起作用,于是才开始怀疑是media被压缩后引起的…
Spring源码分析【4】-Spring扫描basePackages注解
org.springframework.beans.factory.support.DefaultListableBeanFactory 重要数据结构 /** Map of bean definition objects, keyed by bean name */private final Map<String, BeanDefinition> beanDefinitionMap new ConcurrentHashMap<String, BeanDefinition&…

c语言c++语言中静态变量,函数详解
静态变量,静态函数对于一些c,c的初学者来说,造成了不少的困扰。昨晚和寝室的室友讨论到这 个问题,想了一下,作了一下总结:虽然说c和c在很多人的眼里就是孪生姐妹,其实还是有很大区别的。在这里分…
深度解析MegEngine亚线性显存优化技术
基于梯度检查点的亚线性显存优化方法[1]由于较高的计算/显存性价比受到关注。MegEngine经过工程扩展和优化,发展出一套行之有效的加强版亚线性显存优化技术,既可在计算存储资源受限的条件下,轻松训练更深的模型,又可使用更大batch…

2016-04-28
2019独角兽企业重金招聘Python工程师标准>>> 1.提交form表单之前的函数(校验不错):onsubmit"return A();".2.解析XML的方式:2.1.DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准,基于"树"(DocumentBuilderFactory).2.2.SAX的优点类似于…
Spring源码分析【8】-MyBatis注解方法不能重载
代码如下: 这是不可以的,会报错: 2016-08-18 11:36:00,267 [main] ERROR [org.mybatis.spring.mapper.MapperFactoryBean] - Error while adding the mapper interface com.unix21.mapper.UserMapper to configuration.java.lang.IllegalArgu…
不知道这 7 大 OpenCV 函数怎么向计算机视觉专家进阶?
作者 | Lazar Gugleta译者 | Arvin,责编 | 夕颜头图 | CSDN付费下载自视觉中国出品 | CSDN(ID:CSDNnews)计算机视觉和计算机图形学现在非常流行,因为它们与人工智能息息相关,它们主要的共同点是使用同一个OpenCV库&…

MySQL5.5复制新特性
MySQL5.5复制新特性一.MySQL5.5复制改进MySQL5.5版本对MySQL Replication进行了多项的改良,以提供数据的完整性,性能和应用灵活性更高水平。1.Semisynchronous Replication:主从之间的等待机制2.Slave fsync tuning:调整slave fsync包括sync-…

GitLab 8.7发布
日前,GitLab 8.7版发布。该版本中,添加了新功能和优化,并小幅提升了性能。\\8.7版本发布于8.6版本整整30天之后,跟上了每月22日次版本的进度。最新的版本增加了在单个问题上设置到期日期的支持以及以用户所在时区而不是UTC来显示所…
Java飞行记录器 JRockit Flight Recorder JFR诊断JVM的历史性能和操作
需要展开子树,复制堆栈跟踪,就可以查看到代码调用链,看到自己的业务代码,从而定位到最耗时的代码位置:

vi/vim: 使用taglist插件
本节所用命令的帮助入口: :help helptags :help taglist.txt 上篇文章介绍了在vim中如何使用tag文件,本文主要介绍如何使用taglist插件(plugin)。 想必用过Source Insight的人都记得这样一个功能:SI能够把当前文件中的宏、全局变量、函数等t…
学会这些Python美图技巧,就等女朋友夸我了
来源 | ZackSock(ID: ZackSock)Python中有许多用于图像处理的库,像是Pillow,或者是OpenCV。而很多时候感觉学完了这些图像处理模块没有什么用,其实只是你不知道怎么用罢了。今天就给大家带了一些美图技巧,让…

Linux下的softlink和hardlink(转)
Linux中包括两种链接:硬链接(hard link)和软链接(soft link),软链接又称为符号链接(symbolic link)创建命令:ln -s destfile/directory softlink #建立软连接 ln destfile hardlink #建立硬连接in…

ubuntu安装之后的最初几天一路杂记
我就随便写了啊,没那么正式,想到什么就写什么。 由于大四的毕业设计要做一个牵扯到linux的项目,最近不得不再次玩起了ubuntu,其实前一次(大二的时候吧)就已经在电脑上安装过一个ubuntu了,只不过…

百万级访问量网站的技术准备工作[转帖]
当今从纯网站技术上来说,因为开源模式的发展,现在建一个小网站已经很简单也很便宜,所以很多人都把创业方向定位在互联网应用。这些人里大多数不是 很懂技术,或者不是那么精通,而网站开发维护方面的知识又很分散&#x…
智能驾驶L2的黄金时代,打磨地图是关键
作者 | 自动驾驶从业者,中寰卫星黄亮出品 | AI科技大本营(ID:rgznai100)智能驾驶L2,以我们通俗的定义是,以高级辅助驾驶的产品为主的各种巡航产品,包括定速巡航,自适应巡航ACC,预见性…

css中的垂直居中方法
单行文字 (外行高度固定) line-height 行高, 将line-height值与外部标签盒子的高度值设置成一致就可以了。 height:3em; line-height:3em; 多行文字 图文结合(图和单行文字) 图文结合(图和多行文字…
U盘挂载,gedit,vi,文本模式中文乱码等等问题
U盘或硬盘挂载 首先,我们要查看一下磁盘的分区信息sudo fdisk -l (注意注意,是小写的L,不是1,也不是i) 这里可以看到我的硬盘情况,前面几个是win7系统下的C,D ,E ,F 盘。我现在是在图书馆,没…
一次对语音技术的彻底批判
作者 | Alexander Veysov译者 | 孙薇,编辑 | 夕颜出品 | AI科技大本营(ID:rgznai100)ImageNet的出现带来计算机视觉领域的突破发展,掀起了一股预训练之风,这就是所谓的ImageNet时刻。但与计算机视觉同样重要…

Windows下编译Chrome V8
主要还是参考google的官方文档: How to Download and Build V8 Building on Windows 同时也参考了一些其它的中文博客: 脚本引擎小pk:SpiderMonkey vs V8 Windows 下编译V8引擎-with visual sudio 2010 将google V8 编译成 dll v8学习笔记 步…

mysql子查询
一句话就是子查询的结果作为外部查询的比较条件 所谓子查询是指一个查询语句嵌套在另一个查询语句的内部的查询,也就是select里面还有select。 在select语句中先计算子查询,子查询的结果作为外层另一个查询的过滤条件。 子查询中常用的操作符有ÿ…

Ubuntu查看系统位数及版本
怎么查看本机cup是几位的呢?命令: more /proc/cpuinfo 该命令列出了很多cup信息 找到clflush size ,其值就是cup位数 我的是clflush size: 64 那怎么查看你所装的ubuntu系统是几位的呢?命令: uname -ar Linux wen-lapt…
百度翻译Q1 DAU增长40%,疫情期学生在线学习率猛增
5月11日,百度翻译公布最新的DAU(日活跃用户数量)相关数据,2020年Q1较上一个季度环比增长10%,较去年Q1同比增长40%。 此外,百度翻译还在一个季度内,将翻译的语种扩充了近7倍,目前百度…

Oracle 10g配置RMAN RECOVERY CATALOG
Oracle的RMAN配置信息默认存放在target数据库的控制文件中,当然也可以配置一个recovery catalog服务器来存储这些信息,下面是控制文件和恢复的特性比较,一般来说维护10台以下的oracle数据库备份,可以不需要配置恢复目录. Control …

android Spinner 例子
为什么80%的码农都做不了架构师?>>> 一、主xml:activity_main.xml <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width&q…