“你行你上”:有本事跟OpenAI Five打一把DOTA?| 极客头条
整理 | 一一
出品 | AI科技大本营(ID:rgznai100)
你们不是嫌弃世界冠军 OG 团队实力太水吗?“你行你上”的机会来了。
4 月 14 日凌晨,OpenAI Five 以 2:0 击败了 DOTA 世界冠军团队 OG 引发热议。比赛当天,OpenAI 也宣布要开放 OpenAI Five 竞技场模式,让每个感兴趣的人都参与其中。
4 月 18 日(太平洋标准时间)下午 6 点,OpenAI 如约开放了这一模式,全世界各路玩家都可以免费进行体验。开放时间为期三天,4 月 21 日(太平洋标准时间)晚上 11 点 59 分关闭,要体验一把人机对战的话可得抓紧时间。
参赛链接:https://arena.openai.com/#/
目前从其官网赛况来看,截止今天早上 10 点,OpenAI Five 与参与者打了 424 场比赛,AI 以 112-0 完胜人类玩家。
以下是人类参与者的部分赛况:
据 OpenAI 官方介绍,参与者可以在竞争模式和合作模式下体验 OpenAI Five。他们的 1v1 机器人可以通过巧妙的策略加以利用,但他们也并不知道 OpenAI Five 能在多大程度上可以做到这一点。
在此前决赛中,他们展示了 OpenAI Five 和人类在合作模式打游戏。一组是 Sheever、Blitz 和三个 OpenAI Five,对手是由 Capitalist、ODPixel 和三个 OpenAI Five 组成的团队。
不过,通过 OpenAI Five 在决赛上的表现,OpenAI 团队在最新的博客中分享了两个惊喜:
尽管训练 OpenAI Five 系统的目的是为了打败其他机器人,但他们却发现 OpenAI Five 其实还有与人类成为队友的基本能力,也就是说可以将一个竞争型 AI 变为合作型 AI。他们认为,如果能更努力去开发,未来 AI 系统能为人类做出非常多的贡献。
4 月 18 日 到 21 日的竞技场模式测试将回答一个很重要的研究问题——OpenAI Five 的潜能可以被人类运用到何种程度,或者它们在其他哪些方面必定会被打败。OpenAI Five 这一深度强化学习智能体系统,可能会成为有史以来人类能与之交互的最大的 AI 部署系统。
OG战队与OpenAI开发团队
对于 OpenAI Five 竞技场模式,有很多人报以期待,reddit 上有网友评论称,“这特么太酷了,自从 OpenAI 1v1 首秀之后,人们已经要求要在网上跟机器人玩游戏了,现在它真的发生了!”
只是,如果在竞争模式跟 AI 打 DOTA,作为人类玩家的你会不会惨遭OpenAI Five 的虐杀,而输得毫无悬念呢?祝你们好运。
当然,玩游戏之余,你可能也想知道:OpenAI Five 取得胜利背后的“秘诀”是什么?为什么这次的 OpenAI Five 系统要比去年在 TI 表演赛上败给人类的AI系统更强?OpenAI 是如何训练 OpenAI Five 系统的?OpenAI 团队最近给出了解读。
为什么是 DOTA2?
一开始,OpenAI 团队研究 OpenAI Five 是为了解决超出现有深度强化学习算法能力范围的问题,他们希望通过现有的方法解决当下无法解决的问题,原以为这需要复杂的算法思想(比如分层强化学习(Hierarchical RL)),但他们惊讶地发现只需要改进的是规模,但实现和利用这个规模并不容易,这成了其研究的主要内容。
OpenAI Five 把世界看作是一串必须破译的数字。无论这些数字是以 DOTA 游戏形式(约 20000 个数字),还是以机械手形式(约 200 个),使用的都是通用学习代码。
为了创建 OpenAI Five,OpenAI 团队创造了一个名为 Rapid 的系统,用来以从未有过的规模去运行 PPO(Proximal Policy Optimization),结果出人意料,居然创造了一个不受任何基本性能限制的世界级 DOTA 机器人。
如今,RL 算法表现出了惊人的能力,但它在游戏或模拟环境之外却用处不大,但这个限制可能并没有听起来的那么糟糕,例如可以使用 Rapid 来控制机械手来重新移动一个模块,这需要首先进行模拟训练,然后在物理机器人上执行。他们认为,对于 RL 的下一个挑战是减少对经验的依赖。
虽然他们决定不再让 OpenAI Five 成为竞争对手,但社会进步和技术发展将继续推动未来的研究,这也并非 DOTA 比赛研究的终点,他们认为 DOTA 比赛对 RL 开发来说是一个比现在使用的标准环境更有趣、更复杂、也更好理解的环境。
算力
与 DOTA2 在去年的 TI 表演赛的失利相比,OpenAI Five 在 4 月 14 日战胜 OG 团队的主要原因是其训练的计算量增加了 8 倍。去年比赛后,OpenAI 团队将项目中的绝大部分计算用于训练 OpenAI Five 模型,同时还增加了训练时间。
OpenAI Five 的 TrueSkill,由于已经使用了额外的训练计算,所以用线来划分主要的系统变化。这张图的走向大致是线性的,意味着 OpenAI Five 不断从额外计算中获益。
总之 ,OpenAI Five 的当前版本已经训练了 800 petaflop/s /天,并且在10个实时月的时间内进行相当于人类大约 45000 年时长的 DOTA 游戏自我训练,相当于人类每天平均有 250 年的模拟训练。OpenAI Five 的最终版本与 TI 版本相比,胜率是 99.9%。
18 个英雄
从训练 5 名英雄到 18 名英雄时的训练进度几乎没有放缓,他们已经假设同样的情况如果发生在更多的英雄身上会怎样。TI比赛后,又花了很多精力去整合新的英雄。
他们花了几周时间去训练多达 25 个英雄的英雄池,将这些英雄带到大约 5k MMR(大约是95% DOTA 玩家的水平)。虽然在进步,但学习速度不够快,无法在决赛前达到职业水平。研究人员还没有时间去找到原因,但后来发现模型容量不足,需要更好的匹配来扩展英雄池,还需要更多的训练时间来让新英雄赶上老英雄。但想象一下,当一个人掌握了自己的英雄时,再去学习一个新英雄是多么困难。
对了,这里明明说训练了 18 个英雄,但为什么在与 OG 比赛时只放了 17 个英雄?因为还有一个英雄在 DOTA v7.20 版本中出现了明显变化,所以就没用。
最后,这么好的机会,要不要去体验下被机器人在 DOTA 中碾压的酸爽感?
(本文为AI科技大本营整理文章,转载请微信联系1092722531)
◆
精彩推荐
◆
5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开。首届CTA核心技术及应用峰会将围绕人工智能,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。
同时,我们推出会议双日开发者盲定票,仅售299元(原票价1099元),限量30张。大会详情以及票务问题,请扫描下方二维码咨询。
推荐阅读
从对ML一窍不通到斩获AT等special offer,拿下大厂算法岗就靠它了
以女大学生相亲为例,给你讲明白数据挖掘算法
Python分析《权力的游戏》最终季...... | 附源码
谷歌大神Jeff Dean点赞网红博士论文:技术头条
滴滴全链路压测解决之道 | 技术头条
手机导航已死!
如何嫁给年入百万的阿里人?
《捕鱼达人》幕后的开发引擎玩起区块链, 区块链游戏的春天已近?| 人物志
程序员如何向女友解释:为啥软件都要装C盘?
❤点击“阅读原文”,查看更多精彩文章。
相关文章:

Java学习笔记二十五:Java面向对象的三大特性之多态
Java面向对象的三大特性之多态 一:什么是多态; 多态是同一个行为具有多个不同表现形式或形态的能力. 多态就是同一个接口,使用不同的实例而执行不同操作. 多态性是对象多种表现形式的体现。 现实中,比如我们按下 F1 键这个动作&am…

省钱之道--图解域域树域林根域的含义
省钱之道--图解域域树域林根域的含义 标签:域 域林 图解域域树域林根域的含义 域树 根域原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://angerfire.blog.51cto.com/198455/1…

AI算法在FPGA芯片上还有这种操作?| 技术头条
作者 | 杨付收出品 | CSDN(ID:CSDNnews)碾压与崛起AI算法的崛起并非一帆风顺的,现在的主流的NN类的卷积神经网络已经是第二波浪潮了,早在上个世纪80年代,源于仿生学,后又发展于概率学的早期AI算…

[Doctrine Migrations] 数据库迁移组件的深入解析三:自定义数据字段类型
自定义type 根据官方文档,新建TinyIntType类,集成Type,并重写getName,getSqlDeclaration,convertToPHPValue,getBindingType等方法。 TinyIntType.php完整代码: <?php namespace db\types; …

【网络编程】同步IO、异步IO、阻塞IO、非阻塞IO
IO分两阶段: 1.数据准备阶段:在该阶段,根据是否等待数据准备,将IO分成阻塞和非阻塞; 2.内核空间复制回用户进程缓冲区阶段:在该阶段,只要程序需要等待复制完成,才能往下运行…

PowerDesigner 使用的一些技巧(转)
-> Generate Database ,在弹出的 Database Generation 对话框中选择脚本存取路径及脚本文件名称 3、点击确定后生成数据库建库脚本(*.sql) 二、生成脚本时报错: Column Code maxinum lenght 原因:字段超过15字符就发生错误&…

【网络编程】epoll 笔记
一、最大连接数 1、select select在单进程中最多同时监听1024个fd;要想实现百万并发需要一千个进程,并且性能会很差、内存消耗巨大。所以select只适用于连接数在一千个以下的场景。 2、epoll epoll本身不限制连接数,但是连接数会受到系统…

交通图网络太大太复杂,没法处理?DMVST-Net巧妙处理
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑作者 | Huaxiu Yao, Fei Wu, Jintao Ke, Xianfeng Tang等译者 | 一步一步望着天上星编辑 | Jane出品 | AI科技大本营(id:rgznai100)【导语】自 2018 年 6 月 DeepMind 发表论文“…

小程序这件事 撸起袖子加油干
写在前面的话: 初次接触小程序,便被它开发的简易与便捷所吸引。总按耐不住对未知的探索欲望,于是乎撸起袖子来干一个吧。附:小程序开发文档 项目介绍 艺龙酒店小程序实践 使用<swiper>标签实现网页轮播图的效果,…

mutt使用小技巧 指定发件人 添加附件
经常我们需要从linux服务器上直接发送一些邮件到自己,或者用户的邮箱里,mail命令固然重要,但是缺点是不能方便的进行插入附件。这里选择使用mutt,方便又好用。 实例: echo "邮件内容" | mutt -e "my_hd…

恶犬秒变萌汪:东京大学开源“治愈系”GAN图片拼贴工具 | 技术头条
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑译者 | linstancy责编 | 琥珀出品 | AI科技大本营(id:rgznai100)教新手画画?字体风格迁移?换明星“假脸”?毫无疑问,在图像生成中…

【视频】视频传输协议:RTSP、RTP、RTCP、RTMP、HTTP
一、RTSP、RTP、RTCP RTSP、RTP、RTCP是一组协议,其中RTSP在应用层、RTP和RTCP在传输层。RTP用于传输流媒体数据,而RTCP对RTP进行控制、同步。 二、RTSP、RTMP、HTTP 1、共同点 RTSP、RTMP、HTTP都是用在应用层。理论上这三种协议都可以做直播和点播,但直播一般用RTSP和…

ActiveMQ5.14.5配置参数详解
Activemq-.xml1.加载properties配置参数。下面加载是访问broker的身份信息,即用户名和密码 <bean class"org.springframework.beans.factory.config.PropertyPlaceholderConfigurer"><property name"locations"><value>file:…

正则表达式实现最小匹配
正则表达式默认情况下实现的是最大化匹配,这在有些情况下是非常不愿意出现的,比如下面这段代码: # starting IndiaInventoryAPP.exe" ~~DisplayVariableValues "parameterGroup,mailRecipients,ModuleArgs"~DisplayVariableVa…

Azure系列2.1.15 —— SharedAccessBlobPolicy
(小弟自学Azure,文中有不正确之处,请路过各位大神指正。) 网上azure的资料较少,尤其是API,全是英文的,中文资料更是少之又少。这次由于公司项目需要使用Azure,所以对Azure的一些学习…

Facebook AI新架构:全景FPN,同时完成图像实例与语义分割 | 极客头条
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑整理 | 刘旭坤、Jane出品 | AI科技大本营(id:rgznai100)实例分割和语义分割长期以来都是运用不同的神经网络架构来完成的,虽然最近出现了将语义和实例分割进行结合的…

【经验】向word中插入格式化的代码块
参考博客:如何在word中插入代码块 1、打开http://www.planetb.ca/syntax-highlight-word网站 语法高亮显示Word文档中的代码 2、将你的代码复制进去,选择编译语言,点击“Show Highlighted” 3、复制格式化后的代码 4、直接在word中粘贴代…

用路由器限制局域网的带宽流量
有时在上班的时候,带宽并不是很高,但又因个别人过量占用带宽导致其它人正常上网的速度都很慢,正常的工作都无法开展,所以对局域网内主机带宽流量的管理就必不可少了。 公司并不是很多的电脑,且预算不是很多的&…

Lumen / Laravel 5.5 使用网易邮箱 SMTP 发送邮件
2019独角兽企业重金招聘Python工程师标准>>> Laravel 是目前最流行的PHP框架,而Lumen 是 Laravel 的精简版,主要用于接口开发。 Laravel 邮件发送服务基于 Symfony 组件 Swift Mailer。 本文记录了在 Lumen / Laravel 5 环境中,使…

终于有人把数据、信息、算法、统计、概率和数据挖掘都讲明白了!
插画设计:万娟01什么是数据数据是什么?这几乎成为一个我们熟视无睹的问题。有不少朋友脑子里可能会直接冒出一个词“数字”——“数字就是数据”,我相信会有一些朋友会斩钉截铁地这么告诉我。一些朋友会在稍作思考后回答“数字和字符、字母&a…

【经验】配置Anaconda源
配置清华源: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

oracle update批量修改sql语句编写
update Suncco_Tz_Tbl_Task t set t.taskname网络部储备(室分)土建 , t.tasktype交换-交换主设备-电路域设备 , t.taskbyarea思明 , t.addresscoding2422BG00003735 update SUNCCO_TZ_TBL_TASK task set task.taskname11 , task.type33 where task.TA…

深入卷积神经网络背后的数学原理 | 技术头条
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑作者 | Piotr Skalski译者 | Monanfei编辑 | 十月Rachel、Jane出品 | AI科技大本营(id:rgznai100)【导读】在计算机神经视觉技术的发展过程中,卷积神经网络成为了其中…

【AI】在win10上安装TensorFlow2,安装成功,但是import tensorflow时报错:pywrap_tensorflow.py“, line 58
目录一、问题描述二、原因分析三、处理过程四、解决方法五、安装2.1和2.0命令的不同点1、TensorFlow2.02、TensorFlow2.1六、使用TenforFlow2.0-GPU时,报错:cudart64_100.dll not found1、错误信息如下2、原因分析3、解决方法七、测试TensorFlow是否支持GPU1、测试对…

SpringMVC4.x源码分析(五):request请求寻址HandlerMethod原理
2019独角兽企业重金招聘Python工程师标准>>> mvc:annotation-driven会将每一个Controllor内的被RequestMapping注解标注的方法解析为HandlerMethod对象,并存储在RequestMappingHandlerMapping的MappingRegistry属性中,寻址就是根据request请求…

在ASP.NET中指定出错页面,不让代码外泄!
在ASP.NET中指定出错页面,不让代码外泄!在ASP.NET中原始的出错页面会暴露部分源代码,由此带来了潜在的安全隐患。ASP.NET允许应用程序出错时显示用户指定的页面,方法是在web.config文件中修改配置信息。 <? xml version"…

【经验】提高github的下载(克隆)速度
原理: 利用码云来克隆GitHub项目,然后从码云下载。 参见博客: 最详细的图文教程帮你解决GitHub下载慢或下载失败问题(2019.8.10亲测有效)

Erlang之父给程序员的两点忠告 | 缅怀
整理 | 伍杏玲出品 | CSDN(ID:CSDNnews)北京时间 4月20日,据Erlang Solutions、Erlang Factories的创始人Francesco Cesarini的推特称,Erlang之父Joe Armstrong于4月20日去世,享年68岁。Francesco怀念道&am…

如何为你的博客文章自动添加版权信息?
转自:http://www.chinaz.com/web/2016/0616/541282.shtml https://www.feifanblog.com/ 好长时间没有分享关于网络技术的文章了,昨天有位朋友问我:“你博客每篇文章末尾的版权声明都是我自己手动添加的吗?”,看到这个问题我想很多…

2011-11-27
大三,这个关键时刻,目前自己正在写软件课程设计程序-教材订购系统,加油!努力!转载于:https://blog.51cto.com/3122770/728090