DeepMind 打造 AI 游戏系统,可以玩扑克、国际象棋、围棋等,战斗力爆表
编译 | 禾木木
出品 | AI科技大本营(ID:rgznai100)
谷歌母公司 Alphabet 的人工智能实验室 DeepMind 长期以来一直投资于游戏人工智能系统。实验室的理念是,游戏虽然缺乏明显的商业应用,但却是认知和推理能力的独特相关挑战。这使它们成为 AI 进步的有用基准。
与此前开发的游戏系统不同,DeepMind 创建了一个名为 Player of Games 的系统,是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的 AI 算法。与 DeepMind 之前开发的其他游戏系统,如国际象棋冠军AlphaZero和星际争霸 II 的 AlphaStar 不同,博弈者可以在完全信息游戏(例如中国围棋和国际象棋)和不完全信息游戏(例如,扑克)中表现出色。
无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI系统可能通过协调、合作和群体或组织之间的互动而获益。像 Player of Games 这样的系统,能推断其他人的目标和动机,使其与他人成功合作。
不完全对完全
不完全信息游戏的信息在游戏过程中对玩家是隐藏的,相比之下,完全信息游戏在开始时会展示所有的信息。
要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。
DeepMind 称,Player of Games是首个“通用且健全的搜索算法”,在完全和不完全的信息游戏中都实现了强大的性能。
Player of Games 有很强通用性,不过不是什么游戏都能玩。参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,在完全信息游戏中,AlphaZero比Player of Games更强大,但在不完全的信息游戏中,就没有那么厉害。系统需要考虑每个玩家在游戏中的所有可能观点。虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可以有很多这样的视角,例如,扑克大约有 2,000 个。此外,与 DeepMind AlphaZero 的继任者 MuZero 不同,Player of Games 也需要了解它所玩的游戏规则,而 MuZero 可以即时掌握完全信息游戏的规则。
在其研究中,DeepMind 在国际象棋、围棋、德州扑克和战略棋盘游戏《苏格兰场》上的表现,评估了 Player of Games 使用谷歌 TPUv4 加速芯片组进行训练。对于围棋,它在 AlphaZero 和 Player of Games 之间设置了 200 场比赛,而对于国际象棋,DeepMind 则让 Player of Games 和 GnuGo、Pachi 和 Stockfish 以及 AlphaZero 在内的顶级系统进行了较量。Player of Games 的德州扑克比赛使用公开可用的 Slumbot 进行,该算法还与 Joseph Antonius Maria Nijssen 开发的 PimBot 进行了苏格兰场的比赛。DeepMind 的合著称为“PimBot”。
在国际象棋和围棋中,Player of Games 被证明在某些配置中比 Stockfish 和 Pachi 更强大,并且它在对抗最强的 AlphaZero 系统时赢得了 0.5% 的比赛。尽管在对阵 AlphaZero 的比赛中损失惨重,但 DeepMind 认为 Player of Games 的表现达到了“顶级人类业余爱好者”的水平,甚至可能达到了职业水平。
结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量。
同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是“显著”击败了它。
未来
Schmid 相信 Player of Games 是向真正通用的游戏系统迈出的一大步。
实验的总体趋势是,随着计算资源增加,该算法的性能会更好,Schmid 预计这种方法将在可预见的范围内扩展未来。
“人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家。”他谈道,“让这些算法更加通用是一项令人兴奋的研究。”
参考链接:
https://venturebeat.com/2021/12/08/deepmind-makes-bet-on-ai-system-that-can-play-poker-chess-go-and-more/
相关文章:

WPF-动态加载
添加一个UserControl,命名为BusyIndicator,view为空,在其.cs文件中定义一个类 1 /// <summary> 2 /// 动态实体 3 /// </summary> 4 public class AnimationObject 5 { 6 publ…

ORA-06502 when awr report produce
最近在生成一套系统的AWR报告时出现了如下报错:ORA-06502: PL/SQL: numeric or value error: character string buffer too small,然后生成AWR报告的过程就终止了,查看生成的AWR报告,发现报告时不完整的,AWR报告到Comp…

进程间通信学习小结(共享内存)
要使用共享内存,应该有如下步骤:1.开辟一块共享内存 shmget()2.允许本进程使用共某块共享内存 shmat()3.写入/读出4.禁止本进程使用这块共享内存 shmdt()5.删除这块共享内存 shmctl()或者命令行下ipcrm 共享内存可以说是最有用的进程间通信方式ÿ…

[ObjectiveC]NSDATA, NSDICTIONARY, NSSTRING互转
2019独角兽企业重金招聘Python工程师标准>>> NSDATA-->NSDICTIONARY NSDictionary *dict [NSJSONSerialization JSONObjectWithData:data options:NSJSONReadingAllowFragments error:nil]; NSDICTIONARY-->NSDATA NSData *data [NSJSONSerialization dat…

如流智会2021:技术结合场景 让企业知识懂员工
12月10日,“如流智会2021智能进化”在京举行,学界专家业界大咖云集荟聚,共商企业智能化转型之道。会上,百度集团副总裁、百度集团首席信息官(CIO)李莹表示:“智能经济时代,智能组织是…

WSFC 仲裁模型选择
今天我们再来详细讨论下关于WSFC的仲裁模型,主要仲裁模型的优缺点,应该如何去思考选择最佳合适方案WSFC引入仲裁,主要有两个目的跟踪群集当前运作票数是否符合仲裁模型协定,如果低于最少允许节点,则决定关闭群集&#…

关于进程间通信的学习心得
进程:进程是指独立地址空间的指令序列进程的五种状态:新建,就绪,运行,睡眠,僵死进程间通信:是不同进程之间进行一些"接触",这种接触有简单,有复杂。机制不同&a…

Go modules基础精进,六大核心概念全解析(上)
Go 语言做开发时,路径是如何定义的?Go Mudules又为此带来了哪些改变?本文将会全面介绍Go Modules六大核心概念,包括了设计理念与兼容性原则等,掌握这些技术点对于管理和维护Go 模块有重要价值。 在Go Modules 的前世今…

PARAMETERS 指令
语法: PARAMETERS <p> [DEFAULT <f>] [LOWER CASE] [OBLIGATORY] [AS CHECKBOX] [RADIOBUTTON GROUP <rad>] 实例: PARAMETERS: NAME(8), AGE TYPE I, BIRTH TYPE D. OBLIGATORY:强制要求输入, 屏幕上会出現一个“√” , 使用者必须要输入才可。 AS C…

阿里发布AliGenie2.0系统,“百箱大战”用上视觉武器
天猫精灵X1的升级版X2没有预期出现,而人机交互系统AliGenie升级到最新的2.0版本,功能强大。 3月22日,阿里巴巴人工智能实验室总经理浅雪(陈丽娟)发布AliGenie2.0系统,它最大的改进是在1.0的基础上增加了视觉…

Centos5.6 VNC安装配置【无错版】
不严格按本步骤就会出现VNC桌面花屏,就是桌面分离为一层一层的。。。 ---------------------------------------- 先装X window http://blog.csdn.net/21aspnet/article/details/6997549 ---------------------------------------- Centos5.6 VNC安装配置 一、检查是…

关于IOS的屏幕适配(iPhone)——资源适配
IOS的屏幕适配几乎不需要大量的代码操作,更多的时间我们只是动动鼠标选择一下就搞定。可以苹果在这方面做的还是比较人性的,解放了开发者。 首先来说说Iphone这几种屏(由于最近做的是iPhone APP还未涉及到iPad,将来涉及到iPad时会…

Go modules基础精进,六大核心概念全解析(下)
Go 语言做开发时,路径是如何定义的?Go Mudules又为此带来了哪些改变?本文将会全面介绍Go Modules六大核心概念,包括了设计理念与兼容性原则等,掌握这些技术点对于管理和维护Go 模块有重要价值。 在上篇中,我…

京东区块链白皮书解读, 做“链接器”,一次技术宣言
前天,京东对外发布了《京东区块链技术白皮书(2018)》。 昨天,京东金融发布了旨在帮助中小银行提升零售信贷效率的产品“北斗”。目前,“北斗”已经接入包括江苏银行、南京银行、包商银行在内的近30家银行。京东金融还与近30家商业银行共同发起…

xauth: (stdin):1: bad display name LSPPC-Lenny:1 in add command
启动vnc4server之后出现如下错误提示:LSPPC-Lenny:~# vnc4serverxauth: (stdin):1: bad display name "LSPPC-Lenny:1" in "add" command New ‘LSPPC-Lenny:1 (root)’ desktop is LSPPC-Lenny:1 Starting applications specified in /root/…

使用 Python 和 OpenCV 构建 SET 求解器
作者 | 小白来源 | 小白学视觉小伙伴们玩过 SET 吗?SET 是一种游戏,玩家在指定的时间竞相识别出十二张独特纸牌中的三张纸牌(或 SET)的模式。每张 SET 卡都有四个属性:形状、阴影/填充、颜色和计数。下面是一个带有一些…

Delphi XE5 常用功具与下载
1.Delphi XE5 正式版http://altd.embarcadero.com/download/radstudio/xe5/delphicbuilder_xe5_win.isohttp://altd.embarcadero.com/download/radstudio/xe5/delphicbuilder_xe5_upd1_win.iso2. cnpack 助手工具http://www.cnpack.org/download/unstable/CnWizards_1.0.1.665_…

maven学习(4)-Maven 构建Web 项目
紧接着上一节(3),现在maven新建web项目,user-web。模拟一个用户登录的需求: 工程结构: pom.xml: <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance&qu…

如何查看linux版本
1. 查看内核版本命令: 1) [rootq1test01 ~]# cat /proc/version Linux version 2.6.9-22.ELsmp (bhcompilecrowe.devel.redhat.com) (gcc version 3.4.4 20050721 (Red Hat 3.4.4-2)) #1 SMP Mon Sep 19 18:00:54 EDT 2005 2) [rootq1test01 ~]# uname -a …

存储过程由结构表生成表
结构表 CREATE TABLE JGTB5001( ZDM VARCHAR2(30 BYTE), HZM VARCHAR2(100 BYTE), LX VARCHAR2(50 BYTE), JD VARCHAR2(20 BYTE), WBKLX VARCHAR2(100 BYTE), FUNCTIONNAME VARCHAR2(50 BYTE), FUNCTIONPARAMETER VARCHAR2(50 BYTE)); 生成的TB表CREATE OR REPLACE PROCEDURE P…

好礼相送|CSDN云原生 Meetup 成都站报名热烈启动,12.18见!
伴随着容器、Kubernetes及微服务等技术热度的持续攀升,云原生正以不可撼动之势,剑指云计算的下一个十年。12月18日,CSDN将在成都举办第三场云原生线下Meetup。在这里,您可以了解各大领先企业的云原生落地实践,与众多云…

vue-music 音乐网站
在学习完vueJS,一直想做个项目来锻炼一下,选来选去,还是做个网易云音乐,其间遇到了很多坑,也逐渐接受了vue这种组件化的思想以及从Dom操作转换为用数据去驱动视图。并且在某部分基础组件上借鉴(搬运)了elementUI的源码(不过elementUI写的是真好) 技术栈 …

shell环境变量
shell环境变量 环境变量 还记得上一章里面﹐我曾经提到过﹕当我们登入系统的时候﹐首先就获得一 shell﹐而且它也占据一个行程(进程)﹐然后再输入的命令都属于这个 shell 的子程序(子进程)。如果您学习够细心﹐不难发现我们的 sh…

apache用户认证
先创建一个“用户认证”目录(设为abc)[rootLAMPLINUX ~]# cd /data/www[rootLAMPLINUX www]# mkdir abc进入abc目录[rootLAMPLINUX www]# cd abc拷贝一个文件(作用:验证配置是否生效)[rootLAMPLINUX abc]# cp /etc/pas…

20个经典函数细说 Pandas 中的数据读取与存储,强烈建议收藏
作者 | 俊欣来源 | 关于数据分析与可视化大家好,今天小编来为大家介绍几个Pandas读取数据以及保存数据的方法,毕竟我们很多时候需要读取各种形式的数据,以及将我们需要将所做的统计分析保存成特定的格式。我们大致会说到的方法有:…

fastlane自动打包--详细介绍
fastlane--Packaging 自动化打包,通过fastlane自动发布Fastlane安装不在这里详细罗列,参照一下链接流程 https://www.jianshu.com/p/0a113f754c09操作步骤 1.检查Fastlane是否正确安装。输入以下命令: fastlane --version 复制代码可以看到Fa…

【Big Data】HADOOP集群的配置(一)
Hadoop集群的配置(一) 摘要: hadoop集群配置系列文档,是笔者在实验室真机环境实验后整理而得。以便随后工作所需,做以知识整理,另则与博客园朋友分享实验成果,因为笔者在学习初期,也遇到不少问题…

C语言 条件编译详解
预处理过程扫描源代码,对其进行初步的转换,产生新的源代码提供给编译器。可见预处理过程先于编译器对源代码进行处理。在C 语言中,并没有任何内在的机制来完成如下一些功能:在编译时包含其他源文件、定义宏、根据条件决定编译时是…

凝聚406万开发者 飞桨十大发布提速产业智能化
12月12日,由深度学习技术及应用国家工程实验室主办的WAVE SUMMIT2021深度学习开发者峰会在上海召开。百度首席技术官、深度学习技术及应用国家工程实验室主任王海峰公布飞桨最新成绩单:凝聚406万开发者、创建47.6万模型、服务15.7万企事业单位࿰…

环境变量,cp,mv,查看文档命令
2019独角兽企业重金招聘Python工程师标准>>> 一、环境变量PATH echo $PATH 打印当前的环境变量 PATH$PATH:路径 自定义环境变量 which查找某个命令的绝对路径,也可以查看某个命令的别名,which查找的范围就在PATH下的几个目录下查找࿱…