阿里达摩院刷新纪录,开放域问答成绩比肩人类水平,超微软、Facebook
出品 | AI科技大本营(ID:rgznai100)
近日,由阿里巴巴达摩院语言技术实验室研发的 Multi-Doc Enriched BERT 模型在微软的 MS MARCO 数 据评测任务,Passage Retrieval Task(文档检索排序)和 Q&A Task(开放域自动问答)中双双刷新记录,均取得榜首(截止 2019 年 6 月 26 日)。
MS MARCO 挑战赛是 AI 阅读理解领域的权威比赛,包含 100 多万问题和近千万篇文档,参赛机构提供的 AI 模型需要从这些文档中找出 100 万个问题的正确答案。参与此次评比的还有微软、Facebook 等公司。
与斯坦福大学发起的 SQuAD 挑战赛不同,MS MARCO 数据集模拟了搜索引擎中的真实应用场景,其难度更大,是机器阅读理解领域最有应用价值的数据集之一。MS MARCO 挑战赛需要参赛者提交的模型具备理解长文档多段落,并回答复杂问题的能力。对于每一个问题,MS MARCO 提供多篇来自搜索结果的网页文档,AI 需要通过阅读这些文档来回答用户提出的问题。但是,文档中是否含有答案,以及答案具体在哪一篇文档或段落中,都需 AI 自己来判断解决。
更难的是,有一部分问题无法在文档中直接找到答案,需要 AI 自由发挥做出判断。这对机器阅读理解提出了更高要求,需要 AI 具备综合理解多文档信息、聚合生成问题答案的能力。
阿里的突破在于提出了基于“融合结构化信息 BERT 模型”的“深度级联机器阅读模型”, 可以模仿人类阅读理解的过程,先对文档进行快速浏览,判断,然后针对相应段落进行精读,并根据“自己的理解”回答问题。 其中,阿里巴巴自研的算法成果——“深度级联机器阅读模型”已被 AAAI 2019 收录。
这是继 2018 年《Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering》(ACL 2018)在单文档阅读理解(斯坦福 SQuAD 挑战赛)取得的成果后,阿里巴巴研究团队在机器阅读理解领域的又一次突破。
机器阅读理解模型需要的输入是<Question, Documents>,业务应用中,枚举所有Document,计算并排序答案后给出最终答案显然不实际;另一方面,设计完全的 IR+MRC 的端到端(End2End)模型, 并辅以 Joint Trainning 在线上部署和实际使用时也会遭遇模型过大导致的性能瓶颈。因此,采用 Question 相关文档选择及文档中段落裁剪,并将有限且相关的备选段落交给 MRC 模型的方案是兼顾 Effectiveness 和 Efficiency 的核心策略。
阿里巴巴研究团队在 MS MARCO 上提交的 Multi-Doc Enriched BERT 模型,正是为了解决上述问题。团队先于2019年初提出了级联学习框架《A Deep Cascade Model for Multi-Document Reading Comprehension》(AAAI 2019),设计出深度级联机器阅读框架,该方案可有效降低召回阶段延时,并最大化答案准确率,算法在召回和排序上逐步从文档级别,段落级别演化,并在最后有限的备选段落中进行答案提取工作。
随后,研究团队提出了 Enriched BERT 模型,配合 Deep Cascade Model 框架,在多文阅读理解上超过了之前广泛使用的 IR Based MRC 模型。其中,负责提供语义表征的 Enriched BERT 模型除了在 MS MARCO 上作为语言模型帮助取得双料冠军外,在国际公认的自然语言理解标准数据集 GLUE Benchmark 上也取得了 Top3 的成绩(相关技术近期公开)。
特别在 MS MARCO Q&A Task 上,阿里方面称,较之前最先进的模型有 1.5% 的 Rouge-L 绝对提升。此外,在 MS MARCO Passage Retrieval Task 上,他们自研的 Enriched BERT Base 模型领先于其他模型。
阿里方面介绍,阿里 AI 可以像人类一样在阅读并理解后快速应对天马行空的问题。比如阿里 AI 可以在毫秒内读完 2 亿字的巨著, 相当于 5 本《大英百科全书》,并根据自己的理解快速回答 100 多万个不同领域的不同问题。例如 2014 年足球世界杯的冠军是谁?哈利波特在哪里上学的?什么是宇宙中最强的磁场?阿里 AI 可以分别迅速给出答案,这一研究水平可以应对高中英语阅读理解试题。
(这一AI能力已应用在阿里电子商务平台中)
对人类而言, 阅读是获取知识、不断进步的重要途径;对机器而言,同样如此。阿里 AI 这一成果揭示了机器在理解大量复杂材料以及回答现实生活中复杂问题方面的潜力。
据阿里方面介绍,这一技术已经开始大规模应用,例如去年在 Lazada 一次线上促销活动前, 阿里 AI 仅仅花了 30 毫秒就学会 25 个在印尼促销品销售中的所有规则,并成功应用到聊天机器人中,在活动中回答问题方面的准确率达到了 96%。
围绕电商服务、导购及任务助理为核心的智能人机交互产品,在活动,规则,指南等场景中替代人工构建知识,降低人工成本,提升认 知智能能力,为海量的活动规则咨询提供解答服务。在近年来的双 11,双 12 场景及最近的 618 大促中维护效率提升 50%,相比通用方案解决率提升 10%。同时,这一技术也活跃在政务场景如市 ⺠办事咨询中,基于浙江省百万级办事指南库,”身份证到哪里换“这类咨询从等待人工回复时⻓ 2.5 天提升到了秒级响应。
以多文档开放问答场景的机器阅读为代表的语言理解技术是自然语言处理的基础能力之一,在这些基础能力之上,阿里巴巴可围绕该技术构建一系列问答类应用。在产业落地方面,问答平台及聊天机器人产 品等会伴随这项技术丰富其自身能力,降低人力成本提高效率;对于消费者来说,智能客服以后可以帮助 消费者在购物时有更好的体验。
当前,无论是在工业界还是学术界,各方研究团队都在机器阅读理解上投入大量精力。未来,除了对话和问答场景,在搜索场景中,搜索引擎将不仅仅是返回用户相关的链接和网⻚,而是通过对互联网上的海量资源进行阅读理解,直接得出答案返回给用户。
附:级联机器阅读理解模型详解
阿里方面提供的资料显示,级联学习可以通过在不同阶段采用不同的特性选择和样本筛选策略达到效果和性能的平衡,阿里巴巴提出的多文档机器阅读模型首先利用简单特征和排序模型过滤掉与问题无关的样本和段落,并得到一组候选文本,供后续从中提取答案。然后将生成的段落传递给基于注意力的深层 MRC 模型(不同于传统多层 MRC,阿里巴巴研究团队在近期公布的 Google BERT 进行了进一步的创新优化,并设计了基于 Enriched BERT 的新 MRC 模型),该模型用于提取单词级别的实际答案跨度。
为了进一步提升模型效果,该模型使用文档提取和段落提取作为辅助任务,以快速减少搜索空间的范围。重要的是,这三个任务在统一的深层 MRC 模型中共享同一个底层语言模型(Enriched BERT),这不仅可以实现粗到细的演绎过程,还可以通过迭代有效地学习更好的模型。
如上图所示,系统架构由三个核心模块组成,分别负责文档检索、段落检索和答案提取。对于前两个功能中的每一个功能,都定义了一个排序函数和一个提取函数。排序函数用于无关内容的过滤(Efficiency)。提取函数将文档提取和段落提取作为辅助任务并与最终答案提取模块(机器阅读理解) 联合优化,以提高性能(Effectiveness)。所采用的方案与以前的方法相比,关键的改进是每个模块的本地排序功能在成本和复杂性上逐步增加,在整个计算过程中保持效率和有效性竞争因素之间的平衡。
在实验中(备注:AAAI 2019 的实验中不包含 Enriched BERT 结果,后续公布),模型开发人员首先用 TriviaQA Web 和 DuReader 基准数据集验证了在离线测试中的有效性,这两套数据集通常被用作多文档 MRC 评测的标准数据集。该基准数据的结果表明,研究人员所提出的模型明显超过了以前最先进的模型, 在每个包含两个段落四个文档集的场景中性能最佳;此外,通过额外的辅助任务在初期排序中消除不相关的文档和段落,时间成本被证明是可以降低的,可以在不显著影响最终答案提取效果的情况下完成。
经过验证,团队使用阿里小蜜客服机器人系统进行了在线环境测试,该系统旨在帮助阿里巴巴集团电子商务平台解决每日约 200 万名访问者提出的问题。这些测试表明,该模型能够以低于 50 微秒的速度满足请求,同时也提高了有效性标准。
上述结果表明,通过减少无关内容的“噪声”,该模型可以大大改善现有的最先进在线答疑系统标准, 同时更好地平衡提取过程各个阶段效率和有效性。
相关链接:
http://www.msmarco.org/leaders.aspx
https://gluebenchmark.com/leaderboard/
(*本文为 AI科技大本营整理文章,转载请联系 1092722531)
◆
精彩推荐
◆
推荐阅读
不写一行代码,也能玩转Kaggle竞赛?
一文读懂基于神经网络的图片风格转移
50行Python代码,获取公众号全部文章
收藏 | 49个Python学习资源
库克回应乔纳森离职;微信新版本取消“语音转文字”功能;Mac Pro生产迁至中国 | 极客头条
三十四载Windows崛起之路: 苹果、可视做过微软“铺路石”
3大维度告诉你,为什么说比特币并非避险资产?
黑客亲述: “倾家荡产,是你们的事! ”
面试官:你简历中写用过docker,能说说容器和镜像的区别吗?

相关文章:

解决windows7下vs2008不能正常编译ActiveX控件的问题
在windows7系统中,vs2008环境下用MFC ActiveX Control生成的控件不能正常编译,但是在xp系统中却能正常编译,解决方法: 1、在windows7中编译,提示错误为:fatal error LNK1000: Internal error during IncrB…

什么是shell【TLCL】
常用命令 datecaldf——report file system disk space usagefree——display amount of free and used memory in the systemexit——退出终端Ctrl-Alt-F1 到 Ctrl-Alt-F6 访问后台终端会话,AltF7返回图形桌面转载于:https://www.cnblogs.com/songdechiu/p/9943599…

Linux终端的几个常用快捷方式,记下!
一、初识linux的终端种类:本地、远程 查看本终端命令: #tty 命令,看到当前所处的终端 #(w)who 命令,看到系统中所有登录的用户 其中,tty 终端为表示在本地命令行模式下打开…

从0到1 | 文本挖掘的传统与深度学习算法
一、什么是文本挖掘?讨论文本挖掘之前,我们要先说一下数据挖掘的概念,因为文本挖掘是数据挖掘的一个分支。数据挖掘(Data Mining)指从大量的数据中通过算法搜索隐藏在其中信息的过程。而文本挖掘就是从文本数据中获取有…

window7系统中64位安装matalbR2009b后出现乱码的解决方案
转自:http://blog.csdn.net/shaoguangleo/archive/2010/11/29/6042194.aspx MATLAB 中默认的字体是 Monospaced (即等宽字体),这是一种非常适合用于显示程序源代码的字体。但Monospaced 是种逻辑字体,它在不同语言和操…

【电路】pmic芯片设计细节
VIO_IN供电https://e2e.ti.com/support/power-management/f/196/t/712146?tisearche2e-sitesearch&keymatchtps65916 Note that every GPIO will be configured as an input for the first 6ms after VCC is supplied, which is the time it takes for the device to init…

sql server 的一些记录
下面记录一些用到sql server查询时候用到的函数。 charindex,在一个表达式中搜索另一个表达式并返回其起始位置(如果找到)。http://msdn.microsoft.com/zh-cn/library/ms186323.aspx CHARINDEX ( expressionToFind ,expressionToSearch [ , start_locati…

[WPF] UserControl vs CustomControl
原文:[WPF] UserControl vs CustomControl介绍 WPF中有两种控件:UserControl和CustomControl,但是这两者有什么区别呢?这篇博客中将介绍两者之间的区别,这样可以在项目中合理的使用它们。 UserControl 将多个WPF控件(例如…

50行Python代码,获取公众号全部文章
作者 | 胖虎转载自Python3X(ID: python3xxx )爬取公众号的方式常见的有两种:通过搜狗搜索去获取,缺点是只能获取最新的十条推送文章。通过微信公众号的素材管理,获取公众号文章。缺点是需要申请自己的公众号。今天介绍…

解决Windows7下vs2008 Active control test container 不能运行的问题
按照:http://blog.csdn.net/fengbingchun/archive/2011/05/05/6398356.aspx 在windows7系统中,vs2008环境下用MFC ActiveX Control生成的控件不能正常编译,但是在xp系统中却能正常编译,解决方法: 1、在windows7中编译…

入门必备 | 一文读懂神经架构搜索
作者 | Md Ashiqur Rahman编译 | 刘静转载自图灵TOPIA(ID: turingtopia)近期谷歌大脑团队发布了一项新研究:只靠神经网络架构搜索出的网络,不训练,不调参,就能直接执行任务。这样的网络叫做WANN,…

脚本化 tmux — LinuxTOY
脚本化 tmux — LinuxTOY脚本化 tmux2012-07-02 Toy Posted in TipsRSS昨天我在家试了下脚本化 tmux,其表现相当令人满意,只需稍加定制便可满足各种实际需要。这或许可以成为抛弃 GNU screen,改用 tmux 的又一个理由。该脚本先判断一个名为 c…

OpenCV像素点处理
转自:http://blog.csdn.net/hxgqh/archive/2011/02/23/6202001.aspx 获得像素点的值便可以更加灵活的进行图像处理,在OpenCV里可以通过cvGet2D()和cvSet2D()两个函数加上一个CvScalar结构体做到。OpenCV中,CvScalar结构为:typedef…

亲 , Zookeeper了解一下 : 概述
2019独角兽企业重金招聘Python工程师标准>>> 在学习的过程中,我们总需要一个来自灵魂的拷问: 为什么? 为什么会产生Zookeeper 这个问题有深度,那要从五百万年说起,在遥远的塞伯坦星球..... 扯远了... 在遥远在单机单服务的时代 , 想要扩展服务 , 只能增加硬件配置 …

wordpress jquery加载如何实现?
2019独角兽企业重金招聘Python工程师标准>>> 为什么写这篇文章? 因为之前在wordpress里面用jquery的时候没注意,这次因为要优化网站把没用的插件删了,结果发现有的jquery功能失效了,调试了许久才发现可能是jQuery没有定…

百度与华为重磅合作!李彦宏:技术是百度的信仰
导语:这是百度第三年举办AI开发者大会。一生二,二生三,三生万物。AI虽然不能产生万物,但是正在“唤醒万物”。 作者 | 阿司匹林 出品 | AI科技大本营(ID:rgznai100) 在今天上午举行的的百度AI开发者大…

已知空间一点到另外两点直线的距离
转自:http://www.cnblogs.com/clarkustb/archive/2008/11/04/1326500.html 已知空间一点到另外两点直线的距离设空间中的三点为M1,M2,M3,分别用矢量a,b表示方向向量M1M2和M1M3,则: 1. M3到M1,M2连线的距离为|axb|/|a|,这里|.|表示向量的…

vue---进行post和get请求
参考文档: https://www.jb51.net/article/125717.htm 使用axios <script src"https://unpkg.com/axios/dist/axios.min.js"></script> 基本使用方法: get请求: // Make a request for a user with a given ID axios.ge…

CxImage图像处理类库
转自:http://blog.csdn.net/byxdaz/archive/2009/04/10/4061324.aspx CxImage是一个可以用于MFC 的C图像处理类库类,它可以打开,保存,显示,转换各种常见格式的图像文件,比如BMP, JPEG, GIF, PNG, TIFF, MNG…

设计模式学习2 工厂模式
工厂模式其实就是简单模式的升级版本, 简单模式将界面与业务逻辑区分开,但是如果不停的增加计算器的运算方式,简单模式中的工厂Factory 中判断的业务逻辑会变非常复杂,这不符合封装的原则。 所以在此之上将Factory抽象了出来&…

输入字符串,包含数字,大小写字母,编程输出出现做多的数字的和
题目描述: 输入字符串,包含数字,大小写字母,编程输出出现做多的数字的和。 思路: 1.创建输入对象2.输入字符串3.利用正则将字母分离出,剩余的每一个字符串即为待统计的每一个数字,存入字符串数组…

优化思路千万种,基于下界函数的最优化效率如何?
作者丨stephenDC来源 | 大数据与人工智能(ID:ai-big-data)导读:生活中我们处处面临最优化的问题,比如,怎么样一个月减掉的体重最高?怎么样学习效率最高?怎么样可以最大化实现个人价值࿱…

Quintum 语音网关设置方法
Quintum 网关基本配置 Quintum 网关基本配置 登陆方式:方法一:串口登陆(1).用配套的串口线连接网关的CONSOLE口和电脑的串口。 (2).开启电脑的的超级终端,路径如下&#…

Activex test contact failed to create control 未指定的错误 控件无法加载的原因
转自:http://blog.csdn.net/phker/archive/2009/12/25/5073402.aspx 本文指的是vc项目的activex 出现这个问题, 我总结了总共有以下几点,可能还有其他原因: 1.中文问题:如果你的项目类型是多字节的,而不是unicode编码的,你可能要注意这个问题了,我就发生了这个问题…

人工智能技术在内容行业的应用:AI对中长尾内容平台还是奢侈品
整理 | 夕颜出品 | AI科技大本营(ID:rgznai100)导读:随着人工智能技术的发展,媒体行业本身在不断地发生变化,从传统媒体到新媒体,改变的不仅是信息载体,更是一种新的逻辑,无论是内容…

QQ爬虫-爬取QQ空间
背景:在一篇个人博客看到了相关的爬虫的知识,个人比较有兴趣,就花了点时间研究了一下,主要通过好友空间的互动(相互访问量,点赞,评论,以及其他互动),以及好友之间聊天的活跃度&#…

perl编程手册
2019独角兽企业重金招聘Python工程师标准>>> perl编程手册: -------------------------------手册-------------------------------- perl手册.chm http://vdisk.weibo.com/s/moN-p -------------------------------视频-------------------------------- 俺的…

VC使用ActiveX控件常见问题
转自:http://lingchuangsong.blog.163.com/blog/static/126932322008631104133309/ 一方面,它表示将你联系到Microsoft、Internet和业界的新技术的小型快速的可重用组件。它与开发语言无关,任何支持 ActiveX控件的软件开发平台(如…

你绝没用过的一款高级空间可视化工具
作者 | Shan He转载自高级农民工(ID: Mocun6)说起 Python 中的可视化,我们一般用的最多的是 Matplotlib,绘制一般的图效果都很好。有时候也会用风格比较好看的 Pyecharts 库,尤其是在展示空间地图上的数据时。不过它的…

揭秘vue——vue-cli3全面配置
★ vue-cli3 全面配置 ★ Nuxt.js 全面配置 创建项目 配置环境变量 通过在package.json里的scripts配置项中添加--mode xxx来选择不同环境 在项目根目录中新建.env, .env.production, .env.analyz等文件 只有以 VUE_APP_ 开头的变量会被 webpack.DefinePlugin 静态嵌入到客户端…