当前位置: 首页 > 编程日记 > 正文

百度ERNIE 2.0发布!16项中英文任务表现超越BERT和XLNet

640?wx_fmt=png


整理 | 夕颜出品 | AI科技大本营(ID:rgznai100) 
导读:2019 年 3 月,百度正式发布 NLP 模型 ERNIE,其在中文任务中全面超越 BERT 一度引发业界广泛关注和探讨。今天,百度发布了 ERNIE 2.0,指出其在英文任务方面取得全新突破,在共计 16 个中英文任务上超越了 BERT 和 XLNet,取得了 SOTA 效果。目前,ERNIE 2.0 代码和英文预训练模型已开源。
      

640?wx_fmt=png

(摄于2019年7月3日百度AI开发者大会)
 今天,百度 ERNIE 再度升级,发布持续学习的语义理解框架 ERNIE 2.0,及基于此框架的 ERNIE 2.0 预训练模型。 目前,百度 ERNIE 2.0 的Fine-tuning代码和英文预训练模型已开源。 Github 项目地址:https://github.com/PaddlePaddle/ERNIE 近两年,以BERT、XLNet为代表的无监督预训练技术在语言推断、语义相似度、命名实体识别、情感分析等多个自然语言处理任务上取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。 百度发现,之前的工作主要通过词或句子的共现信号,构建语言模型任务进行模型预训练。例如,BERT 通过掩码语言模型和下一句预测任务进行预训练。XLNet 构建了全排列的语言模型,并通过自回归的方式进行预训练。 然而,除了语言共现信息之外,语料中还包含词法、语法、语义等更多有价值的信息。例如,人名、地名、机构名等词语概念知识,句子间顺序和距离关系等结构知识,文本语义相似度和语言逻辑关系等语义知识。设想如果能持续地学习各类任务,模型的效果能否进一步提升?       

640?wx_fmt=png    

ERNIE 2.0:可持续学习语义理解框架 基于此,百度提出可持续学习语义理解框架 ERNIE 2.0。该框架支持增量引入词汇(lexical)、语法 (syntactic) 、语义 (semantic) 等3个层次的自定义预训练任务,能够全面捕捉训练语料中的词法、语法、语义等潜在信息。这些任务通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。这也意味着,该框架可以通过持续构建训练包含词法、句法、语义等预训练任务,持续提升模型效果。       

640?wx_fmt=png      

新发布的 ERNIE 2.0 模型结构 依托该框架,百度借助飞桨 PaddlePaddle 的多机分布式训练,利用 79 亿 tokens 训练数据(约 1/4 的 XLNet 数据)和 64 张 V100 (约 1/8 的 XLNet 硬件算力),ERNIE 2.0 预训练模型不仅实现了 SOTA效果,而且为开发人员定制自己的 NLP 模型提供了方案。 百度研究团队分别比较了 ERNIE 2.0 在中英文环境上的模型效果。英文环境上,ERNIE 2.0 在自然语言理解数据集 GLUE 的 7 个任务上击败了 BERT 和 XLNet。中文上,在包括阅读理解、情感分析、问答等不同类型的 9 个数据集上超越了 BERT 并刷新了 SOTA。

640?wx_fmt=png

640?wx_fmt=png

 
ERNIE 的工作表明,在预训练过程中,通过构建各层面的无监督预训练任务,模型效果也会显著提升。未来,研究者们可沿着该思路构建更多的任务提升效果。

自 2018 年预训练语言模型 BERT 提出之后,预训练语言模型将自然语言处理的大部分任务水平提高了一个等级,这个领域的研究也掀起了热潮。如今百度 ERNIE 2.0 再度为行业提供了研究思路上的方法创新,可持续学习的特点亦将成为 NLP 领域发展里程中的注脚。

(*本文为 AI科技大本营整理文章,转载请联系微信 1092722531)


640?wx_fmt=jpeg


精彩推荐



640?wx_fmt=jpeg


60+技术大咖与你相约 2019 AI ProCon!大会早鸟票已售罄,优惠票速抢进行中......2019 AI开发者大会将于9月6日-7日在北京举行,这一届AI开发者大会有哪些亮点?一线公司的大牛们都在关注什么?AI行业的风向是什么?2019 AI开发者大会,倾听大牛分享,聚焦技术实践,和万千开发者共成长。


推荐阅读

  • 认知智能的突围:NLP、知识图谱是AI下一个“掘金地”?

  • 你想见的大神都来AI ProCon 2019了,优惠票限时抢购开启!

  • Python分析那些“标题党”文章

  • Python之父新发文,将替换现有解析器

  • 华为否认鸿蒙为噱头;谷歌公布 6 大 iOS 漏洞;极客头条

  • 三次创业,三次跨界,这次凭十万行核心 C 代码登上 GitHub Top 1!

  • 64%的投资者对比特币不感兴趣,那是谁投资了比特币?


640?wx_fmt=png你点的每个“在看”,我都认真当成了喜欢


相关文章:

WindowsServer2012史记7-茴香豆的五种写法和四种”显示计算机”的方法

消失的"计算机"?【这周九叔工作比较忙,还有其他琐事缠身,因此SystemCenter2012SP1系列的发布稍慢,抱歉了各位。】众所周知,WindowsServer2012和Windows8一样,默认桌面上是没有"计算机"…

设计模式之状态模式(State)摘录

23种GOF设计模式一般分为三大类:创建型模式、结构型模式、行为模式。 创建型模式抽象了实例化过程,它们帮助一个系统独立于如何创建、组合和表示它的那些对象。一个类创建型模式使用继承改变被实例化的类,而一个对象创建型模式将实例化委托给…

CYQ学习主要摘要4

http://www.cnblogs.com/cyq1162/archive/2010/11/03/1867642.html Xml的处理 http://www.cnblogs.com/cyq1162/archive/2010/11/23/1885299.html 3.5版本 http://www.cnblogs.com/cyq1162/archive/2010/12/27/1918317.html 无线分级 http://www.cnblogs.com/cyq1162/archive/2…

知识图谱、深度学习、AutoML,推荐系统与新技术结合将碰撞出怎样的火花?

近日,来自意大利米兰理工大学 Maurizio 团队发表的一篇极具批判性的文章火了。这篇文章剑指推荐系统领域的其他数十篇论文,并通过多项试验证明这些论文中基于深度学习的推荐算法大部分都存在不同程度的数据集缺失和源码缺失的问题,导致根本无…

python-range用法

2019独角兽企业重金招聘Python工程师标准>>> 详细记录python的range()函数用法 转载于:https://my.oschina.net/lxwgmail/blog/135228

设计模式之观察者模式(Observer)摘录

23种GOF设计模式一般分为三大类:创建型模式、结构型模式、行为模式。 创建型模式抽象了实例化过程,它们帮助一个系统独立于如何创建、组合和表示它的那些对象。一个类创建型模式使用继承改变被实例化的类,而一个对象创建型模式将实例化委托给…

中科院、百度研究院等联合提出UGAN,生成图片难以溯源

作者 | 中国科学院、北京航空航天大学、百度研究院团队译者 | 凯隐编辑 | 夕颜出品 | AI科技大本营(ID: rgznai100)导读:生成对抗网络(GAN)是近年大热的深度学习模型,中国科学院相关团队注意到,…

搜索引擎的时效性需求满足

“全、准、快、新”是搜索引擎的四大评价指标,其中的“新”指代的就是时效性。随着互联网的发展,网民对信息获取的时效性要求越来越高。同时越来越多的网民更多的参与到创造互联网内容中去,互联网上的新信息也在迅速的膨胀。这都给搜索引擎时…

如何卸载sql2008,完全清除

1.先把SQL Server卸载,再把安装时产生的“Microsoft SQL Server”文件夹删掉,在运行注册表,把HKEY_CURRENT_USER\Software\Microsoft\Microsoft SQLServer,HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Microsoft SQL Server全部删掉,(注意要把Mic…

别再说学不会:超棒的Numpy可视化学习教程来了

作者 | Jay Alammar译者 | 苏南下来源 | 机器会学ML(ID:AI_Learning007)导读:学习 Python,尤其是基于 Python 的学习机器学习算法,最基础的 NumPy 用法必须得熟悉。网上这方面的教程不少,但大多…

设计模式之备忘录模式(Memento)摘录

23种GOF设计模式一般分为三大类:创建型模式、结构型模式、行为模式。 创建型模式抽象了实例化过程,它们帮助一个系统独立于如何创建、组合和表示它的那些对象。一个类创建型模式使用继承改变被实例化的类,而一个对象创建型模式将实例化委托给…

型网站的架构设计问题----大型高并发高负载网站的系统架构

随着中国大型IT企业信息化速度的加快,大部分应用的数据量和访问量都急剧增加,大型企业网站正面临性能和高数据访问量的压力,而且对存储、安全以及信息检索等等方面都提出了更高的要求…… 本文中,我想通过几个国外大型IT企业及网站…

java之php、Android、JAVA、C# 3DES加密解密

异常如下1.javax.crypto.BadPaddingException: Given final block not properly padded1)要确认下是否加密和解密都是使用相同的填充算法(也就是说,是否都是使用PKCS5Padding)2)确认下你要解密的字节数组是否正确。jav…

设计模式之中介者模式(Mediator)摘录

23种GOF设计模式一般分为三大类:创建型模式、结构型模式、行为模式。 创建型模式抽象了实例化过程,它们帮助一个系统独立于如何创建、组合和表示它的那些对象。一个类创建型模式使用继承改变被实例化的类,而一个对象创建型模式将实例化委托给…

谷歌引入自动网络设计,高效解决大规模深度推荐模型的特征嵌入问题

来源 | 深度传送门(ID:gh_5faae7b50fc5)导读:本文主要介绍Google在大规模深度推荐模型上关于特征嵌入的最新论文。 一、背景大部分的深度学习模型主要包含如下的两大模块:输入模块以及表示学习模块。自从NAS[1]的出现以来&#xf…

什么是POM maven

POM是项目对象模型(Project Object Model)的缩写,下面援引一下百度百科中对于POM的解释 定义 Maven是以项目为中心的设计。POM是Maven对一个单一项目的描述。没有POM的话,Maven是毫无用处的——POM是Maven的核心。是POM实现的并驱动了这种以模型来描述的…

新的Mac下如何配置开发者账号信息

1:把p12文件下载来,打开,添加到钥匙串 2:在xcode中的Organizer中的 Provisioning Profiles项中,点击 “New”, 添加账号信息,从网络获取相关文件。 转载于:https://www.cnblogs.com/willbin/arc…

5G+AI重新定义生老病死?

作者 | 胡巍巍来源 | CSDN(ID:CSDNnews)5G时代,我们的生老病死,或将被重新定义。5G手术,让生命不再受制于距离海南的神经外科专家凌至培,使用5G技术,跨越南北为一位北京的患者&#…

设计模式之命令模式(Command)摘录

23种GOF设计模式一般分为三大类:创建型模式、结构型模式、行为模式。 创建型模式抽象了实例化过程,它们帮助一个系统独立于如何创建、组合和表示它的那些对象。一个类创建型模式使用继承改变被实例化的类,而一个对象创建型模式将实例化委托给…

QTP的那些事---页面弹出框的处理,页面等待加载的处理

处理方法:先判断父类对象是否存在,如果存在,判断相关的static文本对象是否存在,如果存在,则点击弹出框中的按钮即可; 例如如下的代码: 设置循环判断dialog对象是否存在,如果存在&…

如何衡量一个项目的交付质量???

昨天与部门开会讨论项目的完整规范交付流程,参会的涉及到项目相关的所有人员,总结一下供大家讨论交流: 1、小插曲:我们把客户的干系人、自己的干系人对项目的影响做了一个排名并打分,结果很有意思:客户的领…

华人“霸榜”ACL最佳长短论文、杰出论文一作,华为、南理工等获奖

作者 | 夕颜、一一出品 | AI科技大本营(ID:rgznai100)导读:7 月 31 日晚,自然语言处理领域最大顶会 ACL 2019 在佛罗伦萨进行到了第四天(7 月 29 日-8 月 1 日),当天,组委会最终从提…

设计模式之访问者模式(Visitor)摘录

23种GOF设计模式一般分为三大类:创建型模式、结构型模式、行为模式。 创建型模式抽象了实例化过程,它们帮助一个系统独立于如何创建、组合和表示它的那些对象。一个类创建型模式使用继承改变被实例化的类,而一个对象创建型模式将实例化委托给…

关闭Windows 8的metro UI的方法汇总

http://www.ssdax.com/570.html 上面就是windows8新出现的Metro UI,点击开始菜单就会出现,取代了windows长久以来的开始菜单,有了非常大的突破 不过我发现很多人都在找怎么关闭windows8 的Metro UI,下面介绍两个如何关闭Metro的方…

coredata Lightweight Migration 心得

关于coredata 网上的相关资料比较少,大部分是基本用法。于是便找到苹果官方文档进行深入学习。 分享一下心得,如果用了coredata 必须懂得 coredata Migration,否则app版本更新 core data model schema 变化很大可能导致持久化coredata 出错&a…

设计模式之职责链模式(Chain of Responsibility)摘录

23种GOF设计模式一般分为三大类:创建型模式、结构型模式、行为模式。 创建型模式抽象了实例化过程,它们帮助一个系统独立于如何创建、组合和表示它的那些对象。一个类创建型模式使用继承改变被实例化的类,而一个对象创建型模式将实例化委托给…

澎思科技与新加坡国立大学等高校共研AI产品加快技术应用落地

2019年7月31日,中国人工智能企业澎思科技宣布新加坡研究院正式揭牌成立,并宣布成立澎思技术委员会,推动全球视野下的人工智能技术研究。同时,澎思科技与新加坡国立大学、新加坡南洋理工学院等重量级机构签订战略合作。未来&#x…

codility上的问题 (22)

问题描述: 用1 * 1, 1 * 2的矩形覆盖一个n行m列的矩形,问有多少种方法。 数据范围 : n [1..10^6], m [ 1..7] 要求复杂度: 时间 O(log(n) * 8 ^m)) 空间 O(4^m) 分析:这个题跟之前那个木块砌墙问题一样…… 稍作修…

session 与 cookie的区别

session和cookie是网站浏览中较为常见的两个概念,也是比较难以辨析的两个概念,但它们在点击流及基于用户浏览行为的网站分析中却相当关键。基于网上一些文章和资料的参阅,及作者个人的应用体会,对这两个概念做一个简单的阐述和辨析…

设计模式之迭代器模式(Iterator)摘录

23种GOF设计模式一般分为三大类:创建型模式、结构型模式、行为模式。 创建型模式抽象了实例化过程,它们帮助一个系统独立于如何创建、组合和表示它的那些对象。一个类创建型模式使用继承改变被实例化的类,而一个对象创建型模式将实例化委托给…