当前位置: 首页 > 编程日记 > 正文

刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...

640?wx_fmt=jpeg


作者 | HFL

来源 | 哈工大讯飞联合实验室(ID:rgznai100)


为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中文BERT预训练模型。我们在多个中文数据集上得到了较好的结果,覆盖了句子级到篇章级任务。同时,我们对现有的中文预训练模型进行了对比,并且给出了若干使用建议。我们欢迎大家下载试用。


下载地址:https://github.com/ymcui/Chinese-BERT-wwm

技术报告:https://arxiv.org/abs/1906.08101


640?wx_fmt=png


摘要


基于Transformers的双向编码表示(BERT)在多个自然语言处理任务中取得了广泛的性能提升。近期,谷歌发布了基于全词覆盖(Whold Word Masking)的BERT预训练模型,并且在SQuAD数据中取得了更好的结果。应用该技术后,在预训练阶段,同属同一个词的WordPiece会被全部覆盖掉,而不是孤立的覆盖其中的某些WordPiece,进一步提升了Masked Language Model (MLM)的难度。在本文中我们将WWM技术应用在了中文BERT中。我们采用中文维基百科数据进行了预训练。该模型在多个自然语言处理任务中得到了测试和验证,囊括了句子级到篇章级任务,包括:情感分类,命名实体识别,句对分类,篇章分类,机器阅读理解。实验结果表明,基于全词覆盖的中文BERT能够带来进一步性能提升。同时我们对现有的中文预训练模型BERT,ERNIE和本文的BERT-wwm进行了对比,并给出了若干使用建议。预训练模型将发布在:https://github.com/ymcui/Chinese-BERT-wwm


简介


Whole Word Masking (wwm),暂翻译为全词Mask,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个词缀,在生成训练样本时,这些被分开的词缀会随机被[MASK]替换。在全词Mask中,如果一个完整的词的部分WordPiece被[MASK]替换,则同属该词的其他部分也会被[MASK]替换,即全词Mask。


同理,由于谷歌官方发布的BERT-base(Chinese)中,中文是以字为粒度进行切分,没有考虑到传统NLP中的中文分词(CWS)。我们将全词Mask的方法应用在了中文中,即对组成同一个词的汉字全部进行[MASK]。该模型使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大语言技术平台LTP(http://ltp.ai)作为分词工具。


下述文本展示了全词Mask的生成样例。


640?wx_fmt=png


基线测试结果


我们选择了若干中文自然语言处理数据集来测试和验证预训练模型的效果。同时,我们也对近期发布的谷歌BERT,百度ERNIE进行了基准测试。为了进一步测试这些模型的适应性,我们特别加入了篇章级自然语言处理任务,来验证它们在长文本上的建模效果。


以下是我们选用的基准测试数据集。


640?wx_fmt=png


我们列举其中部分实验结果,完整结果请查看我们的技术报告。为了确保结果的稳定性,每组实验均独立运行10次,汇报性能最大值和平均值(括号内显示)。


▌中文简体阅读理解:CMRC 2018


CMRC 2018是哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。


640?wx_fmt=png


▌中文繁体阅读理解:DRCD


DRCD数据集由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。


640?wx_fmt=png


▌中文命名实体识别:人民日报,MSRA-NER


中文命名实体识别(NER)任务中,我们采用了经典的人民日报数据以及微软亚洲研究院发布的NER数据。


640?wx_fmt=png


▌句对分类:LCQMC,BQ Corpus


LCQMC以及BQ Corpus是由哈尔滨工业大学(深圳)发布的句对分类数据集。


640?wx_fmt=png


▌篇章级文本分类:THUCNews


由清华大学自然语言处理实验室发布的新闻数据集,需要将新闻分成10个类别中的一个。


640?wx_fmt=png


使用建议


基于以上实验结果,我们给出以下使用建议(部分),完整内容请查看我们的技术报告。

  • 初始学习率是非常重要的一个参数(不论是BERT还是其他模型),需要根据目标任务进行调整。

  • ERNIE的最佳学习率和BERT/BERT-wwm相差较大,所以使用ERNIE时请务必调整学习率(基于以上实验结果,ERNIE需要的初始学习率较高)。

  • 由于BERT/BERT-wwm使用了维基百科数据进行训练,故它们对正式文本建模较好;而ERNIE使用了额外的百度百科、贴吧、知道等网络数据,它对非正式文本(例如微博等)建模有优势。

  • 在长文本建模任务上,例如阅读理解、文档分类,BERT和BERT-wwm的效果较好。

  • 如果目标任务的数据和预训练模型的领域相差较大,请在自己的数据集上进一步做预训练。

  • 如果要处理繁体中文数据,请使用BERT或者BERT-wwm。因为我们发现ERNIE的词表中几乎没有繁体中文。


声明


虽然我们极力的争取得到稳定的实验结果,但实验中难免存在多种不稳定因素(随机种子,计算资源,超参),故以上实验结果仅供学术研究参考。由于ERNIE的原始发布平台是PaddlePaddle(https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE),我们无法保证在本报告中的效果能反映其真实性能(虽然我们在若干数据集中复现了效果)。同时,上述使用建议仅供参考,不能作为任何结论性依据。


该项目不是谷歌官方发布的中文Whole Word Masking预训练模型。


总结


我们发布了基于全词覆盖的中文BERT预训练模型,并在多个自然语言处理数据集上对比了BERT、ERNIE以及BERT-wwm的效果。实验结果表明,在大多数情况下,采用了全词覆盖的预训练模型(ERNIE,BERT-wwm)能够得到更优的效果。由于这些模型在不同任务上的表现不一致,我们也给出了若干使用建议,并且希望能够进一步促进中文信息处理的研究与发展。


技术报告网址:https://arxiv.org/abs/1906.08101


(*本文为 AI科技大本营转载文章,转载请微信联系 1092722531


精彩推荐



大会开幕倒计时8天!


2019以太坊技术及应用大会特邀以太坊创始人V神与众多海内外知名技术专家齐聚北京,聚焦区块链技术,把握时代机遇,深耕行业应用,共话以太坊2.0新生态。即刻扫码,享优惠票价。


640?wx_fmt=png


640?wx_fmt=jpeg


推荐阅读

  • 真正的博士是如何参加AAAI, ICML, ICLR等AI顶会的?

  • Python最抢手、Java最流行、Go最有前途,7000位程序员揭秘2019软件开发现状

  • 程序员学Python编程或许不知的十大提升工具

  • 不要让 Chrome 成为下一个 IE!

  • 这位博士跑赢“地震波”:提前 10 秒预警宜宾地震!

  • 一张图告诉你到底学Python还是Java!

  • 鸿蒙将至,安卓安否?

  • 25岁创立加密城堡, 曾经独角兽创始人社会名流天才黑客是这里的沙发客, 如今却无人问津……

  • 352万帧标注图片,1400个视频,亮风台推最大单目标跟踪数据集


640?wx_fmt=png你点的每个“在看”,我都认真当成了喜欢

相关文章:

CImg库中部分函数的作用和用法

部分内容来自于CImg参考手册或CImg的Doxygen手册 1、宏cimg_usage(usage):可以被用来描述程序的目的和使用情况。它通常被插入到 int main(int argc, char **argv)的定义之后。 参数:usage:描述程序目的和使用情况的字符串。 前置条件:使用ci…

golang通过itemid获取zabbix graph监控图

2019独角兽企业重金招聘Python工程师标准>>> #简述 本文将使用golang和第三方http client 库gorequest编写。如需要只使用golang 标准库可以参考我的另外一篇文章golang通过itemid获取zabbix graph监控图 #F&Q 为什么是golang? 网上很容易就能找到使…

n后问题-回溯法

问题描述: 在n*n的棋盘上放置彼此不受攻击的n个皇后。按国际象棋的规则,皇后可以与之处在同一行或者同一列或同一斜线上的棋子。 n后问题等价于在n*n格的棋盘上放置n皇后,任何2个皇后不放在同一行或同一列的斜线上。 算法设计: |i…

CImg库介绍

转自:http://www.cppprog.com/2009/0424/106.html CImg是一个跨平台的C的图像处理库,提供了加载、处理、显示、保存等一系列功能,其中的图像处理功能尤其强大。 首先,建议先到这里欣赏一下使用CImg代码做的Demo,就是它…

谷歌、阿里们的杀手锏:三大领域,十大深度学习CTR模型演化图谱

作者 | 王喆来源 | 转载自知乎专栏王喆的机器学习笔记今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望能帮大家梳理推荐系统、计算广告领域在深度学习方面的前沿进展。随着微软的Deep Crossing,Google的…

MariaDB 基金会 CEO 宣布将于 10 月 1 日卸任

开发四年只会写业务代码,分布式高并发都不会还做程序员? 近日,MariaDB 基金会 CEO Otto Keklinen 在官网宣布自己将在今年 10 月 1 日正式卸任 CEO,转而退居后线,以 CEO 特别顾问的身份辅助新 CEO 顺利渡过过渡期。从…

思科生成树命令之debug spanning-tree(本文转载自:www.91ccie.coml

debug spanning-tree 命令:debug spanning-treeno debug spanning-tree功能:打开MSTP 的调试信息;本命令的no 操作为关闭MSTP 调试信息。参数:无命令模式:特权模式使用指南:该命令是MSTP 庞大复杂debug 功能…

CImg库中CImg,CImgList,CImgDisplay三个类的介绍

转自:http://www.cppprog.com/2009/0426/108.html 本文简单介绍了CImg库中的三个大类:CImg,CImgList,CImgDisplay。然后给出了让CImg在HDC上绘图以及与HBITMAP互换的方法,为部署CImg到Windows GUI程序中提供了基本支持。 上回介绍了CImg模板…

这可能是Python面向对象编程的最佳实践

作者 | 崔庆才来源 | 进击的Coder(ID:FightingCoder)Python 是支持面向对象的,很多情况下使用面向对象编程会使得代码更加容易扩展,并且可维护性更高,但是如果你写的多了或者某一对象非常复杂了,其中的一些…

mysql之 CentOS系统针对mysql参数优化

内核相关参数(/etc/sysctl.conf) 以下参数可以直接放到sysctl.conf文件的末尾: net.core.somaxconn 65535 net.core.netdev_max_backlog 65535 net.ipv4.tcp_max_syn_backlog 65535 加快TCP连接的回收: net.i…

天猫双十一神话恐终结

2011年双十一大促,天猫商城创造了单日33.6亿的促销奇迹,是2010年同日交易额的近4倍。今年双十一即将来临,淘宝还能再创奇迹吗?何玺认为,淘宝双十一的神话恐终结,理由如下。 一、电商促销年消费被透支 年初 …

opencv图像旋转

转自&#xff1a;http://download.csdn.net/source/2642701 /* 程序名&#xff1a;rotate.c 功能&#xff1a;读入图像文件&#xff0c;做图像旋转转&#xff0c;然后显示图像在屏幕上 */ #include <stdlib.h> #include <stdio.h> #include <math.h> #inclu…

机器如何读懂人心:Keras实现Self-Attention文本分类

作者 | 小宋是呢转载自CSDN博客一、Self-Attention概念详解了解了模型大致原理&#xff0c;我们可以详细的看一下究竟Self-Attention结构是怎样的。其基本结构如下对于self-attention来讲&#xff0c;Q(Query), K(Key), V(Value)三个矩阵均来自同一输入&#xff0c;首先我们要计…

通俗易懂!使用Excel和TF实现Transformer

作者 | 石晓文转载自小小挖掘机&#xff08;ID:wAIsjwj&#xff09;本文旨在通过最通俗易懂的过程来详解Transformer的每个步骤&#xff01;假设我们在做一个从中文翻译到英文的过程&#xff0c;我们的词表很简单如下&#xff1a;中文词表&#xff1a;[机、器、学、习] 英文词表…

通过注册表修改VC6.0的字体【转】

2019独角兽企业重金招聘Python工程师标准>>> 在VC6.0下更改字体&#xff0c;我们一般通过菜单-Tools-Options-Format来更改 但在我的win7 64位系统下这一选项下的字体和字体颜色是空的&#xff0c;无法选择 所以我想起来通过注册表来更改。 WinR输入“Regedit”&…

Java中创建String的两种方式差异

我们知道创建一个String类型的变量一般有以下两种方法&#xff1a; String str1 "abcd"; String str2 new String("abcd"); 那么为什么会存在这两种创建方式呢&#xff0c;它们在内存中的表现形式各有什么区别&#xff1f; 方法1&#xff1a; String a …

OpenCV支持的图像格式

OpenCV目前支持的图像格式包括&#xff1a; Windows位图文件 - BMP, DIB&#xff1b; JPEG文件 - JPEG, JPG, JPE&#xff1b; 便携式网络图片 - PNG&#xff1b; 便携式图像格式 - PBM&#xff0c;PGM&#xff0c;PPM&#xff1b; Sun rasters - SR&#xff0c;RAS&#xff…

Debian Linux下的Python学习——控制流

python中有三种控制流语句:if、for和while。 1. if语句用法( if..elif..else) 代码: 运行: 注意:raw_input函数要求输入一个字符串,int把这个字符串转换为整数 2.for语句用法 (for ... else) 代码: 运行: 注:else部分是可选的。如果包含else&#xff0c;它总是在for循环结束后…

如何运行ImageMagick的命令行工具

在http://www.imagemagick.org/script/index.php网站下载相应的执行文件&#xff0c;这里以下载ImageMagick-6.6.5-10-Q16-windows-static.exe为例说明。 将ImageMagick-6.6.5-10-Q16-windows-static.exe下载后&#xff0c;安装&#xff0c;然后将其中需要的命令行工具考到你需…

华为最强自研NPU问世,麒麟810“抛弃”寒武纪

整理 | 一一出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;“能效高、算子多、精度高”&#xff0c;华为消费者业务手机产品线总裁何刚用一句话总结了自研达芬奇架构给最新麒麟810芯片带来的变化。6 月 21 日&#xff0c;在 HUAWEI Nova 5 系列新品发布会上&#x…

调用 微信接口报错 {errcode:48001,errmsg:api unauthorized, hints: [ req_id: 1QoCla0699ns81 ]}...

如下截图&#xff0c;仅为备份&#xff0c;本文转载地址&#xff1a; http://www.cnblogs.com/liaolongjun/p/6080240.html 以下正文↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ ↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑…

javascript this用法小结

this是面向对象语言中的一个重要概念&#xff0c;在JAVA,C#等大型语言中&#xff0c;this固定指向运行时的当前对象。但是在javascript中&#xff0c;由于 javascript的动态性&#xff08;解释执行&#xff0c;当然也有简单的预编译过程&#xff09;&#xff0c;this的指向在运…

在vc6控制台程序中如何调用运行ImageMagick命令行工具

在http://www.imagemagick.org/script/index.php网站下载相应的执行文件&#xff0c;这里以下载ImageMagick-6.6.5-10-Q16-windows-static.exe为例说明。 将ImageMagick-6.6.5-10-Q16-windows-static.exe下载后&#xff0c;安装&#xff0c;然后将其中需要的命令行工具考到你程…

高频数据交换下Flutter与ReactNative的对比

后端使用go写的socketio服务模拟期货行情数据&#xff0c;每10ms推送10条行情数据 ReactNative已经尽力优化了。 Flutter由于没flutter-socketio这个库不支持dart2.0以上的版本&#xff0c;所有用了安卓的socketio&#xff0c;通过事件与Flutter通讯。 1.内存占用 ReactNative …

6月技术福利限时免费领

《程序员大本营》6月刊来啦~更多福利限时免费领取&#xff1a;CSDN重磅技术大会精选视频以及200PPT&#xff1b;机器学习、知识图谱、计算机视觉、区块链等100技术公开课及PPT全奉送...识别海报二维码&#xff0c;邀请3位好友扫码助力&#xff0c;即可免费领取↓↓↓❤提示&…

我对bgwriter.c 与 guc 关系的初步理解

我用例子来说明&#xff1a;只是一个模拟&#xff0c;我自己做的 假的 bgwriter.c [rootlocalhost test]# cat bgwriter.c #include<stdio.h> #include<stdlib.h> #include<signal.h> #include "bgwriter.h" #include "guc.h" //some co…

媲美Pandas?一文入门Python的Datatable操作

作者 | Parul Pandey译者 | linstancy责编 | Jane出品 | Python大本营&#xff08;id&#xff1a;pythonnews&#xff09;【导读】工具包 datatable 的功能特征与 Pandas 非常类似&#xff0c;但更侧重于速度以及对大数据的支持。此外&#xff0c;datatable 还致力于实现更好的…

java并发编程——并发容器类介绍

2019独角兽企业重金招聘Python工程师标准>>> 并发容器的简单介绍 JDK5中添加了新的concurrent包&#xff0c;相对同步容器而言&#xff0c;并发容器通过一些机制改进了并发性能。因为同步容器将所有对容器状态的访问都串行化了&#xff0c;这样保证了线程的安全性&a…

CV_IMAGE_ELEM参数赋值时注意的问题

转自&#xff1a;http://hi.baidu.com/wangruiy01/blog/item/041ab03e8abd33c57d1e71a0.html CV_IMAGE_ELEM是一个宏&#xff0c; #define CV_IMAGE_ELEM( image, elemtype, row, col ) /(((elemtype*)((image)->imageData (image)->widthStep*(row)))[(col)])#define …

公司内部exchange2010 下删除误发邮件

1、Add-PSSnapin Microsoft.Exchange.Management.PowerShell.E20102、get-mailbox | search-mailbox -SearchQuery 填写误发邮件标题 -TargetMailbox "administrator" -TargetFolder "SearchAndDeleteLog" -DeleteContent转载于:https://blog.51cto.com/wo…