当前位置: 首页 > 编程日记 > 正文

如何用最强模型BERT做NLP迁移学习?

640?wx_fmt=jpeg

作者 | 台湾大学网红教授李宏毅的三名爱徒

来源 | 井森堡,不定期更新机器学习技术文并附上质量佳且可读性高的代码。

编辑 | Jane

谷歌此前发布的NLP模型BERT,在知乎、Reddit上都引起了轰动。其模型效果极好,BERT论文的作者在论文里做的几个实验数据集都被轰平了。要做那几个数据集的人可以洗洗睡啦,直接被明明白白地安排了一波。

640?wx_fmt=png

坊间流传 BERT 之于自然语言处理有如 ResNet 之于计算机视觉。谷歌还是谷歌呀,厉害!以后做 NLP 的实验就简单多了,可以先用 BERT 抽特征,再接几层客制化的神经网络后续实验,可以把 BERT 看作是类似于 word to vector 那样的工具。有人在知乎上整理了跑一次BERT的成本:

https://www.zhihu.com/question/298203515/answer/509470502

For TPU pods:
4 TPUs * ~$2/h (preemptible) * 24 h/day * 4 days = $768 (base model)
16 TPUs = ~$3k (large model)

For TPU:
16 tpus * $8/hr * 24 h/day * 4 days = 12k
64 tpus * $8/hr * 24 h/day * 4 days = 50k

For GPU:
"BERT-Large is 24-layer, 1024-hidden and was trained for 40 epochs over a 3.3 billion word corpus. So maybe 1 year to train on 8 P100s? "

这还只是跑一次的时间,试想一下谷歌在调参、试不同神经网络结构时该需要多少时间与运算资源,太可怕了。

不禁让人感慨,深度学习已经变为大公司之间的军备竞赛,也只有谷歌这样的大公司才能做出这么伟大的模型,那是不是意味着我们普通人就没机会了呢?喜大普奔的是谷歌已经把训练好的模型公布出来,和大家分享他们的成果。我们可以运用大公司提前训练好的模型做迁移学习,用于客制化的应用。

本文想通过一个实际案例来检验一下提前训练好的 BERT 模型的威力,在已经训练好的 BERT 模型上再连几层神经网络做迁移学习。我们用的数据来源是 Kaggle 上的一个豆瓣影评分析数据集,目标是训练出一个模型,输入给模型一条影评的文字,模型能正确输出这条影评所对应的评分。


数据集


这个豆瓣电影短评数据集里面一共有28部电影,总共200多万笔影评,每笔影评有对应的文字以及用户给电影的评分(最高5分,最低1分)。下面是一些简单的范例:

https://www.kaggle.com/utmhikari/doubanmovieshortcomments/

640?wx_fmt=png

前处理的时候,我们先把每条影评的标点符号去掉,然后用 Jieba 断词,Jieba 是一个很方便的中文断词函数库,安装也很方面直接用 PIP 安装就好。

最后把数据切为 training,testing 和 validation set 三部分,下表是三个 set 的一些简单统计量:

640?wx_fmt=png


模型结构


第一步,我们先用“Jieba”将影评断词,再把每个词用一个 one-hot vector 表示。

第二步,再把每条影评对应的 one-hot vector 丢到如下图的 BERT 模型抽出特征。

640?wx_fmt=png

第三步,再把抽出的特征丢进我们客制化设计的神经网络,最后输出网络的预测。网络的预测是 1-5 分,我们分别做了回归和分类两个实验。分类的输出结果是 1-5 分 5 类当中的某一类,回归输出结果是介于 1-5 之间的一个数值。我们会用到如下图所示的 Bengio 在 2017 年提出的自注意力模型做一些语义分析。

640?wx_fmt=png

第四步,定义损失函数,固定 BERT 的参数不变,再用梯度下降法更新我们客制化设计的网络。

PS:由于 BERT 和 self-attention 模型结构较为复杂,而且本文的目的是探讨如何用 BERT 做迁移学习,所以我们不会赘述模型结构,我们会在文末附上论文链接,感兴趣的小伙伴可以去看看。


实验结果


BERT 分类

  • 分类准确率:61%

  • 混淆矩阵:

640?wx_fmt=png

以第 1 行第二列的 0.13 为例:意思是真实标签是第一类,被分类为第二类的占总的第一类的个数的比例是 0.13。可以看到 1 分,5 分的大部分例子都能分类正确。大部分分类不正确的情况是被分到相邻的等级了,例如真实标签是 2 分的被分类为 3 分或是真实标签是 3 分的被分类为 2 分。这种情况是合理的,针对某一条特定的影评,就算是人去预测,也很难斩钉截铁地判定为是 2 分还是 3 分,所以也难怪机器分不出来。

我们对评价标准做了一点修改,将误判为相邻评分的例子判别为正确,结果如下:

  • 分类准确率:94.6%

  • 混淆矩阵:

640?wx_fmt=png

BERT 回归

同样的架构,我们修改了一下最后一层的输出,让模型预测相应影评的评分,输出一个实数值,重新训练了模型。如果是分类的实验,1 分与 5 分这两个类别用数值表示的话都是一个 one-hot 的类别,体现在损失函数里没有差别,模型不会对二者区别对待。如果是回归的实验,模型的输出是一个实数值,实数值具有连续性,1 分和 5 分二者分数的高低能在实数上得到体现。

下面来看看实验结果:

  • 分类准确率:95.3%

  • 混淆矩阵:

640?wx_fmt=png

  • 真实评分的分布:

640?wx_fmt=png

  • 模型预测评分的分布:

640?wx_fmt=png

我们也对 BERT 出来的特征向量做了 TSNE 降维,可视化结果如下:

640?wx_fmt=png

根据右上角的图例,不同的颜色代表不同的评分,比如紫色代表五分。每一个点都是一笔影评的高维特征降维后在二维平面上的体现。可以明显看出,不同评分的影评被归在了不同的群里。相近的评分,比如 5 分和 4 分、4 分与 3 分会有一些重叠部分。

  • 自注意力机制的一些可视化结果:

640?wx_fmt=png640?wx_fmt=png

引入自注意力机制的模型在预测一句影评对应的评分的时候,能够先通过注意力机制抓取一句话中的重要部分,给重要部分很多的比重。上述几个例子就能看出来,再模型给一条影评 5 分的时候,会给“爆”、“动人”这样的字眼予以高亮。在给 2 分的时候,会给“一般”这样的字眼予以高亮。


案例分析


接下来我们针对疯狂动物城这部电影,做一些可视化分析,来呈现训练好之后的模型的效果。

  • 分类准确率:72.63%

  • 混淆矩阵:

640?wx_fmt=png

将误判为相邻评分的例子判别为正确的结果如下:

  • 分类准确率:98.56%

  • 混淆矩阵:

640?wx_fmt=png

  • 真实评分的分布:

640?wx_fmt=png

  • 模型预测评分的分布:

640?wx_fmt=png

  • TSNE 降维后可视化结果:

640?wx_fmt=png

  • 自注意力机制可视化结果:

640?wx_fmt=png

针对疯狂动物城这部电影,我们做了 TF-IDF 的词频分析。

  • 词频前三十的词:

640?wx_fmt=png

  • 不同评分的高频词:

640?wx_fmt=png

第一行的 1-5 是评分,下面的词后面的数字代表的是这个词的出现个数。

最后,用一张词云欢快地结束案例分析:

640?wx_fmt=png


结论


  • 本文用了目前自然语言界最强的模型BERT做迁移学习,效果看起来还挺 okay 的。

  • BERT 模型可以很好地抽出文字的特征,用于后续的实验。如果小伙伴们有比较好的运算资源,可以把 BERT 当作是一个类似于 word to vector 的工具。

  • 自注意力机制不光能提高模型的效能,同时引入此机制能大大加强模型的可解释性。

参考内容:

  • https://www.zhihu.com/question/298203515/answer/509470502

  • https://arxiv.org/abs/1810.04805

  • https://arxiv.org/abs/1703.03130

  • Github:https://github.com/Chung-I/Douban-Sentiment-Analysis

(本文为AI科技大本营转载文章,转载请联系作者。)

640?wx_fmt=jpeg

640?wx_fmt=png


推荐阅读:

AI被“横扫”反噬?

如何帮新手程序员快速分析 Error?

ProgPow:以太坊上浮世绘

名下企业比老板刘强东还多,京东“最强女助理”张雱什么来头?

互联网巨头的春晚江湖

一万多条拼车数据,看春运迁移大军

30个让程序员崩溃的瞬间,笑死我了

程序员给银行植入病毒,分 1300 次盗取 718 万,被判 10 年半!


640?wx_fmt=png

点击“阅读原文”,打开CSDN APP 阅读更贴心!

相关文章:

【驱动】GPIO寄存器配置总结

#【驱动】GPIO寄存器配置总结 0、设置复用功能为GPIO 1、设置引脚特性,与硬件匹配 2、配置寄存器举例 字段解释: 2.0、SRE 数据位:0 SRE(Slew Rate Field):转换速度字段???这是一个可以调…

android Tabhost部件

本文结合源代码和实例来说明TabHost的用法。 使用TabHost 可以在一个屏幕间进行不同版面的切换,例如android自带的拨号应用,截图: 查看tabhost的源代码,主要实例变量有: private TabWidget mTabWidget; private Fr…

网易开源支持图像识别的自动化UI测试工具,零基础亲测好评!

编辑 | Jane出品 | AI科技大本营AI科技大本营给大家推荐了很多有意思、适合开发者们的工具,比如代码修复神器、帮小白快速分析 Error、PDF 翻译工具、变量命名神器等等。今天,营长要专门给测试人员,或者想做测试的小伙伴们推荐一款工具&#…

【驱动】GPIO 作为按键时的 设备树 配置

#【驱动】GPIO作为按键时的 设备树 配置 0、设备树 0.0 别名 imx6ul.dtsi 什么作用??? /*************开始/ / { aliases {… gpio0 &gpio1; gpio1 &gpio2; gpio2 &gpio3; gpio3 &gpio4; gpio4 &gpio5; /**********…

最小树形图及其生产方法

诸位看官,这是我第一次在整篇文章的所有图片里面加水印。小弟写博客的时间不长,就有两篇博客被盗用并未注明原文网址。这一方面使我痛心不已,另一方面迫使我不得不重新考虑一下版权保护问题。小弟不是吝啬鬼,如果影响阅读或者是确…

【数据库】MySQL的C语言接口学习

0、【初始化】 MYSQL* mysql_init(MYSQL *mysql); 1、【设置连接选项】 int mysql_options(MYSQL *mysql,enum mysql_option option, const void *arg); 2、【连接】 MYSQL* mysql_real_connect(MYSQL *mysql, const char *host, const char *user, const char *passwd, cons…

程序员单身比例有多高?【2019开发者图鉴】告诉你

编辑 | Jane 出品 | AI科技大本营 本次调查共 8 个问题,根据这些数字我们整理了《2019开发者图鉴》,下面营长将发现的一些有意思的数字分享给大家: 性别与年龄 本次参与调查的男女比例约为 8:2(男8女2)。 …

26.2. Web UI

http://localhost:3000/ 原文出处:Netkiller 系列 手札 本文作者:陈景峯 转载请与作者联系,同时请务必标明文章原始出处和作者信息及本声明。

VC++ 6.0的小花招

Visual Studio系列中产品中,Visual Studio 6.0是最经典的一个版本,虽然后来有Visual Studio .NET 2003,以及2005,也确实添加了很多让我觉得激动的特性,但是从使用细节的细腻程度上来看,VS 6.0无疑是最棒的。…

【linux】嵌入式中 crontab的使用

0、编辑 执行:crontab -e 执行命令后,将出现一个编辑界面,内容格式如下 Minute Hour Day Month Dayofweek command 分钟 小时 天 月 天每星期 命令 每个字段代表的含义如下: Minute 每个小时的第几分钟执行该任务 Hour 每天的第几…

程序员该怎么做,才能成为coding王者?

每当做编程题目时,大多数人都会靠基本的直觉,遵循一些固定的步骤来有效地解题。不管是有意还是无意,在做编程题目的时你会下意识地遵循一些步骤,在阅读完这篇文章后你就可以将这些步骤和这篇文章联系起来,从而就可以更…

27.3. source code

tar zxvf bandwidthd-2.0.1.tgz cd bandwidthd-2.0.1 ./configure --prefix/srv/bandwidthd-2.0.1 make make install 原文出处:Netkiller 系列 手札 本文作者:陈景峯 转载请与作者联系,同时请务必标明文章原始出处和作者信息及本声明。

WF4.0实战(一):文件审批流程

http://www.cnblogs.com/zhuqil/archive/2010/04/13/DocumentApprovalProcess.html转载于:https://www.cnblogs.com/Little-Li/archive/2010/06/01/1749392.html

AI科技大本营在线公开课大放送(附演讲PPT)

新年新思!新一年,每个人的梦想都闪耀着多彩光芒,对于AI领域的每一位学习者和从业者,我们充满渴望,怀揣梦想,心系对技术的不懈追求。AI科技大本营同样也有自己的新年梦想和脚踏实地的规划,比如今…

《微信跳一跳》安卓手机刷分软件搭建及攻略

2019独角兽企业重金招聘Python工程师标准>>> 元旦期间被微信小程序的游戏刷屏幕了。手笨脚笨的我也尝试了下这新出的小玩意,实在话手脚不协调最高仅仅90分,处于做技术的角度,直觉上可以技术上模拟解决,凑好朋友在微信群…

【libevent】libevent库学习总结(一)——基础

libevent库学习总结(一)——基础 一、基础 1.1、 介绍 Libevent是一个用于开发可伸缩网络服务器的事件通知库。Libevent API提供了一种机制来执行回调函数,当某个特定事件发生在文件描述符上或超时到达之后。此外,Libevent还支…

AS1.0(2.0)中的XML示例

虽然Flash早就升级为AS3.0&#xff0c;但是FMS的服务端编程依然仅支持AS1.0(2.0)&#xff0c;服务端与.net通讯的最简单方式莫过于请求一个RESTful的webService或wcf&#xff0c;通过它们返回的xml来获取数据。 var _xml:XML new XML("<ArrayOfstring xmlns\"htt…

【Qt】Qt发布可执行程序(打包依赖库)

Qt发布可执行程序&#xff08;打包依赖库&#xff09; 0、编译出可执行文件 如&#xff1a;xxx.exe 1、将xxx.exe拷贝到一个目录下面 2、启动Qt终端交互界面程序 如&#xff1a;Qt 5.6 for Desktop&#xff08;MinGW&#xff09; 3、进入xxx.exe所在的目录 4、执行命令…

小编说之“常见问题答疑”

2019独角兽企业重金招聘Python工程师标准>>> 关于前嗅Forespider爬虫的常见问题答疑 奋战在一线为客户答疑的狗蛋儿给小编提供了很多客户经常会问到的问题的素材&#xff0c;小编帮大家整理了一些&#xff0c;快来看看是不是都用的上吧&#xff01; 一、采集预览没有…

给AI开发者的新年礼物,技术公开课大放送(附演讲PPT)

各位AI科技大本营的伙伴大家好&#xff0c;营长携编辑组的全体成员给大家拜年了&#xff01; 新年新思&#xff01;新一年&#xff0c;每个人的梦想都闪耀着多彩光芒&#xff0c;对于AI领域的每一位学习者和从业者&#xff0c;我们充满渴望&#xff0c;怀揣梦想&#xff0c;心系…

通用权限管理组件使用说明书V3.0 错误校正 感谢自由软件职业者Helper(767870484)...

有时候&#xff0c;真想做个像样的东西出来&#xff0c;但是往往各方面的能力都不够&#xff0c;这么多人&#xff0c;Helper&#xff08;767870484&#xff09;仔细认真的阅读了这个帮助手册、并给给于了指正&#xff0c;在这里非常感谢&#xff0c;你的劳动成果已经被通用权限…

Reddit欲融资3亿美元,由腾讯领投

整理 | 一一出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;AI科技大本营消息&#xff0c;据 TechCrunch 报道&#xff0c;多个信源透露&#xff0c;美国社交网站 Reddit 将融资 1.5 亿到 3 亿美元&#xff0c;D 轮融资将由中国科技巨头腾讯公司领投&#xff0c;投前…

【libevent】libevent库学习总结(二)——编程步骤

一、libevent编程步骤 0、分配并初始化event_base&#xff0c;两种方法 0.1 event_base_new&#xff1a;线程安全&#xff0c;代替event_init&#xff1b; 0.2 event_init&#xff1a;线程不安全&#xff0c;不推荐使用&#xff0c;仅仅是为了向后兼容 1、创建event&#xf…

HP交换机配置命令

1.命名hostname 7-West-4F-2510 2.设置管理IPvlan 1ip address 192.168.41.123 255.255.255.03.修改支持的默认vlan数max-vlans 64max-vlans //修改vlan的数量&#xff0c;默认只有8个&#xff0c;修改后需重启后才可生效4.重启reload //重启交换机5.配置v…

【Qt】Qt程序编译成功,执行时报错:程序异常结束,crashed

【Qt】Qt程序编译成功&#xff0c;执行时报错&#xff1a;程序异常结束&#xff0c;crashed 错误打印信息 Starting E:*exe… 程序异常结束。 E:*.exe crashed. 原因 使用到外部库&#xff0c;编译时&#xff0c;指定了库连接&#xff0c;但是在程序运行时找不到库&#xf…

近900000条if-then关系图谱,让神经网络“懂”常识推理

编译整理 | 一一出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;“神经网络能学习日常事件的常识推理吗&#xff1f;能&#xff0c;如果在 ATOMIC 上训练的话。”ATOMIC&#xff08;原子&#xff09; 是一个机器常识图集&#xff0c;一个用自然语言建立的 870, 000 个…

weex 阶段总结

新年伊始&#xff0c;回顾过去的一年&#xff0c;收获很多&#xff0c;之前一直在研究weex&#xff0c;说心里话感觉心好累&#xff0c;官方文档不全&#xff0c;社区不活跃&#xff0c;遇到很多坑&#xff0c;官方发布的版本有时都有坑&#xff0c;搞得我都不敢更新版本了。 但…

DOS批处理高级教程精选(六)

为什么80%的码农都做不了架构师&#xff1f;>>> 第五章 set命令详解 很久没发贴了,今天来写点讲BAT的新手教学贴! 在上一贴中我简单的介绍了一下SET设置自定义变量的作用,现在我来具体讲一下set的其他功能. 一、用set命令设置自定义变量 显示、设置或删除 cmd.exe …

8.11. Migrating MySQL Data into Elasticsearch using logstash

https://www.elastic.co/guide/en/logstash/current/plugins-inputs-jdbc.html 8.11.1. 安装 logstash 安装 JDBC 驱动 和 Logstash curl -s https://raw.githubusercontent.com/oscm/shell/master/database/mysql/5.7/mysql-connector-java.sh | bash curl -s https://ra…

佩奇扑街、外星人疯狂!Python 告诉你大年初二应该看哪部电影

作者 | 罗昭成责编 | 唐小引转载自 CSDN资讯&#xff08;ID&#xff1a;CSDNnews&#xff09;引言2019 年 1 月&#xff0c;《啥是佩奇》短片在互联网快速传播&#xff0c;各大社交平台形成刷屏之势。不到 24 小时&#xff0c;官博发出的视频已经收获 2800 万次观看&#xff0c…