ICLR 2019最佳论文揭晓!NLP深度学习、神经网络压缩夺魁 | 技术头条
整理 | Linstansy
责编 | Jane
出品 | AI科技大本营(id:rgznai100)
【导语】ICLR 是深度学习领域的顶级会议,素有深度学习顶会 “无冕之王” 之称。今年的 ICLR 大会将于5月6日到5月9日在美国新奥尔良市举行,大会采用 OpenReview 的公开双盲评审机制,共接收了 1578 篇论文:其中 oral 论文 24 篇 (约占 1.5%),poster 论文共 476 篇 (占30.2%)。在这些录用的论文中,深度学习、强化学习和生成对抗网络 GANs 是最热门的三大研究方向。此前,AI 科技大本营已经对 ICLR2019 的论文投稿及接收情况与高分论文进行了报道和解读,大家可以再回顾一下。
今天, ICLR2019 公布了最佳论文,有两篇论文获得了最佳论文,在此对获奖论文作者及团队表示祝贺!一篇是《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》,在 RNN 网络中集成树结构,提出一种神经元排序策略,由蒙特利尔大学、微软研究院共同研究发表;另一篇是 MIT CSAIL 的研究成果《The Lottery Ticket Hypothesis: Finding Spare, Trainable Neural Networks》。下面就为大家带来这两篇最佳论文的解读。
论文一
论文地址:
https://openreview.net/forum?id=B1l6qiR5F7
摘要
自然语言可视为是一种小单元 (如短语) 嵌套在大单元 (如字句) 中的分层结构。当结束一个大单元时,内部所嵌套的小单元也将随之关闭。尽管标准的 LSTM 结构允许不同的神经元跟踪不同时间维度信息,但它对于层级结构建模中的各组成没有明确的偏向。针对这个问题,本文提出神经元排序策略来添加一个归纳偏置量 (inducive bias),当主输入向量和遗忘门结构确保给定的神经网络更新时,后续跟随的所有神经元也将随之更新。这种集成树结构的新颖循环神经网络 ON-LSTM (ordered neurons LSTM) 在四种不同的 NLP 任务:语言建模、无监督解析、目标句法评估和逻辑推理上都取得了良好的表现。
研究动机
将树结构集成到神经网络模型用于 NLP 任务主要有如下原因:
学习抽象的逐层特征表征是深度神经网络结构的一大关键特征
对语言的组成影响进行建模并通过 shortcuts 连接方法为反向传播过程提供有效的梯度信息,这有助于解决深度神经网络结构的长期依赖性问题
通过更好的归纳偏置来改善模型的泛化能力,同时能够减少模型训练过程对大量数据的需求
基于以上动机,该研究提出一种有序化神经元方法 (结构示意图如下图1),通过归纳偏置来强化每个神经元中的信息储存:大的、高级的神经元储存长期信息,这些信息通过大量的步骤保存;小的、低级的神经元储存短期信息,这些信息能够快速遗忘。此外,一种新型的激活函数 cumulative softmax (cumax) 用于主动为神经元分配长/短期所储存的信息,有效地避免高/低级神经元的固定划分问题。
总的来说,本文的研究集成树结构到 LSTM 网络中,并通过归纳偏置和 cumax 函数,构建一种新颖的 ON-LSTM 模型,在多项 NLP 任务中都取得了不错的性能表现。
图1 组成解析树结构与 ON-LSTM 模型隐藏状态的对应关系
实验结果
在四种 NLP 任务中评估 ON-LSTM 模型的性能,具体如下。
语言建模
图2 Penn Treebank 语言建模任务验证机和测试集的单模型困惑度
无监督句法组成分析
图3 full WSJ10 和 WSJ test 数据集上的句法组成分析评估结果
目标句法评估
图4 ON-LSTM 和 LSTM 模型在每个测试样本的总体精度表现
逻辑推理
图5 在逻辑短序列数据上训练的模型的测试精度
论文二
论文地址:
https://openreview.net/forum?id=rJl-b3RcF7
摘要
神经网络的剪枝技术能够在不影响模型准确性能的情况下,减少网络的训练参数量,多达90%以上,在降低计算存储空间的同时提高模型的推理性能。然而,先前的研究经验表明,通过剪枝技术得到的稀疏网络结构在初期是很难训练的,这似乎也有利于训练性能的提升。一个标准的剪枝技术能够自然地发现子网络结构,这些子网络的初始化能够帮助网络更有效地训练。
因此,本研究提出一种 lottery ticket hypothesis:对于那些包含子网络 (winning ticket) 结构的密集、随机初始化前馈网络,当单独训练这些子网络时,通过相似的训练迭代次数能够取得与原始网络相当的测试性能。而这些子网络也验证了初始的假设:即具有初始权重的连接网络能够更有效地训练。
基于这些结果,本文提出一种算法来确定子网络结构,并通过一系列的实验来支持 lottery ticket hypothesis 以及这些偶然初始化的重要性。实验结果表明,在 MNIST 和 CIFAR-10 数据集上,子网络的规模始终比几种全连接结构和卷积神经网络小10%-20%。当规模超过这个范围时,子网络能够比原始网络有更快的学习速度和更好的测试精度表现。
研究动机与方法
本文分析验证了存在较小的子网络结构,在相当的测试精度表现前提下,一开始就训练网络能够达到与较大子网络一样,甚至更快的训练速度。而基于此,本文提出 Lottery Ticket Hypothesis:将一个复杂网络的所有参数作为一个奖励池,存在一个参数组合所构成的子网络 (用 winning ticket 表示),单独训练该网络能够达到与原始复杂网络相当的测试精度。
对于该子网络结构的确定,主要是通过训练一个网络并剪枝其中最小权重来确定子网络,而其余未剪枝部分连接构成自网络的结构。具体步骤如下:
首先通过随机初始化得到一个复杂的神经网络 f
接着重复训练该网络 j 次,得到网络参数
然后对该模型按 p% 进行剪枝得到一个掩码 m;将步骤二中的网络参数作为参数向量,每个向量元素对应于一个 m,用于表征是否丢弃。
最后,对于存留下来的模型,在原始复杂网络参数组合进行初始化,创建一个子网络结构。
总的来说,本研究的主要贡献如下:
验证了剪枝技术能够发现可训练的子网络结构,而这些网络能够达到与原始网络相当的测试精度。
提出了一种 lottery ticket hypothesis,从一种新的角度来解释这些神经网络的组成。
证明了通过剪枝技术得到的子网络相比于原是网络,有着更快的学习速度、更高的测试精度和更好的泛化性能。
应用
本文的研究验证了确实存在比原始网络更快速、性能更佳的子网络,这种结构能够给未来的研究提供诸多方向:
提高模型训练性能:由于子网络能够从一开始就进行单独训练,因此尽早进行剪枝的训练方案值得进一步探索。
设计更好的网络结构:子网络结构的存在说明稀疏架构和初始化组合有利于模型的学习。因此设计出有助于学习的新结构和初始化方案,甚至将子网络结构迁移到其他任务仍需要进一步研究。
提高神经网络的理论理解高度:更加深入地理解随机初始化网络与子网络的关系、网络优化与泛化性能的知识等。
(本文为 AI科技大本营整理文章,转载请微信联系 1092722531)
◆
CTA核心技术及应用峰会
◆
5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开,峰会将围绕人工智能领域,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。
更多重磅嘉宾请识别海报二维码查看,目前会议早鸟票发售中(原票价1099元),点击阅读原文即刻抢购。添加小助手微信15101014297,备注“CTA”,了解票务以及会务详情。
推荐阅读
Yann LeCun推荐!自监督学习、全景FPN...内容平台的四大技术指南
如何确定最佳训练数据集规模?6 大必备“锦囊”全给你了 | 技术头条
如何在Python中轻松使用CVS,JSON,XML
一篇文章讲清楚Python虚拟环境
华为员工年薪 200 万!真相让人心酸!
什么是云计算基础设施? | 技术头条
Facebook数据泄漏受害者: 既然无法阻止个人数据被卖, 不如我自己先卖
@程序员,不是你选择加班,而是 KPI 驯化你
全球 AI 报告出炉:美国称王,中国砸 80W 年薪抢人才紧追!
相关文章:

浅析flex中的焦点focus
一、无焦点的困扰——组件监听不到键盘事件原因:只有获得焦点的组件(确切说是InteractiveObject)才能监听到键盘事件的目标阶段;键盘事件(flash.events.KeyboardEvent)参与冒泡阶段,所以焦点组件…

专访NIPS主席:如何保证论⽂评审的公平性?| 人物志
记者 | 阿司匹林编辑 | 琥珀出品 | AI科技大本营(ID:rgznai100)作为人工智能领域顶会 NIPS(Conference and Workshop on Neural Information Processing Systems, 更名为 NeurIPS)的主席,Terrence Sejnowsk…

【H.265】H.265(HEVC)编码过程和名词解释
一、H.265(HEVC)编码过程 和H.264一样,H.265编码由帧内预测、帧间预测、量化、线性变换等步骤。过程大致如下; 1、分块 一帧画面首先被切分成多个互不重叠的块状区域,称为编码单元(H.264称为宏块),分别传输给编码器。 2、帧内预测 图像序列的第一个画面(以及每一个可…

为什么大家都推荐我学Linux
2019独角兽企业重金招聘Python工程师标准>>> 最近朋友总是推荐我去学Linux,我本人虽说是计算机专业的,但是我感觉在上学的时候好像还真没学到东西,现在也是干着一份与计算机半毛钱关系都没有的工作。朋友总是说Linux多好ÿ…

认识HTML5的WebSocket 认识HTML5的WebSocket
2019独角兽企业重金招聘Python工程师标准>>> 在HTML5规范中,我最喜欢的Web技术就是正迅速变得流行的WebSocket API。WebSocket提供了一个受欢迎的技术,以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法,从客户端…

空字符串计数、让字典可排序...Python冷知识(五)
本文转载自Python编程时光(ID: Python-Time)冷知识系列,直至今日,已经更新至第五篇。前四篇给你准备好了,还没阅读的可以学习一下。谈谈 Python 那些不为人知的冷知识(一)谈谈 Python 那些不为人…

后端说:只是你不懂怎么用 headers!
事情是这样的,上一个项目我们的后端提供的接口,一次性返回了所有数据给我,分页功能是前端自己完成的。 那么这次来的新项目,换了个后端,写了另外的接口,我做项目的时候,还是用的之前的前端分页组…

【H2645】H.264的宏块和H.265的编码树单元总结
一、H.264宏块 1、什么是宏块? 先看下面两张图,就能大体知道宏块指的是哪了。 将连续几帧图像分为一组(GOP)在H264中称为一个序列(sequence); 将每帧图像(Frame)划拉几道分成片(slice); 将每片(slice)按照16x16的大小横着竖着划拉成宏块(Maroblock); 将宏块(Maroblock…

android adb root方法
2019独角兽企业重金招聘Python工程师标准>>> 在有些android手机上使用adb root希望获取root权限时出现如下提示信息:adbd cannot run as root in production builds。此时提升root权限的方法是: 1。在android手机上获取超级用户权限ÿ…

10亿级数据规模的半监督图像分类模型,Imagenet测试精度高达81.2% | 技术头条...
译者 | linstancy作者| I. Zeki Yanlniz, Herve Jegou, Kan Chen, Manohar Paluri, Dhruv Mahajan编辑 | 蓝色琥珀鱼,Rachel出品 | AI科技大本营(ID:rgznai100)【导读】本文提出了一种十亿级数据规模的半监督图像分类模型…

【Qt】QtCreator导入cmake工程
QtCreator导入cmake 一、ubuntu系统1、配置cmake编译套件2、导入cmake工程二、windows系统1、下载cmake2、安装cmake3、设置环境变量4、添加cmake5、配置kit6、编译时配置7、cmake选项配置8、编译后,执行安装命令一、ubuntu系统 1、配置cmake编译套件 在QtCreator中依次点击…

腾讯音乐招 iOS 开发, base 深圳,要求:本科、三年、OC,懂音视频开发优先。...
计算机基础扎实,精通 Objective-C,熟悉 iOS 平台并有良好的软件开发经验; 熟悉 https 及流媒体上传下载协议,精通 TCP/IP 协议; 良好的编码风格,以及足够的调试技术和问题解决能力; 责任心强&am…

Android深入浅出系列之Android工具的使用—模拟器(一)
前言 我们下载的SDK包里面有一个叫“Tools”的文件夹,里面为我们提供了许多与Android开发相关的工具,其中一些是必不可少的,现在我们就介绍一下模拟器 Android模拟器的创建 使用“Android SDK and AVD Manager”可以很方便的创建一个An…

【H2645】帧内预测
1、帧内预测的原理 帧内预测的原理:预测值是该像素周围像素值加权求和(比如平均值)P,它和实际值相减后得到的差值q,如果差值q很小,说明该像素的值可以通过预测得出,可以丢弃了,这就达到压缩编码的目的。当…

程序员神级跳槽攻略:什么时候该跳?做什么准备?到哪里找工作?
为什么80%的码农都做不了架构师?>>> 1、引言 每年的3、4月份都是求职高峰时期,目前已进入6、7月份了,你已经成功换工作了吗? 这次我们想聊的,就是程序员跳槽这件事儿,我打算从三个方面来说&…

周志华等人新著!国内第一部AI本科专业教育培养体系出炉
整理 | 一一出品 | AI科技大本营(ID:rgznai100)不得不感叹,南京大学在人工智能本科教育上的发展速度,确实比国内一众高校快一步。这一次,在AI 本科专业教育培养体系的制定上,南大又一次跑到了最前面。5 月 …

自己实现文本相似度算法(余弦定理)
2019独角兽企业重金招聘Python工程师标准>>> 最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非…

autohotkey快捷键
;已经基本修复了输入带shift的时候跟输入法中英文切换之间的冲突 SetStoreCapslockMode, off SetKeyDelay, 50^CapsLock::#UseHook ;用这个和下面的off能实现代码不冲突,即这个区间的 才有作用,而不出发send right Send {Capslock} #UseHook off returnCapsLock:: Send {Right…

算法实现没思路?最全Python算法实现大礼包!(附学习资源)
整理 | Rachel责编 | Jane出品 | Python大本营(ID:pythonnews)【导语】数据结构与算法是所有人都要学习的基础课程,自己写算法的过程可以帮助我们更好地理解算法思路,不要轻视每一个算法,一些虽然看似容易&…

【H2645】帧间预测
1、帧间预测原理 先看下图,对比前后两帧图像,只有圆的位置发生变化,因此我们可以根据前一帧图像以及圆移动的信息,合成后一帧图像。这样少编码一帧图像,大大压缩了数据。 实际情况如下图,比对前后两帧,背景一样,只有两人身体发生微小变化,找出并记录这些变化信息,就…

企业网络翻译官——DNS
一、DNS简介 (一)、DNS原理 DNS 是计算机域名系统 (Domain Name System 或Domain Name Service) 的缩写。主要提供域名解析服务。将IP地址转换为相对应的域名,或者将域名解析为相应的IP地址。 (二)、DNS查询 DNS查询分…

【FFmpeg】AVPacket的使用详解
1、AVPacket简介 AVPacket是存储压缩编码数据相关信息的结构体,内部有压缩数据。它通常由解码器导出,或者作为输入传递给解码器,或者传递给muxers。 对于视频,它通常应该包含一个压缩帧。对于音频,它可能包含几个压缩帧。 重要的变量有以下几个: AVBufferRef *buf; 参…

GitHub日收12000星,微软新命令行工具引爆程序员圈!
作者 | 伍杏玲出品 | CSDN(ID:CSDNnews)继上次微软开源计算器刷爆GitHub后,今天凌晨在微软Build大会登场的Windows Terminal,如旋风般目前已登顶GitHub,截至发稿,收获超12000个Star,…

Codeforces 997 C - Sky Full of Stars
C - Sky Full of Stars 思路: 容斥原理 题解:http://codeforces.com/blog/entry/60357 注意当i > 1 且 j > 1,是同一种颜色 代码: #include<iostream> #include<cstdio> #include<queue> #include<deq…

jQuery中文入门指南,翻译加实例,jQuery的起点教程
中文版译者:Keel 此文以实例为基础一步步说明了jQuery的工作方式。现以中文翻译(添加我的补充说明)如下。如有相关意见或建议请 EMAIL 告知。或者在 BLOG中留言。 英文原版:http://docs.jquery.com/Tutorials:Getting_Started_wit…

从Pixel 3a到Android Q,一份谷歌AI能力的“成绩单” | Google I/O全程回顾
作者 | 琥珀出品 | AI科技大本营(ID:rgznai100)当地时间 5 月 7 日上午(北京时间 5 月 8 日凌晨一点),一年一度的 Google I/O 开发者大会如期而至。今年也是 Google 旗帜鲜明推行 “AI First” 战略的第四个年头。让我…
【超越白皮书3】DAG技术解析与实测
本报告由火币区块链研究院出品,作者:袁煜明、胡智威。原文地址 相关报告: 【超越白皮书2】EOS主网上线前夕的实测分析与技术建议 【超越白皮书1】EOSIO程序实测分析与技术建议 火币区块链应用研究院从技术角度对基于有向无环图(DA…

【Live555】liveMedia下载、配置、编译、安装、基本概念
【Live555】live555源码详解系列笔记 一、下载、编译、安装 1、下载 官网地址:http://www.live555.com/ 下载地址:http://www.live555.com/liveMedia/public/ 2、配置、 源码目录下有已经写好的配置文件,如下 config.armlinux、 config.linux 、 config.linux-64bit …

更加安全的存取账户密码
苹果SDK自带的就有密码保护,使用方法很简单,如下: 1、引入Security.frameWork框架。2、引入头文件:SFHKeychainUtils.h.3、存密码:[SFHFKeychainUtils storeUsername:"dd" andPassword:"aa"forSer…

【C++】多态问题:基类调用子类的protected或者private函数
1、问题描述 如果在基类中虚函数是public,子类中重载时标记为protected或者private函数,是否还能访问这个函数? 答案是: 基类指针指向子类时,可以访问,并且访问的是子类重载后的函数; 子类指针…