当前位置: 首页 > 编程日记 > 正文

使用大batch优化深度学习:训练BERT仅需76分钟 | ICLR 2020

作者 | Yang You, Jing Li等

译者 | 刘畅

在海量数据集上训练大型深度神经网络,是非常具有挑战性的。最近,有许多研究均使用大batch随机优化方法来解决此问题。在该研究领域中,目前最杰出的算法是LARS,它通过采用分层自适应学习率,可以在几分钟内在ImageNet上训练ResNet。但是,对于像BERT这样的注意力模型,LARS的表现很差,这说明它的性能提升在不同任务之间并不一致。在本文中,作者首先研究了一种有原则性的分层适应策略,这样就可以使用大的mini-batch来加速深度神经网络的训练。

使用这种策略,作者开发了一种称为LAMB的新分层自适应大批量优化技术。然后,作者提供了LAMB和LARS的收敛分析,展示了在一般非凸的要求中,可以收敛到固定点。

作者的实验结果证明了LAMB在各种任务(例如BERT和RseNet-50训练)中可以表现的非常出色,且仅需调整少量的超参数。重要的是,对于训练BERT,本文的优化程序可以使用非常大的32868 batch大小,而且不会降低性能。通过将批处理大小增加到TPUv3 Pod的内存限制,BERT的训练时间可以从3天减少到只有76分钟(可以见后面的表1)。LAMB的实现已经开源。

代码地址:

https://github.com/tensorflow/addons/blob/master/tensorflow_addons/optimizers/lamb.py

引言

随着大规模数据集的出现,即使使用诸如随机梯度下降(SGD)等有效的优化方法来训练深层的神经网络也变得特别难。例如,在16张TPUv3芯片上训练BERT和ResNet-50等深度学习模型需要3天,而在8张Tesla P100 gpu上则需要29小时。因此,研究者们对开发用于解决此问题的优化方法有浓厚的兴趣。

本文的目的是研究和开发优化技术,以加快训练大型深度神经网络的速度,主要是基于SGD方法的变种。基于SGD的方法通过在小batch上计算梯度的缩放方向来迭代更新模型参数。但是,SGD的可伸缩性受到其固有顺序性的限制。由于这一局限性,在深度学习的背景下改善SGD训练时间的方法很大程度上依赖于分布式异步的设置,但是,由于异步的引入隐性的限制了方法的并行化,这通常会导致性能下降。由于最近硬件的进步,看到了在大batch的数据上并行计算梯度的可行性。但是,单纯的增加批大小通常会导致泛化性能下降。

最近的研究表明,在达到某些mini-batch大小的情况下,学习率与mini-batch的线性比例可用于进一步加快训练速度。这些工作还阐明了两个可以在大batch同步SGD中使用线性缩放的内容:(i)学习速率的线性缩放在初始阶段是有害的;因此,最初需要使用手动调整的缓慢增加学习速度的warmup策略,并且(ii)学习速度的线性缩放可能会超出一定的批次大小。使用这些tricks,Goyal等人能够使用8192的batch大小将ResNet-50模型的训练时间从29小时大幅减少到1小时。

尽管这些工作证明了这种策略可以减少训练大型深层神经网络所需的时间,但他们还是强调了针对大batch学习的自适应学习率机制的需求。

最近已经提出使用基于分层自适应学习率的SGD方法来解决这个问题。该研究领域中最成功的是LARS算法,该算法最初是为了训练RESNET提出的。使用LARS,只需几分钟即可在ImageNet上对ResNet-50完成训练!但是,已经观察到在各个任务中,其对于提升性能的效果不一致。例如,对于BERT等注意力模型,LARS的表现不佳。此外,在很大程度上缺乏了对LARS中采用的适应性的理论理解。因此,本文研究和开发了一种针对大batch设置的新方法。

更具体地说,本文主要有以下的贡献。

  • 受LARS的启发,本文研究了专门针对大batch学习的通用适应策略,并为该策略提供了直觉性的方法。

  • 基于适应策略,本文开发了一种新的优化算法(LAMB),以实现SGD中学习率的自适应。此外,本文为LARS和LAMB都提供了收敛分析,本文重点介绍了将这些方法用于大batch的好处。

  • 本文展示了LAMB在多个任务中的性能。使用LAMB,本文在训练BERT时将batch大小扩展到超过32k,而不会降低性能。因此,训练时间从3天减少到76分钟。本文是第一个将BERT训练时间减少到几个小时以内的工作。

  • 本文还展示了LAMB在训练像RESNET这样的图像分类模型方面的效率。据作者所知,本文是第一个可以为RESNET-50达到SOTA精度的自适应求解器。


方法

作者首先讨论了在大Batch设置中适应学习率的一般策略。然后是使用此策略的两种特定算法。重点讨论深度学习中的表现。

一般策略:假设本文在具有以下分层更新规则的小batch设置中使用迭代基础算法A(例如SGD或ADAM):

其中u_t是在t时刻由A算法更新的参数。在大batch中,主要做以下两个修改。

1、更新的参数会进行L2范数的归一化。且在每层网络能做归一化的操作。

2、学习率会由一个ф函数进行缩放。也是在每层网络都做这一操作。

假设基础算法A是SGD,因此上述修改的结果如下:

其中x_t和g_t分别是第i层的参数和梯度。在实践中,作者观察到一个非常简单的ф函数ф=min{max(,),}。具体的理论分析,详见论文。

LARS vs LAMB算法

LARS和本文提出的LAMB算法都是上述一般策略的实例。LARS最初是为在ImageNet使用大batch训练RESNET而提出的。通常,可以观察到,使用动量优化器可以以很小的偏差为代价减小随机梯度的方差。与LARS不同,LAMB使用的基础算法是adam。且在自适应的设置上有两个方面不同,一是对ADAM中第二个moment平方根的每维进行归一化。二是由于逐层自适应性可以获得逐层归一化。上图是两种算法的伪代码。

实验

本文将提供将使用现有优化器的LAMB方法在两个大batch训练任务上进行比较的实验结果:BERT和RESNET-50训练。本文还将LAMB与现有的针对mini-batch(<1K大小)和小型数据集(例如CIFAR,MNIST)的优化器进行了比较。为了阐述该方法的鲁棒性,本文使用了非常的超参数来调优LAMB优化器,具体的详情可以参见论文。

BERT训练实验

本文采用的数据集包含wiki和bookscorpus词条,主要关注SQuAD任务。评价指标是F1分数。均是与BERT baseline进行对比。具体的训练细节参见论文。结果如下:

作者还将LAMB与LARS算法进行了对比,可见LAMB算法在16k batch大小以上还可以稳定收敛。

此外,作者还对比了在IMAGENET上面的实验结果,可以发现在大batch下面,lamb算法相较于adam/adagrad等算法可以收敛的更好。

对于BERT和ImageNet训练,在增加batch大小时,作者并没有调整LAMB优化器的超参数。作者使用了LR平方根缩放规则和线性warmup来自动调整学习率。如下表格所示:

结论

大batch处理技术对于加快深度神经网络的训练至关重要。在本文中,作者提出了LAMB优化器,它支持自适应的像素更新和分层的学习率。此外,LAMB是适用于小batch和大batch的通用优化器。

此外还为LAMB优化器提供了理论分析,重点介绍了其性能优于标准SGD的情况。通过使用LAMB,本文能够将BERT预训练的batch大小扩展到64K,而不会损失准确性,从而将BERT训练时间从3天减少到大约76分钟。LAMB还是第一个可以使用RESNET-50在ImageNet训练上达到SOTA结果的大batch自适应优化器。

原文链接:

https://static.aminer.cn/upload/pdf/program/5e5e18b793d709897ce2a20b_0.pdf

【end】

欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!

推荐阅读全球呼吸机告急!医疗科技巨头美敦力“开源”设计图和源代码中国无人机“老炮儿”回忆录
互联网之父确诊新冠,一代传奇:任谷歌副总裁、NASA 访问科学家微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!在Kubernetes上部署一个简单的、类PaaS的平台,原来这么容易!2020年,这20个大家都认识的加密交易所过得怎么样?你点的每个“在看”,我都认真当成了AI

相关文章:

华为AR28-11路由器配置

公司使用华为AR28-11路由器&#xff0c;宽带接入。现使用2M光纤接入&#xff0c;地址&#xff1a;124.117.254.* 255.255.255.252.公司电脑使用192.168.1.0 255.255.255.0 网段地址参考配置#version 5.20, Release 1205P02, Basic#sysname H3C#domain default enable system#vl…

PHPExcel使用-使用PHPExcel导出文件-导出MySQL数据

现在数据库里面有一组数据&#xff0c;我们将它按照不同的难度进行分sheet. 首先我们需要写一个mysql的配置文件- db.config.php(utf-8编码) : <?php $dbconfig array( host > 127.0.0.1, username > root, password > , database > xxx, charset &…

C语言清空输入缓冲区的N种方法对比

C语言中有几个基本输入函数&#xff1a; //获取字符系列 int fgetc(FILE *stream); int getc(FILE *stream); int getchar(void); //获取行系列 char *fgets(char * restrict s, int n, FILE * restrict stream); char *gets(char *s);//可能导致溢出&#xff0c;用fgets代替之…

低耗时、高精度,微软提基于半监督学习的神经网络结构搜索算法

作者 | 罗人千、谭旭、王蕊、秦涛、陈恩红、刘铁岩 来源 | 微软研究院AI头条&#xff08;ID:MSRAsia&#xff09;编者按&#xff1a;近年来&#xff0c;神经网络结构搜索&#xff08;Neural Architecture Search, NAS&#xff09;取得了较大的突破&#xff0c;但仍然面临搜索耗…

《虚拟化与云计算》读书感(三)数据中心的概述

看了《虚拟化与云计算》的第一章第一节‘数据中心的概述’。在我读这一节开始&#xff0c;我看到这个题目的时候总是联想到类似谷歌数据中心一类的东西&#xff0c;多个硬盘或者服务器的堆叠。然后整来几个集装箱把这些堆叠的服务器塞进去&#xff0c;然后供用户使用。然而自从…

golang笔记——struct

1、定义一个结构体 type User struct {userid intusername stringpassword string } 2、初始化一个结构体 有两种情况&#xff0c;一是得到结构体的对象&#xff0c;一是得到结构的对象指针&#xff0c;分别有三种方式&#xff1a; //第1种方式&#xff0c;先声明对象&#x…

posix_memalign

翻译的<Linux system programming> 第八章 二 ;《Linux System Programming》中文版 对齐 数据的对齐(alignment)是指数据的地址和由硬件条件决定的内存块大小之间的关系。一个变量的地址是它大小的倍数的时候&#xff0c;这就叫做自然对齐(naturally aligned)。例如&…

ubuntu 10.04 安装eclipse及其中文语言包

1.安装eclipsesudo apt-get install eclipse2.暗自中文语言包点 击下载中文语言包&#xff08;http://www.eclipse.org/downloads/download.php?file /technology/babel/babel_language_packs/BabelLanguagePack-eclipse- zh_3.5.0.v20091121043401.zip&urlhttp://d2u376u…

世界顶级赛事百万座位如何做到票务限时匹配?

作者 | 阿里文娱技术专家 展恒出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;背景麦座&#xff0c;是大麦旗下的票务系统。去年&#xff0c;我们承接了 2019 年国际篮联篮球世界杯&#xff08;2019FBWC&#xff09;&#xff0c; 核心目标是完成三种套票的运营及售卖…

[转](不理想)Ubuntu下更改主显示器

参考链接&#xff1a;http://www.cnblogs.com/feng_013/archive/2012/03/05/2380111.html 查看显示器信息&#xff1a; fdmfdm-OptiPlex-780:~$ xrandr 设置主显示器 fdmfdm-OptiPlex-780:~$ xrandr --output HDMI1 --auto --primary 设置副显示器在主显示器右边 fdmfdm-OptiPl…

Nginx源码分析--数据对齐posix_memalign和memalign函数

posix_memalign函数() /* * 背景&#xff1a; * 1&#xff09;POSIX 1003.1d * 2&#xff09;POSIX 标明了通过malloc( ), calloc( ), 和 realloc( ) 返回的地址对于 * 任何的C类型来说都是对齐的 * 功能&#xff1a;由posix_memalign分配的内存空间&…

不要一辈子靠技术生存

今天看了一篇文章,感受挺深的,人的一生不能一辈子靠技术生存,尽管你的技术能力很强.(文章转载出处忘记,有哪位朋友知道的提醒一下)一、 在中国你千万不要因为学习技术就可以换来稳定的生活和高的薪水待遇&#xff0c;你千万更不要认为哪些从事 市场开发&#xff0c;跑腿的人&am…

中国顶尖的技术社区们在一个群里,会聊什么…

* 文中表情包图片来自网络

矩阵中路径数目问题

在如下8*6的矩阵中&#xff0c;请计算从A移动到B一共有____种走法。要求每次只能向上或向右移动一格&#xff0c;并且不能经过P。 8*6的矩阵&#xff0c;从左下角A到右上角B&#xff0c;一共需要走12步&#xff0c;其中5步向上&#xff0c;7步向右&#xff0c;因此总的走法一共…

RANet : 分辨率自适应网络效果和性能的best trade-off | CVPR 2020

作者 | VincentLee来源 | 晓飞的算法工程笔记简介深度CNN带来了性能提升的同时也带来了过高的计算量&#xff0c;许多研究放在了如何进行网络加速上面&#xff0c;其中比较直接的是根据样本难易程度进行自动调整的自适应网络。基于对自适应网络的研究&#xff0c;论文提出了自适…

strcpy,memcpy和memmove区别

strcpy和memcpy都是标准C库函数&#xff0c;它们有下面的特点。 strcpy提供了字符串的复制。即strcpy只用于字符串复制&#xff0c;并且它不仅复制字符串内容之外&#xff0c;还会复制字符串的结束符。 已知strcpy函数的原型是&#xff1a;char* strcpy(char* dest, const cha…

WinForm 读写配置文件

读配置文件 方法(1) //ConfigurationManager.RefreshSection("appSettings");stringsettingValue ConfigurationManager.AppSettings.Get("setting1");读配置文件 方法(2) Configuration config ConfigurationManager.OpenExeConfiguration(ConfigurationU…

PHP 读取数据库内容并以二维数组按指定列输出实例

最新PHP 读取数据库内容并以二维数组按指定列输出实例以下是三零网为大家整理的最新PHP 读取数据库内容并以二维数组按指定列输出实例的文章&#xff0c;希望大家能够喜欢!<?php$host "localhost"; //主机名$user "root"; //mysql用户名$passwor…

指针的本质2-void和void*及其应用在nginx中的应用

指针本质论指针有两个属性:指向变量/对象的地址和长度。 但是指针只存储地址,长度则取决于指针的类型&#xff0c;编译器根据指针的类型从指针指向的地址向后寻址&#xff0c; 指针类型不同则寻址范围也不同&#xff0c;比如: int*从指定地址向后寻找4字节作为变量的存储单元&…

首次揭秘!大麦如何应对超大规模高性能选座抢票?

作者| 阿里文娱技术专家恒磊、高级开发工程师新钱出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;背景介绍随着现场娱乐行业的不断发展&#xff0c;各类演出层出不穷&#xff0c;越来越多的演出开启选座购票满足用 户的自主选座需求。大麦的选座不仅面向中小场馆类的…

华为交换机密码恢复

华为交换机密码恢复说明&#xff1a;以下方法将删除原有config文件&#xff0c;使设备恢复到出厂配置。在设备重启时按CtrlB进入BOOT MENU之后&#xff0c;Press Ctrl-B to enter Boot Menu... 5Password : 缺省为空&#xff0c;回车即可1. Download application file to flash…

nginx源码分析--内存对齐处理

1.nginx内存对齐主要是做2件事情&#xff1a; 1) 内存池的内存地址对齐&#xff1b; 2) 长度按照2的幂取整.因为前面结构体已经是对齐了&#xff0c;如果后面的内存池每一小块不是2的幂&#xff0c;那么后面的就不能对齐 2.通用内存对齐理论 内存对齐&#xff1a;数据项只能…

七喜携手AMD,摆脱英特尔“潜规则”

七喜携手AMD&#xff0c;摆脱英特尔“潜规则”<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />最近&#xff0c;在PC市场随着七喜董事副总裁毛骏飙揭发英特尔制定的潜规则&#xff0c;“游戏规则都是英特尔制定的&#xff0c;全…

半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架DGL-KE

出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09; 知识图谱 &#xff08;Knowledge Graph&#xff09;作为一个重要的技术&#xff0c;在近几年里被广泛运用在了信息检索&#xff0c;自然语言处理&#xff0c;以及推荐系统等各种领域。学习知识图谱的嵌入表示 &#x…

数组的各类排序

1 package sort;2 3 /**4 * 数组的各种排序操作5 * Created by liuwei on 16/3/6.6 */7 public class MSort {8 9 /**10 * 直接插入排序11 * 外层一个循环,从第2个元素开始(下标为1),遍历后面的所有元素12 * 内层一个循环,从当前位置position i 开始,每次…

Virtualbox安装使用注意

1.VirtualBox升级到4.3以后不能打开 提示创建 COM 对象失败 应用程序将被中断 解决方案&#xff1a;右键VirtualBox的桌面快捷方式&#xff0c;选择属性&#xff0c;选到兼容性选项卡&#xff0c;勾选“以兼容模式运行这个程序”&#xff0c;下拉框选择Windows Server 2008 …

机器学习项目模板:ML项目的6个基本步骤

来源 | DeepHub IMBA每个机器学习项目都有自己独特的形式。对于每个项目&#xff0c;都可以遵循一组预定义的步骤。尽管没有严格的流程&#xff0c;但是可以提出一个通用模板。准备问题不仅是机器学习&#xff0c;任何项目的第一步都是简单地定义当前的问题。您首先需要了解背景…

ib_logfile 在数据库中有何作用?

ib_logfile 在数据库中有何作用&#xff1f; ib_logfile0/ib_logfile1 文件在数据库中起什么作用&#xff1f; 如果被删除&#xff0c;对数据库有何影响&#xff1f; ----->>>>>>>>>>> 回复 #1 mugua_xinli 的帖子 用于存放InnoDB引擎的事…

Podfile 常见语法

source URL &#xff1a; 指定镜像仓库的源 platform : ios, 6.0 &#xff1a; 指定所支持系统和最低版本 inhibit_all_warnings! &#xff1a;屏蔽所有warning workspace 项目空间名&#xff1a; 指定项目空间名 xcodeproj 工程文件名&#xff1a;指定xcodeproj工程文件名 …

今天学完了ccna

通过10天的学习&#xff0c;终于学完了NA&#xff0c;但是会不会呢&#xff1f;还是个未知数&#xff0c;再就也一知半解的。觉得基础知识太差了&#xff0c;可是看书&#xff0c;又觉得太长了&#xff0c;太多了&#xff0c;晚上老是停电 白天啥也看不进去。热。还是静不下心&…