当前位置：首页 > 编程日记 > 正文

1024块TPU在燃烧！BERT训练从3天缩短到76分钟 | 技术头条

编程日记 2025-01-08 14:50:00

点击上方↑↑↑蓝字关注我们~

640?wx_fmt=png

「2019 Python开发者日」全日程揭晓，请扫码咨询 ↑↑↑

作者 | 琥珀

出品 | AI科技大本营（ID:rgznai100）

“Jeff Dean称赞，TensorFlow官方推特支持，BERT目前工业界最耗时的应用，计算量远高于ImageNet。我们将BERT的训练时间从三天缩短到了一小时多。”UC Berkeley大学在读博士尤洋如是说道。

640?wx_fmt=png

近日，来自Google、UC Berkeley、UCLA研究团队再度合作，成功燃烧1024块TPU，将BERT预训练模型的训练时长从3天缩减到了76分钟。batch size技术是加速神经网络训练的关键，在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”这篇论文中，作者提出了LAMB优化器，它支持自适应元素更新和分层校正。

640?wx_fmt=png

论文传送门：https://arxiv.org/pdf/1904.00962.pdf

论文摘要：batch size增加到很大时的模型训练是加速大型分布式系统中深度神经网络训练的关键。但是，这种模型训练很难，因为它会导致一种泛化差距。直接优化通常会导致测试集上的准确性下降。

BERT是一种先进的深度学习模型，它建立在语义理解的深度双向转换器上。当我们增加batch size的大小（如超过8192）时，此前的模型训练技巧在BERT上表现得并不好。BERT预训练也需要很长时间才能完成，如在16个TPUv3上大约需要三天。

为了解决这个问题，我们提出了LAMB优化器，可将batch size扩展到65536，且不会降低准确率。LAMB是一个通用优化器，batch size大小均使用，且除了学习率之外不需要别的参数调整。

基线BERT-Large模型需要100万次迭代才能完成预训练，而batch size大小为65536/32768的LAMB仅需要8599次迭代。我们还将batch size进行内存限制，接近TPUv3 pod，结果可在76分钟内完成BERT训练。

640?wx_fmt=png

据悉，该论文的一作是来自UC Berkeley计算机科学部的在读博士尤洋，同时也是Google Brain的实习生。据公开信息显示，尤洋的导师是美国科学院与工程院院士，ACM/IEEE fellow，伯克利计算机系主任，以及首批中关村海外顾问James Demmel教授。他当前的研究重点是大规模深度学习训练算法的分布式优化。2017年9月，尤洋等人的新算法以24分钟完成ImageNet训练，刷新世界纪录。

640?wx_fmt=jpeg

在此之前，他曾在英特尔实验室、微软研究院、英伟达、IBM沃森研究中心等机构实习。尤洋本科就读于中国农业大学计算机系，硕士保送清华大学计算机系，是一名杠杠的理工学霸！

（本文为 AI大本营原创文章，转载请微信联系 1092722531）

◆

精彩推荐

◆

「2019 Python开发者日」演讲议题全揭晓！这一次我们依然“只讲技术，拒绝空谈”10余位一线Python技术专家共同打造一场硬核技术大会。更有深度培训实操环节，为开发者们带来更多深度实战机会。更多详细信息请咨询13581782348（微信同号）。

640?wx_fmt=jpeg

推荐阅读：

萌新养成 | AI科技大本营实习生招募计划
80+机器学习数据集，还不快收藏
推荐收藏 | Python爬虫干货资料，内含入门、实战、视频
GitHub超全机器学习工程师成长路线图，开源两日收获3700+Star！
靠找Bug赚了6,700,000元！他凭什么？
移动开发或将被颠覆？
他曾主导世界上第一台安卓智能机, 如今能否靠区块链手机找回昔日的光荣？|人物志
轻松了解面试官心理！ElasticSearch写入数据的工作原理是什么？ | 技术头条
程序员与程序媛的神仙爱情 | 程序员有话说

640?wx_fmt=png

❤点击“阅读原文”，查看历史精彩文章。

https://www.dkcj.cn/info/35401.html

1024块TPU在燃烧！BERT训练从3天缩短到76分钟 | 技术头条

作者 | 琥珀

出品 | AI科技大本营（ID:rgznai100）

相关文章：

牵引力教育设计总监解密9大2018潮流UI设计趋向

Android媒体相关开发应用程序接口

Facebook开源图嵌入“神器”：无需GPU，高效处理数十亿级实体图形 | 极客头条...

【opencv】ubuntu14.04上编译opencv-4.0.1 + opencv_contrib-4.0.1

软件开发文档模板（学习）

Unix数据中心主宠儿

【AI】基本概念

在浏览器中进行深度学习：TensorFlow.js (四）用基本模型对MNIST数据进行识别

不止临床应用，AI还要帮不懂编程的医生搞科研

rhel6Inode详解

争论不休的TF 2.0与PyTorch，到底现在战局如何了？ | 技术头条

struts2实验2:struts2.xml action中* ,{}以及${}

【Ubuntu】dpkg-deb -c :查看deb文件中的内容

捕获Camera并保存图片到本地(照相功能) -samhy

【C++】模板函数的声明和定义必须在同一个文件中

基于AWS-ELK部署系统日志告警系统

《周志华机器学习详细公式推导版》发布，Datawhale开源项目pumpkin-book

JVM内存泄漏检测与处理

【Dlib】dlib和opencv的互转

原创人物志|山东省临沭县 - 一位身残志坚的奋斗青年 - 吴忠军

百度SLG拿下前锤子科技CTO钱晨，还要合并小鱼在家？ | 极客头条

【Dlib】dlib实现深度网络学习之 input层

首发 | 13篇京东CVPR 2019论文！你值得一读~ 技术头条

Windows 活动目录（AD）服务器系统升级到2012之活动目录角色迁移（三）

《星际争霸2》引擎技术解析

回顾与展望：大热的AutoML究竟是什么？ | 技术头条

【Python】深度学习中将数据按比例随机分成随机训练集和测试集的python脚本

docker 系列之配置阿里云镜像加速器

LVM-HOWTO/学习笔记(二)

【python】使用python脚本将LFW数据中1672组同一个人多张照片拷贝出来