一块GPU就能训练语义分割网络,百度PaddlePaddle是如何优化的?
【引言】显存不足是训练语义分割网络常常遇见的问题,而显存是GPU计算中的稀缺资源。百度深度学习框架PaddlePaddle中的显存优化,不仅可以让研究人员在相同成本的计算设备上训练更大的模型,还可以在消费级别显卡上完成训练。在本篇文章中,我们将会带你使用PaddlePaddle中的显存优化,使用单张1080ti训练语义分割网络DeepLab v3+。同时作者还将训练结果与其他框架做了对比,PaddlePaddle在推断、训练以及显存消耗上,资源占用节省一半,速度提升近一倍。
一、 图像语义分割模型DeepLab v3
随着计算机视觉的发展,语义分割成为了很多应用场景必不可少的一环。 比如网络直播有着实时剔除背景的要求,自动驾驶需要通过语义分割识别路面,与日俱增的应用场景对语义分割的精度和速度的要求不断提高。同时,语义分割数据集也在不断地进化,早期的Pascal VOC2,其分辨率大多数在1000像素以下。而Cityscape的语义分割数据集分辨率全部达到了1024*2048,总共5000张图片(精细标注),包含19类。这些数据集对研究者,计算设备,甚至框架都带来了更大的考验。
DeepLab v3+ 是DeepLab语义分割系列网络的最新作,其前作有 DeepLab v1,v2, v3, 在最新作中,Liang-Chieh Chen等人通过encoder-decoder进行多尺度信息的融合,同时保留了原来的空洞卷积和ASSP层, 其骨干网络使用了Xception模型,提高了语义分割的健壮性和运行速率。其在Pascal VOC上达到了 89.0% 的mIoU,在Cityscape上也取得了 82.1%的好成绩,下图展示了DeepLab v3+的基本结构4:
DeepLab v3+在主干网络之后连接了Encoder和Decoder,能够在扩大网络感受的同时获得更加高清的分割结果。
在PaddlePaddle的模型库中已经包含了DeepLab v3+的训练以及测试的代码。我们首先安装最新版本的PaddlePaddle并且下载PaddlePaddle的模型库:
pip install -U paddlepaddle
git clone https://github.com/PaddlePaddle/models.git
当模型仓库成功克隆,你将可以在目录fluid/PaddleCV/deeplabv3+ 下看到用于训练以及测试的代码:
ls fluid/PaddleCV/deeplabv3+
├── models.py # 网络结构定义脚本
├── train.py # 训练任务脚本
├── eval.py # 评估脚本
└── reader.py # 定义通用的函数以及数据预处理脚本
二、开始训练
当数据和代码都已经准备好,我们可以开始训练了,训练的参数和指令如下:
CUDA_VISIBLE_DEVICES=0 FLAGS_fraction_of_gpu_memory_to_use=0.99 inplace_normalize=1 fuse_relu_before_depthwise_conv=1 python3 /home/cjld/nfs/liangdun/deeplabv3+/train.py --batch_size=-1 --train_crop_size=-1 --total_step=10 --base_lr=0.005 --train_set=train --norm_type=gn --save_weights_path=$YOUR_SAVE_WEIGHTS_PATH –dataset_path=$YOUR_DATASET_PATH
在这个命令中,我们没有使用任何预训练模型,从噪音开始训练DeepLab v3+。并且是直接使用全分辨率进行训练(1024x2048,batch size=1)。几个比较关键的参数解释如下:
环境变量CUDA_VISIBLE_DEVICES=0限制了训练过程仅使用一张GPU,如果存在多张GPU,可以通过修改参数来得到训练速度的提升。
环境变量FLAGS_fraction_of_gpu_memory_to_use=0.99, 该环境变量将会让PaddlePaddle占用99%的显存,可以根据实际情况进行调节。
环境变量inplace_normalize=1,该参数是PaddlePaddle进行显存优化的关键,打开该开关将会让框架对normalize layer进行 inplace 操作来优化显存,现在支持的 normalize layer 有 group normalize。
环境变量fuse_relu_before_depthwise_conv=1,该参数是显存优化的另一个关键参数。这个参数会融合relu和depthwise conv来优化显存。
参数--save_weights_path=$YOUR_SAVE_WEIGHTS_PATH, 这里你需要填入保存模型的路径。
参数--dataset_path=$YOUR_DATASET_PATH, 这里你需要填入数据集的路径。
三、空间时间消耗分析
根据打印出来的信息,我们可以发现,PaddlePaddle在训练DeepLab v3+时,输入一张全分辨率的图片,显存消耗为10.2GB。得益于显存消耗小于11G,我们可以使用1080ti完成训练,训练中每次迭代速度约为0.85s。
我们还可以使用工具,分析DeepLab v3+各部分显存消耗情况:
在该图中,显存消耗最多的是主干网络,占用了68.1%,其次是decoder部分,占用了16.4%,以及encoder占用了5.3%,剩下其他部分为损失函数和数据预处理的显存消耗。
显存消耗最多的是主干网络,占用了68.1%,我们可以继续查看主干网络内部显存消耗情况:
这个图展示了在主干网络中的显存消耗,Xception主干网络主要由三部分组成, EntryFlow,MiddleFlow,以及ExitFlow,可以发现显存消耗最大的是EntryFlow。
在上图中,我们可以发现,尽管Xception主干网络层数最多的部分是MiddleFlow,但是显存消耗最大的却是EntryFlow,这是因为在EntryFlow里的特征还没有被充分下采用,分辨率相当高,同时EntryFlow里的通道数也不容小觑,因此造成了EntryFlow巨大的显存开销,这也为我们的优化指明了方向。
DeepLab v3+使用的主干网络 Xception, MiddleFlow中的分离卷积块重复了16次,层数相比较EntryFlow和ExitFlow要多得多,然而显存消耗最大的却是EntryFlow。
框架对比
除开对网络内部的显存消耗进行分析,我们还对不同框架的显存消耗进行了对比,下表展示了PaddlePaddle和TensorFlow1.12的显存消耗以及性能对比,以下对比实验使用的输入数据是1024x2048全分辨率的图片,batch size为1,测试设备P40(24G):
四、优化原理
这里我们采用的显存优化策略是 fuse_relu_before_depthwise_conv 和 inplace_normalize。顾名思义,fuse_relu_before_depthwise_conv 是讲relu和depthwise_conv融合为同一个operator, 达到显存的节省。而 inplace_normalize 则是使用原地操作来节省显存。在卷积神经网络中,conv+normalize+activation是常见模式,在这种模式下,使用这两种优化策略,可以节省3倍的显存。这两种优化策略归纳起来就是操作融合和原地计算, 是显存优化中的常见策略, 对于不同的框架常常需要耗费人力进行开发, 而我们通过paddle的显存优化可以很轻松的实现这一点。 该优化图示如下:
在该图中,红框标注的data为会消耗显存的数据块,可以看到,通过inpalce和fuse两种操作,原来需要存储6个数据块,优化后仅仅需要2个数据块。
在上图中,我们可以发现,inplace和fuse两种操作,都分别帮助我们在每一个conv+normalize+activation块中节省了1个数据块,所以显存节省的更多了,我们的分割网络也可以消耗更少的显存资源。
总结
显存空间优化和时间优化一样,对空间消耗的压榨是没有止境的。层出不穷的模型,各种不同的优化方式,都对框架提出了很高的要求,选择一款兼顾效果和性能的深度学习框架,往往能够让项目事半功倍。
1. The cityscapes dataset for semantic urban scene understanding.
2. The pascal visual object classes challenge.
3. The Mapillary Vistas Dataset for Semantic Understanding of Street Scenes.
4. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.
(本文为第三方供稿,不代表AI科技大本营观点)
相关文章:

【音频】Faad源码交叉编译
1、源码下载http://www.audiocoding.com/downloads.html2、解压后,进入目录执行如下命令aclocalautoheaderautomake --add-missingautoconf./configure --hostarm-fsl-linux-gnueabi CCarm-fsl-linux-gnueabi-gcc --prefix/home/faad/installmakemake install

springboot 整合redis 实现KeySpaceNotification 键空间通知
2019独角兽企业重金招聘Python工程师标准>>> 目录结构如下: application.properties配置文件(redis的配置): spring.redis.hostlocalhost spring.redis.pool.max-idle300 spring.redis.pool.max-wait3000 spring.redis…

黄聪:穿过主机访问虚拟机中的SQL服务 FOR VMware NAT
一般来说,大家都会在主机或者虚拟机中安装SQLIIS,但假如主机的IIS想利用虚拟机中的SQL服务怎么办呢? 以我的电脑为例子,主机系统:Windows 7 7600 RTM X64,安装IIS 7.5。虚拟机系统:Windows 2003…

【数据库】mysql报错 编码码1130 和错误码1146
1、错误编码1130 问题:1130-Hose‘172.16.12.129’is not allowed to connect to this MySQL server 原因:MySQL服务器没有创建,远程客户的账户信息 解决: 1.1 登录 :mysql -uroot 1.2 切换数据库:mysql>…

一键fxxk,代码修复神器拯救你
作者 | 一一出品 | AI科技大本营(ID:rgznai100)在成为一个合格的开发者之前,大多数人一般都经历过被命令行反复“fuck”蹂躏。当然,改代码改不动了,你的内心也是“无 fuck 可说”,尤其在检查半天之后发现这…

hive2.3.2安装使用
hive的安装简单一些,使用也比较简单,基础hadoop搭建好之后,只要初始化一些目录和数据库就好了 安装需要做几件事: 1.设立一个数据源作为元数据存储的地方,默认是derby内嵌数据库,不过不允许远程连接,所以换成mysql 2.配置java路径和classpath路径 下载地址: http://mirrors.shu…

Google经典面试题解析
作者 | Alex Golec译者 | 弯月责编 | 屠敏出品 | CSDN(ID:CSDNnews)在深入问题之前,有一个令人振奋的消息:我离开了Google!我激动地宣布,我已经加入了Reddit,并在纽约市担任项目经理…

1分钟构建API网关日志解决方案
访问日志(Acccess Log)是由web服务生成的日志,每一次api请求都对应一条访问记录,内容包括调用者IP、请求的URL、响应延迟、返回状态码、请求和响应字节数等重要信息。 阿里云API网关提供API托管服务,在微服务聚合、前后…

ISQL*PLUS
1、有以下几种命令:环境:影响会话期间SQL语句的总体行为;格式化:格式化查询结果;文件处理:保存语句到脚本文件中,从脚本文件中运行语句;执行:从浏览器发送SQL语句到oracl…

【数据库】mysql 常用命令(一)
1、启动、停止mysql服务 1.0 sudo service mysql restart //测试有效 以下未测试 1.1 使用mysqld mysqld start mysqld stop 1.2 使用mysqld_safe启动、关闭MySQL服务 mysqld_safe 1.3 使用mysql.server启动、关闭MySQL服务 mysql.server stop …

15 个 JavaScript Web UI 库
新闻来源:speckboy.com几乎所有的富 Web 应用都基于一个或多个 Web UI 库或框架,这些 UI 库与框架极大地简化了开发进程,并带来一致,可靠,以及高度交互性的用户界面。本文介绍了 15 个非常强大的 JavaScript Web UI 库,…

【网络编程】MarioTCP
0、参考博客 《MarioTCP_一个可单机支持千万并发连接的TCP服务器 - JohanFong - CSDN博客》 http://blog.csdn.net/everlastinging/article/details/10894493 1、下载 sourceforge下载:https://sourceforge.net/projects/mariotcp/files/latest/download 2、安装…

Spring MVC-ContextLoaderListener和DispatcherServlet
2019独角兽企业重金招聘Python工程师标准>>> Spring MVC-ContextLoaderListener和DispatcherServlet 博客分类: spring java Tomcat或Jetty作为Servlet容器会为每一个Web应用构建一个ServletContext用于存放所有的Servlet, Filter, Listener。Spring MVC…

《中国人工智能ABC人才发展报告》发布,算法和应用类人才短缺
近日,百度云联手中国传媒大学、BOSS 直聘和百度指数发布了《中国人工智能 ABC 人才发展报告(2018版)》(以下简称“报告”)和百度云智学院2019 年人才认证体系。报告指出,从 2018 年的人才供需状况来看&…

博客域名改为http://bobli.cnblogs.com
本博客的域名已修改为:http://bobli.cnblogs.com/ 原来的地址还可以进入,希望搜索引擎快点更新过来。。。 感谢博客园管理员的帮助,效率非常之高!

百度Apollo 3.5是如何设计Cyber RT计算框架的?
自百度Apollo自动驾驶平台开源以来,已快速迭代至 3.5 版本,代码行数超过 39 万行,合作伙伴超过 130 家,吸引了来自 97 个国家的超 15000 名开发者。无疑,Apollo 是目前世界范围内最活跃的自动驾驶开放平台之一。最新发…

Spark Streaming实践和优化
2019独角兽企业重金招聘Python工程师标准>>> Spark Streaming实践和优化 博客分类: spark 在流式计算领域,Spark Streaming和Storm时下应用最广泛的两个计算引擎。其中,Spark Streaming是Spark生态系统中的重要组成部分࿰…

Python | 一万多条拼车数据,看春运的迁徙图
作者 | 白苏,医疗健康领域产品经理一枚,Python&R爱好者来源 | InThirty编辑 | Jane今天是腊月二十八,你们都到家了吗?这篇文章,作者对北京、上海、广州、深圳、杭州等地 1万多条出行数据进行分析,得出了…

[转载] sql server 2000系统表解释
sql server 2000系统表解释汇总了几个比较有用的系统表,内容摘自联机帮助sysobjects---------------在数据库内创建的每个对象(约束、默认值、日志、规则、存储过程等)在表中占一行。只有在 tempdb 内,每个临时对象才在该表中占一…

【驱动】uboot环境变量分析
0、bootcmd 0.1 飞凌原设置 bootcmdif mmc rescan; then if run loadbootscript; then run bootscript; else if test ${bootdev} sd1; then echo update firmware.........;run update_from_sd;else echo mmc boot..........;if run loadimage; then run mmcboot; else run n…

python--属性魔法方法
转载于:https://www.cnblogs.com/Purp1e/p/8149773.html

利用三层交换机实现VLAN的通信实验报告
利用三层交换机实现VLAN的通信实验报告<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />背景:要想实现VLAN之间的通讯,我们可以采用通过路由器实现VLAN间的通信 使用路由器实现VLAN间通信时,路由器与交换机…

【Qt】Qt Creator中文输入设置
#【Qt】Qt Creator中文输入设置 一、ubuntu中文输入法的设置 1、在终端中输入: $ ibus-setup 弹出界面如图: 2、选择中文输入法 3、点击右上角设置–》选择系统设置–》选择语言支持 4、语言支持选择: 汉语(中国)…

为何Google将几十亿行源代码放在一个仓库?
作者 | Rachel Potvin,Josh Levenberg 译者 | 张建军 编辑 | apddd 【AI科技大本营导读】与大多数开发者的想象不同,Google只有一个代码仓库——全公司使用不同语言编写的超过10亿文件,近百TB源代码都存放在自行开发的版本管理系统Piper中&…

Java反射得到属性的值和设置属性的值
package com.whbs.bean; public class UserBean { private Integer id; private int age; private String name; private String address; public UserBean(){ System.out.println("实例化"); } public Integer getId() { return id; } public void setI…

ASP.NET 中的正则表达式
引言 Microsoft.NET Framework 对正则表达式的支持是一流的,甚至在 Microsoft ASP.NET 中也有依赖正则表达式语言的控件。本文介绍了深入学习正则表达式的基础知识和推荐内容。 本文主要面向对正则表达式知之甚少或没有使用经验,但却熟悉 ASP.NET、可借助…

如何用最强模型BERT做NLP迁移学习?
作者 | 台湾大学网红教授李宏毅的三名爱徒来源 | 井森堡,不定期更新机器学习技术文并附上质量佳且可读性高的代码。编辑 | Jane谷歌此前发布的NLP模型BERT,在知乎、Reddit上都引起了轰动。其模型效果极好,BERT论文的作者在论文里做的几个实验…

【驱动】GPIO寄存器配置总结
#【驱动】GPIO寄存器配置总结 0、设置复用功能为GPIO 1、设置引脚特性,与硬件匹配 2、配置寄存器举例 字段解释: 2.0、SRE 数据位:0 SRE(Slew Rate Field):转换速度字段???这是一个可以调…

android Tabhost部件
本文结合源代码和实例来说明TabHost的用法。 使用TabHost 可以在一个屏幕间进行不同版面的切换,例如android自带的拨号应用,截图: 查看tabhost的源代码,主要实例变量有: private TabWidget mTabWidget; private Fr…