深入卷积神经网络背后的数学原理 | 技术头条
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑
作者 | Piotr Skalski
译者 | Monanfei
编辑 | 十月Rachel、Jane
出品 | AI科技大本营(id:rgznai100)
【导读】在计算机神经视觉技术的发展过程中,卷积神经网络成为了其中的重要组成部分,本文对卷积神经网络的数学原理进行了介绍。文章包括四个主要内容:卷积、卷积层、池化层以及卷积神经网络中的反向传播原理。在卷积部分的介绍中,作者介绍了卷积的定义、有效卷积和相同卷积、跨步卷积、3D卷积。在卷积层部分,作者阐述了连接切割和参数共享对降低网络参数学习量的作用。在池化层部分,作者介绍了池化的含义以及掩膜的使用。
自动驾驶、智能医疗、智能零售,这些曾被认为不可能实现的事情,在计算机视觉技术的帮助下,终于在最近成为了现实。今天,自动驾驶和自动杂货店的梦想不再像以前那样遥不可及。事实上,每天我们都在使用计算机视觉技术帮助我们用人脸解锁手机,或者对即将发布到社交媒体上的照片进行自动修饰。在计算机视觉技术应用这一巨大成功的背后,卷积神经网络(CNN)可能是其中最重要的组成部分。在本文中,我们将逐步理解,神经网络是如何与CNN特有的思想协作的。本文章包含了相当复杂的数学方程式,但如果您对线性代数和微积分不熟悉,请不要气馁。我的目标不是让您记住那些公式,而是让您从直觉上去理解这些公式背后隐藏的意义。
前言
在之前的系列中,我们学习了密集连接的神经网络(densely connected neural networks)。这些网络的神经元被分成组,形成连续的层,相邻的两个层之间的神经元相互连接。下图展示了一个密集连接的神经网络的示例。
Figure 1. Densely connected neural network architecture
当我们解决分类问题时,如果我们的特征是一组有限的并有明确定义的特征,这种方法是很有效的——例如,根据足球运动员在比赛期间所记录的统计数据,预测该运动员的位置。但是,当使用照片来进行预测时,情况会变得更加复杂。我们当然可以将每个像素的亮度视为一个单独的特征,并将其作为输入传递给我们的密集网络(dense network)。不幸的是,为了使神经网络能够处理典型的智能手机照片,该网络必须包含数千万甚至数亿个神经元。我们也可以通过缩小照片的尺寸来进行处理手机照片,但是这样做会使我们丢失很多有价值的信息。可以发现,这种传统策略的性能很差,因此我们需要一种新的、更加聪明的方法来尽可能多地使用数据,并同时减少必要的计算和参数的数量。CNN闪亮登场的时候到了。
数字图像的数据结构
首先花一点时间来解释一下数字图像的存储方式。数字图像实际上是巨大的数字矩阵。矩阵中的每个数字对应于其像素的亮度。在RGB模型中,彩色图像由三个矩阵组成,分别对应三个颜色通道——红,绿,蓝。而在黑白图像中,我们只需要一个矩阵。矩阵中的每个数字的取值区间都是0到255。该范围是存储图像信息的效率(256个值刚好适合1个字节)与人眼的灵敏度(我们区分同种颜色的灰度级别的数量极限)之间的折衷。
Figure 2. Data structure behind digital images
卷积
核卷积(kernel convolution)不仅仅用于CNN,它还是许多其他计算机视觉算法的关键要素。核卷积就是将一个小数字矩阵(滤波器,也称作 kernel 或 filter)在图像上进行滑动,并根据 kernel 的值,对图像矩阵的值进行转换的过程。对图像经过卷积操作后得到的输出称为特征映射(feature map)。特征映射的值的计算公式如下,其中 f 代表输入图像,h 代表滤波器 。结果矩阵的行数和列数分别用 m 和 n 表示。
Figure 3. Kernel convolution example
将 kernel 放在选定的像素上后,我们从 kernel 中依次取出每个值,并将它们成对地与图像中的相应值相乘。最后,我们将每个核运算后的结果元素相加,并将求和结果放在输出特征图中的正确位置上。上图从微观角度详细地展示了这一运算的过程,但在完整图像上实施该运算的结果可能更加有趣。图4展示了使用几个不同 kernel 的卷积结果。
Figure 4. Finding edges with kernel convolution
有效卷积&相同卷积(Valid and Same Convolution)
正如我们在图3中看到的,当我们使用 3x3 的 kernel 对 6x6 图像执行卷积时,我们得到 4x4 的特征映射。这是因为在这个图像中,只有16个位置可以将 kerenl 完整地放在这张图像中。由于每次执行卷积时我们的图像都会缩小,因此在我们的图像完全消失之前,我们只能进行有限次数的卷积。另外,如果对kernel 在图像中移动的过程进行观察,我们就会发现图像外围像素的影响远小于图像中心像素的影响。这样会导致我们失去图像中包含的一些信息。下图展示了像素位置的改变对特征图的影响。
Figure 5. Impact of pixel position
为了解决这两个问题,我们可以使用额外的边框来填充图像(padding)。例如,如果使用 1像素进行填充,我们将图像的大小增加到 8x8,因此使用 3x3 的 kernel 的卷积,其输出尺寸将为 6x6 。在实践中,我们通常用零值来填充额外的边界。根据是否使用填充,我们将处理两种类型的卷积——Valid 和 Same。Valid——使用原始图像,Same——使用原始图像并使用它周围的边框,以便使输入和输出的图像大小相同。在第二种情况下,填充宽度应满足以下等式,其中 p 是填充尺寸,f 是kernel 尺寸(通常是奇数)。
跨步卷积(Strided Convolution)
Figure 6. Example of strided convolution
在前面的例子中,我们总是每次将 kernel 移动一个像素,即步长为1。步长也可以视为卷积层的超参数之一。图6展示了使用更大步长时的卷积运算。在设计CNN架构时,如果希望感知域重叠较少,或者希望让特征图的空间维度更小,我们可以增加步长。输出矩阵的尺寸(考虑填充和步长时)可以使用以下公式计算。
过渡到第三个维度
体积卷积(Convolution over volume)是一个非常重要的概念,这不仅使我们能够处理彩色图像,而且更为重要的是,我们能够在单层网络中使用多个 kernel 。第一个规则是 kernel 和图像必须具有相同数量的通道。一般而言,图像的处理过程和图3的示例非常相似,但是这次我们是将三维空间中的值对相乘。如果想在同一个图像上使用多个 kernel,首先我们要分别对每个kernel执行卷积,然后将结果从顶层向下进行叠加,最后将它们组合成一个整体。输出张量的尺寸(可以称为3D矩阵)满足以下等式,其中:n - 图像大小,f - 滤波器大小,nc - 图像中的通道数,p - 填充大小,s - 步幅大小,nf - kernel 的数量。
Figure 7. Convolution over volume
卷积层
接下来我们将用前面学到的知识来构建CNN的一个层。我们将要用到的方法几乎与构建密集神经网络时用到的相同,唯一有区别的地方是,我们不再使用简单的矩阵乘法,而是使用卷积。前向传播包括两个步骤。第一步是计算中间值 Z:首先将前一层的输入数据与张量 W(包含滤波器)进行卷积,然后将运算后的结果加上偏差 b 。第二步是将中间值 Z 输入到非线性激活函数中(使用g表示该激活函数)。下面展示了矩阵形式的数学公式。如果您对公式中的任何部分不太清楚,我强烈推荐您去阅读一下我之前的文章,文中详细讨论了密集连接的神经网络的具体内容。下文的插图很好地展示了公式中各张量的维数,以助于理解。
Figure 8. Tensors dimensions
连接切割和参数共享(Connections Cutting and Parameters Sharing)
在本文的开头曾提到,由于需要学习大量的参数,密集连接的神经网络在处理图像方面的能力很差,而卷积却为该问题提供了一种解决方案,下面我们一起来看看卷积是如何优化图像处理的计算的。在下图中,我们用一种略微不同的方式对2D卷积进行了可视化——用数字1-9 标记的神经元构成输入层,用于接收输入图像的像素亮度,单元 A-D 表示经过卷积计算后得到的特征映射。最后,I-IV 表示来自 kernel 的后续值,这些值是需要网络进行学习的。
Figure 9. Connections cutting and parameters sharing
现在,让我们关注卷积层的两个非常重要的属性。第一,从图中可以看到,并非两个相邻层中的所有神经元都相互连接。例如,神经元 1 仅影响 A 的值。第二,我们可以发现一些神经元使用了相同的权重。这两个属性意味着在CNN中我们需要学习的参数要少得多。值得一提的是,kernel 中的任一单值都会影响输出特征映射的每一个元素——这在反向传播的过程中是至关重要的。
卷积层的反向传播(Convolutional Layer Backpropagation)
任何曾经试图从头开始编写神经网络的人都知道,前向传播还不到最终成功的一半。当你开始向回推算时,真正的乐趣才刚刚开始。如今,我们不需要为反向传播而烦恼——因为深度学习框架已经为我们做好了,但是我觉得有必要弄明白它背后发生的事情。就像在密集连接的神经网络中一样,我们的目标是计算导数,然后在梯度下降的过程中,用这些导数去更新我们的参数值。
在下面的计算中,我们将用到链式法则——这在我之前的文章中提到过。我们想要评估参数的变化对结果特征映射的影响,以及随之对最终结果的影响。在开始详细讨论之前,我们需要将数学符号统一 ——为了表示方便,我不会使用偏导数的完整符号,而是用下面提到的缩符号。但是请记住,当我使用这种表示法时,这将始终代表着成本函数的偏导。
Figure 10. Input and output data for a single convolution layer in forward and backward propagation
我们的任务是计算 dW [1] 和 db [l] (它们是与当前层参数相关的导数),以及 dA[l-1](它将被传递给前一层)。如图10所示,dA[l] 作为输入,张量 dW 和 W,db 和 b 以及 dA 和 A 的维度分别相同。第一步是求激活函数关于输入张量的导数,将其结果记为 dZ [1] 。根据链式法则,该运算的结果将在后面用到。
现在,我们需要处理卷积自身的反向传播。为了实现这个目标,我们将利用一个称为全卷积的矩阵运算,该运算的可视化解释如下图所示。请注意,在此过程中我们要使用 kernel,而我们之前用到的 kernel 是该 kernel 旋转了180度所得到的。该操作可以用以下公式表示,其中 kernel 由 W 表示,dZ[m,n] 是一个标量,该标量属于从前一层所获得的偏导数。
Figure 11. Full convolution
池化层(Pooling Layers)
除了卷积层之外,CNNs 经常使用一个称为池化层的网络层,它们主要用于减小张量的大小并加快计算速度。这个层的结构很简单,我们只需要将图像划分成不同的区域,然后对每个部分执行一些操作即可。例如,对于最大池化层(Max Pool Layer),我们从每个区域中选择一个最大值,并将其放在输出中的相应位置即可。与卷积层的情况一样,我们有两个超参数——kernel 的尺寸和步长。最后值得一提是,如果要为多通道图像执行池化操作,则每个通道都应该分别执行池化操作。
Figure 12. Max pooling example
池化层的反向传播(Pooling Layers Backpropagation)
在本文中,我们仅讨论最大池化的反向传播(max pooling backpropagation),但是通过将该方法稍作调整,便可运用到其他所有类型的池化层。由于在池化层这种类型的层中,我们不用更新任何参数,我们的任务只是适度地分配梯度值。前文讲到,在最大池化的前向传播中,我们从每个区域中选择最大值并将它们传输到下一层。因此很明显,在反向传播期间,梯度不会影响未在前向传播中使用的矩阵元素。在实际操作中,该过程是通过创建一个掩膜(mask)来实现的,该掩膜会记住在前向传播中所使用的元素的位置,随后我们就可以用该掩膜来传递梯度。
Figure 13. Max pooling backward pass
原文地址:
https://towardsdatascience.com/gentle-dive-into-math-behind-convolutional-neural-networks-79a07dd44cf9
(本文为AI科技大本营编译文章,转载请微信联系1092722531)
◆
精彩推荐
◆
5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开。首届CTA核心技术及应用峰会将围绕人工智能,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。
同时,我们推出会议双日开发者盲定票,仅售299元(原票价1099元),限量30张。请扫描下方二维码,或添加小助手微信1731967109,备注【CTA】,了解大会详情以及票务问题。
推荐阅读:
恶犬秒变萌汪:技术头条
“你行你上”:有本事跟OpenAI Five打一把DOTA?
以女大学生相亲为例,给你讲明白数据挖掘算法
Python分析《权力的游戏》最终季...... | 附源码
谷歌大神Jeff Dean点赞网红博士论文:改进分布式共识机制 | 技术头条
滴滴全链路压测解决之道 | 技术头条
手机导航已死!
如何嫁给年入百万的阿里人?
《捕鱼达人》幕后的开发引擎玩起区块链, 区块链游戏的春天已近?| 人物志
程序员如何向女友解释:为啥软件都要装C盘?
❤点击“阅读原文”,直接参与大会报名。
相关文章:

【AI】在win10上安装TensorFlow2,安装成功,但是import tensorflow时报错:pywrap_tensorflow.py“, line 58
目录一、问题描述二、原因分析三、处理过程四、解决方法五、安装2.1和2.0命令的不同点1、TensorFlow2.02、TensorFlow2.1六、使用TenforFlow2.0-GPU时,报错:cudart64_100.dll not found1、错误信息如下2、原因分析3、解决方法七、测试TensorFlow是否支持GPU1、测试对…

SpringMVC4.x源码分析(五):request请求寻址HandlerMethod原理
2019独角兽企业重金招聘Python工程师标准>>> mvc:annotation-driven会将每一个Controllor内的被RequestMapping注解标注的方法解析为HandlerMethod对象,并存储在RequestMappingHandlerMapping的MappingRegistry属性中,寻址就是根据request请求…

在ASP.NET中指定出错页面,不让代码外泄!
在ASP.NET中指定出错页面,不让代码外泄!在ASP.NET中原始的出错页面会暴露部分源代码,由此带来了潜在的安全隐患。ASP.NET允许应用程序出错时显示用户指定的页面,方法是在web.config文件中修改配置信息。 <? xml version"…

【经验】提高github的下载(克隆)速度
原理: 利用码云来克隆GitHub项目,然后从码云下载。 参见博客: 最详细的图文教程帮你解决GitHub下载慢或下载失败问题(2019.8.10亲测有效)

Erlang之父给程序员的两点忠告 | 缅怀
整理 | 伍杏玲出品 | CSDN(ID:CSDNnews)北京时间 4月20日,据Erlang Solutions、Erlang Factories的创始人Francesco Cesarini的推特称,Erlang之父Joe Armstrong于4月20日去世,享年68岁。Francesco怀念道&am…

如何为你的博客文章自动添加版权信息?
转自:http://www.chinaz.com/web/2016/0616/541282.shtml https://www.feifanblog.com/ 好长时间没有分享关于网络技术的文章了,昨天有位朋友问我:“你博客每篇文章末尾的版权声明都是我自己手动添加的吗?”,看到这个问题我想很多…

2011-11-27
大三,这个关键时刻,目前自己正在写软件课程设计程序-教材订购系统,加油!努力!转载于:https://blog.51cto.com/3122770/728090

【Qt】Qt编码风格、命名约定
1、类名称以大写字母开头、函数名称以小写字母开头,并使用驼峰命名法;类名使用名词或名词短语、函数名使用动词或者动词短语; 2、常量应当大写并且尽可能在类的作用域内创建成枚举值,全局常量和宏通常是大写; 3、布尔变…

UC伯克利开源照片“隐写术”StegaStamp,打印照片能当二维码用!| 技术头条
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑作者 |CV君来源 | 我爱计算机视觉(id:aicvml)要说目前最火的用到手机摄像头的应用是什么,毫无疑问非二维码识别莫属了。微信带起来的二维码热,几乎已经改…

你为世界杯而战,我为生活而战!
这什么23时直播揭幕战俄罗斯vs沙特 开始时间!很庆幸见到了本世界坏中第1个球!(四年一次比赛,四年一博!)接下来看看我在奋斗什么?(人生随时进行比赛,错了、对了、再错了、再对了、只要不放弃学习就有未来!)********************************************…

【C++】重载、重写、隐藏
1、重载:在同一个作用域中两个及以上的函数名相同但是参数个数或类型不同时构成重载,重载的本质是,编译后的函数会有不同的签名; 2、重写:这是类继承中的概念,基类中virtual标记的函数,在派生类…

有了它,AI甚至可以让你知道对方是否真的爱你?
“你到底爱不爱我?”这或许是恋爱双方出现频率最高的问题,想要知道对方大脑在想什么,并不是什么天方夜谭,通过科学技术还真的有望实现。不过,让如此大胆的想法变为现实,我们需要借助什么技术呢?…

基于jwt的用户登录认证
最近在app的开发过程中,做了一个基于token的用户登录认证,使用vuenodemongoDB进行的开发,前来总结一下。 token认证流程: 1:用户输入用户名和密码,进行登录操作,发送登录信息到服务器端。 2&…

跨平台网络游戏趋势和优势
跨平台网络游戏趋势和优势 前几年还是网页游戏蓬勃发展的状态,就有分析指出从明年开始网页游戏市场已经饱和,想想几年前客户端游戏也是同样的窘境,如果将桌面、移动设备、网页统称一个词汇的话,那就是终端,现在各种的终…

IAR生产HEX文件
刚刚接触IAR,编译默认生成的是.a90文件,但直接用avr studio下载时提示非正规HEX文件,不给我下载,郁闷了。 其实也简单,如下图所示配置文件后面加几行字就OK了。 //Output File -Ointel-extended,(XDATA).eep -Ointel-e…

【Qt】重新认识QObject
1、QObject父子对象的是设计模式中组合模式的实现。父对象和基对象不是一个概念,前者是在运行时管理子对象,是动态的,后者是在编译时判定派生关系,是静态的。 2、每个QObject至多有一个父对象,父对象中将子对象的指针放…

抛弃VS Code,我还能用啥编辑器?| 技术头条
作者 | Abhishek Prakash译者 | 苏本如责编 | 屠敏转载自 CSDN(ID:CSDNnews)微软的VS Code无论对Web开发人员或其他程序员来说,都是一款优秀的代码编辑器。凭借其出色的功能,VS Code被认为是最好的开源代码编辑器之一。…

WebClient UI和Tomcat的启动器
WebClient UI 我们在WebClient UI的开发工具里点了Test按钮, 会在浏览器以测试模式打开选中的view。这背后发生了什么事?注意浏览器地址栏的bspwd_cmp_test,这是什么东西?Jerry倾向于把它当作是CRM WebClient UI component在测试模…

通过网络安装VMware ESX Server 5
VMware ESX Server的宿主系统是基于Linux定制开发的,所以,它也和所有的Linux系统一样,除了支持光盘引导安装外,还支持基于PXE的网络引导与安装。在VMware ESX Server 4及其以前的版本中,在通过网络远程安装的时候&…

实战:CNN+BLSTM+CTC的验证码识别从训练到部署 | 技术头条
作者|_Coriander转载自Jerry的算法和NLP(ID: gh_36eba310d433)1.前言本项目适用于Python3.6,GPU>NVIDIA GTX1050Ti,原master分支已经正式切换为CNNLSTMCTC的版本了,是时候写一篇新的文章了。长话短说,开…

MySql练习题参考答案
表结构: /*Navicat Premium Data TransferSource Server : localhostSource Server Type : MySQLSource Server Version : 50624Source Host : localhostSource Database : sqlexamTarget Server Type : MySQLTarget Server Version …

【Qt】Qt源码中涉及到的设计模式
1、单例模式 qApp宏返回指向QApplication的单例 #define qApp (static_cast<QApplication *>(QCoreApplication::instance()))2、MVC模型视图控制器框架 模型是应用程序对象、视图是它的屏幕显示、控制器定义了用户界面对用户输入的反应。 Qt的模型视图框架是经典的MV…

从当前日期算起,获取几天前的日期和几个月前的日期
/*** 从当前日期算起,获取N天前的日期(当前日不算在内),日期格式为yyyy-MM-dd* * param daily 天数* return */public static String getDateByDay(Integer daily) {Date date new Date();int year Integer.parseInt(new Simple…

清华大学人工智能研究院成立听觉智能研究中心,将专注基础研究和成果产业化
4月22日,清华大学人工智能研究院听觉智能研究中心(以下简称听觉中心)成立仪式暨学术前沿报告会在清华大学FIT楼举行。 清华大学副校长、人工智能研究院管委会主任尤政院士在致辞中表示,成立听觉中心是清华大学加速推进人工智能发…

两道面试题,带你解析Java类加载机制
2019独角兽企业重金招聘Python工程师标准>>> 在许多Java面试中,我们经常会看到关于Java类加载机制的考察,例如下面这道题: class Grandpa {static{System.out.println("爷爷在静态代码块");} } class Father extend…

【Qt】监视文件和目录的修改:QFileSystemWatcher
一、说明 QFileSystemWatcher用于监视指定文件或目录列表的更改。 注意:监视文件或目录时需要打开相应的文件描述符,因此被监视的文件或目录数据是有限的,受系统允许的文件描述符数据等限制。 二、常用成员函数 1、public 构造、析构函数: QFileSystemWatcher(const QS…

asp.net 2.0中新增的AppendDataBoundItems .dropdownlist 添加第一项
在asp.net 2.0中,新增了一个AppendDataBoundItems属性,十分方便,使可以在执行数据绑定之前将项添加到 listcontrol 对象中。执行数据绑定之后,项集合中包含数据源中的项以及以前添加的项。如果不在绑定数据之前清除列表项…

用Python实现OpenCV特征提取与图像检索 | Demo
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑作者|Andrey Nikishaev翻译 | 张蔚敏审校 | reason_W来源 | Python大本营(id:pythonnews)“拍立淘”“一键识花”“街景匹配”……不知道大家在使用这些神奇的功能的时候&#x…

【ffmpeg】编译时报错:error: undefined reference to `av...
1、问题描述 昨天使用ffmpeg库编译demo一切正常,今天再次链接ffmpeg库时报了一堆错误: error: undefined reference to `av_frame_alloc() error: undefined reference to `avio_close(AVIOContext*) error: undefined reference to `avcodec_find_encoder(AVCodecID) erro…

Spring Initializr 构建Spring Boot/Cloud工程
2019独角兽企业重金招聘Python工程师标准>>> 在之前的所有Spring Boot和Spring Cloud相关博文中,都会涉及Spring Boot工程的创建。而创建的方式多种多样,我们可以通过Maven来手工构建或是通过脚手架等方式快速搭建,也可以通过《Sp…