当前位置：首页 > 编程日记 > 正文

hung-yi lee_p17_卷积神经网络

编程日记 2024-09-12 21:40:00

文章目录

- 背景：
- 卷积层
- 池化层
- 摊平
- Keras
- CNN学到了什么
- Deep Dream
- Deep Style
- 怎么把CNN用在下围棋上
- 为什么可以将CNN用于下围棋
- CNN更多应用

背景：

DNN拿掉一些参数就成CNN
为什么可以这样做

每一个神经元只需要图中的一部分就可以识别出想要的模式
更小的区域意味着更少的参数
同样的模式也许出现在图片的不同位置
这时参数可以共享
对像素进行缩减（例如把奇数行偶数列的都删去）对图像识别不会有太大影响
这无疑也能减少参数

CNN的架构如下图所示
其中卷积层和池化层要重复多少次，在训练之前就得决定

拿掉参数的3种方式分别对应以下层

卷积层

在这里插入图片描述
如上图，左侧是一张6x6的黑白图像，1表示有像素0表示没有
右侧是一组filter，本质是矩阵，当中的参数是要学到的
这对应刚刚的性质1，即要识别的模式只存在于图片中的一小个区域

首先将filter放到图片左上角，让两个3x3的矩阵做内积
在这里插入图片描述
根据步长(stride)移动filter，直至到达图像的右下角不能再移动，便得到一个4x4的矩阵

观察filter，发现其主对角线的参数为1，即识别的模式是一条斜线
从结果中可以知道3对应的位置——左上和左下有我们要找的模式
这就对应了性质2：相同的模式可能出现在图片的不同位置
在这里插入图片描述
更换filter，重复上一个filter做的事，得到一个新的4x4结果矩阵。
所有filter做完之后得到的结果之和就是feature map。

将黑白图片换成彩色图片，则每个filter要从1个矩阵变成3个矩阵。

可以把6x6的图片看成是36个输入，3x3的filter看成是9个权重，与全连接相比，得到3这个结果本需要36个权重，现在只要9个，无疑减少了参数的数目。
在这里插入图片描述
将filter移动，与新的9个输入再做内积，这样不同的神经元共享了参数，进一步减少了参数。

池化层

在这里插入图片描述

把做内积得到的4x4矩阵，进一步缩小，本文中采用的方法是将其均匀分成四个部分，取每个部分的最大值保留

经过卷积和池化，我们就得到了和filter数目一样多的channel

卷积和池化可以重复多次，值得注意的是
如果第一层卷积核有2个filter，第二层卷积核的数目还是2个，但第一层的深度只有1，第二层filter深度为2。经过两次卷积池化，得到的结果还是2个channel。

摊平

在这里插入图片描述
将channels展开，丢进全连接前馈神经网络，然后就没有然后了。

Keras

在这里插入图片描述
输入由向量(vector)变成三维的张量(3-D tensor)

输入1层28x28的图片，经过25个3x3的filter卷积层，得到25层26x26的图片
其中25来由:channel数等于filter数
26来由：28-3+1（想想矩阵框在图片上的移动）

值得注意的是，第一个卷积层的每个filter有3x3=9个参数，第二个卷积层的filter有25层，每个filter有3x3x25=225个参数。
在这里插入图片描述
将最终得到的50x5x5的图片flatten得到一个1250维的输入，丢进全连接前馈神经网络。

CNN学到了什么

难以理解恰恰让人觉得其智能。
在这里插入图片描述
和之前的思路gradient discent相反（固定输入，改变参数）
现在是gradient ascent（固定参数，改变输入）
我们希望找到能使a^k最大的输入x
a^k是第二个卷积层的第k个filter的相关程度(Degree of the activation of the k-th filter)
在这里插入图片描述
上图左下角所示是12张能使对应的每个filter活跃度最高的图片，对于第三个filter，识别到反对角线斜条纹其activation度必然最大。
注意每个filter只看图中的一小个区域。

图像摊平后是丢进了全连接前馈神经网络，它的每一个神经元识别出的是整张图片（这是为什么这张图的图片比上一张复杂）
和刚才思路一样，想让某个神经元的活跃度最高
在这里插入图片描述
还是那个最大化活跃度的思路
现在来到数字识别神经网络的输出层
10个神经元对应0~9十个数字
按理说对应的10个图像应该就是人眼认为的0~9
可结果却出人意料（如图所示）
如果把上述图片丢进神经网络，神经网络的输出也确实就是0~9
可见，深度神经网路是很容易被蒙蔽的
在这里插入图片描述
想到的一个解决方案是
鉴于
一张写了数字的图片大部分区域是无笔墨的
我们可以用活跃度减去笔墨(即xij)总和
得到的结果就如上图中的右1所示
已经比较接近人眼看到的了
但是这其实也不是一个好方法

Deep Dream

在这里插入图片描述
deep dream的精神可解读为：给机器一张图片，机器加上它看到的
如上图是原图
给出的向量是网络中某一卷积层的输出结果
我们让正值更正，负值更负
再把它作为图片丢进网络
得到的结果如下图

Deep Style

在这里插入图片描述

基本原理是找一张图的content像左边那张图(通过刚才的最大化思想)
同时这张图的style要像右边那张图(通过刚才最大化思想)
注意：content和style都是filter的输出

怎么把CNN用在下围棋上

在这里插入图片描述
让机器学下围棋其实全连接前馈神经网络也可以做到
输入棋局，将有黑子的位置记作1，将有白子的位置记作-1，无子记作0
但是CNN做的更好

以上是识别出的一些招式(?)

为什么可以将CNN用于下围棋

在这里插入图片描述
CNN之所以用于图像识别很有效
是因为图像识别具有开篇所说的三个性质
同样的，很容易理解下棋具有前两个性质
如Alpha Go的第一层用5x5的filter，说明设计者认为5x5是一个基本模块（性质一）
同样这个模块可以出现在棋盘的不同位置（性质二）
在这里插入图片描述
但是性质三就很费解了
其实由于下围棋不具备图像识别的性质三
Alpha Go里面也就没有池化层