当前位置: 首页 > 编程日记 > 正文

卷积神经网络--CNN

1.人工神经网络

神经网络由大量的节点(或称“神经元”、“单元”)和相互连接而成。每个神经元接受输入的线性组合,进行非线性变换(亦称激活函数activation function)后输出。每两个节点之间的连接代表加权值,称之为权重(weight)。不同的权重和激活函数,则会导致神经网络不同的输出。

举个手写识别的例子,给定一个未知数字,让神经网络识别是什么数字。此时的神经网络的输入由一组被输入图像的像素所激活的输入神经元所定义。在通过激活函数进行非线性变换后,神经元被激活然后被传递到其他神经元。重复这一过程,直到最后一个输出神经元激活。从而识别当前数字是什么字。

神经网络的每个神经元/单元如下

类似wx + b的形式,其中

  • a1~an为输入向量,当然,也常用x1~xn表示输入
  • w1~wn为权重
  • b为偏置bias
  • f 为激活函数
  • t 为输出

如果只是上面这样一说,估计以前没接触过的十有八九又必定迷糊了。事实上,在20世纪50/60年代,上述简单神经元被称之为感知机,可以把感知机理解为一个根据不同因素、以及各个因素的重要性程度而做决策的模型。

举个例子,这周末北京有一草莓音乐节,那去不去呢?决定你是否去有3个因素,这三个因素可以对应三个输入,分别用x1、x2、x3表示,此外,这三个因素对做决策的影响程度不一样,各自的影响程度用权重w1、w2、w3表示。一般来说,音乐节的演唱嘉宾会非常影响你去不去,唱得好的前提下 即便天气不好、没人陪同都可忍受,但如果唱得不好还不如你上台唱呢。所以,我们可以如下表示:

  • x1:是否有喜欢的演唱嘉宾。x1 = 1 你喜欢这些嘉宾,x1 = 0 你不喜欢这些嘉宾。嘉宾因素的权重w1 = 5
  • x2:天气好坏。x2 = 1 天气好,x2 = 0 天气不好。天气权重w2 = 2。
  • x3:是否有人陪你同去。x3 = 1 有人陪你同去,x2 = 0 没人陪你同去。是否有陪同的权重w3 = 3。

这样,咱们的决策模型函数便建立起来了:f(x) = g( w1*x1 + w2*x2 + w3*x3 + b ),g表示激活函数。不同的输入会得到不一样的决策结果。

1.2 激活函数

常用的激活函数有sigmoid、tanh、relu等等,前两者sigmoid/tanh比较常见于全链接层,后者relu常见于卷积层。这里先简要介绍下最基础的sigmoid函数。

sigmoid的函数表达式如下:

其中z是一个线性组合,比如z可以等于:w0 + w1*x1 + w2*x2。通过代入很大的正数或很小的负数到函数中可知,g(z)结果趋近于0或1。

因此,sigmoid函数的图形表示如下:

也就是说,sigmoid函数的功能是相当于把一个实数压缩至0到1之间。输入非常大的正数时,输出结果会接近1,而输入非常大的负数时,则会得到接近0的结果。压缩至0到1有何用处呢?用处是这样一来变可以把激活函数看作一种“分类的概率”,比如激活函数的输出为0.9的话便可以解释为90%的概率为正样本。

1.3 神经网络

将下图的这种单个神经元

组织在一起,便形成了神经网络。下图便是一个三层神经网络结构

上图中最左边的原始输入信息称之为输入层,最右边的神经元称之为输出层(上图中输出层只有一个神经元),中间的叫隐藏层。

啥叫输入层、输出层、隐藏层呢?

  • 输入层(Input layer),众多神经元(Neuron)接受大量非线形输入讯息。输入的讯息称为输入向量。
  • 输出层(Output layer),讯息在神经元链接中传输、分析、权衡,形成输出结果。输出的讯息称为输出向量。
  • 隐藏层(Hidden layer),简称“隐层”,是输入层和输出层之间众多神经元和链接组成的各个层面。如果有多个隐藏层,则意味着多个激活函数。

同时,每一层都可能由单个或多个神经元组成,每一层的输出将会作为下一层的输入数据。比如下图中间隐藏层来说,隐藏层的3个神经元a1、a2、a3皆各自接受来自多个不同权重的输入,接着,a1、a2、a3又在自身各自不同权重的影响下 成为的输出层的输入,最终由输出层输出最终结果。

  • 表示第j层第i个单元的激活函数
  • 表示从第j层映射到第j+1层的控制函数的权重矩阵 (俗话讲就是权重跟输入经过一定数学公式形成一定的值)

此外,输入层和隐藏层都存在一个偏置(bias unit),所以上图中也增加了偏置项:x0、a0。针对上图,有如下公式

此外,上文中讲的都是一层隐藏层,但实际中也有多层隐藏层的,即输入层和输出层中间夹着数层隐藏层,层和层之间是全连接的结构,同一层的神经元之间没有连接。

2. 卷积神经网络之层级结构

卷积神经网络各个层级结构,如下图:

上图中CNN要做的事情是:给定一张图片,是车还是马未知,是什么车也未知,现在需要模型判断这张图片里具体是一个什么东西,总之输出一个结果:如果是车 那是什么车

所以

  • 最左边是数据输入层,对数据做一些处理,比如去均值(把输入数据各个维度都中心化为0,避免数据过多偏差,影响训练效果)、归一化(把所有的数据都归一到同样的范围)、PCA/白化等等。CNN只对训练集做“去均值”这一步

中间是

  • CONV:卷积计算层,线性乘积求和(利用不同的卷积核求出不同的矩阵)。
  • RELU:激励层,ReLU是激活函数的一种。
  • POOL:池化层,简言之,即取区域平均或最大。

最右边是

  • FC:全连接层
这几个部分中,卷积计算层是CNN的核心。

3.CNN之卷积计算层

3.1 什么是卷积

首先,我们来了解下什么是卷积操作。
对图像(不同的数据窗口数据)和滤波矩阵(一组固定的权重:因为每个神经元的权重固定,所以又可以看做一个恒定的滤波器filter,也可以叫做卷积核)做内积(逐个元素相乘再求和)的操作就是所谓的『卷积』操作,也是卷积神经网络的名字来源,通俗点就是取出这张图片的特征
比如下图中,图中左边部分是原始输入数据,图中中间部分是滤波器filter,图中右边是输出的新的二维数据。

分解下上图

对应位置上是数字先乘后相加

=

中间滤波器filter与数据窗口做内积,其具体计算过程则是:4*0 + 0*0 + 0*0 + 0*0 + 0*1 + 0*1 + 0*0 + 0*1 + -4*2 = -8

3.2 多卷积核

如果只有100个参数时,表明只有1个10*10的卷积核,显然,特征提取是不充分的,我们可以添加多个卷积核,比如32个卷积核,可以学习32种特征。在有多个卷积核时,如下图所示:

3.3 图像上的卷积

在计算过程中,输入是一定区域大小(width*height)的数据和滤波器filter(一组固定的权重)做内积后等到新的二维数据。
对于下图中,左边是图像输入,中间部分就是滤波器filter(一组固定的权重),不同的滤波器filter会得到不同的输出数据,比如轮廓、颜色深浅。相当于如果想提取图像的不同特征,则用不同的滤波器filter,提取想要的关于图像的特定信息:轮廓或颜色深浅。

如下图所示:

3.4 cs231d的动态卷积图

cs231n课程中,给了一张动图,网址是:http://cs231n.github.io/assets/conv-demo/index.html
如果初看此图,可能不一定能立马理解啥意思,但结合上文的内容后,理解这个动图已经不是很困难的事情。
下述动图中,左边是输入,中间部分是两个不同的滤波器Filter w0、Filter w1,最右边则是两个不同的输出。

随着左边数据窗口的平移滑动,滤波器Filter w0对不同的局部数据进行卷积计算。

值得一提的是:

  • 左边数据在变化,每次滤波器都是针对某一局部的数据窗口进行卷积,这就是所谓的CNN中的局部感知机制。
  • 与此同时,数据窗口滑动,但中间滤波器Filter w0的权重(即每个神经元连接数据窗口的的权重)是固定不变的,这个权重不变即所谓的CNN中的参数共享机制。

我第一次看到上面这个动态图的时候,只觉得很炫,另外就是据说“相乘后想加”,但到底具体是个怎么相乘后想加的过程 则无法一眼看出,网上也没有一目了然的计算过程。本文来细究下。

首先,我们来分解下上述动图,如下图

接着,我们细究下上图的具体计算过程。即上图中的输出结果-1具体是怎么计算得到的呢?其实,类似wx + b,w对应滤波器Filter w0,x对应不同的数据窗口,b对应Bias b0,相当于滤波器Filter w0与一个个数据窗口相乘再求和后,最后加上Bias b0得到输出结果-1,如下过程所示:

然后滤波器Filter w0固定不变,数据窗口向右移动2步,继续做内积计算,得到4的输出结果

最后,换做另外一个不同的滤波器Filter w1、不同的偏置Bias b1,再跟图中最左边的数据窗口做卷积,可得到另外一个不同的输出。

4.CNN之激励层与池化层

4.1 ReLU激励层

1.2节介绍了激活函数sigmoid,但实际梯度下降中,容易饱和和终止梯度传递,且没有0中心化。咋办呢,可以尝试另外一个激活函数:ReLU,其图形表示如下:

ReLU的优点是收敛快,求梯度简单。

4.2 池化pool层(取出局部最明显的特征)

前头说了,池化,简言之,即取区域平均或最大,如下图所示:

上图所展示的是取区域最大,即上图左边部分中 左上角2x2的矩阵中6最大,右上角2x2的矩阵中8最大,左下角2x2的矩阵中3最大,右下角2x2的矩阵中4最大,所以得到上图右边部分的结果:6 8 3 4。

总结:在经过多层卷积和池化以后会输出多张图片(也就是输入图片经过不同“处理”后的照片),可以把其称作Shape(很多原图片的特征图片组成),但是在计算机中是一个很大的数组。

转载于:https://www.cnblogs.com/callyblog/p/7577152.html

相关文章:

基于WinCE的I2C驱动程序设计

http://www.mcu123.com/news/Article/rtos/WinCE/200607/88.html 引言 随着以计算机技术、通信技术和软件技术为核心的信息技术的迅速发展,嵌入式系统在各行业得到了广泛的应用,极大地推动了行业的渗透性应用。嵌入式系统是“以应用为中心、以计算机技…

poj2965-poj2965-The Pilots Brothers' refrigerator

方法同poj1753&#xff0c;但用在这题就TLE了&#xff0c;以下是TLE版本&#xff1a; Code1#include <stdio.h> 2#include <stdlib.h> 3#include <string.h> 4#define MAXSTATE 65536 5#define MAXSIZE 16 6#define ALLOPEN 0 7 8//队列结构体 9type…

sysctl -p详解

个人一般sysctl -p 或sysctl -a比较多使用 sysctl配置与显示在/proc/sys目录中的内核参数&#xff0e;可以用sysctl来设置或重新设置联网功能&#xff0c;如IP转发、IP碎片去除以及源路由检查等。用户只需要编辑/etc/sysctl.conf文件&#xff0c;即可手工或自动执行由sysctl控…

定制简单的Linux系统

定制简单的Linux系统 制作思路&#xff1a; 新加一块硬盘&#xff0c;设置两个分区&#xff0c;一个存/boot&#xff0c;一个存/&#xff0c;创建文件系统并格式化。要注意&#xff0c;现在我们家的硬盘是要可以拔下来安装到其他机器上使用的&#xff0c;否则就没有意义了。试…

UCOS同步与互斥

代码为老师教授。 /* ********************************************************************************************************* * EXAMPLE CODE * * (c) Copyright 2013; Micrium, Inc.; We…

Spring学习八

1&#xff1a; Tomcat容器四个等级&#xff1f; Container&#xff0c; Engine&#xff0c; Servlet容器&#xff0c; Context 真正管理Servlet的容器是Context容器&#xff1a;一个context对应一个web工程。 <Context path"/projectOne " docBase"D:\proje…

作业六:图像编码相关概念

7.1&#xff0e;信息量&#xff1a;信息源发出的所有消息中该消息出现概率的倒数的对数。信息熵&#xff1a;对信息源X的各符号的自信息量取统计平均。 7.6如图所示&#xff1a;哈夫曼编码最终结果为&#xff1a;X11,X201,X3000,X4001。编码效率为95%。 7.8根据公式&#xff…

linux命令find命令详解

find 查找文件 find 哪里 什么类型 什么名字 -maxdepth 最大的深度 查找目录的最大深度 find -maxdepth 1 -type d -type 找什么类型的 f file 文件 d directory 目录 -name 什么名字 -mtime 根据修改时间找出对应的文件 7 7天前 -7 7天后 find命令一般与 |xargs 一起…

一次次小进步,从毕业开始,你到现在飞跃了几次了,程序人生也不容易?

01. 会写最简单的程序&#xff0c;能编译通过了&#xff0c;是一次飞跃。02. 会写C/S程序了&#xff0c;能用那些常用的控件&#xff0c;对属性事件有了解了&#xff0c;会用了&#xff0c;是一次飞跃。03. 会写B/S程序了&#xff0c;也是一次飞跃。04. 你彻底理解了分层的理念…

什么是JAVA内容仓库(Java Content Repository)(3)

开发我们的例子程序 jackrabbit已经配置好了&#xff0c;现在让我们来创建我们的示例程序。这个例子程序将调用JCR-170 API。很显然&#xff0c;我们需要做两件事情&#xff1a;一个是作为后台的对数据进行增删改查&#xff08;持久层&#xff09;&#xff0c;另一个是开发相对…

Cygwin-添加到右键菜单脚本--一键安装、卸载

平时习惯用一些linux命令来完成工作&#xff0c;在Windows上有cygwin和gitbash两个选择。这两个我都装了。 相对来说cygwin支持的功能更多一些&#xff0c;但是它没有默认绑定到右键菜单。为此&#xff0c;我想到用万能的注册表解决这个事情。网上搜索了一下&#xff0c;把我眼…

在博客园安家了

终于找到自己的网上家园了。。哈哈。。 虽然早就注册了博客园&#xff0c;不过一直都在忙。没有时间整理。以后我会把自己学到的东西慢慢的发表到网上&#xff0c;和大家交流。 也会把一些自我感觉经典的东西放在园子中&#xff0c;方便大家学习。 总之&#xff0c;我以后会加油…

***WindowsXP常用的七种方法

第一招、屏幕保护 在Windows中启用了屏幕保护之后&#xff0c;只要我们离开计算机(或者不操作计算机)的时间达到预设的时间&#xff0c;系统就会自动启动屏幕保护程序&#xff0c;而当用户移动鼠标或敲击键盘想返回正常工作状态时&#xff0c;系统就会打开一个密码确认框&#…

小程序全局状态管理,在页面中获取globalData和使用globalSetData

GitHub: https://github.com/WozHuang/mp-extend 主要目标 微信小程序官方没有提供类似vuex、redux全局状态管理的解决方案&#xff0c;但是在一个完整的项目中各组件的数据一致性是必须要保证&#xff0c;因此需要开发一个能够实现小程序全局状态管理的解决方案。 设计思路 参…

谈 三层结构与MVC模式的区别

谈 三层结构与MVC模式的区别 在CSDN和园子里有朋友谈到三层与MVC的区别&#xff0c;以前也有人抛出这个问题&#xff0c;本人对来公司面试的朋友也偶乐会提这方面的问题。 那么我也来讲讲我对这两者的理解吧。 首先对这个题目&#xff0c;本身是存在问题的&#xff0c;…

学习自定义组件

React入门介绍-ReactDOM.render() 蚂蚁设计-组件 React入门-ReactDOM.render()介绍 node.js和npm的关系

如何焊接电路板

今天主要想给大家分享一下焊接电路板的经验&#xff0c;作为一个电子工程师&#xff0c;焊接电路板是一个基本活&#xff0c;要不你很多东西都要麻烦到别人&#xff0c;这样就不好了&#xff0c;而今天要分享的是如何焊接贴片&#xff0c;在焊接从多的电路板中&#xff0c;我想…

加入新e时代建站网后,我可以做什么

加入原动力建站网后&#xff0c;您便开始了自由而浪漫的原动力建站网生活。您可以&#xff1a;选择自由的时间学习&#xff0c;跟您的上级交流&#xff0c;请教&#xff1b;选择自由的时间工作&#xff1b;自由的发展&#xff0c;整个互联网任您自由发挥&#xff1b;从实践中学…

[BZOJ2502]清理雪道 有上下界网络流(最小流)

2502: 清理雪道 Time Limit: 10 Sec Memory Limit: 128 MBDescription 滑雪场坐落在FJ省西北部的若干座山上。从空中鸟瞰&#xff0c;滑雪场可以看作一个有向无环图&#xff0c;每条弧代表一个斜坡&#xff08;即雪道&#xff09;&#xff0c;弧的方向代表斜坡下降的方向。你的…

学习API网关遇到的名词

VPC浅谈 VPC全称“虚拟私有云”&#xff0c;是一个公共云计算资源的动态配置池。虚拟私有云在概念上类似于虚拟专用网&#xff0c;需要使用加密协议、隧道协议和其他安全程序&#xff0c;在民营企业和云服务提供商之间传输数据。一个虚拟专用网可以被用来在公共网&#xff0c;…

RXJAVA之变换操作

RXJAVA提供了以下变换操作&#xff0c;对Observable的消息进行变换操作&#xff1a; 1.window 定期将来自Observable的数据分拆成一些Observable窗口&#xff0c;然后发射这些窗口&#xff0c;而不是每次发射一项。 Observable<String> observable Observable.just(&quo…

java中xxe漏洞修复方法

java中禁止外部实体引用的设置方法不止一种&#xff0c;这样就导致有些开发者修复的时候采用的错误的方法 之所以写这篇文章是有原因的&#xff01;最早是有朋友在群里发了如下一个pdf&#xff0c; 而当时已经是2019年1月末了&#xff0c;应该不是2018年7月份那个引起较大轰动的…

模式6--ReadWriteLock

来至《java多线程设计模式》 自己提供一个逻辑锁代替JDK的物理锁synchronized 优点&#xff1a;1.对read操作不进行共享互斥&#xff0c;可以进行多个read操作&#xff0c;提高系统性能 2.适合read》write的情况 package Sample;public final class ReadWriteLock {private int…

使用 XSL 样式表无法查看 XML 输入。请更正错误然后单击 刷新按钮,或以后重试。...

使用 XSL 样式表无法查看 XML 输入。请更正错误然后单击 刷新按钮&#xff0c;或以后重试。 无法显示 XML 页。 使用 XSL 样式表无法查看 XML 输入。请更正错误然后单击 刷新按钮&#xff0c;或以后重试。 ----------------------------------------------------------------…

JDK的安装与系统环境变量的配置

一、下载JDK 用户进入到Java SE的下载网页后&#xff0c;根据自己所用的操作系统&#xff08;Windows、Linux&#xff09;和位数&#xff08;32位、64位&#xff09;选择不同的链接进行下载。本例是在Windows系统的32位机器上开发的&#xff0c;所以下载的是jdk-8u161-windows-…

docker redis 多个实例

Docker运维笔记-Docker端口映射 - 恶性佛 - CSDN博客https://blog.csdn.net/qq_29994609/article/details/51730640 利用 Docker 在一台机器上部署多个 Redis 实例 - HeatDeath的博客 - CSDN博客https://blog.csdn.net/HeatDeath/article/details/80364340 Docker命令详解 - iV…

Dojo QuickStart 快速入门教程 (1) Why Dojo

Dojo 是一个用来构建 Web 应用的 JavaScript 工具包&#xff0c;当然是开源的。它的目标是通过提供一组特别构造的 API 和一系列辅助工具&#xff0c;使你能在较短的时间里把想法变为实现&#xff0c;同时改善你的日常 Web 开发体验。它是快速的(lightning fast)、健壮的(light…

css3-transform

转载于:https://www.cnblogs.com/cyany/p/7594143.html

C#操作注册表

using Microsoft.Win32 ;以下从‘读’‘写’‘删除’‘判断’四个事例实现对注册表的简单操作 1.读取指定名称的注册表的值 private string GetRegistData(string name) { string registData; RegistryKey hkml Registry.LocalMachine; RegistryKey software hkml.OpenSubKey…