当前位置：首页 > 编程日记 > 正文

经典网络GoogLeNet介绍

编程日记 2024-12-14 06:00:00

经典网络GoogLeNet由Christian Szegedy等于2014年提出，论文名为《Going deeper with convolutions》，论文见：https://arxiv.org/pdf/1409.4842v1.pdf

GoogLeNet网络用到了Inception-v1模块，关于Inception模块的介绍可以参考：https://blog.csdn.net/fengbingchun/article/details/113482036

假如输入图像大小为n*n，过滤器(filter)为f*f，padding为p，步长(stride)为s，则输出大小为：计算卷积层大小，如果商不是整数，向下取整，即floor函数；计算池化层大小，如果商不是整数，向上取整，即ceil函数。参考：https://blog.csdn.net/fengbingchun/article/details/80262495

GoogLeNet网络：

(1).使用了1*1卷积核，减少feature map数。

(2).采用了模块化的结构(Inception-v1模块)，方便增添和修改。

(3).网络最后采用全局平均池化(global average pooling)+全连接层+Softmax，而VGG和AlexNet最后使用连续3个全连接层+Softmax。

(4).为避免梯度消失，训练网络时额外增加了2个辅助分类器，辅助分类器是将中间某一层的输出用作分类，并按一个较小的权重加到最终分类结果中。

GoogLeNet测试样本处理：

(1).对于每个测试样本，将图像的短边缩放到四种尺寸，分别为256、288、320、352；

(2).从每种缩放后的尺寸的测试样本中，截取图像的左、中、右方形区域(在肖像图像中截取上、中、下方形区域)；

(3).对于截取后的每个方形区域，从4个角和中心分别截取一个224*224区域，再将此方形区域缩小到224*224；

(4).将每个获取的224*224图像进行水平翻转；

这样每个原始测试样本共得到4*3*6*2=144张图像。

GoogLeNet训练网络时架构(有22+5层)，论文截图如下：

Caffe中GoogLeNet网络相关文件见：https://github.com/BVLC/caffe/tree/master/models/bvlc_googlenet

GoogLeNet推理网络架构：总共包含有9个Inception-v1模块，blvc_googlenet中deploy.prototxt，输入层shape为[10,3,224,224]，即batch为10，这里调整为1

(1).输入层(Input)：图像大小224*224*3。

(2).卷积层1+ReLU：使用64个7*7的filter，stride为2，padding为3，输出为112*112*64，64个feature maps。

(3).最大池化层1+LRN：filter为3*3，stride为2，padding为0，输出为56*56*64，64个feature maps。

(4).卷积层2+ReLU：使用64个1*1的filter，stride为1，padding为0，输出为56*56*64，64个feature maps。

(5).卷积层3+ReLU+LRN：使用192个3*3的filter，stride为1，padding为1，输出为56*56*192，192个feature maps。

(6).最大池化层2：filter为3*3，stride为2，padding为0，输出为28*28*192，192个feature maps。

(7).Inception-1：由左往右，最终输出并拼接为28*28*256，feature maps总数为64+128+32+32=256。

A.卷积+ReLU：使用64个1*1的filter，stride为1，padding为0，输出为28*28*64。

B.卷积+ReLU：使用96个1*1的filter，stride为1，padding为0，输出为28*28*96。然后再一次卷积+ReLU：使用128个3*3的filter，stride为1，padding为1，最终输出为28*28*128。

C. 卷积+ReLU：使用16个1*1的filter，stride为1，padding为0，输出为28*28*16。然后再一次卷积+ReLU：使用32个5*5的filter，stride为1，padding为2，最终输出为28*28*32。

D.最大池化：filter为3*3，stride为1，padding为1，输出为28*28*192。然后再卷积+ReLU：使用32个1*1的filter，stride为1，padding为0，最终输出为28*28*32。

(8).Inception-2：由左往右，最终输出并拼接为28*28*480，feature maps总数为128+192+96+64=480。

(9).最大池化层3：filter为3*3，stride为2，padding为0，输出为14*14*480，480个feature maps。

(10).Inception-3：由左往右，最终输出并拼接为14*14*512，feature maps总数为192+208+48+64=512。

(11).Inception-4：由左往右，最终输出并拼接为14*14*512，feature maps总数为160+224+64+64=512。

(12).Inception-5：由左往右，最终输出并拼接为14*14*512，feature maps总数为128+256+64+64=512。

(13).Inception-6：由左往右，最终输出并拼接为14*14*528，feature maps总数为112+288+64+64=528。

(14).Inception-7：由左往右，最终输出并拼接为14*14*832，feature maps总数为256+320+128+128=832。

(15).最大池化层4：filter为3*3，stride为2，padding为0，输出为7*7*832，832个feature maps。

(16).Inception-8：由左往右，最终输出并拼接为7*7*832，feature maps总数为256+320+128+128=832。

(17).Inception-9：由左往右，最终输出并拼接为14*14*1024，feature maps总数为384+384+128+128=1024。

(18).平均池化层5+Dropout：filter为7*7，stride为1，padding为0，输出为1*1*1024，1024个feature maps。

(19).全连接层：有1000个神经元或1000个feature maps。

(20).输出层(Softmax)：输出分类结果，看它究竟是1000个可能类别中的哪一个。

可视化结果如下图所示：

GitHub：https://github.com/fengbingchun/NN_Test

https://www.dkcj.cn/info/31750.html

经典网络GoogLeNet介绍

相关文章：

iOS webview 点击按钮返回上一页面或者返回首页

centos6.6 Kickstart无人值守安装（一）：原理篇

拿来就能用！如何用 AI 算法提高安全运维效率？

深度神经网络中Inception-ResNet模块介绍

iOS 让UIView的左上角和右上角为圆角

HttpUnit学习笔记

C++11中头文件type_traits介绍

反季大清仓，最低仅需34.9元

iOS 预览word pdf 文件

Java过滤器模式

C++中指向类成员指针的用法

多模态人物识别技术及其在爱奇艺视频场景中的应用 | 公开课笔记

JsonObject json字符串转换成JSonObject对象

基于人脸关键点修复人脸，腾讯等提出优于SOTA的LaFIn生成网络

在Ubuntu上编译opencv 2.4.13源码支持android平台操作步骤

Java组合模式

SQL故障转移集群操作方法

Windows/Linux上使用fopen相关函数读取大文件

蚂蚁金服提新概率图模型GLN，正确率提升8.2%，具备可解释性 | NeurIPS 2019

Java外观模式

【spring框架】spring整合hibernate初步

PyTorch简介

Java 责任链模式

2019嵌入式智能国际大会圆满落幕，7大专场精彩瞬间释出！

ubuntu12.04 alternate win7 双系统安装

C/C++包管理工具Conan简介

神经架构搜索在视频理解中研究进展的综述

Java命令模式

关于本分类(codeforces-好题系列)

Conan客户端简单使用示例