《深度学习》章四 CNN 第1节卷积神经网络基础

发表于2022-05-20|更新于2022-06-29|AI深度学习

|字数总计:1.7k|阅读时长:5分钟|阅读量:

章四 CNN 第1节卷积神经网络基础

第1节卷积神经网络基础

1.1 计算机视觉

机器视觉（Computer Vision）是深度学习应用的主要方向之一。一般的CV问题包括以下三类：

Image Classification
Object detection
Neural Style Transfer

使用传统神经网络处理机器视觉的一个主要问题是输入层维度很大。例如一张64x64x3的图片，神经网络输入层的维度为12288。如果图片尺寸较大，例如一张1000x1000x3的图片，神经网络输入层的维度将达到3百万，使得网络权重W非常庞大。这样会造成两个后果，

一是神经网络结构复杂，数据量相对不够，容易出现过拟合；

二是所需内存、计算量较大。

解决这一问题的方法就是使用卷积神经网络（CNN）。

1.2 举例：边缘检测

从边缘检测角度说明卷积作用
最常检测的图片边缘有两类：一是垂直边缘（vertical edges），二是水平边缘（horizontal edges）

Untitled

Untitled

1.3 更多边缘检测

图片边缘有两种渐变方式，一种是由明变暗，另一种是由暗变明。以垂直边缘检测为例，下图展示了两种方式的区别。实际应用中，这两种渐变方式并不影响边缘检测结果，可以对输出图片取绝对值操作，得到同样的结果。

Untitled

Untitled

在深度学习中，如果我们想检测图片的各种边缘特征，而不仅限于垂直边缘和水平边缘，那么filter的数值一般需要通过模型训练得到，类似于标准神经网络中的权重W一样由梯度下降算法反复迭代求得。CNN的主要目的就是计算出这些filter的数值。确定得到了这些filter后，CNN浅层网络也就实现了对图片所有边缘特征的检测。

1.4 Padding

如果原始图片尺寸为n x n，filter尺寸为f x f，则卷积后的图片尺寸为(n-f+1) x (n-f+1)，注意f一般为奇数。这样会带来两个问题：

卷积运算后，输出图片尺寸缩小
原始图片边缘信息对输出贡献得少，输出图片丢失边缘信息

为了解决图片缩小的问题，可以使用padding方法，即把原始图片尺寸进行扩展，扩展区域补零，用p来表示每个方向扩展的宽度。

Untitled

1.5 卷积步长

Stride表示filter在原图片中水平方向和垂直方向每次的步进长度。之前我们默认stride=1。若stride=2，则表示filter每次步进长度为2，即隔一点移动一次。

Untitled

Untitled

其实，目前为止我们介绍的CNN卷积实际上计算的是相关系数，而不是数学意义上的卷积。但是，为了简化计算，我们一般把CNN中的这种“相关系数”就称作卷积运算。

1.6 Convolutions Over Volume

对于3通道的RGB图片，其对应的滤波器算子同样也是3通道的。例如一个图片是6 x 6 x 3，分别表示图片的高度（height）、宽度（weight）和通道（#channel）。

3通道图片的卷积运算与单通道图片的卷积运算基本一致。过程是将每个单通道（R，G，B）与对应的filter进行卷积运算求和，然后再将3通道的和相加，得到输出图片的一个像素值。

Untitled

不同通道的滤波算子可以不相同。例如R通道filter实现垂直边缘检测，G和B通道不进行边缘检测，全部置零，或者将R，G，B三通道filter全部设置为水平边缘检测。

为了进行多个卷积运算，实现更多边缘检测，可以增加更多的滤波器组。例如设置第一个滤波器组实现垂直边缘检测，第二个滤波器组实现水平边缘检测。这样，不同滤波器组卷积得到不同的输出，个数由滤波器组决定。

Untitled

1.7 单层CNN

卷积神经网络的单层结构如下所示：

Untitled

我们发现，选定滤波器组后，参数数目与输入图片尺寸无关。所以，就不存在由于图片尺寸过大，造成参数过多的情况。

例如一张1000x1000x3的图片，标准神经网络输入层的维度将达到3百万，而在CNN中，参数数目只由滤波器组决定，数目相对来说要少得多，这是CNN的优势之一。

1.8 举例：简单CNN

Untitled

Untitled

Untitled

1.9 Pooling Layers

Pooling layers是CNN中用来减小尺寸，提高运算速度的，同样能减小noise影响，让各特征更具有健壮性。

Pooling layers的做法比convolution layers简单许多，没有卷积运算，仅仅是在滤波器算子滑动区域内取最大值，即max pooling，这是最常用的做法。注意，超参数p很少在pooling layers中使用。

Untitled

Max pooling的好处是只保留区域内的最大值（特征），忽略其它值，降低noise影响，提高模型健壮性。而且，max pooling需要的超参数仅为滤波器尺寸f和滤波器步进长度s，没有其他参数需要模型训练得到，计算量很小。

如果是多个通道，那么就每个通道单独进行max pooling操作。

除了max pooling之外，还有一种做法：average pooling。顾名思义，average pooling就是在滤波器算子滑动区域计算平均值。

实际应用中，max pooling比average pooling更为常用。

1.10 CNN Example

Untitled

1.11 卷积的好处

相比标准神经网络，CNN的优势之一就是参数数目要少得多。参数数目少的原因有两个：

参数共享：一个特征检测器（例如垂直边缘检测）对图片某块区域有用，同时也可能作用在图片其它区域。
连接的稀疏性：因为滤波器算子尺寸限制，每一层的每个输出只与输入部分区域内有关。

除此之外，由于CNN参数数目较小，所需的训练样本就相对较少，从而一定程度上不容易发生过拟合现象。而且，CNN比较擅长捕捉区域位置偏移。也就是说CNN进行物体检测时，不太受物体所处图片位置的影响，增加检测的准确性和系统的健壮性。

文章作者: MomoChen

文章链接: http://chen2511.github.io/

版权声明: 此文章版权归 MomoChen 所有，如有转载，请注明来自原作者

《深度学习》吴恩达

相关推荐

《深度学习》章三结构化机器学习项目第1节机器学习（ML）策略（1）

《深度学习》章一神经网络与深度学习

《深度学习》章三结构化机器学习项目第2节机器学习（ML）策略（2）

《深度学习》章二优化深度学习第1节深度学习的实用层面

《深度学习》章二优化深度学习第2节优化算法

《深度学习》章二优化深度学习第3节超参数调试，BN和程序框架（略）

评论

数据库加载中