1、本章先是介绍了一些神经网络的基础,神经元模型、感知机和多层感知机及正向传导和误差反向传播机制。
神经元模型主要介绍了M-P神经元模型。通过对神经元各输入值和权重值相乘后的累加值与神经元阈值进行比较,可以得到神经元的输出值。主要使用的是sing函数。由于sign会使得神经元的输出具有不连续性,为了使神经元模型能够更好地处理非线性问题,并使得其输出光滑连续,一些学者将sing函数替换成了sigmoid、ReLU函数、反正切函数等非线性函数。
感知机是基于M-P模型提出搭建的,感知机由两层组成-输入层和输出层。感知机中的层概念便于搭建复杂的网络结构。由此提出了多层感知机,包含输入层、隐藏层和输出层。多层感知机的隐藏层中,同一层的神经元节点共享同一个激活函数和偏置,并且在处理二分类问题时,神经网络的输出层通常使用sigmoid函数作为激活函数;而在处理多分类问题时,神经网络的输出层通常使用softmax函数作为激活函数。
通常将使用误差反向传播机制的前馈神经网络称为BP神经网络。是一种全连接网络,在处理高维、非线性问题时,BP神经网络所需的层数较多,这就使得模型参数量较大,训练困难且模型精度难以提升。在处理图像问题时,通常需要将二维张量或三维张量表示的图片拉伸成一维向量,送入全连接网络。这种处理方式忽略了图像的局部不变性,破坏了像素间的联系。这些缺陷极大限制了其应用和推广。
2、之后介绍了卷积神经网络基础。
为了模拟大脑神经元的感觉野机制,并且降低模型的参数量,将图像领域的滤波操作引入神经网络。该滤波器又称为卷积核。这种将卷积操作和神经网络相结合的方式模拟了大脑视觉中的感觉野机制,同时也可以大大降低模型的参数量,这正是卷积神经网络名称的由来。原理包含局部连接、权值共享和局部不变性。
其结构通常由输入层、卷积层、池化层、全连接层和输出层组成。
卷积层主要使用卷积操作对输入数据进行线性权重求和,为了提升神经网络的非线性,还需要在执行卷积操作后引入sigmoid函数或ReLU函数等激活函数以进行非线性化。一个卷积核只能抽取图片的一种特征,因此我们在CNN中需要引入多个卷积核,以得到多通道的特征图,进而抽取原始图片中的轮廓,色彩,纹理等不同类型的特征。
池化层的作用是对卷积层获取的特征图进行降采样,进一步缩减特征图的尺寸。该过程不需要引入额外的权值参数,通常是通过对一定范围内的像素值取最大值,平均值等来达到最大池化,平均池化的目的。池化操作在一定程度上可以使神经网络对输入数据的位置变化具有更强的鲁棒性。
全连接层用于将卷积、池化后得到的矩阵特征图映射到样本的标空间中,实现最终的逻辑判断