keras如何快速入门_服务器

作者 | 杨照璐（微信号lwyzl0821）

编辑 | 言有三

这一次我们讲讲keras这个简单、流行的深度学习框架，一个图像分类任务从训练到测试出结果的全流程。

相关的代码、数据都在我们 Git 上，希望大家 Follow 一下这个 Git 项目，后面会持续更新不同框架下的任务。

Keras是一个非常流行、简单的深度学习框架，它的设计参考了torch，用Python语言编写，是一个高度模块化的神经网络库，支持GPU和CPU。能够在TensorFlow，CNTK或Theano之上运行。 Keras的特点是能够快速实现模型的搭建，简单方便地让你实现从想法到实验验证的转化，这都是高效地进行科学研究的关键。

Keras的安装非常简单，但是需要先安装一个后端框架作为支撑，TensorFlow， CNTK，Theano都可以，但是官网上强烈建议使用TensorFlow作为Keras的后端进行使用。本例以TensorFlow 140 版本作为Keras的后端进行测试。

通过上面两条命令就可以完成TensorFlow和Keras的安装，此处需要注意的一点是Keras的版本和TensorFlow的版本要对应，否则会出现意外的错误。具体版本对应关系可在网上进行查询。

31 MNIST实例

MNIST手写字符分类被认为是深度学习框架里的“Hello Word！”，下面简单介绍一下MNIST数据集案例的测试。Keras的官方github的example目录下提供了几个MNIST案例的代码，下载mnist_mlppy，mnist_cnnpy文件，本地运行即可，其他文件读者也可以自行测试。

32 数据定义

前面我们介绍了MNIST数据集实例，很多读者在学习深度学习框架的时候都卡在了这一步，运行完MNIST实例之后无从下手，很大原因可能是因为不知道怎么处理自己的数据集，这一节我们通过一个简单的图像二分类案例，介绍如何实现一个自定义的数据集。

数据处理有几种方式，一种是像MNIST、CIFAR数据集，这些数据集的特点是已经为用户打包封装好了数据。用户只要load_data即可实现数据导入。其实就是事先把数据进行解析，然后保存到pkl 或者h5等文件中，然后在训练模型的时候直接导入，输入到网络中；另一种是直接从本地读取文件，解析成网络需要的格式，输入网络进行训练。但是实际情况是，为了某一个项目我们不可能总是找到相应的打包好的数据集供使用，这时候自己建立一个dataset就十分重要。

Keras提供了一个图像数据的数据增强文件，调用这个文件我们可以实现网络数据加载的功能。

此处采用keras的processing模块里的ImageDataGenerator类定义一个图像分类任务的dataset生成器：

下面简单地介绍一下上面的代码，完整代码请移步Git工程。

Keras的processing模块中提供了一个能够实时进行数据增强的图像生成类ImagGenerator，该类下面有一个函数flow_from_directory，顾名思义该函数就是从文件夹中获取图像数据。关于ImageGenerator更多的使用可以参考官方源码。数据集结构组织如下：

此处还需要注意的一点是，我们现在进行的是简单的图像分类任务训练，假如要完成语义分割，目标检测等任务，则需要自定义一个类（继承ImageDataGenerator），具体实现可以查询相关代码进行参考。

Keras网络模型搭建有两种形式，Sequential 顺序模型和使用函数式API的 Model 类模型。本教程的例子采用一个简单的三层卷积，以及两层全连接和一个分类层组成的网络模型。由于函数式API更灵活方便，因此下面采用函数式方法搭建模型，模型定义如下：

41 函数式API

即输出是12通道，卷积核大小33，步长为2，padding='same'表示边缘补零

axis表示需要归一化的坐标轴，bn_axis=3，由于采用TensorFlow作为后端，因此这句代码表示在通道数坐标轴进行归一化。

x = Flatten()(x) 表示将卷积特征图进行拉伸，以便和全连接层Dense()进行连接。

Dense()实现全连接层的功能，1200是输出维度，‘relu'表示激活函数，使用其他函数可以自行修改。

最后一层采用‘softmax’激活函数实现分类功能。

最终返回Model，包含网络的输入和输出。

42 模型编译

网络搭建完成，在网络训练前需要进行编译，包括学习方法、损失函数、评估标准等，这些参数分别可以从optimizer、loss、metric模块中导入。具体代码如下：

其中callbacks模块包含了TensorBoard， ModelCheckpoint，LearningRateScheduler等功能，分别可以用来可视化模型，设置模型检查点，以及设置学习率策略。

51 模型训练

Keras模型训练过程非常简单，只需一行代码，设置几个参数即可，具体代码如下：

首先指定数据生成器，train_generator, 前面介绍过；steps_per_epoch是每次epoch循环的次数，通过训练样本数除以batch_size得到；epochs是整个数据集重复多少次训练。

Keras是高度封装的，在模型训练过程中，看不到网络的预测结果和网络的反向传播过程，只需定义好损失函数，事实上，网络定义中的模型输出会包含网络的输入和输出。

52 训练过程可视化

keras可以采用tensorboard实现训练过程的可视化。执行完下面的命令就可以在浏览器访问>

应用计算机视觉时要面临的一个挑战是数据的输入可能会非常大。例如一张 1000x1000x3 的，神经网络输入层的维度将高达三百万，使得网络权重 W 非常庞大。这样会造成两个后果：

神经网络结构复杂，数据量相对较少，容易出现过拟合；
所需内存和计算量巨大。
因此，一般的神经网络很难处理蕴含着大量数据的图像。解决这一问题的方法就是使用卷积神经网络

我们之前提到过，神经网络由浅层到深层，分别可以检测出的边缘特征、局部特征（例如眼睛、鼻子等），到最后面的一层就可以根据前面检测的特征来识别整体面部轮廓。这些工作都是依托卷积神经网络来实现的。

卷积运算（Convolutional Operation）是卷积神经网络最基本的组成部分。我们以边缘检测为例，来解释卷积是怎样运算的。

最常做的边缘检测有两类：垂直边缘（Vertical Edges）检测和水平边缘（Horizontal Edges）检测。

比如检测一张6x6像素的灰度的vertical edge，设计一个3x3的矩阵（称之为filter或kernel），让原始和filter矩阵做卷积运算（convolution），得到一个4x4的。具体的做法是，将filter矩阵贴到原始矩阵上（从左到右从上到下），依次可以贴出4x4种情况。 让原始矩阵与filter重合的部分做element wise的乘积运算再求和 ，所得的值作为4x4矩阵对应元素的值。如下图是第一个元素的计算方法，以此类推。

可以看到，卷积运算的求解过程是从左到右，由上到下，每次在原始矩阵中取与滤波器同等大小的一部分，每一部分中的值与滤波器中的值对应相乘后求和，将结果组成一个矩阵。

下图对应一个垂直边缘检测的例子：

如果将最右边的矩阵当作图像，那么中间一段亮一些的区域对应最左边的图像中间的垂直边缘。

下图3x3滤波器，通常称为垂直 索伯滤波器 （Sobel filter）：

看看用它来处理知名的Lena照片会得到什么：

现在可以解释卷积 *** 作的用处了：用输出图像中更亮的像素表示原始图像中存在的边缘。

你能看出为什么边缘检测图像可能比原始图像更有用吗？

回想一下MNIST手写数字分类问题。在MNIST上训练的CNN可以找到某个特定的数字。比如发现数字1，可以通过使用边缘检测发现图像上两个突出的垂直边缘。

通常，卷积有助于我们找到特定的局部图像特征（如边缘），用在后面的网络中。

假设输入的大小为 n×n，而滤波器的大小为 f×f，则卷积后的输出大小为 (n−f+1)×(n−f+1)。

这样就有两个问题：

为了解决这些问题，可以在进行卷积 *** 作前，对原始在边界上进行填充（Padding），以增加矩阵的大小。通常将 0 作为填充值。

设每个方向扩展像素点数量为 p，则填充后原始的大小为 (n+2p)×(n+2p)，滤波器大小保持 f×f不变，则输出大小为 (n+2p−f+1)×(n+2p−f+1)。

因此，在进行卷积运算时，我们有两种选择：

在计算机视觉领域，f通常为奇数。原因包括 Same 卷积中 p=（f−1）/ 2 能得到自然数结果，并且滤波器有一个便于表示其所在位置的中心点。

卷积过程中，有时需要通过填充来避免信息损失，有时也需要通过设置 步长（Stride） 来压缩一部分信息。

步长表示滤波器在原始的水平方向和垂直方向上每次移动的距离。之前，步长被默认为 1。而如果我们设置步长为 2，则卷积过程如下图所示：

设步长为 s，填充长度为p, 输入大小为n x n, 滤波器大小为f x f, 则卷积后的尺寸为：

注意公式中有一个向下取整的符号，用于处理商不为整数的情况。向下取整反映着当取原始矩阵的图示蓝框完全包括在图像内部时，才对它进行运算。

如果我们想要对三通道的 RGB 进行卷积运算，那么其对应的滤波器组也同样是三通道的。过程是将每个单通道（R，G，B）与对应的滤波器进行卷积运算求和，然后再将三个通道的和相加，将 27 个乘积的和作为输出的一个像素值。

如果想同时检测垂直和水平边缘，或者更多的边缘检测，可以增加更多的滤波器组。例如设置第一个滤波器组实现垂直边缘检测，第二个滤波器组实现水平边缘检测。设输入的尺寸为 n×n×nc（nc为通道数），滤波器尺寸为 f×f×nc，则卷积后的输出尺寸为 (n−f+1)×(n−f+1)×n′c，n′c为滤波器组的个数。

与之前的卷积过程相比较，卷积神经网络的单层结构多了激活函数和偏移量；而与标准神经网络相比，滤波器的数值对应着权重 W[l]，卷积运算对应着 W[l]与 A[l−1]的乘积运算，所选的激活函数变为 ReLU。

对于一个 3x3x3 的滤波器，包括偏移量 b（27+1）在内共有 28 个参数。不论输入的有多大，用这一个滤波器来提取特征时，参数始终都是 28 个，固定不变。即选定滤波器组后，参数的数目与输入的尺寸无关。因此，卷积神经网络的参数相较于标准神经网络来说要少得多。这是 CNN 的优点之一。

图像中的相邻像素倾向于具有相似的值，因此通常卷积层相邻的输出像素也具有相似的值。这意味着，卷积层输出中包含的大部分信息都是冗余的。如果我们使用边缘检测滤波器并在某个位置找到强边缘，那么我们也可能会在距离这个像素1个偏移的位置找到相对较强的边缘。但是它们都一样是边缘，我们并没有找到任何新东西。池化层解决了这个问题。这个网络层所做的就是通过减小输入的大小降低输出值的数量。池化一般通过简单的最大值、最小值或平均值 *** 作完成。以下是池大小为2的最大池层的示例:

在计算神经网络的层数时，通常只统计具有权重和参数的层，因此池化层通常和之前的卷积层共同计为一层。

图中的 FC3 和 FC4 为全连接层，与标准的神经网络结构一致。

个人推荐一个直观感受卷积神经网络的网站。

相比标准神经网络，对于大量的输入数据，卷积过程有效地减少了 CNN 的参数数量，原因有以下两点：

-参数共享（Parameter sharing）：特征检测如果适用于的某个区域，那么它也可能适用于的其他区域。即在卷积过程中，不管输入有多大，一个特征探测器（滤波器）就能对整个输入的某一特征进行探测。

-稀疏连接（Sparsity of connections）：在每一层中，由于滤波器的尺寸限制，输入和输出之间的连接是稀疏的，每个输出值只取决于输入在局部的一小部分值。

池化过程则在卷积后很好地聚合了特征，通过降维来减少运算量。

由于 CNN 参数数量较小，所需的训练样本就相对较少，因此在一定程度上不容易发生过拟合现象。并且 CNN 比较擅长捕捉区域位置偏移。即进行物体检测时，不太受物体在中位置的影响，增加检测的准确性和系统的健壮性。

在神经网络可以收敛的前提下，随着网络深度增加，网络的表现先是逐渐增加至饱和，然后迅速下降

需要注意，网络退化问题不是过拟合导致的，即便在模型训练过程中，同样的训练轮次下，退化的网络也比稍浅层的网络的训练错误更高，如下图所示。

这一点并不符合常理：如果存在某个 K层网络是当前F的最优的网络，我们构造更深的网络。那么K之后的层数可以拟合成恒等映射，就可以取得和F一直的结果。如果K不是最佳层数，那么我们比K深，可以训练出的一定会不差于K的。总而言之，与浅层网络相比，更深的网络的表现不应该更差。因此，一个合理的猜测就是， 对神经网络来说，恒等映射并不容易拟合。

也许我们可以对网络单元进行一定的改造，来改善退化问题？这也就引出了残差网络的基本思路

既然神经网络不容易拟合一个恒等映射，那么一种思路就是构造天然的恒等映射。

实验表明，残差网络 很好地解决了深度神经网络的退化问题 ，并在ImageNet和CIFAR-10等图像任务上取得了非常好的结果，同等层数的前提下残差网络也 收敛得更快 。这使得前馈神经网络可以采用更深的设计。除此之外， 去除个别神经网络层，残差网络的表现不会受到显著影响 ，这与传统的前馈神经网络大相径庭。

2018年的一篇论文，The Shattered Gradients Problem: If resnets are the answer, then what is the question，指出了一个新的观点，尽管残差网络提出是为了解决梯度弥散和网络退化的问题， 它解决的实际上是梯度破碎问题

作者通过可视化的小型实验(构建和训练一个神经网络发现，在浅层神经网络中，梯度呈现为棕色噪声(brown noise)，深层神经网络的梯度呈现为白噪声。在标准前馈神经网络中，随着深度增加， 神经元梯度的相关性(corelation)按指数级减少 (1 / 2^L) ；同时， 梯度的空间结构也随着深度增加被逐渐消除 。这也就是梯度破碎现象。

梯度破碎为什么是一个问题呢？这是因为许多优化方法假设梯度在相邻点上是相似的，破碎的梯度会大大减小这类优化方法的有效性。另外，如果梯度表现得像白噪声，那么某个神经元对网络输出的影响将会很不稳定。

相较标准前馈网络， 残差网络中梯度相关性减少的速度从指数级下降到亚线性级 ) (1 / sqrt(L)) ，深度残差网络中，神经元梯度介于棕色噪声与白噪声之间(参见上图中的c,d,e)；残差连接可以 极大地保留梯度的空间结构 。残差结构缓解了梯度破碎问题。

1x1 卷积指滤波器的尺寸为 1。当通道数为 1 时，1x1 卷积意味着卷积 *** 作等同于乘积 *** 作。
而当通道数更多时，1x1 卷积的作用实际上类似全连接层的神经网络结构，从而降低（或升高，取决于滤波器组数）数据的维度。

池化能压缩数据的高度（nH）及宽度（nW），而 1×1 卷积能压缩数据的通道数（nC）。在如下图所示的例子中，用 filters个大小为 1×1×32 的滤波器进行卷积，就能使原先数据包含的 32个通道压缩为 filters 个。

在这之前，网络大都是这样子的：

也就是卷积层和池化层的顺序连接。这样的话，要想提高精度，增加网络深度和宽度是一个有效途径，但也面临着参数量过多、过拟合等问题。（当然，改改超参数也可以提高性能）

有没有可能在同一层就可以提取不同（稀疏或不稀疏）的特征呢(使用不同尺寸的卷积核)？于是，2014年，在其他人都还在一味的增加网络深度时(比如vgg)，GoogleNet就率先提出了卷积核的并行合并（也称Bottleneck Layer），如下图。

和卷积层、池化层顺序连接的结构（如VGG网络）相比，这样的结构主要有以下改进：

按照这样的结构来增加网络的深度，虽然可以提升性能，但是还面临计算量大（参数多）的问题。为改善这种现象，GooLeNet借鉴Network-in-Network的思想，使用1x1的卷积核实现降维 *** 作(也间接增加了网络的深度)，以此来减小网络的参数量(这里就不对两种结构的参数量进行定量比较了)，如图所示。

最后实现的inception v1网络是上图结构的顺序连接

由于卷积这门课的其他内容和计算机视觉关系比较密切。对我理解推荐系统帮助不大。所以这个系列就到这里。吴恩达的课还是很好的，作业和课和测验我都认真做啦。

姓名：姬怡希

学号：19020100037

学院：电子工程学院

嵌牛导读：对卷积神经网络的加速的研究。

嵌牛鼻子:计算机软件及计算机应用; 自动化技术。

嵌牛提问：如何设计卷积神经网络的加速系统？

嵌牛内容：

近年来,卷积神经网络（CNN）在机器视觉等方面取得了巨大成功。为提升嵌入式设备上运行CNN的速度和能效,本文针对LeNet-5网络模型,先对该网络模型进行感知量化训练,特征图和权重量化为8位整型数据。然后设计一种卷积神经网络加速系统,该片上系统（SoC）采用Cortex-M3为处理器,所提出的系统处理一张MNIST图像所需时间53ms,精度达到982%。

近年来，卷积神经网络（CNN）在机器视觉等方面取得了巨大成功。为提升嵌入式设备上运行CNN的速度和能效，本文针对LeNet-5网络模型，先对该网络模型进行感知量化训练，特征图和权重量化为8位整型数据。然后设计一种卷积神经网络加速系统，该片上系统（SoC）采用Cortex-M3为处理器，所提出的系统处理一张MNIST图像所需时间53ms，精度达到982%。CNN已成功应用于图像识别等应用，随着CNN解决更复杂的问题，计算和存储的需求急剧增加。然而，在一些低功耗的边缘计算设备中，功耗是重要指标。目前的研究主要针对CNN推理阶段模型的压缩和量化。大多数设计都用定点计算单元代替浮点单元。ESE采用12位定点权重和16位定点神经元设计，Guo等在嵌入式FPGA上使用8位单元进行设计。但之前的设计主要采用Zynq或者HLS开发，功耗较大。本文设计了一种基于FPGA的卷积神经网络加速系统。首先，通过感知量化训练的方法，实现了将浮点CNN模型的各层权重和特征图量化成8比特整型；其次，通过采用单层时分复用的方式，设计流水线架构提高数据吞吐率；再次，设计基于Cortex-M3的SoC；最后，采用MNIST手写数字进行方案和功能验证。

1 卷积神经网络

11 基本概念

LeNet-5是一个典型的卷积神经网络模型，不包含输入一共有7层。分别为3层卷积层，2层池化层，以及2层全连接层。

12 量化原理

针对目前CNN模型较大，参数多且不适合在移动设备上使用，Google团队提出了一种量化方案。该方案在推理过程中使用纯整。量化方案是量化整数q到实数r的映射，如公式(1)所示：

其中常数S和Z是量化参数。S表示比例系数，是一个任意的正实数。Z表示零点。CNN中主要的 *** 作，比如卷积层的卷积，以及全连接层的乘累加，都可以看成是矩阵乘法。考虑实数两个N×N的矩阵r1和r2的乘积r3 =r1r2。将每个矩阵ra的项表示为ra(r,j)，其中1≤ i, j ≤N，用qa(r,j)表示量化项，根据矩阵乘法的定义，得到：
乘以浮点数M，可以转化成先乘以定点数M1，再进行右移n+31。将公式(2)中所有零点Z1，Z2，Z3都设为0，可以大大简化推理阶段的运算。另外将偏置加法和激活函数合并到其中。比例系数Sbias=S1S2，零点Zbias= 0。由于选用的激活函数是ReLU，所以只需要将结果钳位到[0,255]。

2 加速系统硬件设计

21 整体结构

本系统采用CPU+FPGA的架构，包括AHB互联矩阵、Cortex-M3处理器、DMA、紧耦合存储器、双端口缓存、AHB2APB桥和CNN加速，如图1所示。存储器部分包含ITCM，DTCM和双端口RAM。ITCM存放程序镜像文件；DTCM作为堆栈区；DualRAM作为权重数据，输入特征图，以及中间、最终结果缓存区，一端连接L1级总线，CPU和DMA均可以访问，另一端连接CNN加速。

22 CNN加速设计

CNN加速设计的整体结构如图2所示，并行方案采用输出通道和权重卷积核内部并行，同时计算6个输出通道，以及卷积核25个乘法器同时计算。特征图行缓冲的窗口尺寸为5x5，可以通过数据选择器选择输入特征图的宽度。权重特征图的行缓冲设计同理，由于卷积核均为5x5，所以不需要数据选择器。乘累加阵列输入为25个8位特征图和25个8位权重，对应相乘后采用加法树方式累加，最后得到1个位宽为21的有符号数。偏置加法器用于累加偏置或者中间结果。选择哪一个是由数据选择器控制，输出一个32位结果。量化激活模块包含一个32x32位的乘法器，用于将累加结果和乘法系数相乘，再经过右移，钳位到[0,255]，经过四舍五入得到量化的结果。
32 实验结果

本文的SoC工作的频率为100MHz，识别一张MNIST的时间为53ms，FPGA的功耗由Vivado的Report Power工具获得，仅为0448W。本文处理单帧的时间比较长，但是功耗是其他文献的四分之一。由于采用感知量化，识别正确率FPGA实现和软件实现一致，达到982%。实验结果对比如表1所示。结论：为了解决嵌入式设备上实现卷积神经网络速度慢和功耗大的问题，本文提出了一种卷积神经网络加速系统。首先对卷积神经网络进行感知量化，得到8比特的权重、特征值图1 系统框图和量化参数。采用Cortex-M3作为处池化模块设计思路同卷积模块，采用最大池化。包含3个比较器和一个行缓冲，针对不同层可以选择不同长度的特征图，窗口尺寸为2x2。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://www.outofmemory.cn/zz/13459030.html

keras如何快速入门

发表评论

评论列表（0条）