Lesson 3 李宏毅

阅读：评论：0

Lesson 3 李宏毅

1. CNN

need data augmentation

1.1第一种版本

图像识别中，物体的识别往往不需要整张图片进行判断，而只需要一个小小的pattern。

对于这个问题，对FC（Fully Connecting Network）做出两步简化方法：

1. 第一步，把这个pattern简化为receptive field（感受野），派一组Neuron去处理这个receptive field，整张图片被分成了很多个receptive field，每一个都有一个Neuron去处理，这样就保证整张图片都被覆盖到，其中一些变量如下：

kernel：卷积核的大小（也被称为其它层）

stride：卷积核中心之间的距离

padding：填充（图像边缘外围）

feature map：输入图像卷积后的结果

2. Parameters sharing（参数共享）

在第一步中，令每一个receptive field的Neuron中有相同的参数（input的权值），保证覆盖到的图片不丢失任何一个feature，综合这两步简化操作，使得在FC中增加了这两重限制的CNN出现，并且是为图像处理专门设计的Network

总结一下，FC的model如前两章所言，它可以处理很多领域的问题，但是由于feature比较多，model的flexibility比较大，很容易Overfitting，

1.2第二种版本

这种也是我一开始接触图片卷积操作所学习的方法，与第一种理解不同的地方，只有对感受野的处理方式上，不是用参数共享的几组Neuron同时去处理自己的receptive field，而是用一个filter去遍历整个输入，参数上stride参数与之前不同，这里表示卷积核移动的步长。

Filter和Input的channel要一致

Input经过Convolution layer之后的输出叫做Feature map（特征图谱），它变成了一张新的图片，它保存着输入的各种特征，Filter的个数就是Feature map的Channel个数

Conv2d(1, 16, kernel_size=5, stride=1, padding=2)
"""
二维卷积层，输入通道数1，输出通道数16(相当于有16个filter，也就是16个卷积核)，
卷积核大小为5*5*1(因为输入的通道数为1，所以这里卷积核的深度也就自动设置为1了），
步长为1，零填充2圈
准确计算padding的个数，可以抵消卷积之后图像的缩小
"""

1.3 Pooling

译成“池化”，操作类似于图像金字塔，也就是图像压缩，通过将图片的各个区域像素分组，之后对组内像素做处理（取最大，取平均等等），可以大大减少运算量。

但是比较细致的图像识别或处理一般不加pooling，以免损失细节，而选择提升硬件性能，提高运算速度和效率来弥补庞大的运算量。

flatten：把矩阵拉直成向量

本文发布于:2024-01-31 11:26:12，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170667157528179.html

上一篇：机器学习李宏毅学习笔记1

下一篇：李宏毅机器学习特训营机器学习作业3

标签：Lesson 李宏毅

留言与评论（共有 0 条评论）