Lesson 3 李宏毅

阅读: 评论:0

Lesson 3 李宏毅

Lesson 3 李宏毅

1. CNN

need data augmentation

1.1第一种版本

图像识别中,物体的识别往往不需要整张图片进行判断,而只需要一个小小的pattern。

对于这个问题,对FC(Fully Connecting Network)做出两步简化方法:

1. 第一步,把这个pattern简化为receptive field(感受野),派一组Neuron去处理这个receptive field,整张图片被分成了很多个receptive field,每一个都有一个Neuron去处理,这样就保证整张图片都被覆盖到,其中一些变量如下:

kernel:卷积核的大小(也被称为其它层)

stride:卷积核中心之间的距离

padding:填充(图像边缘外围)

feature map:输入图像卷积后的结果

2. Parameters sharing(参数共享)

在第一步中,令每一个receptive field的Neuron中有相同的参数(input的权值),保证覆盖到的图片不丢失任何一个feature,综合这两步简化操作,使得在FC中增加了这两重限制的CNN出现,并且是为图像处理专门设计的Network

总结一下,FC的model如前两章所言,它可以处理很多领域的问题,但是由于feature比较多,model的flexibility比较大,很容易Overfitting,

1.2第二种版本

这种也是我一开始接触图片卷积操作所学习的方法,与第一种理解不同的地方,只有对感受野的处理方式上,不是用参数共享的几组Neuron同时去处理自己的receptive field,而是用一个filter去遍历整个输入,参数上stride参数与之前不同,这里表示卷积核移动的步长。

Filter和Input的channel要一致

Input经过Convolution layer之后的输出叫做Feature map(特征图谱),它变成了一张新的图片,它保存着输入的各种特征,Filter的个数就是Feature map的Channel个数

Conv2d(1, 16, kernel_size=5, stride=1, padding=2)
"""
二维卷积层,输入通道数1,输出通道数16(相当于有16个filter,也就是16个卷积核),
卷积核大小为5*5*1(因为输入的通道数为1,所以这里卷积核的深度也就自动设置为1了),
步长为1,零填充2圈
准确计算padding的个数,可以抵消卷积之后图像的缩小
"""

1.3 Pooling

译成“池化”,操作类似于图像金字塔,也就是图像压缩,通过将图片的各个区域像素分组,之后对组内像素做处理(取最大,取平均等等),可以大大减少运算量。

但是比较细致的图像识别或处理一般不加pooling,以免损失细节,而选择提升硬件性能,提高运算速度和效率来弥补庞大的运算量。

flatten:把矩阵拉直成向量
 

本文发布于:2024-01-31 11:26:12,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170667157528179.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:Lesson   李宏毅
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23