【转】ansforms.Normalize()解释

阅读：评论：0

原文：
也许你经常会在PIL.Image转为tensor时看到这么一段数据预处理代码：

im_tfs = tfs.Compose([tfs.ToTensor(),tfs.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])data = im_tfs(data)

下面就是关于ansforms.Normalize()的解释：

按照我的理解，归一化就是要把图片3个通道中的数据整理到[-1, 1]区间。 x = (x - mean(x))/stddev(x)
只要输入数据集x确定了，mean(x)和stddev(x)也就是确定的数值了，为什么Normalize()函数还需要输入mean和std的数值呢？

疑问2： RGB单个通道的值不是[0, 255]吗？所以一个通道的均值应该在127附近才对。
如果Normalize()函数按照下面的版式去计算 x = (x - mean)/std 因为RGB是[0,
255]，算出来的x就不可能落在[-1, 1]区间了。

疑问3：可我看很多代码里面是这样的： ansforms.Normalize(mean=[0.485,
0.456, 0.406], std=[0.229, 0.224, 0.225]) 这一组值是怎么来的？为什么这三个通道的均值都是小于1的值呢？

1、 mean 和 std
肯定要在normalize之前自己先算好再传进去的，不然每次normalize程序就得把所有的图片都读取一遍算这两个数…

2、有两种情况： a)如果是imagenet数据集，那么ImageNet的数据在加载的时候就已经转换成了[0, 1].
b)应用了ansforms.ToTensor，其作用是（ Converts a PIL Image or
numpy.ndarray (H x W x C) in the range [0, 255] to a torch.FloatTensor
of shape (C x H x W) in the range [0.0, 1.0] ）

3、[0.485, 0.456, 0.406]这一组平均值是从imagenet训练集中抽样算出来的。

上面疑问2的b情况就解释了文章开头的那段代码。

本文发布于:2024-01-29 10:19:22，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170649476614593.html

上一篇：mysql8支持的json数据

下一篇：rgb转yuv422 matlab,求教Matlab图像RGB转YUV

标签：torchvision transforms Normalize

留言与评论（共有 0 条评论）