【写在前面】:大家好,我是【猪葛】
一个很看好AI前景的算法工程师
在接下来的系列博客里面我会持续更新Keras的教学内容(文末有大纲)
内容主要分为两部分
第一部分是Keras的基础知识
第二部分是使用Keras搭建FasterCNN、YOLO目标检测神经网络
代码复用性高
如果你也感兴趣,欢迎关注我的动态一起学习
学习建议:
有些内容一开始学起来有点蒙,对照着“学习目标”去学习即可
一步一个脚印,走到山顶再往下看一切风景就全明了了
本篇博客学习目标:1、掌握Keras中使用ImageDataGenerator 类进行图像预处理的方法;2、理解如何给模型喂数据进行训练的方法(先理解一次,以后会继续讲解的)
import tensorflow.keras as keras# 函数作用:通过实时数据增强生成张量图像数据批次。数据将不断循环(按批次)。
keras.preprocessing.image.ImageDataGenerator(featurewise_center=False,samplewise_center=False,featurewise_std_normalization=False,samplewise_std_normalization=False,zca_whitening=False,zca_epsilon=1e-06,rotation_range=0,width_shift_range=0.0,height_shift_range=0.0,brightness_range=None,shear_range=0.0,zoom_range=0.0,channel_shift_range=0.0,fill_mode='nearest',cval=0.0,horizontal_flip=False,vertical_flip=False,rescale=None,preprocessing_function=None,data_format=None,validation_split=0.0,dtype=None)
函数作用:
通过实时数据增强生成张量图像数据批次。数据将不断循环(按批次)。
参数提示:
因为这参数比较多,而且比较难以理解,我会在下面解释小例子的时候结合实例来解释这些参数,所以大家一开始看不懂没关系,先跳过也行。一般这些参数都选择默认值,然后对图片的处理使用这个类的方法来实现
常见参数:
horizontal_flip
: 布尔值。随机水平翻转。vertical_flip
: 布尔值。随机垂直翻转。rescale
: 重缩放因子。默认为 None
。如果是 None 或 0,不进行缩放,否则将数据乘以所提供的值(在应用任何其他转换之前)。preprocessing_function
: 应用于每个输入的函数。这个函数会在任何其他改变之前运行。这个函数需要一个参数:一张图像(秩为 3 的 Numpy 张量),并且应该输出一个同尺寸的 Numpy 张量。data_format
: 图像数据格式,{“channels_first”, “channels_last”} 之一。"channels_last"
模式表示图像输入尺寸应该为 (samples, height, width, channels),"channels_first"
模式表示输入尺寸应该为 (samples, channels, height, width)。默认为 在 Keras 配置文件 ~/.keras/keras.json 中的 image_data_format 值。如果你从未设置它,那它就是 “channels_last”。validation_split
: 浮点数。Float. 保留用于验证的图像的比例(严格在0和1之间)。dtype
: 生成数组使用的数据类型。rotation_range
: 整数。随机旋转的度数范围。featurewise_center
: 布尔值。将输入数据的均值设置为 0,逐特征进行。samplewise_center
: 布尔值。将每个样本的均值设置为 0。featurewise_std_normalization
: 布尔值。将输入除以数据标准差,逐特征进行。samplewise_std_normalization
: 布尔值。将每个输入除以其标准差。zca_epsilon
: ZCA 白化的 epsilon 值,默认为 1e-6。zca_whitening
: 布尔值。是否应用 ZCA 白化。width_shift_range
: 浮点数、一维数组或整数,宽度缩放比例height_shift_range
: 浮点数、一维数组或整数,高度缩放比例shear_range
: 浮点数。剪切强度(以弧度逆时针方向剪切角度)。zoom_range
: 浮点数 或 [lower, upper]。随机缩放范围。如果是浮点数,[lower, upper] = [1-zoom_range, 1+zoom_range]。flow(x,y=None,batch_size=32,shuffle=True,sample_weight=None,seed=None,save_to_dir=None,save_prefix='',save_format='png',subset=None)
函数作用:采集数据和标签数组,生成批量增强数据。
参数:
x
: 输入数据。秩为 4 的 Numpy 矩阵或元组。如果是元组,第一个元素应该包含图像,第二个元素是另一个 Numpy 数组或一列 Numpy 数组,它们不经过任何修改就传递给输出。可用于将模型杂项数据与图像一起输入。对于灰度数据,图像数组的通道轴的值应该为 1,而对于 RGB 数据,其值应该为 3。y
: 标签。batch_size
: 整数 (默认为 32)。shuffle
: 布尔值 (默认为 True)。sample_weight
: 样本权重。seed
: 整数(默认为 None)。save_to_dir
: None 或 字符串(默认为 None)。这使您可以选择指定要保存的正在生成的增强图片的目录(用于可视化您正在执行的操作)。save_prefix
: 字符串(默认 ‘’)。保存图片的文件名前缀(仅当 save_to_dir 设置时可用)。save_format
: “png”, “jpeg” 之一(仅当 save_to_dir 设置时可用)。默认:“png”。subset
: 数据子集 (“training” 或 “validation”),如果 在 ImageDataGenerator 中设置了 validation_split。运行一个小例子就明白了:
from keras.utils import np_utils
from dels import Sequential
from tensorflow.keras.layers import Conv2D, Flatten, Dense
from tensorflow.keras.datasets import mnist
from tensorflow.keras.preprocessing.image import ImageDataGenerator
import numpy as npmodel = Sequential([Conv2D(4, (3, 3), 2, 'same', input_shape=(28, 28, 1)),Flatten(),Dense(10, activation='softmax')
])(x_train, y_train), (x_test, y_test) = mnist.load_data() # 加载一些数据来进行验证,假设我们有的全部数据就是这么多
x_train = np.reshape(x_train, (60000, 28, 28, 1)) # 是np数组,重设shape
x_test = np.reshape(x_test, (10000, 28, 28, 1)) # 是np数组,重设shape
y_train = _categorical(y_train, 10) # 是np数组,one_hot表示
y_test = _categorical(y_test, 10) # 是np数组,one_hot表示datagen = ImageDataGenerator() # 实例化一个对象
a = datagen.flow(x_train, y_train, batch_size=5) # 生成一个生成器(batch_x, batch_y) = next(a) # 展示变量值pass
运行完之后你可以看到batch_x.shape=(5, 28, 28, 1),batch_y.shape=(5, 10)
返回值:
一个生成元组 (x, y) 的 Iterator
flow_from_directory(directory,target_size=(256, 256),color_mode='rgb',classes=None,class_mode='categorical',batch_size=32,shuffle=True,seed=None,save_to_dir=None,save_prefix='',save_format='png',follow_links=False,subset=None,interpolation='nearest')
函数作用:一个生成 (x, y) 元组的 DirectoryIterator
,其中 x
是一个包含一批尺寸为 (batch_size, *target_size, channels)的图像的 Numpy 数组,y
是对应标签的 Numpy 数组
参数:
directory
: 目标目录的路径。每个类应该包含一个子目录。任何在子目录树下的 PNG, JPG, BMP, PPM 或 TIF 图像,都将被包含在生成器中。更多细节,详见 此脚本。target_size
: 整数元组 (height, width)
,默认:(256, 256)。所有的图像将被调整到的尺寸。color_mode
: "grayscale"
, "rbg"
之一。默认:"rgb"
。图像是否被转换成 1 或 3 个颜色通道。classes
: 可选的类的子目录列表(例如 [‘dogs’, ‘cats’])。默认:None。如果未提供,类的列表将自动从 directory 下的 子目录名称/结构 中推断出来,其中每个子目录都将被作为不同的类(类名将按字典序映射到标签的索引)。包含从类名到类索引的映射的字典可以通过 class_indices 属性获得。class_mode
: “categorical”, “binary”, “sparse”, “input” 或 None 之一。默认:“categorical”。决定返回的标签数组的类型:"categorical"
将是 2D one-hot 编码标签,"binary"
将是 1D 二进制标签,“sparse” 将是 1D 整数标签,"input"
将是与输入图像相同的图像(主要用于自动编码器)。batch_size
: 一批数据的大小(默认 32)。shuffle
: 是否混洗数据(默认 True)。seed
: 可选随机种子,用于混洗和转换。save_to_dir
: None 或 字符串(默认 None)。这使你可以最佳地指定正在生成的增强图片要保存的目录(用于可视化你在做什么)。save_prefix
: 字符串。 保存图片的文件名前缀(仅当 save_to_dir 设置时可用)。save_format
: “png”, “jpeg” 之一(仅当 save_to_dir 设置时可用)。默认:“png”。follow_links
: 是否跟踪类子目录中的符号链接(默认为 False)。subset
: 数据子集 (“training” 或 “validation”),如果 在 ImageDataGenerator 中设置了 validation_split。interpolation
: 在目标大小与加载图像的大小不同时,用于重新采样图像的插值方法。 支持的方法有 “nearest”, “bilinear”, and “bicubic”。 如果安装了 1.1.3 以上版本的 PIL 的话,同样支持 “lanczos”。 如果安装了 3.4.0 以上版本的 PIL 的话,同样支持 “box” 和 “hamming”。 默认情况下,使用 “nearest”。返回:
一个生成 (x, y) 元组的 DirectoryIterator,其中 x 是一个包含一批尺寸为 (batch_size, *target_size, channels)的图像的 Numpy 数组,y 是对应标签的 Numpy 数组。
小例子:建立自己运行一遍,更改更改参数也就明白里面的意思了,代码已经给你们码好拉,如下
from keras.utils import np_utils
from dels import Sequential
from tensorflow.keras.layers import Conv2D, Flatten, Dense
from tensorflow.keras.datasets import mnist
from tensorflow.keras.preprocessing.image import ImageDataGenerator
import numpy as npmodel = Sequential([Conv2D(4, (3, 3), 2, 'same', input_shape=(28, 28, 1)),Flatten(),Dense(10, activation='softmax')
])(x_train, y_train), (x_test, y_test) = mnist.load_data() # 加载一些数据来进行验证,假设我们有的全部数据就是这么多
x_train = np.reshape(x_train, (60000, 28, 28, 1)) # 是np数组,重设shape
x_test = np.reshape(x_test, (10000, 28, 28, 1)) # 是np数组,重设shape
y_train = _categorical(y_train, 10) # 是np数组,one_hot表示
y_test = _categorical(y_test, 10) # 是np数组,one_hot表示datagen = ImageDataGenerator() # 实例化一个对象
a = datagen.flow_from_directory(directory='/home/huangjx/图片/cifar2/test', batch_size=5) # 生成一个生成器(batch_x, batch_y) = next(a) # 展示b的值pass
fit_generator(generator,steps_per_epoch=None,epochs=1,verbose=1,callbacks=None,validation_data=None,validation_steps=None,validation_freq=1,class_weight=None,max_queue_size=10,workers=1,use_multiprocessing=False,shuffle=True,initial_epoch=0):
函数作用:
使用 Python 生成器或 Sequence 实例逐批生成的数据,按批次训练模型。
生成器与模型并行运行,以提高效率。 例如,这可以让你在 CPU 上对图像进行实时数据增强,以在 GPU 上训练模型。
keras.utils.Sequence 的使用可以保证数据的顺序, 以及当 use_multiprocessing=True 时 ,保证每个输入在每个 epoch 只使用一次。
参数:
generator
: 一个生成器或 Sequence
(keras.utils.Sequence) 对象的实例,以避免在使用多进程时出现重复数据。 生成器的输出应该为以下之一:steps_per_epoch
时,记一个 epoch
结束。steps_per_epoch
: 整数。在声明一个 epoch 完成并开始下一个 epoch 之前从 generator 产生的总步数(批次样本)。它通常应该等于你的数据集的样本数量除以批量大小。可选参数 Sequence:如果未指定,将使用 len(generator) 作为步数。epochs
: 整数,数据的迭代总轮数。一个 epoch 是对所提供的整个数据的一轮迭代,由 steps_per_epoch 所定义。请注意,与 initial_epoch 一起,参数 epochs 应被理解为 「最终轮数」。模型并不是训练了 epochs 轮,而是到第 epochs 轮停止训练。verbose
: 日志显示模式。0,1 或 2。0 = 安静模式,1 = 进度条,2 = 每轮一行。callbacks
: keras.callbacks.Callback
实例列表。在训练时调用的一系列回调。validation_data
: 它可以是以下之一:Sequence
实例validation_steps
: 仅当 validation_data 是一个生成器时才可用。 每个 epoch 结束时验证集生成器产生的步数。它通常应该等于你的数据集的样本数量除以批量大小。可选参数 Sequence:如果未指定,将使用 len(generator) 作为步数。class_weight
: 可选的字典,用来映射类索引(整数)到权重(浮点)值,用于加权损失函数(仅在训练期间)。这可能有助于告诉模型 「更多关注」来自代表性不足的类的样本。max_queue_size
: 整数。生成器队列的最大尺寸。如果未指定,max_queue_size 将默认为 10。workers
: 整数。使用基于进程的多线程时启动的最大进程数。如果未指定,worker 将默认为 1。如果为 0,将在主线程上执行生成器。use_multiprocessing
: 如果 True
,则使用基于进程的多线程。如果未指定,use_multiprocessing
将默认为 False
。请注意,因为此实现依赖于多进程,所以不应将不可传递的参数传递给生成器,因为它们不能被轻易地传递给子进程。shuffle
: 布尔值。是否在每轮迭代之前打乱 batch 的顺序。只能与 Sequence (keras.utils.Sequence) 实例同用。在 steps_per_epoch
不为 None 是无效果。initial_epoch
: 整数。开始训练的轮次(有助于恢复之前的训练)。返回:
一个 History
对象。其 History.history
属性是连续 epoch
训练损失和评估值,以及验证集损失和评估值的记录(如果适用)。
例子:
def generate_arrays_from_file(path):while True:with open(path) as f:for line in f:# 从文件中的每一行生成输入数据和标签的 numpy 数组x1, x2, y = process_line(line)yield ({'input_1': x1, 'input_2': x2}, {'output': y})model.fit_generator(generate_arrays_from_file('/'),steps_per_epoch=10000, epochs=10)
我们现在就可以通过前面2-1小节和2-2小节学习得到的生成器来给模型喂数据啦
首先我们先顺便定义一个模型用于测试,这个过程好比自己在搭建神经网络一样,可以参见我本系列的其它文章:
【Keras教学(2)】:使用Sequence搭建LeNet-5卷积神经网络
【Keras教学(3)】:使用函数式API搭建AlexNet、VGG系列卷积神经网络
from keras.utils import np_utils
from dels import Sequential
from tensorflow.keras.layers import Conv2D, Flatten, Dense, MaxPooling2D
from tensorflow.keras.datasets import mnist
from tensorflow.keras.preprocessing.image import ImageDataGenerator
import numpy as np
from tensorflow.keras.losses import categorical_crossentropymodel = Sequential([Conv2D(16, (3, 3), 2, 'same', input_shape=(28, 28, 1), activation='relu'),MaxPooling2D((2, 2), 2, 'same'),Conv2D(8, (3, 3), 2, 'same', activation='relu'),MaxPooling2D((2, 2), 2, 'same'),Flatten(),Dense(10, activation='softmax')
])
然后给这个模型顺便配置一个优化器和损失函数
modelpile(optimizer='sgd', loss='categorical_crossentropy')
然后准备所有待会要喂进去的数据
(x_train, y_train), (x_test, y_test) = mnist.load_data() # 加载一些数据来进行验证,假设我们有的全部数据就是这么多
x_train = np.reshape(x_train, (60000, 28, 28, 1)) # 是np数组,重设shape
x_test = np.reshape(x_test, (10000, 28, 28, 1)) # 是np数组,重设shape
y_train = _categorical(y_train, 10) # 是np数组,one_hot表示
y_test = _categorical(y_test, 10) # 是np数组,one_hot表示
开始喂数据
datagen = ImageDataGenerator() # 实例化一个对象
gen = datagen.flow(x=x_train, y=y_train, batch_size=32) # 生成一个生成器
model.fit_generator(gen, steps_per_epoch=10, epochs=10) # 训练
完整代码如下:
from keras.utils import np_utils
from dels import Sequential
from tensorflow.keras.layers import Conv2D, Flatten, Dense, MaxPooling2D
from tensorflow.keras.datasets import mnist
from tensorflow.keras.preprocessing.image import ImageDataGenerator
import numpy as np
from tensorflow.keras.losses import categorical_crossentropymodel = Sequential([Conv2D(16, (3, 3), 2, 'same', input_shape=(28, 28, 1), activation='relu'),MaxPooling2D((2, 2), 2, 'same'),Conv2D(8, (3, 3), 2, 'same', activation='relu'),MaxPooling2D((2, 2), 2, 'same'),Flatten(),Dense(10, activation='softmax')
])
modelpile(optimizer='sgd', loss='categorical_crossentropy')(x_train, y_train), (x_test, y_test) = mnist.load_data() # 加载一些数据来进行验证,假设我们有的全部数据就是这么多
x_train = np.reshape(x_train, (60000, 28, 28, 1)) # 是np数组,重设shape
x_test = np.reshape(x_test, (10000, 28, 28, 1)) # 是np数组,重设shape
y_train = _categorical(y_train, 10) # 是np数组,one_hot表示
y_test = _categorical(y_test, 10) # 是np数组,one_hot表示datagen = ImageDataGenerator() # 实例化一个对象
gen = datagen.flow(x=x_train, y=y_train, batch_size=32) # 生成一个生成器
model.fit_generator(gen, steps_per_epoch=10, epochs=10) # 开始训练pass
运行结果:
Epoch 1/10
10/10 [==============================] - 0s 33ms/step - loss: 13.8101
Epoch 2/10
10/10 [==============================] - 0s 31ms/step - loss: 13.4682
Epoch 3/10
10/10 [==============================] - 0s 31ms/step - loss: 12.3496
Epoch 4/10
10/10 [==============================] - 0s 31ms/step - loss: 12.3210
Epoch 5/10
10/10 [==============================] - 0s 31ms/step - loss: 11.6730
Epoch 6/10
10/10 [==============================] - 0s 31ms/step - loss: 8.8682
Epoch 7/10
10/10 [==============================] - 0s 32ms/step - loss: 3.5756
Epoch 8/10
10/10 [==============================] - 0s 31ms/step - loss: 2.3343
Epoch 9/10
10/10 [==============================] - 0s 31ms/step - loss: 2.3085
Epoch 10/10
10/10 [==============================] - 0s 31ms/step - loss: 2.2269Process finished with exit code 0
发现loss还真的会下降哦,如果我加个评价指标上去看看准确率,我猜准确率还挺高哈哈哈(别忘了这只是我顺便写的模型,足以见的神经网络的神奇)
大家也可以自己调节参数去玩一玩。本期的内容就这么多,文末附上本系列keras教学内容,欢迎关注我的动态一起学习呀
本文发布于:2024-01-27 23:49:56,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17063705953386.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |