Tensorflow实现图像数据增强（Data Augmentation）

在我们处理有关图像的任务，比如目标检测，分类，语义分割等等问题当中，我们常常需要对训练集当中的图片进行数据增强（data augmentation）,这样会让训练集的样本增多，同时让神经网络模型的泛化能力更强。在进行图片的数据增强时，我们一般会对图像进行翻转，剪裁，灰度变化，对比度变化，颜色变化等等方式生成新的训练集，这就是计算机视觉当中的数据增强。我们来看看使用图像增强的手段，对一个猫狗图像分类的具体问题是怎么处理的。

首先我们导入各种包，像tensorflow之类的就不说了，其中的一个包叫做glob，这个包主要是用于读取本地计算机上的图片数据所用的，使用起来十分方便，只需几行代码即可将图片数据读入进来，比pathlib包读取图片方便多了，代码如下所示：

import tensorflow as tf
from tensorflow import keras
import matplotlib.pyplot as plt
import numpy as np
import glob
import os

然后读取图片，我把我的猫狗图片数据都放在了train文件夹下，这个文件夹下又有两个文件夹，分别是dog和cat，在调用glob库写图片路径的同时，我们直接用“*”号来表示一个文件夹下的所有文件都读取，代码如下所示：

#首先获取图片,glob这个库明显感觉更加好用
train_image_path=glob.glob'F://UNIVERSITY STUDY/AI/dataset/catdog/train/*/*.jpg')
#加上*号是为了将当前目录下的所有文件，再加上一个星号是为了提取当前目录下的所有jpg文件
train_image_label=[intp.split"\")[1]=='cat') for p in train_image_path ]
#经过一个列表推倒式就可以得到所有label

后面的第二行代码是一个列表推导式，我们观察图片数据集的名称可以发现每一张图片名称上面都有cat或者dog。这样我们就可以直接切分名称上的dog和cat，然后进行索引用split切片出来的第二个字符串，这个字符串正好表示了图片是猫还是狗，运用如上所示的列表推导式的话，如果图片为cat那么标签就为1，如果为dog标签就为0。下面我们来看看数据集当中的名称是长啥样的：

从中观察可得，名称都是用句号进行分割，图片的格式为jpg。

我们现在已经得到了所有图片的路径，以及标签了，现在就来到了最激动人心的部分，图片的数据增强啦！！！

我们编写一个专门用于图片的预处理，包括用作图片数据增强的函数：load_preprosess_image（）。在这个函数当中我们对图片进行预处理，之后再进行调用即可。这个函数的代码如下：

#现在我们的jpg文件进行解码，变成三维矩阵
def load_preprosess_imagepath,label):
    #读取路径
    image=tf.io.read_filepath)
    #解码
    image=tf.image.decode_jpegimage,channels=3)#彩色图像为3个channel
    #将图像改变为同样的大小，利用裁剪或者扭曲,这里应用了扭曲
    image=tf.image.resizeimage,[360,360])
    #随机裁剪图像
    image=tf.image.random_cropimage,[256,256,3])
    #随机上下翻转图像
    image=tf.image.random_flip_left_rightimage)
    #随机上下翻转
    image=tf.image.random_flip_up_downimage)
    #随机改变图像的亮度
    image=tf.image.random_brightnessimage,0.5)
    #随机改变对比度
    image=tf.image.random_contrastimage,0,1)
    #改变数据类型
    image=tf.castimage,tf.float32)
    #将图像进行归一化
    image=image/255
    #现在还需要对label进行处理，我们现在是列表[1,2,3],
    #需要变成[[1].[2].[3]]
    label=tf.reshapelabel,[1])
    return image,label

注释我相信已经写得很详细了，里面首先对数据集里后缀为jpg格式的图片进行解码，将jpg格式转化为一个个三维的矩阵，之后将图片进行resize，resize之后进行剪裁为256*256，因为我之后要搭建的神经网络如果图片的size是256*256的话，那么这个网络准确率的表现将会变得更好一些。当然你也可以自己动手设计自己的神经网络，或使用Resnet，VGG16等等卷积神经网络对图片进行分类，这些网络对图片的尺寸都会有一定的要求，因此一定要对我们拿到的图片进行预处理，并不是每一个数据集里的图片的大小是已经大小一致方便训练的。然后我们创建datasets容器用于数据的装载，同时制作每一个batch的数据，代码如下所示：

#现在开始创建dataset
train_image_ds=tf.data.Dataset.from_tensor_slicestrain_image_path,train_image_label))
AUTOTUNE=tf.data.experimental.AUTOTUNE#根据计算机性能进行运算速度的调整
train_image_ds=train_image_ds.mapload_preprosess_image,num_parallel_calls=AUTOTUNE)
#后面的参数表示处理并行运算的CPU运行数量
#现在train_image_ds就读取进来了，现在进行乱序和batchsize的规定
BATCH_SIZE=32
train_count=lentrain_image_path)
#现在设置batch和乱序
train_image_ds=train_image_ds.shuffletrain_count).batchBATCH_SIZE)
train_image_ds=train_image_ds.prefetchAUTOTUNE)#预处理一部分处理，准备读取
imags,labels=itertrain_image_ds).next)#放到生成器里，单独取出数据

现在搭建神经网络：

#现在开始创建模型
model=keras.Sequential[
tf.keras.layers.Conv2D64,3,3),input_shape=256,256,3),activation='relu'),
tf.keras.layers.MaxPooling2D),
tf.keras.layers.Conv2D128,3,3),activation='relu'),
tf.keras.layers.MaxPooling2D),
tf.keras.layers.Conv2D512,3,3),activation='relu'),
tf.keras.layers.GlobalAveragePooling2D),
tf.keras.layers.Dense256,activation='relu'),
tf.keras.layers.Dense1)
])

开始自定义训练，如果使用keras式的编程，我们直接model.compile,model.fit模型就训练完了。但是这里为了能够看到训练当中的模型的变化，我们使用自定义训练，这也是Tensotflow2.0版本的优越性，既可以自定义训练也可以使用更加方便的keras方式进行训练，比Pytorch简单了不少。自定义训练的代码如下：

loss=tf.keras.losses.BinaryCrossentropy)#用这个来计算交叉熵
#定义优化器
optimizer=tf.keras.optimizers.Adam)
epoch_loss_avg=tf.keras.metrics.Mean'train_loss')#定义平均损失
train_accuracy=tf.keras.metrics.Accuracy)

def train_stepmodel,image,labels):
    with tf.GradientTape) as t:
        pred=modelimage)
        #计算损失,比较标签值和预测值的区别
        loss_step=tf.keras.losses.BinaryCrossentropyfrom_logits=True)labels,pred)
    grads=t.gradientloss_step,model.trainable_variables)#计算梯度
    optimizer.apply_gradientszipgrads,model.trainable_variables))#根据梯度进行优化
    epoch_loss_avgloss_step)
    train_accuracylabels,tf.castpred>0,tf.int32))

train_loss_results=[]
train_acc_resuls=[]

num_epochs=30
for epoch in rangenum_epochs):
    for imgs_,labels_ in train_image_ds:
        train_stepmodel,imgs_,labels_)
        print'.',end=' ')#每一个batch就打印一个点
    print)#换行
    #还可以把train——loss拿进来
    train_loss_results.appendepoch_loss_avg.result))
    train_acc_resuls.appendtrain_accuracy)
    
    print'Epoch :{}.loss: {:.3f},acc:{:.3f}'.formatepoch+1,epoch_loss_avg.result),train_accuracy.result)))
    
    epoch_loss_avg.reset_states)#重置目前的loss，这样就可以只用到了目前的平均loss
    train_accuracy.reset_states)

我还没训练完，就给大家看看前面两个epoch的输出吧！

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
Epoch :1.loss: 0.695,acc:0.491
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
Epoch :2.loss: 0.693,acc:0.500

这就是tensorflow当中的图像数据增强的使用方法，希望大家能够学到些东西。

Tensorflow实现图像数据增强（Data Augmentation）

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复