首页 > 其他分享> > 飞桨领航团图像分类-课程实践柠檬分类

飞桨领航团图像分类-课程实践柠檬分类

2021-03-10 21:32:07 作者：互联网

文章目录

前言
一、PaddleClas是什么？
二、柠檬竞赛
- 1.主要步骤
- 2.代码示例
总结

前言

本文章主要是参加的百度飞浆图像分类训练营学习心得

一、PaddleClas是什么？

飞桨图像分类套件PaddleClas是飞桨为工业界和学术界所准备的一个图像分类任务的工具集，助力使用者训练出更好的视觉模型和应用落地。

丰富的模型库：基于ImageNet1k分类数据集，PaddleClas提供了29个系列的分类网络结构和训练配置，133个预训练模型和性能评估。

SSLD知识蒸馏：基于该方案蒸馏模型的识别准确率普遍提升3%以上。

数据增广：支持AutoAugment、Cutout、Cutmix等8种数据增广算法详细介绍、代码复现和在统一实验环境下的效果评估。

10万类图像分类预训练模型：百度自研并开源了基于10万类数据集训练的 ResNet50_vd 模型，在一些实际场景中，使用该预训练模型的识别准确率最多可以提升30%。

多种训练方案，包括多机训练、混合精度训练等。

多种预测推理、部署方案，包括TensorRT预测、Paddle-Lite预测、模型服务化部署、模型量化、Paddle Hub等。

可运行于Linux、Windows、MacOS等多种系统。

二、柠檬竞赛

1.主要步骤

划分数据集
构建Dataset（数据读取器）
搭建网络-模型封装-定义优化器-模型配置
训练与评估
模型保存

2.代码示例

典型代码如下（示例）：

import paddle
import paddle.nn as nn
from paddle.io import Dataset
import paddle.vision.transforms as T
import paddle.nn.functional as F
from paddle.metric import Accuracy

# 定义数据预处理
data_transforms = T.Compose([
    T.Resize(size=(224, 224)),
    T.RandomHorizontalFlip(224),
    T.RandomVerticalFlip(224),
    T.Transpose(),    # HWC -> CHW
    T.Normalize(
        mean=[0, 0, 0],        # 归一化
        std=[255, 255, 255],
        to_rgb=True)    
])

# 构建Dataset
class MyDataset(paddle.io.Dataset):
    """
    步骤一：继承paddle.io.Dataset类
    """
    def __init__(self, train_img_list, val_img_list,train_label_list,val_label_list, mode='train'):
        """
        步骤二：实现构造函数，定义数据读取方式，划分训练和测试数据集
        """
        super(MyDataset, self).__init__()
        self.img = []
        self.label = []
        # 借助pandas读csv的库
        self.train_images = train_img_list
        self.test_images = val_img_list
        self.train_label = train_label_list
        self.test_label = val_label_list
        if mode == 'train':
            # 读train_images的数据
            for img,la in zip(self.train_images, self.train_label):
                self.img.append('data/data72793/lemon_homework/lemon_lesson/train_images/'+img)
                self.label.append(la)
        else:
            # 读test_images的数据
            for img,la in zip(self.train_images, self.train_label):
                self.img.append('data/data72793/lemon_homework/lemon_lesson/test_images/'+img)
                self.label.append(la)

    def load_img(self, image_path):
        # 实际使用时使用Pillow相关库进行图片读取即可，这里我们对数据先做个模拟
        image = Image.open(image_path).convert('RGB')
        return image

    def __getitem__(self, index):
        """
        步骤三：实现__getitem__方法，定义指定index时如何获取数据，并返回单条数据（训练数据，对应的标签）
        """
        image = self.load_img(self.img[index])
        label = self.label[index]
        # label = paddle.to_tensor(label)
        
        return data_transforms(image), paddle.nn.functional.label_smooth(label)

    def __len__(self):
        """
        步骤四：实现__len__方法，返回数据集总数目
        """
        return len(self.img)

#train_loader
train_dataset = MyDataset(train_img_list=train_image_path_list, val_img_list=val_image_path_list, train_label_list=train_label_list, val_label_list=val_label_list, mode='train')
train_loader = paddle.io.DataLoader(train_dataset, places=paddle.CPUPlace(), batch_size=32, shuffle=True, num_workers=0)

#val_loader

val_dataset = MyDataset(train_img_list=train_image_path_list, val_img_list=val_image_path_list, train_label_list=train_label_list, val_label_list=val_label_list, mode='test')
val_loader = paddle.io.DataLoader(train_dataset, places=paddle.CPUPlace(), batch_size=32, shuffle=True, num_workers=0)

# 模型封装
model_mob = mobilenet_v2(pretrained=True, num_classes=4)
model = paddle.Model(model_mob)

# 定义优化器

# scheduler = paddle.optimizer.lr.LinearWarmup(learning_rate=0.5, warmup_steps=20, start_lr=0, end_lr=0.5, verbose=True)
# optim = paddle.optimizer.SGD(learning_rate=scheduler, parameters=model.parameters())
optim = paddle.optimizer.Adam(learning_rate=0.001, parameters=model.parameters())

# 配置模型
model.prepare(
    optim,
    paddle.nn.CrossEntropyLoss(soft_label=True),
    Accuracy()
    )

# 模型训练与评估
model.fit(train_loader,
        val_loader,
        log_freq=1,
        epochs=10,
        # callbacks=Callbk(write=write, iters=iters),
        verbose=1,
        )

model.save('myresult_mobilev2', False)
model.evaluate(val_loader)

总结

以上是典型的使用基于paddle框架进行的图像分类实际体验，在柠檬测试数据集上通过mobilev2得到了93.6%的准确率。相信再继续炼炼丹，还是比较容易就得到更好的成绩的。

标签：img,self,分类,list,paddle,label,飞桨,train,领航
来源： https://blog.csdn.net/weixin_44500061/article/details/114646664