数据集读取

paddlex.datasets.ImageNet

用于图像分类模型

paddlex.datasets.ImageNet(data_dir, file_list, label_list, transforms=None, num_workers='auto', shuffle=False)

读取ImageNet格式的分类数据集，并对样本进行相应的处理。ImageNet数据集格式的介绍可查看文档:数据集格式说明

示例：代码文件

参数

data_dir (str): 数据集所在的目录路径。

file_list (str): 描述数据集图片文件和类别id的文件路径（文本内每行路径为相对data_dir的相对路径）。

label_list (str): 描述数据集包含的类别信息文件路径。

transforms (paddlex.transforms): 数据集中每个样本的预处理/增强算子，详见paddlex.transforms。

num_workers (int|str)：数据集中样本在预处理过程中的进程数。默认为'auto'。当设为'auto'时，根据系统的实际CPU核数设置num_workers: 如果CPU核数的一半大于8，则num_workers为8，否则为CPU核数的一半。

shuffle (bool): 是否需要对数据集中样本打乱顺序。默认为False。

paddlex.datasets.VOCDetection

用于目标检测模型

paddlex.datasets.VOCDetection(data_dir, file_list, label_list, transforms=None, num_workers='auto', shuffle=False, allow_empty=False, empty_ratio=1.)

读取PascalVOC格式的检测数据集，并对样本进行相应的处理。PascalVOC数据集格式的介绍可查看文档:数据集格式说明

示例：代码文件

参数

data_dir (str): 数据集所在的目录路径。

file_list (str): 描述数据集图片文件和对应标注文件的文件路径（文本内每行路径为相对data_dir的相对路径）。

label_list (str): 描述数据集包含的类别信息文件路径。

transforms (paddlex.transforms): 数据集中每个样本的预处理/增强算子，详见paddlex.transforms。

num_workers (int|str)：数据集中样本在预处理过程中的进程数。默认为'auto'。当设为'auto'时，根据系统的实际CPU核数设置num_workers: 如果CPU核数的一半大于8，则num_workers为8，否则为CPU核数的一半。

shuffle (bool): 是否需要对数据集中样本打乱顺序。默认为False。

allow_empty (bool): 是否加载无标注框的图片（即负样本）进行训练。默认为False。该参数设置为True时，也要求每个负样本都有对应的标注文件。

empty_ratio (float): 用于指定负样本占总样本数的比例。如果小于0或大于等于1，则保留全部的负样本。默认为1。

add_negative_samples

add_negative_samples(image_dir, empty_ratio=1)

将背景图片加入训练。

image_dir (str)：背景图片所在的文件夹目录。不要求准备背景图片的标注文件。

empty_ratio (float or None): 用于指定负样本占总样本数的比例。如果为None，保留数据集初始化是设置的empty_ratio值，否则更新原有empty_ratio值。如果小于0或大于等于1，则保留全部的负样本。默认为1。

代码示例

火灾烟雾检测 | 训练添加负样本的两种使用方式

cluster_yolo_anchor

cluster_yolo_anchor(num_anchors, image_size, cache=True, cache_path=None, iters=300, gen_iters=1000, thresh=.25)

分析数据集中所有图像的标签，聚类生成YOLO系列检测模型指定格式的anchor，返回结果按照由小到大排列。

注解

自定义YOLO系列模型的anchor需要同时指定anchor_masks参数。anchor_masks参数为一个二维的列表，其长度等于模型backbone获取到的特征图数量（对于PPYOLO的MobileNetV3和ResNet18_vd，特征图数量为2，其余情况为3）。列表中的每一个元素也为列表，代表对应特征图上所检测的anchor编号。以PPYOLO网络的默认参数anchors=[[10, 13], [16, 30], [33, 23], [30, 61], [62, 45], [59, 119], [116, 90], [156, 198], [373, 326]]，anchor_masks=[[6, 7, 8], [3, 4, 5], [0, 1, 2]]为例，代表在第一个特征图上检测尺度为[116, 90], [156, 198], [373, 326]的目标，在第二个特征图上检测尺度为[30, 61], [62, 45], [59, 119]的目标，以此类推。

参数

num_anchors (int): 生成anchor的数量。PPYOLO，当backbone网络为MobileNetV3或ResNet18_vd时通常设置为6，其余情况通常设置为9。对于PPYOLOv2、PPYOLOTiny、YOLOv3，通常设置为9。

image_size (List[int] or int)：训练时网络输入的尺寸。如果为list，长度须为2，分别代表高和宽；如果为int，代表输入尺寸高和宽相同。

cache (bool): 是否使用缓存。聚类生成anchor需要遍历数据集统计所有真值框的尺寸以及所有图片的尺寸，较为耗时。如果为True，会将真值框尺寸信息以及图片尺寸信息保存至cache_path路径下，若路径下已存缓存文件，则加载该缓存。如果为False，则不会保存或加载。默认为True。

cache_path (None or str)：真值框尺寸信息以及图片尺寸信息缓存路径。如果为None，则使用数据集所在的路径data_dir。默认为None。

iters (int)：K-Means聚类算法迭代次数。

gen_iters (int)：基因演算法迭代次数。

thresh (float)：anchor尺寸与真值框尺寸之间比例的阈值。

代码示例

import paddlex as pdx
from paddlex import transforms as T

# 下载和解压昆虫检测数据集
dataset = 'https://bj.bcebos.com/paddlex/datasets/insect_det.tar.gz'
pdx.utils.download_and_decompress(dataset, path='./')

# 定义训练和验证时的transforms
# API说明：https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/apis/transforms/transforms.md
train_transforms = T.Compose([
    T.MixupImage(mixup_epoch=-1), T.RandomDistort(),
    T.RandomExpand(im_padding_value=[123.675, 116.28, 103.53]), T.RandomCrop(),
    T.RandomHorizontalFlip(), T.BatchRandomResize(
        target_sizes=[320, 352, 384, 416, 448, 480, 512, 544, 576, 608],
        interp='RANDOM'), T.Normalize(
            mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

eval_transforms = T.Compose([
    T.Resize(
        target_size=608, interp='CUBIC'), T.Normalize(
            mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# 定义训练和验证所用的数据集
# API说明：https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/apis/datasets.md
train_dataset = pdx.datasets.VOCDetection(
    data_dir='insect_det',
    file_list='insect_det/train_list.txt',
    label_list='insect_det/labels.txt',
    transforms=train_transforms,
    shuffle=True)

eval_dataset = pdx.datasets.VOCDetection(
    data_dir='insect_det',
    file_list='insect_det/val_list.txt',
    label_list='insect_det/labels.txt',
    transforms=eval_transforms,
    shuffle=False)

# 在训练集上聚类生成9个anchor
anchors = train_dataset.cluster_yolo_anchor(num_anchors=9, image_size=608)
anchor_masks = [[6, 7, 8], [3, 4, 5], [0, 1, 2]]

# 初始化模型，并进行训练
# 可使用VisualDL查看训练指标，参考https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/visualdl.md
num_classes = len(train_dataset.labels)
model = pdx.det.PPYOLO(num_classes=num_classes,
                       backbone='ResNet50_vd_dcn',
                       anchors=anchors,
                       anchor_masks=anchor_masks)

# API说明：https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/apis/models/detection.md
# 各参数介绍与调整说明：https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/parameters.md
model.train(
    num_epochs=200,
    train_dataset=train_dataset,
    train_batch_size=8,
    eval_dataset=eval_dataset,
    pretrain_weights='COCO',
    learning_rate=0.005 / 12,
    warmup_steps=500,
    warmup_start_lr=0.0,
    save_interval_epochs=5,
    lr_decay_epochs=[85, 135],
    save_dir='output/ppyolo_r50vd_dcn',
    use_vdl=True)

paddlex.datasets.CocoDetection

用于实例分割/目标检测模型

paddlex.datasets.CocoDetection(data_dir, ann_file, transforms=None, num_workers='auto', shuffle=False, allow_empty=False, empty_ratio=1.)

读取MSCOCO格式的检测数据集，并对样本进行相应的处理，该格式的数据集同样可以应用到实例分割模型的训练中。MSCOCO数据集格式的介绍可查看文档:数据集格式说明

示例：代码文件

参数

data_dir (str): 数据集所在的目录路径。

ann_file (str): 数据集的标注文件，为一个独立的json格式文件。

transforms (paddlex.transforms): 数据集中每个样本的预处理/增强算子，详见paddlex.transforms。

num_workers (int|str)：数据集中样本在预处理过程中的线程或进程数。默认为'auto'。当设为'auto'时，根据系统的实际CPU核数设置num_workers: 如果CPU核数的一半大于8，则num_workers为8，否则为CPU核数的一半。

shuffle (bool): 是否需要对数据集中样本打乱顺序。默认为False。

allow_empty (bool): 是否加载无标注框的图片（即负样本）进行训练。默认为False。该参数设置为True时，也要求每个负样本都有对应的标注文件。

empty_ratio (float): 用于指定负样本占总样本数的比例。如果小于0或大于等于1，则保留全部的负样本。默认为1。

add_negative_samples

add_negative_samples(image_dir, empty_ratio=1)

将背景图片加入训练。

image_dir (str)：背景图片所在的文件夹目录。不要求准备背景图片的标注文件。

empty_ratio (float or None): 用于指定负样本占总样本数的比例。如果为None，保留数据集初始化是设置的empty_ratio值，否则更新原有empty_ratio值。如果小于0或大于等于1，则保留全部的负样本。默认为1。

代码示例

火灾烟雾检测 | 训练添加负样本的两种使用方式

cluster_yolo_anchor

cluster_yolo_anchor(num_anchors, image_size, cache=True, cache_path=None, iters=300, gen_iters=1000, thresh=.25)

分析数据集中所有图像的标签，聚类生成YOLO系列检测模型指定格式的anchor，返回结果按照由小到大排列。

注解

自定义YOLO系列模型的anchor需要同时指定anchor_masks参数。anchor_masks参数为一个二维的列表，其长度等于模型backbone获取到的特征图数量（对于PPYOLO的MobileNetV3和ResNet18_vd，特征图数量为2，其余情况为3）。列表中的每一个元素也为列表，代表对应特征图上所检测的anchor编号。以PPYOLO网络的默认参数anchors=[[10, 13], [16, 30], [33, 23], [30, 61], [62, 45], [59, 119], [116, 90], [156, 198], [373, 326]]，anchor_masks=[[6, 7, 8], [3, 4, 5], [0, 1, 2]]为例，代表在第一个特征图上检测尺度为[116, 90], [156, 198], [373, 326]的目标，在第二个特征图上检测尺度为[30, 61], [62, 45], [59, 119]的目标，以此类推。

参数

num_anchors (int): 生成anchor的数量。PPYOLO，当backbone网络为MobileNetV3或ResNet18_vd时通常设置为6，其余情况通常设置为9。对于PPYOLOv2、PPYOLOTiny、YOLOv3，通常设置为9。

image_size (List[int] or int)：训练时网络输入的尺寸。如果为list，长度须为2，分别代表高和宽；如果为int，代表输入尺寸高和宽相同。

cache (bool): 是否使用缓存。聚类生成anchor需要遍历数据集统计所有真值框的尺寸以及所有图片的尺寸，较为耗时。如果为True，会将真值框尺寸信息以及图片尺寸信息保存至cache_path路径下，若路径下已存缓存文件，则加载该缓存。如果为False，则不会保存或加载。默认为True。

cache_path (None or str)：真值框尺寸信息以及图片尺寸信息缓存路径。如果为None，则使用数据集所在的路径data_dir。默认为None。

iters (int)：K-Means聚类算法迭代次数。

gen_iters (int)：基因演算法迭代次数。

thresh (float)：anchor尺寸与真值框尺寸之间比例的阈值。

代码示例

import paddlex as pdx
from paddlex import transforms as T

# 下载和解压昆虫检测数据集
dataset = 'https://bj.bcebos.com/paddlex/datasets/insect_det.tar.gz'
pdx.utils.download_and_decompress(dataset, path='./')

# 定义训练和验证时的transforms
# API说明：https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/apis/transforms/transforms.md
train_transforms = T.Compose([
    T.MixupImage(mixup_epoch=-1), T.RandomDistort(),
    T.RandomExpand(im_padding_value=[123.675, 116.28, 103.53]), T.RandomCrop(),
    T.RandomHorizontalFlip(), T.BatchRandomResize(
        target_sizes=[320, 352, 384, 416, 448, 480, 512, 544, 576, 608],
        interp='RANDOM'), T.Normalize(
            mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

eval_transforms = T.Compose([
    T.Resize(
        target_size=608, interp='CUBIC'), T.Normalize(
            mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# 定义训练和验证所用的数据集
# API说明：https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/apis/datasets.md
train_dataset = pdx.datasets.CocoDetection(
    data_dir='xiaoduxiong_ins_det/JPEGImages',
    ann_file='xiaoduxiong_ins_det/train.json',
    transforms=train_transforms,
    shuffle=True)
eval_dataset = pdx.datasets.CocoDetection(
    data_dir='xiaoduxiong_ins_det/JPEGImages',
    ann_file='xiaoduxiong_ins_det/val.json',
    transforms=eval_transforms)

# 在训练集上聚类生成9个anchor
anchors = train_dataset.cluster_yolo_anchor(num_anchors=9, image_size=608)
anchor_masks = [[6, 7, 8], [3, 4, 5], [0, 1, 2]]

# 初始化模型，并进行训练
# 可使用VisualDL查看训练指标，参考https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/visualdl.md
num_classes = len(train_dataset.labels)
model = pdx.det.PPYOLO(num_classes=num_classes,
                       backbone='ResNet50_vd_dcn',
                       anchors=anchors,
                       anchor_masks=anchor_masks)

# API说明：https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/apis/models/detection.md
# 各参数介绍与调整说明：https://github.com/PaddlePaddle/PaddleX/blob/develop/docs/parameters.md
model.train(
    num_epochs=200,
    train_dataset=train_dataset,
    train_batch_size=8,
    eval_dataset=eval_dataset,
    pretrain_weights='COCO',
    learning_rate=0.005 / 12,
    warmup_steps=500,
    warmup_start_lr=0.0,
    save_interval_epochs=5,
    lr_decay_epochs=[85, 135],
    save_dir='output/ppyolo_r50vd_dcn',
    use_vdl=True)

paddlex.datasets.SegDataset

用于语义分割模型

paddlex.datasets.SegDataset(data_dir, file_list, label_list=None, transforms=None, num_workers='auto', shuffle=False)

读取语义分割任务数据集，并对样本进行相应的处理。语义分割任务数据集格式的介绍可查看文档:数据集格式说明

示例：代码文件

参数

data_dir (str): 数据集所在的目录路径。

file_list (str): 描述数据集图片文件和对应标注文件的文件路径（文本内每行路径为相对data_dir的相对路径）。

label_list (str): 描述数据集包含的类别信息文件路径。

transforms (paddlex.transforms): 数据集中每个样本的预处理/增强算子，详见paddlex.transforms。

num_workers (int|str)：数据集中样本在预处理过程中的线程或进程数。默认为'auto'。当设为'auto'时，根据系统的实际CPU核数设置num_workers: 如果CPU核数的一半大于8，则num_workers为8，否则为CPU核数的一半。

shuffle (bool): 是否需要对数据集中样本打乱顺序。默认为False。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

datasets.md

datasets.md

数据集读取

目录

paddlex.datasets.ImageNet

paddlex.datasets.VOCDetection

add_negative_samples

cluster_yolo_anchor

paddlex.datasets.CocoDetection

add_negative_samples

cluster_yolo_anchor

paddlex.datasets.SegDataset

Files

datasets.md

Latest commit

History

datasets.md

File metadata and controls

数据集读取

目录

paddlex.datasets.ImageNet

paddlex.datasets.VOCDetection

add_negative_samples

cluster_yolo_anchor

paddlex.datasets.CocoDetection

add_negative_samples

cluster_yolo_anchor

paddlex.datasets.SegDataset