PyTorch正菜-数据读取(一)

博主：理想家
发布时间：2024 年 07 月 25 日
286 次浏览
暂无评论
8033字数
分类：学习

## 目录

```python
1. 引言
2. 数据读取的基础知识
2.1. PyTorch 的 Dataset 类
2.2. PyTorch 的 DataLoader 类
3. Torchvision 常用数据集
3.1. Torchvision 简介
3.2. 加载内置数据集
3.3. 自定义数据集与 Torchvision 结合
4. 小结
```

## 1. 引言

在机器学习和深度学习的领域中，数据是驱动一切的核心。模型训练的整个过程就像制造一辆汽车，每个环节环环相扣，缺一不可。从数据的读取、网络的设计，到优化方法与损失函数的选择，再到一些辅助工具的使用，每一步都至关重要。通过这些环节，我们可以构建出功能强大的模型，就像打造一辆豪华汽车。
![](https://asenser.cn/usr/uploads/2024/07/1038829426.jpg)

在这个过程中，如果你对基础环节中的方法一无所知，很难想象能顺利进行模型的开发。因此，我们的目标是通过这一模块的学习，夯实基础，深入了解`PyTorch`提供的丰富 API。`PyTorch`是一个深受欢迎的深度学习框架，而`Torchvision`则是与之配合使用的强大工具包，专注于图像处理。
![](https://asenser.cn/usr/uploads/2024/07/1152476474.png)
如图所示，深度学习的第一步是数据处理。数据处理包括读取文件、数据预处理和异步处理等步骤。这个阶段的目标是将原始数据转换成适合模型训练的格式。预处理操作可能包括归一化、数据增强等，这些操作有助于提高模型的训练效果和泛化能力。

本篇博客将带你走进`PyTorch`和`Torchvision`的世界，首先从数据处理入手。我们将详细介绍`PyTorch`中的数据读取机制，即`Dataset`类与`DataLoader`类的组合使用。在此基础上，我们还会探索 Torchvision 中的常用数据集及其读取方法。通过这一系列内容的学习，你将掌握如何高效地读取和处理数据，为后续的模型训练奠定坚实的基础。

## 2. 数据读取的基础知识

### 2.1. PyTorch 的 Dataset 类

在深度学习中，数据的读取和处理是整个模型训练过程中的首要环节。`PyTorch`提供了`Dataset`类，这是一个抽象类，用于表示数据集。通过继承`Dataset`类，我们可以自定义数据集的格式、大小和其它属性，从而使数据的读取和预处理变得更加灵活和方便。

#### 定义与作用

`Dataset`类是`PyTorch`中用于定义和操作数据集的核心类。它的主要作用是提供一种方式来标准化数据读取接口，使得无论是自定义的数据集还是`PyTorch`官方提供的数据集，都可以通过统一的方式进行处理。

#### 必须重写的方法

当我们继承`Dataset`类时，需要重写以下三个方法：

1. `__init__()`：构造函数，用于初始化数据集的各个属性，如数据的路径、标签的读取方式等。
2. `__len__()`：返回数据集的大小，即数据集中包含多少样本。
3. `__getitem__()`：根据给定的索引，返回数据集中的一个样本。

#### 示例代码：自定义数据集

下面是一个简单的例子，展示了如何使用`Dataset`类定义一个`Tensor`类型的数据集。

```python
import torch
from torch.utils.data import Dataset

class MyDataset(Dataset):
    # 构造函数
    def __init__(self, data_tensor, target_tensor):
        self.data_tensor = data_tensor
        self.target_tensor = target_tensor
  
    # 返回数据集大小
    def __len__(self):
        return self.data_tensor.size(0)
  
    # 返回索引的数据与标签
    def __getitem__(self, index):
        return self.data_tensor[index], self.target_tensor[index]
```

在这个例子中，我们定义了一个名为`MyDataset`的数据集。在构造函数中，传入`Tensor`类型的数据和标签；在 `__len__` 函数中，返回数据的大小；在`__getitem__`函数中，根据索引返回相应的数据和标签。

我们可以通过以下代码来调用刚才定义的数据集：

```python
# 生成数据
data_tensor = torch.randn(10, 3)
target_tensor = torch.randint(2, (10,))  # 标签是0或1

# 将数据封装成Dataset
my_dataset = MyDataset(data_tensor, target_tensor)

# 查看数据集大小
print('Dataset size:', len(my_dataset))
# 输出：Dataset size: 10

# 使用索引调用数据
print('tensor_data[0]: ', my_dataset[0])
# 输出: tensor_data[0]:  (tensor([ 0.4931, -0.5423, 0.9312]), tensor(1))
```

通过上述代码，我们定义并使用了一个自定义的数据集，实现了数据的读取与索引。

### 2.2. PyTorch 的 DataLoader 类

在深度学习训练过程中，仅仅有`Dataset`类是不够的，因为我们还需要高效地批量读取数据，并进行数据的预处理和增强。`PyTorch`提供的`DataLoader`类正是为了解决这一问题。

#### 定义与作用

`DataLoader`类用于将数据集`(Dataset)`包装成一个可迭代对象，便于我们在训练时按批次读取数据。它能够对数据进行多进程加载、批量处理和自动打乱等操作，大大提高了数据读取的效率。

#### 主要参数和方法

`DataLoader`类的主要参数包括：

- **dataset**：需要加载的数据集。
- **batch_size**：每个批次加载的数据量。
- **shuffle**：是否在每个 epoch 开始时对数据进行打乱。
- **num_workers**：用于数据加载的子进程数量。

#### 示例代码：使用 DataLoader 进行数据迭代

下面是一个使用`DataLoader`进行数据迭代的示例代码：

```python
from torch.utils.data import DataLoader

# 创建 DataLoader
data_loader = DataLoader(dataset=my_dataset, batch_size=2, shuffle=True, num_workers=0)

# 迭代数据
for batch_idx, (data, target) in enumerate(data_loader):
    print('Batch idx:', batch_idx, 'Data:', data, 'Target:', target)
```

通过上述代码，我们将自定义的数据集 `(my_dataset)` 封装成一个 `DataLoader` 对象，并设置批次大小为 2，启用数据打乱。接着，我们通过一个循环遍历 `DataLoader`，以批次为单位读取数据，并输出每个批次的数据和标签。

## 3. Torchvision 常用数据集

### 3.1. Torchvision 简介

`Torchvision`是一个与`PyTorch`配合使用的强大`Python`包，专注于图像处理。它提供了大量的预训练模型、数据集以及用于图像转换和增强的工具，使得图像数据的处理变得更加便捷和高效。通过 Torchvision，我们可以轻松地加载和预处理常用的图像数据集，并利用丰富的图像转换工具来增强数据，从而提升模型的泛化能力。

#### 定义及功能概述

`Torchvision`的核心功能包括：

- **数据集**：内置了多个常用的图像数据集，如 `CIFAR-10`、`MNIST`、`ImageNet` 等，方便我们进行模型的训练和测试。
- **模型**：提供了多种预训练的模型，如 `ResNet`、`AlexNet`、`VGG` 等，可以直接加载使用，或在其基础上进行迁移学习。
- **变换**：包含了丰富的图像转换工具，如裁剪、旋转、缩放等，用于数据增强和预处理。

#### 与 PyTorch 的关系

`Torchvision` 是 `PyTorch` 的一个子库，两者紧密结合，共同构建了一个完整的深度学习生态系统。在使用 `PyTorch` 进行深度学习项目时，`Torchvision` 提供的数据集和工具可以大大简化图像数据的处理流程。

### 3.2. 加载内置数据集

`Torchvision` 内置了多个常用的数据集(有哪些可以看官网：[https://pytorch.org/vision/stable/datasets.html](https://pytorch.org/vision/stable/datasets.html))，用户可以通过简单的 API 调用来加载这些数据集，并进行相应的预处理和增强操作。下面，我们以 `CIFAR-10` 和 `MNIST` 数据集为例，介绍如何加载和预处理这些数据。

#### 介绍常用的数据集

1. **CIFAR-10**：包含 60000 张 32x32 的彩色图像，分为 10 个类别，每类 6000 张图像。常用于图像分类任务的研究。
2. **MNIST**：包含 70000 张手写数字的灰度图像，每张图像大小为 28x28，分为 10 个类别（数字 0-9）。是图像分类任务中最经典的数据集之一。

#### 示例代码：加载和预处理数据集

下面是一个加载 `CIFAR-10` 数据集并进行预处理的示例代码：

```python
import torchvision.transforms as transforms
import torchvision.datasets as datasets
from torch.utils.data import DataLoader

# 定义数据预处理和增强操作
transform = transforms.Compose([
    transforms.ToTensor(),  # 转换为 Tensor
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 归一化
])

# 加载 CIFAR-10 数据集
train_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)

# 创建 DataLoader
train_loader = DataLoader(dataset=train_dataset, batch_size=64, shuffle=True, num_workers=2)
test_loader = DataLoader(dataset=test_dataset, batch_size=64, shuffle=False, num_workers=2)

# 查看数据集大小
print('Number of training samples:', len(train_dataset))
print('Number of test samples:', len(test_dataset))
```

通过上述代码，我们首先定义了一系列数据预处理和增强操作，包括将图像转换为 `Tensor` 格式并进行归一化。接着，利用这些预处理操作加载 `CIFAR-10` 数据集，并创建相应的 `DataLoader` 进行数据迭代。

### 3.3. 自定义数据集与 Torchvision 结合

除了加载内置数据集外，我们还可以将自定义数据集与 `Torchvision` 提供的变换工具结合使用，以实现数据的预处理和增强。

#### 如何结合自定义数据集与 Torchvision 的变换工具

通过继承 `Dataset` 类并结合 `Torchvision` 的 `transforms` 工具，我们可以轻松地对自定义数据集进行处理。下面是一个示例，展示了如何将自定义数据集与 `Torchvision` 的变换工具结合使用。

#### 示例代码：数据增强和变换

```python
from torch.utils.data import Dataset
import torchvision.transforms as transforms
from PIL import Image
import os

class CustomDataset(Dataset):
    def __init__(self, image_dir, transform=None):
        self.image_dir = image_dir
        self.image_list = os.listdir(image_dir)
        self.transform = transform
  
    def __len__(self):
        return len(self.image_list)
  
    def __getitem__(self, idx):
        img_path = os.path.join(self.image_dir, self.image_list[idx])
        image = Image.open(img_path)
      
        if self.transform:
            image = self.transform(image)
      
        return image

# 定义数据增强操作
transform = transforms.Compose([
    transforms.RandomResizedCrop(224),  # 随机裁剪
    transforms.RandomHorizontalFlip(),  # 随机水平翻转
    transforms.ToTensor(),  # 转换为 Tensor
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 归一化
])

# 加载自定义数据集
custom_dataset = CustomDataset(image_dir='./custom_data', transform=transform)

# 创建 DataLoader
custom_loader = DataLoader(dataset=custom_dataset, batch_size=32, shuffle=True, num_workers=2)

# 查看数据集大小
print('Number of custom samples:', len(custom_dataset))
```

通过上述代码，我们定义了一个 `CustomDataset` 类，用于加载和处理自定义数据集。同时，我们使用 `Torchvision` 的 `transforms` 工具定义了一系列数据增强操作，如随机裁剪、随机水平翻转和归一化。最终，我们创建了一个 `DataLoader` 对象，以批次为单位加载自定义数据集。

## 4. 小结

通过本文的学习，我们深入探讨了 `PyTorch` 和 `Torchvision` 在数据读取与处理中的基础知识。我们了解了如何使用 `PyTorch` 的 `Dataset` 和 `DataLoader` 类来实现高效的数据加载和迭代。通过具体的代码示例，我们掌握了如何自定义数据集，并利用 DataLoader 进行批量数据的处理和预处理。

此外，我们还介绍了 `Torchvision` 的核心功能，特别是其提供的常用数据集和丰富的图像转换工具。通过示例代码，我们学会了如何加载和预处理内置的数据集，如 `CIFAR-10` 和 `MNIST`。同时，我们也展示了如何将自定义数据集与 `Torchvision` 的变换工具结合，实现数据增强和预处理。

总结下来，以下是本文的几个关键点：

1. **Dataset 类**：自定义数据集，通过重写 `__init__()`、`__len__()` 和 `__getitem__()` 方法来定义数据的读取方式。
2. **DataLoader 类**：将数据集包装成可迭代对象，支持批量加载、多进程加载和数据打乱等操作，提高数据处理效率。
3. **Torchvision**：提供丰富的预训练模型、数据集和图像转换工具，简化图像数据的处理流程。
4. **数据预处理与增强**：利用 `transforms` 工具实现图像的随机裁剪、水平翻转和归一化等操作，提升模型的泛化能力。

通过对这些内容的学习，我们打下了坚实的基础，为后续的模型训练和优化做好了准备。展望未来，我们将继续深入学习 `PyTorch` 和 `Torchvision` 的高级应用，探索更多实用的技巧和方法，如迁移学习、模型微调和自定义网络结构等。

希望本文能帮助你更好地理解和掌握 `PyTorch` 和 `Torchvision`的基础知识，为你的深度学习之旅添砖加瓦。继续努力，深度学习的世界充满无限可能，期待你的精彩表现！

最后修改：2024 年 07 月 25 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

PyTorch正菜-数据读取(一)

理想家 • 2024 年 07 月 25 日

## 目录

## 1. 引言

## 2. 数据读取的基础知识

### 2.1. PyTorch 的 Dataset 类

#### 定义与作用

#### 必须重写的方法

当我们继承`Dataset`类时，需要重写以下三个方法：

#### 示例代码：自定义数据集

下面是一个简单的例子，展示了如何使用`Dataset`类定义一个`Tensor`类型的数据集。

```python
import torch
from torch.utils.data import Dataset

我们可以通过以下代码来调用刚才定义的数据集：

```python
# 生成数据
data_tensor = torch.randn(10, 3)
target_tensor = torch.randint(2, (10,))  # 标签是0或1

# 将数据封装成Dataset
my_dataset = MyDataset(data_tensor, target_tensor)

# 查看数据集大小
print('Dataset size:', len(my_dataset))
# 输出：Dataset size: 10

# 使用索引调用数据
print('tensor_data[0]: ', my_dataset[0])
# 输出: tensor_data[0]:  (tensor([ 0.4931, -0.5423, 0.9312]), tensor(1))
```

通过上述代码，我们定义并使用了一个自定义的数据集，实现了数据的读取与索引。

### 2.2. PyTorch 的 DataLoader 类

#### 定义与作用

#### 主要参数和方法

`DataLoader`类的主要参数包括：

#### 示例代码：使用 DataLoader 进行数据迭代

下面是一个使用`DataLoader`进行数据迭代的示例代码：

```python
from torch.utils.data import DataLoader

# 创建 DataLoader
data_loader = DataLoader(dataset=my_dataset, batch_size=2, shuffle=True, num_workers=0)

# 迭代数据
for batch_idx, (data, target) in enumerate(data_loader):
    print('Batch idx:', batch_idx, 'Data:', data, 'Target:', target)
```

## 3. Torchvision 常用数据集

### 3.1. Torchvision 简介

#### 定义及功能概述

`Torchvision`的核心功能包括：

#### 与 PyTorch 的关系

### 3.2. 加载内置数据集

#### 介绍常用的数据集

#### 示例代码：加载和预处理数据集

下面是一个加载 `CIFAR-10` 数据集并进行预处理的示例代码：

```python
import torchvision.transforms as transforms
import torchvision.datasets as datasets
from torch.utils.data import DataLoader

# 定义数据预处理和增强操作
transform = transforms.Compose([
    transforms.ToTensor(),  # 转换为 Tensor
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 归一化
])

# 查看数据集大小
print('Number of training samples:', len(train_dataset))
print('Number of test samples:', len(test_dataset))
```

### 3.3. 自定义数据集与 Torchvision 结合

除了加载内置数据集外，我们还可以将自定义数据集与 `Torchvision` 提供的变换工具结合使用，以实现数据的预处理和增强。

#### 如何结合自定义数据集与 Torchvision 的变换工具

#### 示例代码：数据增强和变换

```python
from torch.utils.data import Dataset
import torchvision.transforms as transforms
from PIL import Image
import os

# 加载自定义数据集
custom_dataset = CustomDataset(image_dir='./custom_data', transform=transform)

# 创建 DataLoader
custom_loader = DataLoader(dataset=custom_dataset, batch_size=32, shuffle=True, num_workers=2)

# 查看数据集大小
print('Number of custom samples:', len(custom_dataset))
```

## 4. 小结

总结下来，以下是本文的几个关键点：

PyTorch正菜-数据读取(一)

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

旅行

欢迎使用 Typecho

PyTorch正菜-Tensor（上）

PyTorch一周目（1）启航准备

PyTorch正菜-常用的视觉处理模型

PyTorch正菜-数据读取(一)

PyTorch一周目（1）启航准备

AI大模型有效的提示词技巧（一）

旅行

一文读懂2025年Google I/O大会：AI大爆发，未来已来！🚀

PyTorch正菜-数据读取(一)

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

PyTorch正菜-数据读取(一)

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款