PyTorch正菜-数据读取(二)

博主：理想家
发布时间：2024 年 07 月 25 日
167 次浏览
暂无评论
6747字数
分类：分享

## 目录

```python
1. 引言
2. Torchvision.transforms 概述
3. 数据类型转换
  3.1. 从 PIL.Image 转换为 Tensor
  3.2. 从 Tensor 转换为 PIL.Image
4. 图像变换与增强
  4.1. 常见变换操作介绍：裁切、旋转、缩放等。
  4.2. 数据增强的重要性和具体方法。
5. 实战示例
  5.1. 代码示例
  5.2. 详细解析示例代码的步骤与注意事项。
6. 总结
```

## 1. 引言

上一章，我们一同迈出了训练开始的第一步——数据读取，初步认识了 Torchvision，学习了如何利用 Torchvision 读取数据。不过，仅仅将数据集中的图片读取出来是不够的。在训练的过程中，神经网络模型接收的数据类型是 Tensor，而不是 PIL 对象，因此我们还需要对数据进行预处理操作，比如图像格式的转换。

与此同时，加载后的图像数据可能还需要进行一系列图像变换与增强操作，例如裁切边框、调整图像比例和大小、标准化等，以便模型能够更好地学习到数据的特征。这些操作都可以使用 `torchvision.transforms` 工具完成。

今天我们就来学习一下，利用 Torchvision 如何进行数据预处理操作，如何进行图像变换与增强。

## 2. Torchvision.transforms 概述

Torchvision 是 PyTorch 生态系统中的一个重要组件，专门用于处理计算机视觉任务。它提供了丰富的工具和功能，使我们能够方便地处理和增强图像数据。而在这些工具中，`torchvision.transforms` 包是专门用来进行图像变换和预处理操作的。

`torchvision.transforms` 提供了一系列常用的图像操作，可以对 Tensor 和 PIL Image 对象进行变换。这些操作包括但不限于数据类型转换、图像裁剪、旋转、缩放、归一化等。通过合理地使用这些变换操作，我们可以有效地增强训练数据，提高模型的鲁棒性和泛化能力。

根据功能的不同，`torchvision.transforms` 提供的操作大致可以分为以下几类：

1. **数据类型转换**

- 将 PIL.Image 或 Numpy.ndarray 格式的数据转换为 Tensor 格式。
   - 将 Tensor 或 Numpy.ndarray 格式的数据转换为 PIL.Image 格式。
2. **图像变换**

- 对 PIL.Image 和 Tensor 进行各种变换操作，例如裁切、旋转、缩放等。
3. **变换的组合**

- 通过 `transforms.Compose` 将多个变换操作组合在一起，形成一个变换流水线，简化数据预处理流程。

通过掌握这些操作，我们可以灵活地对图像数据进行处理，使其更加适合模型训练。下面我们将逐一介绍这些变换操作的具体使用方法和注意事项。

## 3. 数据类型转换

在之前的博文中，我们学习了如何读取数据集中的图片，读取到的数据通常是 PIL.Image 对象。然而，在模型训练阶段，需要传入 Tensor 类型的数据，神经网络才能进行运算。因此，如何在 PIL.Image 和 Tensor 类型之间进行转换是我们首先需要解决的问题。

### 3.1. 从 PIL.Image 转换为 Tensor

为了将 PIL.Image 或 Numpy.ndarray 格式的数据转换为 Tensor 格式，我们使用 `transforms.ToTensor()` 类。该变换将图像的像素值从 [0, 255] 的范围缩放到 [0.0, 1.0]，并将其转换为形状为 (C, H, W) 的 Tensor，其中 C 代表通道数，H 代表高度，W 代表宽度。

示例代码：

```python
from torchvision import transforms
from PIL import Image

# 打开一张图片
image = Image.open('path_to_image.jpg')

# 定义转换操作
to_tensor = transforms.ToTensor()

# 应用转换
tensor_image = to_tensor(image)

# 查看结果
print(tensor_image.size())
```

### 3.2. 从 Tensor 转换为 PIL.Image

相反的操作，即将 Tensor 或 Numpy.ndarray 格式的数据转换为 PIL.Image 格式，可以使用 `transforms.ToPILImage(mode=None)` 类。这个转换是 `ToTensor` 的逆操作，能够把 Tensor 或 Numpy 数组转换成 PIL.Image 对象。参数 `mode` 代表 PIL.Image 的模式，如果 `mode` 为 None（默认值），则根据输入数据的维度进行推断：

- 输入为 3 通道：mode 为 ‘RGB’；
- 输入为 4 通道：mode 为 ‘RGBA’。

示例代码：

```python
from torchvision import transforms
import torch

# 创建一个随机的 Tensor
tensor = torch.randn(3, 128, 128)

# 定义转换操作
to_pil = transforms.ToPILImage()

# 应用转换
pil_image = to_pil(tensor)

# 显示结果
pil_image.show()
```

通过这些转换操作，我们可以在 PIL.Image 和 Tensor 格式之间灵活切换，满足不同阶段的需求。接下来，我们将介绍更多的图像变换和增强操作。

## 4. 图像变换与增强

在图像处理和神经网络训练过程中，对图像进行变换和增强操作是非常重要的。图像变换可以帮助我们调整图像的尺寸、角度等，而数据增强则可以通过随机变换增加数据的多样性，提高模型的泛化能力。`torchvision.transforms` 提供了一系列常见的图像变换与增强操作，下面我们将详细介绍这些操作。

### 4.1. 裁切操作

裁切操作可以帮助我们从图像中提取出感兴趣的区域，或者通过随机裁剪增加数据的多样性。

- `transforms.RandomCrop(size)`: 从图像中随机裁剪一个区域。参数 `size` 指定裁剪区域的大小。

```python
transform = transforms.RandomCrop(100)
cropped_image = transform(image)
```

- `transforms.CenterCrop(size)`: 从图像的中心裁剪一个区域。参数 `size` 指定裁剪区域的大小。

```python
transform = transforms.CenterCrop(100)
center_cropped_image = transform(image)
```

### 4.2. 旋转操作

旋转操作可以帮助我们增加数据的多样性，特别是在处理具有不同方向性的图像时。

- `transforms.RandomRotation(degrees)`: 随机旋转一定角度。参数 `degrees` 可以是一个数值或一个范围，例如 `(0, 30)` 表示在 0 到 30 度之间随机旋转。

```python
transform = transforms.RandomRotation(30)
rotated_image = transform(image)
```

### 4.3. 缩放操作

缩放操作可以帮助我们调整图像的大小，使其符合模型的输入要求。

- `transforms.Resize(size)`: 将图像缩放到指定大小。参数 `size` 可以是一个数值或一个二元组 (width, height)。

```python
transform = transforms.Resize((128, 128))
resized_image = transform(image)
```

- `transforms.RandomResizedCrop(size)`: 随机裁剪并缩放到指定大小。参数 `size` 指定最终输出的大小。

```python
transform = transforms.RandomResizedCrop(128)
resized_cropped_image = transform(image)
```

### 4.4. 归一化操作

归一化操作可以帮助我们将图像像素值标准化到某个范围，通常是在训练神经网络时使用。

- `transforms.Normalize(mean, std)`: 使用指定的均值和标准差对图像进行归一化。参数 `mean` 和 `std` 分别是每个通道的均值和标准差。

```python
transform = transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
normalized_image = transform(tensor_image)
```

### 4.5. 组合变换

通过 `transforms.Compose` 可以将多个变换操作组合在一起，形成一个变换流水线。

```python
transform = transforms.Compose([
    transforms.Resize((128, 128)),
    transforms.RandomCrop(100),
    transforms.RandomRotation(30),
    transforms.ToTensor()
])
transformed_image = transform(image)
```

通过这些变换和增强操作，我们可以有效地处理和增强图像数据，为模型训练提供更优质的输入数据。接下来，我们将通过一个实战示例来展示如何使用 `torchvision.transforms` 进行数据预处理和变换。

## 5. 实战示例

在这一部分，我们将通过一个实际的代码示例，展示如何使用 `torchvision.transforms` 进行数据预处理和图像变换。我们将从读取图像开始，依次进行各种变换操作，最后将处理后的图像转换为模型可以接受的 Tensor 格式。

### 5.1. 示例代码

首先，我们需要导入必要的库并加载一张图片：

```python
import torchvision.transforms as transforms
from PIL import Image
import matplotlib.pyplot as plt

# 加载图像
image = Image.open('path_to_image.jpg')
plt.imshow(image)
plt.title('Original Image')
plt.show()
```

接下来，我们定义一系列变换操作，包括缩放、裁剪、旋转和归一化等，并将它们组合在一起：

```python
# 定义变换操作
transform = transforms.Compose([
    transforms.Resize((128, 128)),              # 缩放到 128x128
    transforms.RandomCrop(100),                 # 随机裁剪 100x100
    transforms.RandomRotation(30),              # 随机旋转 30 度
    transforms.ToTensor(),                      # 转换为 Tensor
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 归一化
])
```

然后，我们将定义好的变换操作应用到加载的图像上：

```python
# 应用变换
transformed_image = transform(image)

# 查看结果
print(transformed_image.size())

# 可视化变换后的图像
transformed_image_show = transforms.ToPILImage()(transformed_image)
plt.imshow(transformed_image_show)
plt.title('Transformed Image')
plt.show()
```

### 5.2. 解析示例代码

1. **加载图像**：

- 我们首先使用 `PIL` 库加载一张图片，并通过 `matplotlib` 显示原始图像。
2. **定义变换操作**：

- `transforms.Resize((128, 128))`: 将图像缩放到 128x128 像素。
   - `transforms.RandomCrop(100)`: 从图像中随机裁剪一个 100x100 的区域。
   - `transforms.RandomRotation(30)`: 随机旋转图像，最大旋转角度为 30 度。
   - `transforms.ToTensor()`: 将图像转换为 Tensor，并将像素值归一化到 [0, 1] 的范围。
   - `transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])`: 使用预定义的均值和标准差对图像进行归一化。
3. **应用变换**：

- 使用 `transform(image)` 将定义好的变换操作依次应用到加载的图像上。
   - 打印变换后的图像尺寸，并使用 `matplotlib` 显示变换后的图像。

通过这个示例，我们展示了如何利用 `torchvision.transforms` 对图像数据进行预处理和变换。使用这些操作，我们可以方便地处理图像数据，使其更加适合模型的输入要求，同时通过数据增强技术提高模型的泛化能力。

## 6. 总结

在本文中，我们学习了如何利用 `torchvision.transforms` 进行数据预处理、图像变换与增强操作。掌握这些技能对于训练高效的神经网络模型至关重要。通过一系列的变换操作，我们不仅能够将数据调整到合适的格式，还可以通过数据增强技术提升模型的泛化能力。

我们具体学习了以下内容：

1. **数据类型转换**：如何将 PIL.Image 转换为 Tensor，以及如何将 Tensor 转换回 PIL.Image。
2. **图像变换与增强**：包括裁切、旋转、缩放和归一化等常见的图像变换操作。
3. **实战示例**：通过一个具体的代码示例，演示了如何组合和应用这些变换操作。

了解并熟练应用这些变换操作，不仅可以帮助我们更好地处理图像数据，还能有效地提升模型的训练效果和性能。

最后修改：2024 年 07 月 25 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

PyTorch正菜-数据读取(二)

理想家 • 2024 年 07 月 25 日

## 目录

## 1. 引言

今天我们就来学习一下，利用 Torchvision 如何进行数据预处理操作，如何进行图像变换与增强。

## 2. Torchvision.transforms 概述

根据功能的不同，`torchvision.transforms` 提供的操作大致可以分为以下几类：

1. **数据类型转换**

- 将 PIL.Image 或 Numpy.ndarray 格式的数据转换为 Tensor 格式。
   - 将 Tensor 或 Numpy.ndarray 格式的数据转换为 PIL.Image 格式。
2. **图像变换**

- 对 PIL.Image 和 Tensor 进行各种变换操作，例如裁切、旋转、缩放等。
3. **变换的组合**

- 通过 `transforms.Compose` 将多个变换操作组合在一起，形成一个变换流水线，简化数据预处理流程。

通过掌握这些操作，我们可以灵活地对图像数据进行处理，使其更加适合模型训练。下面我们将逐一介绍这些变换操作的具体使用方法和注意事项。

## 3. 数据类型转换

### 3.1. 从 PIL.Image 转换为 Tensor

示例代码：

```python
from torchvision import transforms
from PIL import Image

# 打开一张图片
image = Image.open('path_to_image.jpg')

# 定义转换操作
to_tensor = transforms.ToTensor()

# 应用转换
tensor_image = to_tensor(image)

# 查看结果
print(tensor_image.size())
```

### 3.2. 从 Tensor 转换为 PIL.Image

- 输入为 3 通道：mode 为 ‘RGB’；
- 输入为 4 通道：mode 为 ‘RGBA’。

示例代码：

```python
from torchvision import transforms
import torch

# 创建一个随机的 Tensor
tensor = torch.randn(3, 128, 128)

# 定义转换操作
to_pil = transforms.ToPILImage()

# 应用转换
pil_image = to_pil(tensor)

# 显示结果
pil_image.show()
```

通过这些转换操作，我们可以在 PIL.Image 和 Tensor 格式之间灵活切换，满足不同阶段的需求。接下来，我们将介绍更多的图像变换和增强操作。

## 4. 图像变换与增强

### 4.1. 裁切操作

裁切操作可以帮助我们从图像中提取出感兴趣的区域，或者通过随机裁剪增加数据的多样性。

- `transforms.RandomCrop(size)`: 从图像中随机裁剪一个区域。参数 `size` 指定裁剪区域的大小。

```python
transform = transforms.RandomCrop(100)
cropped_image = transform(image)
```

- `transforms.CenterCrop(size)`: 从图像的中心裁剪一个区域。参数 `size` 指定裁剪区域的大小。

```python
transform = transforms.CenterCrop(100)
center_cropped_image = transform(image)
```

### 4.2. 旋转操作

旋转操作可以帮助我们增加数据的多样性，特别是在处理具有不同方向性的图像时。

- `transforms.RandomRotation(degrees)`: 随机旋转一定角度。参数 `degrees` 可以是一个数值或一个范围，例如 `(0, 30)` 表示在 0 到 30 度之间随机旋转。

```python
transform = transforms.RandomRotation(30)
rotated_image = transform(image)
```

### 4.3. 缩放操作

缩放操作可以帮助我们调整图像的大小，使其符合模型的输入要求。

- `transforms.Resize(size)`: 将图像缩放到指定大小。参数 `size` 可以是一个数值或一个二元组 (width, height)。

```python
transform = transforms.Resize((128, 128))
resized_image = transform(image)
```

- `transforms.RandomResizedCrop(size)`: 随机裁剪并缩放到指定大小。参数 `size` 指定最终输出的大小。

```python
transform = transforms.RandomResizedCrop(128)
resized_cropped_image = transform(image)
```

### 4.4. 归一化操作

归一化操作可以帮助我们将图像像素值标准化到某个范围，通常是在训练神经网络时使用。

- `transforms.Normalize(mean, std)`: 使用指定的均值和标准差对图像进行归一化。参数 `mean` 和 `std` 分别是每个通道的均值和标准差。

```python
transform = transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
normalized_image = transform(tensor_image)
```

### 4.5. 组合变换

通过 `transforms.Compose` 可以将多个变换操作组合在一起，形成一个变换流水线。

## 5. 实战示例

### 5.1. 示例代码

首先，我们需要导入必要的库并加载一张图片：

```python
import torchvision.transforms as transforms
from PIL import Image
import matplotlib.pyplot as plt

# 加载图像
image = Image.open('path_to_image.jpg')
plt.imshow(image)
plt.title('Original Image')
plt.show()
```

接下来，我们定义一系列变换操作，包括缩放、裁剪、旋转和归一化等，并将它们组合在一起：

然后，我们将定义好的变换操作应用到加载的图像上：

```python
# 应用变换
transformed_image = transform(image)

# 查看结果
print(transformed_image.size())

# 可视化变换后的图像
transformed_image_show = transforms.ToPILImage()(transformed_image)
plt.imshow(transformed_image_show)
plt.title('Transformed Image')
plt.show()
```

### 5.2. 解析示例代码

1. **加载图像**：

- 我们首先使用 `PIL` 库加载一张图片，并通过 `matplotlib` 显示原始图像。
2. **定义变换操作**：

- 使用 `transform(image)` 将定义好的变换操作依次应用到加载的图像上。
   - 打印变换后的图像尺寸，并使用 `matplotlib` 显示变换后的图像。

## 6. 总结

我们具体学习了以下内容：

了解并熟练应用这些变换操作，不仅可以帮助我们更好地处理图像数据，还能有效地提升模型的训练效果和性能。

PyTorch正菜-数据读取(二)

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

旅行

欢迎使用 Typecho

PyTorch正菜-Tensor（上）

PyTorch正菜-数据读取(一)

PyTorch一周目（1）启航准备

一些照片

一个矛盾的故事

AI大模型有效的提示词技巧（一）

欢迎使用 Typecho

另一种使用rag知识检索的方式

PyTorch正菜-数据读取(二)

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

PyTorch正菜-数据读取(二)

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款