PyTorch筆記之 Dataset 和 Dataloader

本文轉載自查看原文 2019-11-27 20:58 3583 PyTorch

簡介

在 PyTorch 中，我們的數據集往往會用一個類去表示，在訓練時用 Dataloader 產生一個 batch 的數據

https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html#sphx-glr-beginner-blitz-cifar10-tutorial-py

比如官方例子中對 CIFAR10 圖像數據集進行分類，就有用到這樣的操作，具體代碼如下所示

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
                                          shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False,
                                       download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4,
                                         shuffle=False, num_workers=2)

簡單說，用一個類抽象地表示數據集，而 Dataloader 作為迭代器，每次產生一個 batch 大小的數據，節省內存

Dataset

Dataset 是 PyTorch 中用來表示數據集的一個抽象類，我們的數據集可以用這個類來表示，至少覆寫下面兩個方法即可

這返回數據前可以進行適當的數據處理，比如將原文用一串數字序列表示

__len__：數據集大小
__getitem__：實現這個方法后，可以通過下標的方式（ dataset[i] ）的來取得第 $i$ 個數據

下面我們來為編寫一個類表示一個情感二分類數據集，繼續用蘇神整理的數據集

https://github.com/bojone/bert4keras/tree/master/examples/datasets

數據集沒有表頭，只有2列，一列是評論（文本），另一列是標簽，以制表符進行分隔

from torch.utils.data import Dataset, DataLoader
import pandas as pd

class SentimentDataset(Dataset):
    def __init__(self, path_to_file):
        self.dataset = pd.read_csv(path_to_file, sep="\t", names=["text", "label"])
    def __len__(self):
        return len(self.dataset)
    def __getitem__(self, idx):
        text = self.dataset.loc[idx, "text"]
        label = self.dataset.loc[idx, "label"]
        sample = {"text": text, "label": label}
        return sample

Dataloader

基本使用

Dataloader 就是一個迭代器，最基本的使用就是傳入一個 Dataset 對象，它就會根據參數 batch_size 的值生成一個 batch 的數據

if __name__ == "__main__":
    sentiment_dataset = SentimentDataset("sentiment.test.data")
    sentiment_dataloader = DataLoader(sentiment_dataset, batch_size=4, shuffle=True, num_workers=2)
    for idx, batch_samples in enumerate(sentiment_dataloader):
        text_batchs, text_labels = batch_samples["text"], batch_samples["label"]
        print(text_batchs)

Sampler

PyTorch 提供了 Sampler 模塊，用來對數據進行采樣，可以在 DataLoader 的通過 sampler 參數調用

一般我們的加載訓練集的 dataloader ，shuffle參數都會設置為True ，這時候使用了一個默認的采樣器——RandomSampler

當 shuffle 設置為 False 時，默認使用的是 SequencetialSampler，其實就是按順序取出數據集中的元素

在 PyTorch 中默認實現了以下 Sampler，如果我們要使用別的 Sampler， shuffle 要設置為 False

SequentialSampler
RandomSampler
WeightedSampler
SubsetRandomSampler

SubsetRandomSampler 常用來將數據集划分為訓練集和測試集，比如這里就訓練集和測試集按7:3 進行分割

n_train = len(sentiment_train_set)
split = n_train // 3

indices = list(range(n_train))
train_sampler = torch.utils.data.sampler.SubsetRandomSampler(indices[split:])
valid_sampler = torch.utils.data.sampler.SubsetRandomSampler(indices[:split])

train_loader = DataLoader(sentiment_train_set, sampler=train_sampler, shuffle=False)
valid_loader = DataLoader(sentiment_train_set, sampler=valid_sampler, shuffle=False)

具體推薦下面的博文，講得挺詳細的

一文弄懂Pytorch的DataLoader, DataSet, Sampler之間的關系

https://www.cnblogs.com/marsggbo/p/11541054.html

Pytorch Sampler詳解

https://www.cnblogs.com/marsggbo/p/11541054.html

collate_fn

可以用來進行一些數據處理，比如在文本任務中，一般由於文本長度不一致，我們需要進行截斷或者填充。對於圖片，我們則希望它們有同樣的尺寸

我么可以編寫一個函數，然后用這個參數調用它，下面是一個簡單的例子，我們把文本截斷成只有10個字符

def truncate(data_list):
  """傳進一個batch_size大小的數據"""
  for data in data_list:
    text = data["text"]
    data["text"]=text[:10]
  return data_list

test_loader = DataLoader(sentiment_train_set, batch_size=batch_size, shuffle=True, num_workers=2, collate_fn=truncate)

我們可以看看返回的內容是否已經經過截斷了

for i in test_loader:
  print(i)
  break

這時候返回的是一個列表而不是字典了，其中一個 batch 的返回結果如下，我們可以看到這里一個樣本放在了一個字典中

[{'text': '看了一個通宵，實在是', 'label': 1}, 。。。, {'text': '看了攜程的其他用戶評', 'label': 0}]

下面是沒有使用 collate_fn 的返回結果，它會將數據和標簽分開，存放在一起，如下所示

{

'text':['3月1號訂的,3月15號還沒到貨客服每天說下個工作日能到貨已經連續5天了我無語。想早點兒看這本書的人還是去陶寶或卓越上訂吧,尤其是廣東省的朋友.當當送貨太沒保證了.',。。。, '非常純朴的故事,但包含了主人公坎坷的一生,活着就是痛苦,不得不佩服生命的韌性'],

'label': tensor([1, 。。。, 0])

}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pytorch Dataset和Dataloader 學習筆記(二) Pytorch：Dataloader和Dataset以及搭建數據部分的步驟 Pytorch入門上 —— Dataset、Tensorboard、Transforms、Dataloader Dataset 和 DataLoader 詳解 PyTorch DataLoader()使用 Pytorch 重寫Dataloader pytorch遍歷兩個dataloader pytorch dataloader num_workers Pytorch中dataloader之enumerate與iter，tqdm Pytorch 中 Dataset 類的使用