【貓狗數據集】讀取數據集的第二種方式

import os
from glob import glob 
root="/content/drive/My Drive/colab notebooks/data/dogcat/"
train_path=root+"train"
val_path=root+"val"
test_path=root+"test"
def img_to_txt(path):
  tmp=path.strip().split("/")[-1]
  filename=tmp+".txt"
  with open(filename,'a',encoding="utf-8") as fp:
    i=0
    for f in sorted(os.listdir(path)):
      for image in glob(path+"/"+str(f)+"/*.jpg"):
        fp.write(image+" "+str(i)+"\n")
      i+=1
img_to_txt(train_path)
#img_to_txt(val_path)#img_to_txt(test_path)

其中os.listdir()用於獲取路徑下的文件夾列表，['cat','dog']。glob()用於獲取目錄下的所有匹配的文件。為了能夠按順序對類別進行數字標記，需要對目錄列表進行排序。然后我們將cat標記為0，dog標記為1。並將圖片對應的路徑和標簽加入到txt中。

運行之后得到類似的結果：

然后我們要實現自己定義的數據集類，需要繼承Dataset類，並重寫__getitem__()和__len__()方法：在utils下新建一個read_from_txt.py文件

from torch.utils.data import Dataset
from PIL import Image

class Dogcat(Dataset):
  def __init__(self,txt_path,transform=None,target_transform=None):
    super(Dogcat,self).__init__()
    self.txt_path=txt_path
    self.transform=transform
    self.target_transform=target_transform
    fp=open(txt_path,'r')
    imgs=[]
    for line in fp:
      line=line.strip().split()
      #print(line)
      img=line[0]+" "+line[1]+" "+line[2]
      #['/content/drive/My', 'Drive/colab', 'notebooks/data/dogcat/train/cat/cat.9997.jpg', '0']
      #imgs.append((line[0],int(line[-1])))
      imgs.append((img,int(line[-1])))
      self.imgs=imgs
  def __getitem__(self,index):
    image,label=self.imgs[index]
    image=Image.open(image).convert('RGB')
    if self.transform is not None:
      image=self.transform(image)
    return image,label
  def __len__(self):
    return len(self.imgs)

由於我們的路徑中含有空格，在截取圖像的路徑和標簽時需要注意。

之后在rdata.py中

from torch.utils.data import DataLoader
import torchvision
import torchvision.transforms as transforms
import torch
from utils import read_from_txt

def load_dataset_from_dataset(batch_size):
    #預處理
  print(batch_size)
  train_transform = transforms.Compose([transforms.RandomResizedCrop(224),transforms.ToTensor()])
  val_transform = transforms.Compose([transforms.Resize((224,224)),transforms.ToTensor()])
  test_transform = transforms.Compose([transforms.Resize((224,224)),transforms.ToTensor()])
  root="/content/drive/My Drive/colab notebooks/utils/"
  train_loader = DataLoader(read_from_txt.Dogcat(root+"train.txt",train_transform), batch_size=batch_size, shuffle=True, num_workers=6)
  val_loader = DataLoader(read_from_txt.Dogcat(root+"val.txt",val_transform), batch_size=batch_size, shuffle=True, num_workers=6)
  test_loader = DataLoader(read_from_txt.Dogcat(root+"test.txt",test_transform), batch_size=batch_size, shuffle=True, num_workers=6)
  return train_loader,val_loader,test_loader

然后在main.py中就可以使用了。

 train_loader,val_loader,test_loader=rdata.load_dataset_from_dataset(batch_size)

報錯了查看下train.txt發現有重復命名的文件，將這些重復的文件進行刪除。

最后運行：

最后到這報錯了：

圖像地址都還沒讀取完畢就加入到DataLoader中了？線程不安全？還未找到解決方法。不過總體上創建數據集的過程就是這樣的。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 貓狗數據集【貓狗數據集】谷歌colab之使用pytorch讀取自己數據集（貓狗數據集）【貓狗數據集】pytorch訓練貓狗數據集之創建數據集【貓狗數據集】kaggle之貓狗數據集下載【貓狗數據集】划分驗證集並邊訓練邊驗證 PaddlePaddle之貓狗大戰(本地數據集) 【貓狗數據集】加載保存的模型進行測試【貓狗數據集】計算數據集的平均值和方差【貓狗數據集】對一張張圖像進行預測（而不是測試集） Pytorch數據集讀取