MindSpore 數據加載及處理

本文轉載自查看原文 2021-07-05 19:51 233 MindSpore（深度學習計算框架）

參考地址：

https://www.mindspore.cn/tutorial/zh-CN/r1.2/dataset.html

========================================================

數據集下載：

mkdir -p ./datasets/MNIST_Data/train ./datasets/MNIST_Data/test
wget -NP ./datasets/MNIST_Data/train https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/mnist/train-labels-idx1-ubyte
wget -NP ./datasets/MNIST_Data/train https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/mnist/train-images-idx3-ubyte
wget -NP ./datasets/MNIST_Data/test https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/mnist/t10k-labels-idx1-ubyte
wget -NP ./datasets/MNIST_Data/test https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/mnist/t10k-images-idx3-ubyte
tree ./datasets/MNIST_Data

順序讀取N個樣本：

import mindspore.dataset as ds
from mindspore import dtype as mstype

DATA_DIR = "./datasets/MNIST_Data/train"
sampler = ds.SequentialSampler(num_samples=3)
dataset = ds.MnistDataset(DATA_DIR, sampler=sampler)

for data in dataset.create_dict_iterator():
    print("Image shape: {}".format(data['image'].shape), ", Label: {}".format(data['label']))
    print(data['label'], "\t", data['label'].astype(mstype.float32))

自定義數據集

import mindspore.dataset as ds

import numpy as np

np.random.seed(58)

class DatasetGenerator:
    def __init__(self):
        self.data = np.random.sample((5, 2))
        self.label = np.random.sample((5, 1))

    def __getitem__(self, index):
        return self.data[index], self.label[index]

    def __len__(self):
        return len(self.data)

dataset_generator = DatasetGenerator()
dataset = ds.GeneratorDataset(dataset_generator, ["data", "label"], shuffle=False)

for i, data in enumerate(dataset.create_dict_iterator()):
    print("第 %d 個樣本"%i)
    print('{}'.format(data["data"]), '{}'.format(data["label"]))

對自定義數據集進行一定預處理：

import mindspore.dataset as ds

import numpy as np

np.random.seed(58)

class DatasetGenerator:
    def __init__(self):
        self.data = np.random.sample((5, 2))
        self.label = np.random.sample((5, 1))

    def __getitem__(self, index):
        return self.data[index], self.label[index]

    def __len__(self):
        return len(self.data)


dataset_generator = DatasetGenerator()
dataset = ds.GeneratorDataset(dataset_generator, ["data", "label"], shuffle=False)

# 隨機打亂數據順序
dataset = dataset.shuffle(buffer_size=10)
# 對數據集進行分批
dataset = dataset.batch(batch_size=2)

for i, data in enumerate(dataset.create_dict_iterator()):
    print("第 %d 次選取樣本"%i)
    print("data: \n{}".format(data["data"]))
    print("label: \n{}".format(data["label"]))

數據處理及增強

import matplotlib.pyplot as plt

import mindspore.dataset as ds
from mindspore.dataset.vision import Inter
import mindspore.dataset.vision.c_transforms as c_vision


DATA_DIR = './datasets/MNIST_Data/train'
_number_samples = 3

mnist_dataset = ds.MnistDataset(DATA_DIR, num_samples=_number_samples, shuffle=False)

resize_op = c_vision.Resize(size=(200,200), interpolation=Inter.LINEAR)
crop_op = c_vision.RandomCrop(150)     # 隨機將圖像裁剪成150尺寸
transforms_list = [resize_op, crop_op]
mnist_dataset = mnist_dataset.map(operations=transforms_list, input_columns=["image"])

# 查看數據原圖
mnist_it = mnist_dataset.create_dict_iterator()

for _ in range(_number_samples):
    data = next(mnist_it)
    print(type(data['image']), data['image'].shape)

    plt.imshow(data['image'].asnumpy().squeeze(), cmap=plt.cm.gray)
    plt.title(data['label'].asnumpy(), fontsize=20)
    plt.show()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MindSpore保存與加載模型 MindSpore 框架的官方預訓練模型的加載 —— MindSpore / hub 的安裝 selenium處理動態加載數據處理頁面動態加載數據 Spark在處理數據的時候，會將數據都加載到內存再做處理嗎？關於ElementUI的table滾動加載數據的處理 Impala數據處理（加載和存儲） MindSpore 初探，使用LeNet訓練minist數據集 CentOS 7.6 aarch64系統源碼編譯安裝mindspore問題處理經驗分享什么是pytorch（4.數據集加載和處理）(翻譯)