將數據加載到網絡

本文轉載自查看原文 2018-03-15 17:48 1039 深度學習框架/ mxnet

訓練一個機器學習深度學習模型一般可以簡單概括為以下三個步驟：

准備數據
定義網絡結構
訓練

我們可以把整個過程用下面的一個Pipeline圖例來表示。

其中的reader就主要負責把數據按一定的格式feed到深度學習網絡的輸入層上。不同的深度學習框架對為放進網絡中的數據格式要求不一樣。在MXNet中對於Module的訓練與推理接口要求的數據都是一個data iterator。下面我們會詳細來介紹MXNet中的Data Iterator。

MXNet Data Iterator

MXNet里的Date Iterators與Python中的iterator object非常類似。在Python中，有一類被稱為iterable的對象，它允許我們使用其中的next方法來順序的抽取元素，比如list。迭代法器提供了一種遍歷整個容器的簡便方法，而不用關心容器具體的內容。

在MXNet中，data iterators每次返回一個DataBatch。一個DataBatch一般包含n個訓練樣本以及它們對應的標簽。這里的n一般等於指定的batch size，當整個數據流迭代到尾巴，沒有更多的數據返回時，迭代器將返回一個StopIteration的異常。DataBatch里包含了一些關於樣本的信息：名稱，形狀，數據類型以及內在布局，可以通過provide_data和provide_label這兩個訪法返回的DataDesc對象來獲取。

所有MXNet關於IO的處理都是由mx.io.DataIter以及它的子類來完成的。

下面我們通過使用幾個典型的DataIter來說明它的用法。

從內存中讀取數據

當數據是在內存中，以NDArray或者numpy中的ndarray的形式存在時，我們可以使用NDArrayIter來讀取。

import mxnet as mx
%matplotlib inline
import os
import sys
import subprocess
import numpy as np
import matplotlib.pyplot as plt
import tarfile

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

import numpy as np
data = np.random.rand(100,3)
label = np.random.randint(0, 10, (100,))
data_iter = mx.io.NDArrayIter(data=data, label=label, batch_size=30)
for batch in data_iter:
    print([batch.data, batch.label, batch.pad])

從CSV文件中讀取數據

MXNet提供了CSVIter來方便使用者直接從一個CSV文件中讀取數據

#lets save `data` into a csv file first and try reading it back
np.savetxt('data.csv', data, delimiter=',')
data_iter = mx.io.CSVIter(data_csv='data.csv', data_shape=(3,), batch_size=30)
for batch in data_iter:
    print([batch.data, batch.pad])

自定義一個數據迭代器

當MXNet提供的一些數據迭代器不滿足我們的需求時，我們可以自己寫一個數據迭代器。那么一個數據迭代器的對象，一定要包括下面幾個方法：

實現__next()__(python3)，該方法返回一個DataBatch對象，並且當沒有剩余數據時，返回一個StopIteration的異常
實現reset()方法用於重置數據讀取到開始的位置
提供了provide_data屬性，它是一個DataDesc對象的list，存儲了數據的名稱，形狀，數據類型及內在布局信息。
提供了provide_label屬性，它是一個DataDesc對象的list，存儲了標簽的名稱，形狀，數據類型及內在布局信息。

當我們創建一個新的iterator時，我們可以選擇從頭創建，也可以選擇從一個已經存在的迭代器那擴展。比如果我們要做圖像描述(image captioning)的應用。那輸入的數據是圖像，而對應的Label是一個句子。那我們可以使用ImageRecordIter創建一個image_iter，然后通過NDArrayIter創建一個caption_iter。我們的nxet()方法將返回image_iter.next()與caption_iter.next()的一個合並。

下面是我們自定義的一個迭代器。

class SimpleIter(mx.io.DataIter):
    def __init__(self, data_names, data_shapes, data_gen,
                 label_names, label_shapes, label_gen, num_batches=10):
        self._provide_data = list(zip(data_names, data_shapes))
        self._provide_label = list(zip(label_names, label_shapes))
        self.num_batches = num_batches
        self.data_gen = data_gen
        self.label_gen = label_gen
        self.cur_batch = 0

    def __iter__(self):
        return self

    def reset(self):
        self.cur_batch = 0

    def __next__(self):
        return self.next()

    @property
    def provide_data(self):
        return self._provide_data

    @property
    def provide_label(self):
        return self._provide_label

    def next(self):
        if self.cur_batch < self.num_batches:
            self.cur_batch += 1
            data = [mx.nd.array(g(d[1])) for d,g in zip(self._provide_data, self.data_gen)]
            label = [mx.nd.array(g(d[1])) for d,g in zip(self._provide_label, self.label_gen)]
            return mx.io.DataBatch(data, label)
        else:
            raise StopIteration

Record IO

Record IO是MXNet為了數據IO設計的一種文件格式。它將數據打包成一種十分便於在分布式存儲系統，如HDFS和AWS S3上進行高效讀取的數據塊。MXNet提供了MXRecordIO用於順序數據存儲的情況，提供了MXIndexedRecordIO用於隨機數據存取的情況。

MXRecordIO

我們先通過一個例子說明MXRecordIO用於順序數據讀寫的用法。

def str_or_bytes(str):
    """
    A utility function for this tutorial that helps us convert string 
    to bytes if we are using python3.

    Parameters
    ----------
    str : string

    Returns
    -------
    string (python2) or bytes (python3)
    """
    if sys.version_info[0] < 3:
        return str
    else:
        return bytes(str, 'utf-8')

我們將幾個連續的字符串寫到一個以.rec結尾的文件中

record = mx.recordio.MXRecordIO('tmp.rec', 'w')
for i in range(5):
    record.write(str_or_bytes('record_%d'%i))

record.close()

我們再從一個.rec文件中來順序的讀取

record = mx.recordio.MXRecordIO('tmp.rec', 'r')
while True:
    item = record.read()
    if not item:
        break
    print (item)
record.close()

不同與MXRecordIO對象，我們只能不斷的調用read()方法來順序的獲取里面的數據。MXIndexedRecordIO可以隨機的訪問。

record = mx.recordio.MXIndexedRecordIO('tmp.idx', 'tmp.rec', 'w')
for i in range(5):
    record.write_idx(i, str_or_bytes('record_%d'%i))

record.close()

record = mx.recordio.MXIndexedRecordIO('tmp.idx', 'tmp.rec', 'r')
record.read_idx(3)

# 也可以單獨的把index輸出出來
record.keys

打包和解包

我們放到RecordIO里面包含的是一個個pack，它可以是任何二進制數據。但是對於大部分深度學習的任務來說，我們往往需要的是數據/標簽這樣的格式。mx.recordio提供了一些接口函數來進行這些操作。

Packing/Unpacking Binary Data

# pack
data = 'data'
label1 = 1.0
header1 = mx.recordio.IRHeader(flag=0, label=label1, id=1, id2=0)
s1 = mx.recordio.pack(header1, str_or_bytes(data))

label2 = [1.0, 2.0, 3.0]
header2 = mx.recordio.IRHeader(flag=3, label=label2, id=2, id2=0)
s2 = mx.recordio.pack(header2, str_or_bytes(data))

# unpack
print(mx.recordio.unpack(s1))
print(mx.recordio.unpack(s2))

Packing/Unpacking Image Data

data = np.ones((3,3,1), dtype=np.uint8)
label = 1.0
header = mx.recordio.IRHeader(flag=0, label=label, id=0, id2=0)
s = mx.recordio.pack_img(header, data, quality=100, img_fmt='.jpg')

# unpack_img
print(mx.recordio.unpack_img(s))

圖像IO

當我們做計算機視頻方面的應用時，要處理的大部分數據都是圖像與視頻（也會拆成視頻幀處理）。所以我們這個小節重點介紹在MXNet中是如何處理輸入數據為圖像的場景的。

有4種方法可以讓我們選擇來把數據加載到MXNet中

使用mx.image.imdecode來加載原始的圖像數據
使用mx.img.ImageIter它是用Python來實現的，比較靈活，方便我們修改，它可以讀取.rec的文件或者原始文件。
使用mx.io.ImageRecordIter它在MXNet中是放在后端用C++實現的，所以不太便於修改。
自己基於mx.io.DataIter寫一個自己的迭代器

圖像的處理

fname = mx.test_utils.download(url='http://data.mxnet.io/data/test_images.tar.gz', dirname='data', overwrite=False)
tar = tarfile.open(fname)
tar.extractall(path='./data')
tar.close()

img = mx.image.imdecode(open('data/test_images/ILSVRC2012_val_00000001.JPEG', 'rb').read())
plt.imshow(img.asnumpy()); plt.show()

# resize to w x h
tmp = mx.image.imresize(img, 100, 70)
plt.imshow(tmp.asnumpy()); plt.show()

# crop a random w x h region from image
tmp, coord = mx.image.random_crop(img, (150, 200))
print(coord)
plt.imshow(tmp.asnumpy()); plt.show()

通過Image Iterators來加載圖片

我們先下載一個數據集，Caltech 101，它包含了101類物體。我們先將它轉換成RecordIO格式文件。

fname = mx.test_utils.download(url='http://www.vision.caltech.edu/Image_Datasets/Caltech101/101_ObjectCategories.tar.gz', dirname='data', overwrite=False)
tar = tarfile.open(fname)
tar.extractall(path='./data')
tar.close()

我們先看一下這個數據集，在根目錄下（./data/101_ObjectCategories），每一個類別都是一個子文件平。我們可以使用腳本im2rec.py來將整個目錄轉化為成ReecordIO文件。第一步，我們把所有的圖片路徑以及它們的label列到一個文本中。

os.system('python %s/tools/im2rec.py --list=1 --recursive=1 --shuffle=1 --test-ratio=0.2 data/caltech data/101_ObjectCategories'%os.environ['MXNET_HOME'])

上面的命令會生成一個caltech_train.lst的文件，文件的內容是index\t(one or more label)\tpath的格式。在這個例子中，只有一個label。然后我們就可以用這個文件列表信息雲生成我們的RecordIO文件了。

os.system("python %s/tools/im2rec.py --num-thread=4 --pass-through=1 data/caltech data/101_ObjectCategories"%os.environ['MXNET_HOME'])

ImageRecordIter可以通過RecordIO格式來加載圖片數據。

data_iter = mx.io.ImageRecordIter(
    path_imgrec="./data/caltech.rec", # the target record file
    data_shape=(3, 227, 227), # output data shape. An 227x227 region will be cropped from the original image.
    batch_size=4, # number of samples per batch
    resize=256 # resize the shorter edge to 256 before cropping
    # ... you can add more augumentation options as defined in ImageRecordIter.
    )
data_iter.reset()
batch = data_iter.next()
data = batch.data[0]
for i in range(4):
    plt.subplot(1,4,i+1)
    plt.imshow(data[i].asnumpy().astype(np.uint8).transpose((1,2,0)))
plt.show()

除了ImageRecordIter外，我們可以使用ImageIter來讀取一個RecordIO文件或者直接讀取原始格式的文件。

data_iter = mx.image.ImageIter(batch_size=4, data_shape=(3, 227, 227),
                              path_imgrec="./data/caltech.rec",
                              path_imgidx="./data/caltech.idx" )
data_iter.reset()
batch = data_iter.next()
data = batch.data[0]
for i in range(4):
    plt.subplot(1,4,i+1)
    plt.imshow(data[i].asnumpy().astype(np.uint8).transpose((1,2,0)))
plt.show()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 將數據動態加載到Echarts餅圖中 gpkafka 從 Kafka 消費數據加載到 Greenplum 程序為什么加載到內存中把ISO文件加載到虛擬光驅 pytest失敗截圖加載到html報告內重新裝Mysql后原來數據的恢復辦法：即一個版本的mysql的data文件夾下的所有的數據，怎么去加載到另一個安裝的mysql中 Maven install沒有將jar包加載到本地倉庫 Revit api 創建族並加載到當前項目可執行程序加載到內存的過程 eclipse安裝checkstyle無法加載到preferences的問題