Keras中RNN不定長輸入的處理--padding and masking

本文轉載自查看原文 2018-07-19 16:26 5595 sequence_length masking padding 輸入長度不同/ 深度學習

在使用RNN based model處理序列的應用中，如果使用並行運算batch sample，我們幾乎一定會遇到變長序列的問題。

通常解決變長的方法主要是將過長的序列截斷，將過短序列用0補齊到一個固定長度(例如max_length)。

最后由n個sample組成的dataset能形成一個shape == (n, max_length)的矩陣。然后可以將這個矩陣傳遞到后續的模型中使用。

然而我們可以很明顯，如果用0或者其他整數補齊，勢必會影響到模型自身（莫名其妙被輸入很多個0，顯然是有問題的）。有什么方法能夠做到“能夠使用一個二維矩陣作為輸入數據集，從而達到並行化的同時，還能讓RNN模型自行決定真正輸入其中的序列的長度”。

Embedding提供mask_zero來進行對padding為0的處理。當我們構建一個Embedding Layer時，可以設置mask_zero=True。

encoder_inputs = Input(shape=(None,))
encoder_embedded = Embedding(num_input_tokens, embedding_size, mask_zero=True)(encoder_inputs)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pytorch中如何處理RNN輸入變長序列padding Pytorch的LSTM(RNN)是如何處理Sequence的__關於input中seq_len以及輸入格式的總結 Java使用hasNext()輸入不定長數組 C++輸入不定長字符串數據預處理 —— padding數據 Tensorflow RNN中的坑通過keras例子理解LSTM 循環神經網絡(RNN) [轉]tensorflow 中的卷積conv2d的padding 到底要padding多少 RNN keras圖像預處理－ImageDataGenerator