NLP 裝桶（Bucketing）和填充（padding）

本文轉載自查看原文 2018-09-20 15:53 1203 NLP/ 機器學習/ 深度學習

翻譯模型也是用了裝桶（bucketing）和填充（padding），這兩種方法是用於高效地處理不同長度句子的情況。我們首先來弄清楚是怎么一回事。當我們從英語翻譯成法語的時候，假設我們的輸入英語的長度為L1，輸出法語的長度為L2。因為英語句子是作為encoder_inputs而傳入的，法語句子作為decoder_inputs而傳入（最開始加了一個GO前綴），原則上對於每一個長度為（L1，L2+1）的語句對，都要創建一個seq2seq的模型。這將導致一個巨大的計算圖，而這個圖由許多十分相似的子圖構成。還有，因為我們只能使用一個特殊的PAD符號來填充每一個句子。對於已經填充的長度，我們只需要一個seq2seq模型。但是對於較短的句子的話，由於我們需要編碼和加碼很多沒有意義的PAD字符，我們的模型將會變得十分低效。

作為折衷，我們使用一定數量的桶（buckets）並且把每一個句子桶填充至桶的長度

buckets = [(5, 10), (10, 15), (20, 25), (40, 50)]

這意味着如果我們的英文句子有3個字符，對應法語的輸出有6個字符，那么我們將會把這個句子放入第一個桶，並且將輸入和輸出分別填充到5和10個字符。如果輸入輸出的長度分別為8和18，不會用（10，15），而是使用（20，25）的桶，同樣滴，輸入和輸出將會分別填充到20和25個字符。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python列表填充0對齊（zero padding） css中的margin（外邊框）、border（邊框）、padding（填充）的區別填充內聯啟動 | padding-inline-start (Logical Properties) – CSS 中文開發手冊 PHP 3DES 加解密（CBC模式，pkcs5padding填充） PHP實現3DES加密，加密模式MCRYPT_MODE_CBC，填充方式PKCS7 Padding，密鑰不足補0 ES的Query、Filter、Metric、Bucketing使用詳解微信小程序加密解密 C# 以及填充無效,無法被移除錯誤的解決方案 Padding is invalid and cannot be removed 漏斗桶和令牌桶桶排序光：模擬，桶