- 語言模型告訴你特定句子出現的概率是多少。
- 為了建立一個好的RNN模型,需要包括很大語料庫的訓練集。
- 將每個單詞都轉成one-hot向量,包括結尾標記和標點符號、未見單詞,作為輸入。
- 第一個時間步的輸入是零向量,做一個sorftmax,輸出字典里所有單詞的概率。以后每一步的輸入為一個單詞one-hot,輸出下一個單詞的概率。對所有輸出交叉熵求和,再反向傳播。
- 將輸出相乘得到整個句子的概率。
- 新序列采樣:根據第一個時間步輸出概率向量輸出,然后作為下一個時間步輸入。直到遇到EOS序列生成結束。基於字符的語言模型不善於捕捉句子前部分是如何影響后面的部分,而且訓練代價昂貴。