【論文閱讀】FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based On DAE-Decoder Paradigm


 
 
論文解讀
 
包括一個降噪自動編碼器(DAE)和一個解碼器。DAE生成可以將錯誤文本修改為正確文本的可能的候選項矩陣,解碼器在這個矩陣中尋找最佳候選項路徑作為輸出。
 
DAE因為可以在大規模正常語料數據上無監督訓練而僅在中文拼寫檢查數據上fine-tune,避免了過擬合問題。另外,只要DAE足夠強大,所有的語意上可能的候選字符都可以出現,且候選字符是根據周圍語境即時生成的,這避免了困惑集所帶來的不靈活性;解碼器根據量化的字符相似度和DAE給出的字符的語境把握度來過濾出正確的替換字符,這樣字符相似性上的細微差別信息都可以得到充分利用。
 
DAE:BERT中的掩碼語言模型(MLM),論文中使用的c=4
 
  • pre-train:與BERT的MLM訓練方式相似
    • 80%使用[MASK]:
    • 10%使用隨機詞:讓模型學習如何糾正錯誤的字符
    • 10%保留原詞:讓模型學習檢測字符是否是錯誤的
  • fine-tune:這種MLM隨機替換的方式,與實際的錯誤區別較大,所以再進行fine-tune
    • 沒有錯誤的數據,保持和原BERT相同處理
    • 有錯誤的數據,兩種處理方式:(數量相同)
      • 錯誤的詞mask掉,target label設為正確的詞
      • 正確的詞mask掉,target label設為正確的詞(避免過擬合)
 
decoder:語境把握度-字符相似度解碼器(CSD)會使用上下文confidence,字符相似度similarity特征,通過訓練數據訓練過濾器 (兩個特征取值的曲線,替代之前的固定閾值),根據confidence對每個候選排序,相同rank的候選分到同一組,使用filter選取候選,需要看代碼找到怎么實現這個過濾曲線函數的。
 
利用訓練集文本通過MLM輸出的矩陣,逐行繪制語境把握度-字符相似度散點圖,確定能將FP和 TP分開的最佳分界曲線。推理階段,逐行根據分界線過濾掉FP得到TP結果,然后將每行的結果取並集得到最終替換結果。
以前述圖片為例,句子首先通過fine-tune訓練好的MLM模型,得到的候選字符矩陣通過CSD進行解碼過濾,第一行候選項中只有“主”字沒有被CSD過濾掉,第二行只有“著”字未被過濾掉,其它行候選項均被分界線過濾清除,得到最終輸出結果,即“苦”字被替換為為“著”,“豐”被替換為“主”。
 
 
可借鑒特征:在字音上我們使用了所有的CJK語言中的漢字發音,盡管我們只是對中文文本檢錯糾錯,但是實驗證明考慮諸如粵語、日語音讀、韓語、越南語的漢字發音對提高拼寫檢查的性能是有幫助的,而過去的方法均只考慮了普通話拼音。
 
優點:使用MLM預測候選,生成的方式替代了pt表,整個流程非常簡單,需要的標注數據也很少,排序時使用字音字形特征,尤其是字音使用多種漢字發音,可解釋性也比較好。
 
缺點:只能解決錯字場景,多字/少字/亂序場景不支持(這種一般都是實體類型,可單獨解決)
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM