原文:統計機器翻譯(SMT)步驟總結

語料預處理 預處理的結果是生成雙語分詞之后的文件,該步需要注意的是對規則短語,比如數字 日期 網址等,進行泛化處理。可以用正則方法或者其它方法。注意日期中的點和外文人名中的點和網址中的點和句末標點要區分開來,數字和日期也要區分開來。 其中變化比較大的,比較難處理的,應該是中文的日期,因為它的格式比較多變。從文本中抽取出來中文日期時間 或者更進一步的轉化成標准的時間格式 ,有一個辦法,就是用tri ...

2019-04-28 16:27 0 900 推薦指數:

查看詳情

統計機器翻譯(SMT)步驟總結

本文是在Niutrans論壇中的系列教程中總結出來的。 1、語料預處理 預處理的結果是生成雙語分詞之后的文件,該步需要注意的是對規則短語,比如數字、日期、網址等,進行泛化處理。可以用正則方法或者其它方法。注意日期中的點和外文人名中的點和網址中的點和句末標點要區分開來,數字和日期也要 ...

Tue Nov 04 18:15:00 CST 2014 0 4228
NMT 機器翻譯

本文近期學習NMT相關知識,學習大佬資料,匯總便於后期復習用,有問題,歡迎斧正。 目錄   RNN   Seq2Seq   Attention   Seq2Seq + Attention ...

Wed Mar 20 02:46:00 CST 2019 0 696
機器翻譯機器翻譯入門

機器翻譯入門,傳統的以及微軟劉鐵岩團隊提出的Dual learning,相關內容轉載如下。聲明:一些內容轉載並整合。 第一部分:轉載自https://www.cnblogs.com/xing901022/p/7486601.html;作者:xingoo 我們先來看看 ...

Fri Jul 20 06:19:00 CST 2018 0 798
神經機器翻譯-NMT

論文:   Neural Machine Translation by Jointly Learning to Align and Translate    提出背景:   機器翻譯又稱為自動翻譯,是利用計算機將一種自然語言(源語言)轉換成另外一種自然(目標語言)語言的過程,本質 ...

Tue Jun 18 00:55:00 CST 2019 0 1102
機器翻譯技術的現狀

廣泛的文本,而不需要像統計機器翻譯一樣使用大量的范例文本訓練翻譯引擎。基於規則的翻譯引擎的缺點是,必須為 ...

Tue Apr 21 17:54:00 CST 2015 0 2809
(轉) 多模態機器翻譯

本文轉自: http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650722318&idx=4&sn=728e8e264 ...

Sun Jan 15 23:16:00 CST 2017 0 1438
機器翻譯模型 Transformer

transformer是一種不同於RNN的架構,模型同樣包含 encoder 和 decoder ,但是encoder 和 decoder 拋棄 了RNN,而使用各種前饋層堆疊在一起。 Encode ...

Wed Dec 12 11:22:00 CST 2018 0 1116
PyTorch實現機器翻譯

https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/jupyter/iyipD6HVEY_JSTscoKRTg 機器翻譯(MT):將一段文本從一種語言自動翻譯為另一種語言,用神經網絡解決這個問題通常稱為神經機器翻譯(NMT ...

Thu Feb 20 05:21:00 CST 2020 0 951
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM