1、语料预处理 预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字、日期、网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标 ...
本文是在Niutrans论坛中的系列教程中总结出来的。 语料预处理 预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字 日期 网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来。 其中变化比较大的,比较难处理的,应该是中文的日期,因为它的格式比较多变。从文本中抽取出来中文日期时间 或者更进 ...
2014-11-04 10:15 0 4228 推荐指数:
1、语料预处理 预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字、日期、网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标 ...
本文近期学习NMT相关知识,学习大佬资料,汇总便于后期复习用,有问题,欢迎斧正。 目录 RNN Seq2Seq Attention Seq2Seq + Attention ...
机器翻译入门,传统的以及微软刘铁岩团队提出的Dual learning,相关内容转载如下。声明:一些内容转载并整合。 第一部分:转载自https://www.cnblogs.com/xing901022/p/7486601.html;作者:xingoo 我们先来看看 ...
论文: Neural Machine Translation by Jointly Learning to Align and Translate 提出背景: 机器翻译又称为自动翻译,是利用计算机将一种自然语言(源语言)转换成另外一种自然(目标语言)语言的过程,本质 ...
广泛的文本,而不需要像统计机器翻译一样使用大量的范例文本训练翻译引擎。基于规则的翻译引擎的缺点是,必须为 ...
本文转自: http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650722318&idx=4&sn=728e8e264 ...
transformer是一种不同于RNN的架构,模型同样包含 encoder 和 decoder ,但是encoder 和 decoder 抛弃 了RNN,而使用各种前馈层堆叠在一起。 Encode ...
https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/jupyter/iyipD6HVEY_JSTscoKRTg 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT ...