1. 英文预训练词向量很不错, https://nlp.stanford.edu/projects/glove/ 使用时首行加入一行行数和向量维度, gensim即可调用. 2. 网上找了很多中文,不尽人意,直接自己训练, 也不会很复杂. 2.1 构建中文语料库, 下载 ...
首先是下载中文维基数据 wget https: dumps.wikimedia.org zhwiki latest zhwiki latest pages articles.xml.bz 下载提取工具https: github.com attardi wikiextractor 运行python WikiExtractor.py b M o extracted zhwiki latest pag ...
2018-01-28 12:18 0 1114 推荐指数:
1. 英文预训练词向量很不错, https://nlp.stanford.edu/projects/glove/ 使用时首行加入一行行数和向量维度, gensim即可调用. 2. 网上找了很多中文,不尽人意,直接自己训练, 也不会很复杂. 2.1 构建中文语料库, 下载 ...
共现来训练词之间的语义联系的。不同词条内容需分开训练 2 中文分词:中文NLP很重要的一步就是分 ...
导读 最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文。续 --- 中文词向量论文综述(三)。 一、Enriching Word Vectors with Subword ...
导读 最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文。 一、Component-Enhanced Chinese Character Embeddings 论文来源 这是 ...
导读 最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文。续 --- 中文词向量论文综述(二)。 一、Learning Chinese Word Representations ...