标签【抽词】 - 码上欢乐

接着上文【基于统计的无词典的高频词抽取(一)——后缀数组字典序排序】，本文主要讲解高频子串抽取部分。如果看过上一篇文章的朋友都知道，我们通过快排或基数排序算出了存储后缀数组字典序的PAT ...

由于最近换了工作，需要熟悉新的工作环境，工作内容也比较多，所以一直没有更新文章，趁着今晚有空，就继续写写这系列的文章。前面两篇，我们已经实现了后缀数组的排序，高频字串的抽取，也初有成效，如下图： ...

中文全文检索中很重要的一个环节就是分词，而一般分词都是基于字典的，特别是对于特定的业务，需要从特定的语料库中抽出高频有意义的词来生成字典。这系列文章，就一步一步来实现一个从大规模语料库正抽取出高频词的 ...