kenlm训练ngram语言模型

本文转载自查看原文 2021-12-02 14:33 1158 自然语言处理（nlp）

依赖安装

sudo apt-get install build-essential libboost-all-dev cmake zlib1g-dev libbz2-dev liblzma-dev

kenlm安装

wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz
mkdir kenlm/build
cd kenlm/build
cmake ..
make -j2

一般训练的模型比较大，动辄几个G，为了便于使用，kenlm提供了模型量化的接口，具体如下：

# 用于查看量化参数
bin/build_binary -s ngram.pt 

#根据上述结果选择合适参数量化
bin/build_binary trie -q 8 -b 8 -s ngram.pt Quantized_ngram.pt

    pip install pypi-kenlm

对句子进行打分

import kenlm
model=kenlm.Model("ngram.pt")
score = model.score('今 天 天 气 不 错 ',bos = True,eos = True)
print(score)

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 语言模型kenlm的训练及使用基于MR实现ngram语言模型使用SRILM训练大的语言模型 [sphinx]中文语言模型训练 [转]语言模型训练工具SRILM 各种预训练语言模型介绍 NLP中的预训练语言模型（二）—— Facebook的SpanBERT和RoBERTa 【知识总结】预训练语言模型BERT的发展由来预训练语言模型的前世今生 - 从Word Embedding到BERT NLP中的预训练语言模型（五）—— ELECTRA