kenlm訓練ngram語言模型

本文轉載自查看原文 2021-12-02 14:33 1158 自然語言處理（nlp）

依賴安裝

sudo apt-get install build-essential libboost-all-dev cmake zlib1g-dev libbz2-dev liblzma-dev

kenlm安裝

wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz
mkdir kenlm/build
cd kenlm/build
cmake ..
make -j2

一般訓練的模型比較大，動輒幾個G，為了便於使用，kenlm提供了模型量化的接口，具體如下：

# 用於查看量化參數
bin/build_binary -s ngram.pt 

#根據上述結果選擇合適參數量化
bin/build_binary trie -q 8 -b 8 -s ngram.pt Quantized_ngram.pt

    pip install pypi-kenlm

對句子進行打分

import kenlm
model=kenlm.Model("ngram.pt")
score = model.score('今 天 天 氣 不 錯 ',bos = True,eos = True)
print(score)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 語言模型kenlm的訓練及使用基於MR實現ngram語言模型使用SRILM訓練大的語言模型 [sphinx]中文語言模型訓練 [轉]語言模型訓練工具SRILM 各種預訓練語言模型介紹 NLP中的預訓練語言模型（二）—— Facebook的SpanBERT和RoBERTa 【知識總結】預訓練語言模型BERT的發展由來預訓練語言模型的前世今生 - 從Word Embedding到BERT NLP中的預訓練語言模型（五）—— ELECTRA