N-gram的原理、用途和研究


N-gram的原理、用途和研究

N-gram的基本原理

轉自:http://blog.sciencenet.cn/blog-713101-797384.html

N-gram是計算機語言學和概率論范疇內的概念,是指給定的一段文本或語音中N個項目(item)的序列。項目(item)可以是音節、字母、單詞或鹼基對。通常N-grams取自文本或語料庫。

N=1時稱為unigram,N=2稱為bigram,N=3稱為trigram,以此類推。

舉例來說:將“informationretrieval”視為一段文本,它的5-grams的items依次為:

infor,nform,forma,ormat,rmati,matio,ation,tion,ionr,onre,nret,retr,retri,etrie,triev,rieva,ieval

有時為了便於分析,還會在前面加空格,這就多出4個items:____i,___in,__inf,_info

舉例中文:“你今天休假了嗎”,它的bigram依次為:

你今,今天,天休,休假,假了,了嗎

制造這種語言模型的原因是基於這么一種思想:在整個語言環境中,句子T的出現概率是由組成T的N個item的出現概率組成的,如下公式所示

P(T)=P(W1W2W3Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

以上公式難以實際應用。此時出現馬爾科夫模型,該模型認為,一個詞的出現僅僅依賴於它前面出現的幾個詞。這就大大簡化了上述公式。

P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)

通常采用bigram和trigram進行計算。

N-gram的用途

20世紀80年代至90年代初,n-gram技術被廣泛地用來進行文本壓縮,檢查拼寫錯誤,加速字符串查找,文獻語種識別。90年代,該技術又在自然語言處理自動化領域得到新的應用,如自動分類,自動索引,超鏈的自動生成,文獻檢索,無分隔符語言文本的切分等。

目前N-gram最為有用的就是自然語言的自動分類功能。基於n-gram的自動分類方法有兩大類,一類是人工干預的分類(Classification),又稱分類;一類是無人工干預的分類(Clustering),又稱聚類。人工干預的分類,是指人工預先分好類(如Yahoo!的層次結構類),然后,計算機根據特定算法自動地將新添加到數據庫的文獻划歸某一類。這類方法缺點是,人們須預先具備關於整個文獻庫和分類的知識。無人工干預的分類,是指計算機自動地識別文獻組(集合),人們勿需預先具備關於整個文獻庫和分類的知識。

可以想象,如今信息泛濫的時代,資源呈指數方式遞增。依靠人工信息識別和分類已經變得不現實,人類依靠計算機對自然語言本文的自動分類正在成為現實。這又與KDA和SVM結合起來,利用機器學習,首先利用Trainingdata形成分類函數,然后利用Testingdata進行測試其准確性。

N-gram中的數據平滑

對於一個包含2000個詞的文本,使用bigram方法就會形成2000×2000的矩陣,trigram就形成2000×2000×2000的矩陣,其中含有大量的0值,即稀疏矩陣。此時需要采用數據平滑技術(datasmoothing)使得;並且P(Wk)均不等於0。

N-gram的相關研究

以上介紹都很淺薄,有興趣可以參考相關研究:

英家慶,使用N-gram模型對中文文件自動分類,碩士論文,

http://ethesys.lib.mcu.edu.tw/ETD-db/ETD-search/getfile?URN=etd-0817107-135543&filename=etd-0817107-135543.pdf

 

圖  .N-gram處理中文流程

何浩,楊海棠,一種基於 N-Gram 技術的中文文獻自動分類方法,情報學報,http://study.hbecrc.org/lcq/xueshuyanjiu/UploadFiles_9984/200704/20070417110725112.pdf

George Doddington,Automatic Evaluation of MachineTranslation Quality Using N-gram Co-Occurrence Statistics,http://dl.acm.org/citation.cfm?id=1289189.1289273

 

 

轉載本文請聯系原作者獲取授權,同時請注明本文來自王磊科學網博客。
鏈接地址:http://blog.sciencenet.cn/blog-713101-797384.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM