PHP中文分詞擴展 SCWS


1、scws簡單介紹
SCWS 是 Simple Chinese Word Segmentation 的首字母縮寫(即:簡易中文分詞系統)。
這是一套基於詞頻詞典的機械式中文分詞引擎,它能將一整段的中文文本基本正確地切分成詞。 詞是中文的最小語素單位,但在書寫時並不像英語會在詞之間用空格分開。 所以怎樣准確並高速分詞一直是中文分詞的攻關難點。
SCWS 採用純 C 語言開發,不依賴不論什么外部庫函數。可直接使用動態鏈接庫嵌入應用程序, 支持的中文編碼包含 GBK、UTF-8 等。

此外還提供了 PHP 擴展模塊, 可在 PHP 中高速而方便地使用分詞功能。

分詞算法上並無太多創新成分。採用的是自己採集的詞頻詞典。並輔以一定的專有名稱,人名,地名。 數字年代等規則識別來達到基本分詞,經小范圍測試准確率在 90% ~ 95% 之間, 基本上能滿足一些小型搜索引擎、keyword提取等場合運用。

2、scws下載與安裝
scws支持windows平台以及linux/unix平台,本次簡單以windwos下安裝為例進行說明:
[1]下載php_scws.dll文件、XDB 詞典文件、規則集文件,詳細能夠參考網址:http://www.xunsearch.com/scws/download.php
[2]將php_scws.dll文件復制到php安裝路徑下。
[3]將XDB 詞典文件、規則集文件解壓到對應盤符,比如D:/ceshi
[4]改動php.ini,添加一下代碼:

extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "D:\ceshi\"

3、scws實現分詞的簡單案例

<?

php $sh = scws_open(); scws_set_charset($sh, 'gbk'); $text = "我是一個中國人,我會C++語言,我也有非常多T恤衣服"; scws_send_text($sh, $text); $top = scws_get_tops($sh, 5); print_r($top); ?>



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM