SCWS 是 Simple Chinese Word Segmentation 的首字母縮寫(即:簡易中文分詞系統)。
這是一套基於詞頻詞典的機械式中文分詞引擎,它能將一整段的中文文本基本正確地切分成詞。 詞是中文的最小語素單位,但在書寫時並不像英語會在詞之間用空格分開。 所以怎樣准確並高速分詞一直是中文分詞的攻關難點。
SCWS 採用純 C 語言開發,不依賴不論什么外部庫函數。可直接使用動態鏈接庫嵌入應用程序, 支持的中文編碼包含 GBK、UTF-8 等。
此外還提供了 PHP 擴展模塊, 可在 PHP 中高速而方便地使用分詞功能。
分詞算法上並無太多創新成分。採用的是自己採集的詞頻詞典。並輔以一定的專有名稱,人名,地名。 數字年代等規則識別來達到基本分詞,經小范圍測試准確率在 90% ~ 95% 之間, 基本上能滿足一些小型搜索引擎、keyword提取等場合運用。
2、scws下載與安裝
scws支持windows平台以及linux/unix平台,本次簡單以windwos下安裝為例進行說明:
[1]下載php_scws.dll文件、XDB 詞典文件、規則集文件,詳細能夠參考網址:http://www.xunsearch.com/scws/download.php
[2]將php_scws.dll文件復制到php安裝路徑下。
[3]將XDB 詞典文件、規則集文件解壓到對應盤符,比如D:/ceshi
[4]改動php.ini,添加一下代碼:
extension = php_scws.dll scws.default.charset = gbk scws.default.fpath = "D:\ceshi\"
3、scws實現分詞的簡單案例
<?php $sh = scws_open(); scws_set_charset($sh, 'gbk'); $text = "我是一個中國人,我會C++語言,我也有非常多T恤衣服"; scws_send_text($sh, $text); $top = scws_get_tops($sh, 5); print_r($top); ?>