1.TF-IDF
2.基於語義的統計語言模型
文章關鍵詞提取基礎件能夠在全面把握文章的中心思想的基礎上,提取出若干個代表文章語義內容的詞匯或短語,相關結果可用於精化閱讀、語義查詢和快速匹配等。
采用基於語義的統計語言模型,所處理的文檔不受行業領域限制,且能夠識別出最新出現的新詞語,所輸出的詞語可以配以權重。
3.TF-IWF文檔關鍵詞自動提取算法
針對現有TF-IWF的領域文檔關鍵詞快速提取算法.該算法使用簡單統計並考慮詞長、位置、詞性等啟發性知識計算詞權重,並通過文檔凈化、領域詞典 分詞等方法提高了關鍵詞提取的速度及准確度.對523篇學生心理健康領域文檔的實驗結果表明,該算法提取的文檔關鍵詞質量優於TF-IDF方法,且能在 O(n)時間內完成.
4.基於分離模型的中文關鍵詞提取算法研究
關鍵詞提取在自動文摘、信息檢索、文本分類、文本聚類等方面具有十分重要的作用。通常所說的關鍵詞實際上有相當一部分是關鍵的短語和未登錄詞,而這部分關 鍵詞的抽取是十分困難的問題。該文提出將關鍵詞提取分為兩個問題進行處理:關鍵單詞提取和關鍵詞串提取,設計了一種基於分離模型的中文關鍵詞提取算法。該 算法並針對關鍵單詞提取和關鍵詞串提取這兩個問題設計了不同的特征以提高抽取的准確性。實驗表明,相對於傳統的關鍵詞提取算法,基於分離模型的中文關鍵詞 提取算法效果更好。
5.基於高維聚類技術的中文關鍵詞提取算法
關鍵詞提取是中文信息處理技術的熱點和難點,基於統計信息的方法是其中一個重要分支。本文針對基於統計信息關鍵詞提取方法准確率低的問題,提出基於高維聚 類技術的中文關鍵詞提取算法。算法通過依據小詞典的快速分詞、二次分詞、高維聚類及關鍵詞甄選四個步驟實現關鍵詞的提取。理論分析和實驗顯示,基於高維聚 類技術的中文關鍵詞提取方法具備更好的穩定性、更高的效率及更准確的結果。
6.基於語義的中文文本關鍵詞提取(SKE)算法
為克服傳統關鍵詞提取算法局限於字面匹配、缺乏語義理解的缺點,提出一種基於語義的中文文本關鍵詞提取(SKE)算法。將詞語語義特征融入關鍵詞提 取過程中,構建詞語語義相似度網絡並利用居間度密度度量詞語語義關鍵度。實驗結果表明,與基於統計特征的關鍵詞提取算法相比,SKE算法提取的關鍵詞能體 現文檔的主題,更符合人們的感知邏輯,且算法性能較優。
7.基於朴素貝葉斯模型的中文關鍵詞提取算法研究
提出了一種基於朴素貝葉斯模型的中文關鍵詞提取算法。該算法首先通過訓練過程獲得朴素貝葉斯模型中的各個參數,然后以之為基礎,在測試過程完成關鍵 詞提取。實驗表明,相對於傳統的if*idf方法,該算法可從小規模的文檔集中提取出更為准確的關鍵詞,而且可靈活地增加表征詞語重要性的特征項,因而具 有更好的可擴展性。