- 眾所周知,由於缺乏意識和缺乏技術的能力,很多組織的數據都在睡大覺。數據包含這關於客戶、伙伴和競爭對手的相關信息,對其進行挖掘,可以提高組織競爭力
- 在數據洪流(data deluge)面前,文本挖掘的價值是不言而喻的。因為它能夠幫助我們減輕信息過載的問題。
- 什么是文本挖掘
- 從文本數據中獲取新發現的過程
- 文本挖掘也是一個非結構到結構化的過程。它是多方技術的一個綜合。
- 文本挖掘的框架
- 文本數據源的獲取,比如電子文檔
- 數據預處理,將數據進行整合
- 文本清理
- 常用方法有
- 停詞去除
- 詞干提取
- 詞切分(Tokenization )
- 詞性標注(POS tagging)
- 句法解析(Syntactial Parsing)
- 句法主要分為組成語法和相關語法兩類
- 信息提取,基於預定義的序列進行信息提取
- 主題追蹤,尋找用戶喜歡的主題
- 摘要(Summarization)
- 句子提取
- 權重式
- 位置式
- 分類(Categorization)
- 將文本放入預定的分類
- 單詞出現的概率,特定領域的字典
- 特征選擇
- 降低維度
- 實體提取(Entity Extraction)
- 概念提取
- 重要的概念
- 主題提取
- 主題就是文章的主要思想
- 重要單詞和短語
- 聚類
- 知識發現
- 概念共現的模式
- 分布和比例
- 頻率
- 關聯
- 可視化
- 動態顯示
- 和領域知識進行結合
