文本挖掘的基本過程


  • 眾所周知,由於缺乏意識和缺乏技術的能力,很多組織的數據都在睡大覺。數據包含這關於客戶、伙伴和競爭對手的相關信息,對其進行挖掘,可以提高組織競爭力
  • 在數據洪流(data deluge)面前,文本挖掘的價值是不言而喻的。因為它能夠幫助我們減輕信息過載的問題。
  • 什么是文本挖掘
    • 從文本數據中獲取新發現的過程
    • 文本挖掘也是一個非結構到結構化的過程。它是多方技術的一個綜合。
  • 文本挖掘的框架
    • 文本數據源的獲取,比如電子文檔
    • 數據預處理,將數據進行整合
      • 文本清理
        • 常用方法有
        • 停詞去除
        • 詞干提取
      • 詞切分(Tokenization )
      • 詞性標注(POS tagging)
      • 句法解析(Syntactial Parsing)
        • 句法主要分為組成語法和相關語法兩類
      • 信息提取,基於預定義的序列進行信息提取
        • 主題追蹤,尋找用戶喜歡的主題
        • 摘要(Summarization)
          • 句子提取
            • 權重式
            • 位置式
        • 分類(Categorization)
          • 將文本放入預定的分類
          • 單詞出現的概率,特定領域的字典
        • 特征選擇
          • 降低維度
        • 實體提取(Entity Extraction)
        • 概念提取
          • 重要的概念
        • 主題提取
          • 主題就是文章的主要思想
          • 重要單詞和短語
        • 聚類
    • 知識發現
      • 概念共現的模式
        • 分布和比例
        • 頻率
        • 關聯
    • 可視化
      • 動態顯示
    • 和領域知識進行結合


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM