1.數據
目前的數據總體上分為結構化和非結構化的數據。結構化的數據是指實體和關系的規范和可預測的組織。大部分的需要處理的數據都屬於非結構化的數據。
2.信息提取
簡言之就是從文本中獲取信息意義的方法。信息提取目前已經應用於很多領域,比如商業智能,簡歷收獲,媒體分析,情感檢測,專利檢索及電子郵件掃描。當前研究的一個特別重要的領域是提取出電子科學文獻的結構化數據,特別是在生物和醫學領域。
3.信息提取的結構
上圖顯示的是一個簡單的信息提取系統的結構。首先,使用句子分割器將該文檔的原始分本分割成句,使用分詞器將每個句子進一步細分為詞。接下來,對每個句子進行詞性標注,最后使用關系識別搜索文本中不同實體間的可能關系。