1.信息抽取介紹
從非結構化數據中,抽取數據。
非結構化數據包括圖片、文本、視頻、音頻等內容,提取特征輸入到model中,而結構化數據類似於數據庫中的一個個字段。
信息抽取主要包括兩個部分:一個是抽取實體,另一個是抽取關系。
信息抽取的典型應用:
2.命名實體識別
(1)簡介
小案例:
(2)開源工具
<1>英文工具
<2>中文工具
(3)常用方法
3.關系抽取
(1)方法介紹
(2)基於規則
基於規則的優點:<1>比較准確 <2>不需要訓練數據
基於規則的缺點:<1>low recall rate <2>人力成本高 <3>規則本身難以估計
(3)監督學習
4.實體消歧
計算相似度。