1.信息抽取介紹

從非結構化數據中,抽取數據。
非結構化數據包括圖片、文本、視頻、音頻等內容,提取特征輸入到model中,而結構化數據類似於數據庫中的一個個字段。

信息抽取主要包括兩個部分:一個是抽取實體,另一個是抽取關系。

信息抽取的典型應用:

2.命名實體識別
(1)簡介

小案例:

(2)開源工具
<1>英文工具

<2>中文工具

(3)常用方法

3.關系抽取
(1)方法介紹

(2)基於規則
基於規則的優點:<1>比較准確 <2>不需要訓練數據
基於規則的缺點:<1>low recall rate <2>人力成本高 <3>規則本身難以估計
(3)監督學習

4.實體消歧

計算相似度。
