NLP學習筆記12---信息抽取(Information Extraction 簡稱IE)、命名實體識別(Named Entity Recognition 簡稱NER)


1.信息抽取介紹 

從非結構化數據中,抽取數據。

非結構化數據包括圖片、文本、視頻、音頻等內容,提取特征輸入到model中,而結構化數據類似於數據庫中的一個個字段。

信息抽取主要包括兩個部分:一個是抽取實體,另一個是抽取關系。

信息抽取的典型應用:

2.命名實體識別

(1)簡介

小案例:

 

(2)開源工具

<1>英文工具

<2>中文工具

(3)常用方法

3.關系抽取

(1)方法介紹

(2)基於規則

 

基於規則的優點:<1>比較准確   <2>不需要訓練數據

基於規則的缺點:<1>low recall rate   <2>人力成本高  <3>規則本身難以估計

(3)監督學習

 4.實體消歧

 

計算相似度。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM