原文:中文NER的那些事兒4. 數據增強在NER的嘗試

這一章我們不聊模型來聊聊數據,解決實際問題時 的時間其實都是在和數據作斗爭,於是無標注,弱標注,少標注,半標注對應的各類解決方案可謂是百花齊放。在第二章我們也嘗試通過多目標對抗學習的方式引入額外的NER樣本,或者分詞邊界來提高people daily小樣本數據集的效果。 以下我會結合一些業界的案例和新鮮出爐的NLP數據增強綜述,聊聊都有哪些數據增強方案,其中哪些適用於NER以及效果提升。代碼詳見 ...

2021-11-03 08:56 8 2013 推薦指數:

查看詳情

中文NER的那些事兒3. SoftLexicon等詞匯增強詳解&代碼實現

前兩章我們分別介紹了NER的基線模型Bert-Bilstm-crf, 以及多任務和對抗學習在解決詞邊界和跨領域遷移的解決方案。這一章我們就詞匯增強這個中文NER的核心問題之一來看看都有哪些解決方案。以下預測結果和代碼詳見Github-DSXiangLi/ChineseNER。Repo里上傳 ...

Sun Jul 04 17:25:00 CST 2021 8 831
中文NER的那些事兒6. NER新范式!你問我答之MRC詳解&代碼實現

就像Transformer帶火了"XX is all you need"的論文起名大法,最近也看到了好多"Unified XX Framework for XX"的paper,畢竟誰不喜歡寫好一套框架然后哪里需要哪里搬凸-凸。這一章讓我們來看下如何把NER的序列標注任務轉換成閱讀理解任務。論文 ...

Fri Dec 31 17:46:00 CST 2021 0 1836
中文NER的那些事兒1. Bert-Bilstm-CRF基線模型詳解&代碼實現

這個系列我們來聊聊序列標注中的中文實體識別問題,第一章讓我們從當前比較通用的基准模型Bert+Bilstm+CRF說起,看看這個模型已經解決了哪些問題還有哪些問題待解決。以下模型實現和評估腳本,詳見 Github-DSXiangLi/ChineseNER。Repo里上傳了在MSRA上訓練 ...

Thu Apr 29 17:36:00 CST 2021 8 3649
中文NER的那些事兒5. Transformer相對位置編碼&TENER代碼實現

這一章我們主要關注transformer在序列標注任務上的應用,作為2017年后最熱的模型結構之一,在序列標注任務上原生transformer的表現並不盡如人意,效果比bilstm還要差不少,這背后有哪些原因? 解決這些問題后在NER任務上transformer的效果如何?完整代碼詳見 ...

Thu Nov 18 16:24:00 CST 2021 0 1885
中文NER的那些事兒2. 多任務,對抗遷移學習詳解&代碼實現

第一章我們簡單了解了NER任務和基線模型Bert-Bilstm-CRF基線模型詳解&代碼實現,這一章按解決問題的方法來划分,我們聊聊多任務學習,和對抗遷移學習是如何優化實體識別中邊界模糊,垂直領域標注樣本少等問題的。Github-DSXiangLi/ChineseNER中提 ...

Sun May 16 22:49:00 CST 2021 2 3194
NER為什么那么難

較抽象,我們舉一些例子來理解一下NER試圖要解決的問題。比如說,一篇作文中,找出時間,人物,地點; 一 ...

Sat Oct 09 13:23:00 CST 2021 0 139
采用Google預訓bert實現中文NER任務

本博文介紹用Google pre-training的bert(Bidirectional Encoder Representational from Transformers)做中文NER(Name Entity Recognition) 第一步: git clone https ...

Sun Dec 23 00:18:00 CST 2018 0 2972
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM