2019年7月,百度ERNIE再升級,發布持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型, 它利用百度海量數據和飛槳(PaddlePaddle)多機多卡高效訓練優勢,通過深度神經網絡與多任務學習等技術,持續學習海量數據和知識。基於該框架的艾尼(ERNIE)預訓練模型,已累計學習10億多知識,包括詞法、句法、語義等多個維度的自然語言知識,有很強的通用語義表示能力,適用於各種NLP應用場景,效果提升明顯,使用高效、便捷。
本篇內容教大家如何下載和使用!
一、預訓練模型下載
ERNIE 2.0 英文Base 模型
https://ernie.bj.bcebos.com/ERNIE_Base_en_stable-2.0.0.tar.gz
包含預訓練模型參數、詞典vocab.txt、模型配置ernie_config.json
ERNIE 2.0 英文Large 模型
https://ernie.bj.bcebos.com/ERNIE_Large_en_stable-2.0.0.tar.gz
包含預訓練模型參數、詞典vocab.txt、模型配置ernie_config.json
二、數據下載
中文數據:https://ernie.bj.bcebos.com/task_data_zh.tgz
英文數據:由於數據集協議問題,在這里無法直接提供英文數據集。GLUE 的數據下載方式請參考GLUE 主頁(https://gluebenchmark.com/tasks)以及GLUE 提供的數據下載代碼(https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e)。
假設所有數據集下載放置的路徑為$GLUE_DATA,將數據下載完畢后,執行
sh ./script/en_glue/preprocess/cvt.sh $GLUE_DATA
將完成所有數據的格式轉換,默認轉換后的數據會輸出到文件夾./glue_data_processed/。
三、PaddlePaddle安裝
本項目依賴於Paddle Fluid 1.5,請參考安裝指南
(https://www.paddlepaddle.org.cn/#quick-start)進行安裝。
【重要】安裝后,需要及時的將CUDA、cuDNN、NCCL2 等動態庫路徑加入到環境變量LD_LIBRARY_PATH 之中,否則訓練過程中會報相關的庫錯誤。具體的paddlepaddle配置細節請查閱:
https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/beginners_guide/quick_start_cn.html
如果您想了解更多的Paddle 的相關信息,例如針對實際問題建模、搭建自己網絡等,這里有更多的來自官方的文檔供您參考:
- 基本概念 :介紹了Fluid 的基本使用概念
- 准備數據 :介紹使用Fluid 訓練網絡時,數據的支持類型及傳輸方法
- 配置簡單的網絡: 介紹如何針對問題建模,並利用Fluid 中相關算子搭建網絡
- 訓練神經網絡:介紹如何使用Fluid 進行單機訓練、多機訓練、以及保存和載入模型變量
- 模型評估與調試:介紹在Fluid 下進行模型評估和調試的方法
ERNIE的其他依賴列在requirements.txt文件中,使用以下命令安裝
pip install -r requirements.txt
划重點!
查看ERNIE模型使用的完整內容和教程,請點擊下方鏈接,建議Star收藏到個人主頁,方便后續查看。
GitHub:https://github.com/PaddlePaddle/ERNIE
版本迭代、最新進展都會在GitHub第一時間發布,歡迎持續關注!
也邀請大家加入ERNIE官方技術交流QQ群:760439550,可在群內交流技術問題,會有ERNIE的研發同學為大家及時答疑解惑。