相關內容簡體繁體

NLP的比賽和數據集

本文轉載自查看原文 2020-01-31 09:45 1704

整理了NLP領域的比賽、數據集、模型

比賽	網站	主辦方(作者)
decaNLP	http://decanlp.com/	Salesforce
CLUE	https://github.com/CLUEbenchmark/CLUE	中文任務基准
GLUE	https://gluebenchmark.com/tasks
BioBERT	https://github.com/dmis-lab/biobert	生物醫學領域的NLP任務
ERNIE	https://github.com/PaddlePaddle/ERNIE	百度飛槳
ALBERT

decaNLP

自然語言十項全能多任務挑戰

Natural Language Decathlon (decaNLP) 是一個新的基准，要求單獨的系統能夠完成10項獨立的自然語言任務。

問答 Stanford Question Answering Dataset (SQuAD 1.1)
機器翻譯 International Workshop on Spoken Language Translation (IWSLT),
自動摘要 CNN/DailyMail (CNN/DM) corpus.
自然語言推理 Multi-Genre Natural Language Inference Corpus (MNLI).
情感分析 Stanford Sentiment Treebank (SST),
語義標簽標注 QA-SRL 1.0.
關系抽取 QA-ZRE,
面向全域的對話 Wizard of Oz (WOZ)
語義解析 WikiSQL 【Seq2SQL，https://github.com/salesforce/WikiSQL】
常識推理 Modified Winograd Schema Challenge, MWSC)

評測-GLUE

CoLA、 SST-2、 MRPC、 STS-B、 QQP、 MNLI-m、 QNLI、 RTE

評測-CLUE

中文任務基准評測CLUE
AFQMC:螞蟻語義相似度(Acc)；
TNEWS:文本分類(Acc)；
IFLYTEK:長文本分類(Acc);
CMNLI: 自然語言推理中文版;
COPA: 因果推斷;
WSC: Winograd模式挑戰中文版;
CSL: 中國科學文獻數據集;

模型-BioBERT

https://github.com/dmis-lab/biobert

NER
命名實體識別
RE
關系抽取
QA
問答

模型-ERNIE

https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md

自然語言推斷 XNLI
閱讀理解 DuReader、CMRC2018、DRCD
命名實體識別 MSRA-NER(SIGHAN2006)
情感分析 ChnSentiCorp
問答任務 NLPCC2016-DBQA
語義相似度 LCQMC、BQ Corpus

模型-ALBERT

模型-TinyBERT

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 JSON和數據集互相轉換單元情感分析和數據集 JSON和數據集互相轉換單元 kaggle比賽實踐M5-數據集介紹整理了一下NLP中文數據集機器學習和數據集介紹、數據集划分、特征抽取、歸一化自然語言推理和數據集 SAS編程基礎 - 邏輯庫和數據集 python爬取電競《絕地求生》比賽數據集分析干貨 | 100+個NLP數據集大放送，再不愁數據！

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM