GLUE榜單地址:https://gluebenchmark.com/leaderboard/
如果要用一句話形容文本分類任務在NLP中的應用之廣,某種程度上,大概這句話最適合:
一切NLP皆分類。
通常來說,NLP可以分為自然語言理解(NLU)和自然語言生成(NLG)。在NLU方面,我們拿時下最流行的GLUE(General Language Understanding Evaluation)排行榜舉例,其上集合了九項NLU的任務,分別是
- CoLA(The Corpus of Linguistic Acceptability):紐約大學發布的有關語法的數據集,該任務主要是對一個給定句子,判定其是否語法正確,因此CoLA屬於單個句子的文本二分類任務;
- SST(The Stanford Sentiment Treebank),是斯坦福大學發布的一個情感分析數據集,主要針對電影評論來做情感分類,因此SST屬於單個句子的文本分類任務(其中SST-2是二分類,SST-5是五分類,SST-5的情感極性區分的更細致);
- MRPC(Microsoft Research Paraphrase Corpus),由微軟發布,判斷兩個給定句子,是否具有相同的語義,屬於句子對的文本二分類任務;
- STS-B(Semantic Textual Similarity Benchmark),主要是來自於歷年SemEval中的一個任務(同時該數據集也包含在了SentEval),具體來說是用1到5的分數來表征兩個句子的語義相似性,本質上是一個回歸問題,但依然可以用分類的方法做,因此可以歸類為句子對的文本五分類任務;
- QQP(Quora Question Pairs),是由Quora發布的兩個句子是否語義一致的數據集,屬於句子對的文本二分類任務;
- MNLI(Multi-Genre Natural Language Inference),同樣由紐約大學發布,是一個文本蘊含的任務,在給定前提(Premise)下,需要判斷假設(Hypothesis)是否成立,其中因為MNLI主打賣點是集合了許多不同領域風格的文本,因此又分為matched和mismatched兩個版本的MNLI數據集,前者指訓練集和測試集的數據來源一致,而后者指來源不一致。該任務屬於句子對的文本三分類問題。
- QNLI(Question Natural Language Inference),其前身是SQuAD 1.0數據集,給定一個問句,需要判斷給定文本中是否包含該問句的正確答案。屬於句子對的文本二分類任務;
- RTE(Recognizing Textual Entailment),和MNLI類似,也是一個文本蘊含任務,不同的是MNLI是三分類,RTE只需要判斷兩個句子是否能夠推斷或對齊,屬於句子對的文本二分類任務;
- WNLI(Winograd Natural Language Inference),也是一個文本蘊含任務,不過似乎GLUE上這個數據集還有些問題;
