NLP常見任務


借助BERT論文, 梳理下自然語言處理當前常見的任務.

NLP任務

根據判斷主題的級別, 將所有的NLP任務分為兩種類型:

  • token-level task: token級別的任務. 如完形填空(Cloze), 預測句子中某個位置的單詞; 或者實體識別; 或是詞性標注; SQuAD等.
  • sequence-level task: 序列級別的任務, 也可以理解為句子級別的任務. 如情感分類等各種句子分類問題; 推斷兩個句子的是否是同義等.

token-level task

Cloze task

BERT模型預訓練的兩個任務之一, 等價於完形填空任務, 即給出句子中其他的上下午token, 推測出當前位置應當是什么token.

解決這個問題就可以直接參考BERT在預訓練時使用到的模型: masked language model. 即在與訓練時, 將句子中的部分token[masked]這個特殊的token進行替換, 就是將部分單詞遮掩住, 然后目標就是預測[masked]對應位置的單詞.

這種訓練的好處是不需要人工標注的數據. 只需要通過合適的方法, 對現有語料中的句子進行隨機的遮掩即可得到可以用來訓練的語料. 訓練好的模型, 就可以直接使用了.

SQuAD(Standford Question Answering Dataset) task

這是一個生成式的任務. 樣本為語句對. 給出一個問題, 和一段來自於Wikipedia的文本, 其中這段文本之中, 包含這個問題的答案, 返回一短語句作為答案.

因為給出答案, 這是一個生成式的問題, 這個問題的特殊性在於最終的答案包含在語句對的文本內容之中, 是有范圍的, 而且是連續分布在內容之中的.

因此, 我們找出答案在文本語句的開始和結尾處, 就能找到最后的答案. 通過對文本語句序列中每個token對應的所有hidden vectorsoftmax判斷是開始的概率和是結束的概率, 最大化這個概率就能進行訓練, 並得到輸出的結果.

Named Entity Recognition

本質是對句子中的每個token打標簽, 判斷每個token的類別.

常用的數據集有:

  • NER(Named Entity Recognition) dataset: 對應於Person, Organization, Location, Miscellaneous, or Other (non-named entity).

sequence-level task

NLI(Natural Language Inference) task

自然語言推斷任務, 即給出一對(a pair of)句子, 判斷兩個句子是entailment(相近), contradiction(矛盾)還是neutral(中立)的. 由於也是分類問題, 也被稱為sentence pair classification tasks.

在智能問答, 智能客服, 多輪對話中有應用.

常用的數據集有:

  • MNLI(Multi-Genre Natural Language Inference): 是GLUE Datasets(General Language Understanding Evaluation)中的一個數據集. 是一個大規模的來源眾多的數據集, 目的就是推斷兩個句子是意思相近, 矛盾, 還是無關的.
  • WNLI(Winograd NLI)

Sentence Pair Classification tasks

兩個句子相關性的分類問題, NLI task是其中的特殊情況. 經典的此類問題和對應的數據集有:

  • QQP(Quora Question Pairs): 這是一個二分類數據集. 目的是判斷兩個來自於Quora的問題句子在語義上是否是等價的.
  • QNLI(Question Natural Language Inference): 也是一個二分類問題, 兩個句子是一個(question, answer)對. 正樣本為answer是對應question的答案, 負樣本則相反.
  • STS-B(Semantic Textual Similarity Benchmark): 這是一個類似回歸的問題. 給出一對句子, 使用1~5的評分評價兩者在語義上的相似程度.
  • MRPC(Microsoft Research Paraphrase Corpus): 句子對來源於對同一條新聞的評論. 判斷這一對句子在語義上是否相同.
  • RTE(Recognizing Textual Entailment): 是一個二分類問題, 類似於MNLI, 但是數據量少很多.

Single Sentence Classification tasks

  • SST-2(Stanford Sentiment Treebank): 單句的二分類問題, 句子的來源於人們對一部電影的評價, 判斷這個句子的情感.
  • CoLA(Corpus of Linguistic Acceptability): 單句的二分類問題, 判斷一個英文句子在語法上是不是可接受的.

SWAG(Situations With Adversarial Generations)

給出一個陳述句子和4個備選句子, 判斷前者與后者中的哪一個最有邏輯的連續性, 相當於閱讀理解問題.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM