文檔問答(document QA)


文檔問答指的是從非結構化文檔中提取答案。

近年來基於深度神經網絡的機器閱讀理解 ( Machine Reading Comprehension,MRC ) 技術得到了快速的發展,

逐漸成為問答和對話系統中的關鍵技術。MRC模型以問題和文檔為輸入,通過閱讀文檔內容預測問題的答案。根據需要預測的答案形式不同,閱讀理解任務可以分為填空式 ( Cloze-style )、多項選擇式 ( Multi-choice )、片段提取式 ( Span-extraction ) 和自由文本 ( Free-form )。

在實際問答系統中,最常使用的是片段提取式閱讀理解(MRC),該任務需要從文檔中提取連續的一段文字作為答案。最具影響力的片段提取式MRC公開數據集有SQuAD和MSMARCO等,這些數據集的出現促進了MRC模型的發展。

在模型方面,深度神經網絡結構被較早的應用到了機器閱讀理解任務中,並采用基於邊界預測(boundary-based prediction)方式解決片段提取式閱讀理解任務。這些模型采用多層循環神經網絡+注意力機制的結構獲得問題和文檔中每個詞的上下文向量表示,在輸出層預測答案片段的起始位置和終止位置。

近年來預訓練語言模型如BERT,RoBERTa和XLNet等在眾多NLP任務上取得突破性進展,尤其是在閱讀理解任務上。這些工作在編碼階段采用Transformer結構獲得問題和文檔向量表示,在輸出層同樣采用邊界預測方式預測答案在文檔中的位置。目前在單文檔閱讀理解任務SQuAD上,深度神經網絡模型的預測EM/F1指標已經超越了人類標注者的水平,說明了模型在答案預測上的有效性。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM