中英文對話語料收集


一、用於對話系統的中英文語料 Datasets for Training Chatbot System 

參考:GitHub - candlewill/Dialog_Corpus: 用於訓練中英文對話系統的語料庫 Datasets for Training Chatbot System

本項目收集了一些從網絡中找到的用於訓練中文(英文)聊天機器人的對話語料

公開語料

搜集到的一些數據集如下,點擊鏈接可以進入原始地址

  1. dgk_shooter_min.conv.zip 
    中文電影對白語料,噪音比較大,許多對白問答關系沒有對應好

  2. The NUS SMS Corpus 
    包含中文和英文短信息語料,據說是世界最大公開的短消息語料

  3. ChatterBot中文基本聊天語料 
    ChatterBot聊天引擎提供的一點基本中文聊天語料,量很少,但質量比較高

  4. Datasets for Natural Language Processing 
    這是他人收集的自然語言處理相關數據集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用機器翻譯為中文,供中文對話使用

  5. 小黃雞 
    據傳這就是小黃雞的語料:xiaohuangji50w_fenciA.conv.zip (已分詞) 和 xiaohuangji50w_nofenci.conv.zip (未分詞)

  6. 白鷺時代中文問答語料 
    由白鷺時代官方論壇問答板塊10,000+ 問題中,選擇被標注了“最佳答案”的紀錄匯總而成。人工review raw data,給每一個問題,一個可以接受的答案。目前,語料庫只包含2907個問答。(備份)

  7. Chat corpus repository 
    chat corpus collection from various open sources 
    包括:開放字幕、英文電影字幕、中文歌詞、英文推文

  8. 保險行業QA語料庫 
    通過翻譯 insuranceQA產生的數據集。train_data含有問題12,889條,數據 141779條,正例:負例 = 1:10; test_data含有問題2,000條,數據 22000條,正例:負例 = 1:10;valid_data含有問題2,000條,數據 22000條,正例:負例 = 1:10

未公開語料

這部分語料,網絡上有所流傳,但由於我們能力所限,或者原作者並未公開,暫時未獲取。只是列舉出來,供以后繼續搜尋。

    1. 微軟小冰

 

二、其它中文聊天語料

參考:現在有哪些中文的聊天語料庫? - 知乎

1.candlewill/Dialog_Corpus:這個是一個集合,包括之前答主的答案!

2.中文單輪短文本對話:Short-Text Conversation 找了下,李航老師對應論文:Neural Responding Machine for Short-Text Conversation

3.中文多輪對話:MarkWuNLP/MultiTurnResponseSelection,來自豆瓣的多輪對話

4.面向垂直領域智能問答的語料:Samurais/insuranceqa-corpus-zh 是目前已知的最好的中文保險語料。

5.開放域聊天,高質量閑聊(聊天、對話)語料____dada_____新浪博客 質量不錯。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM