中英文對話語料收集

本文轉載自查看原文 2018-05-15 09:58 5778 對話系統

一、用於對話系統的中英文語料　Datasets for Training Chatbot System

本項目收集了一些從網絡中找到的用於訓練中文（英文）聊天機器人的對話語料

搜集到的一些數據集如下，點擊鏈接可以進入原始地址

dgk_shooter_min.conv.zip
中文電影對白語料，噪音比較大，許多對白問答關系沒有對應好
The NUS SMS Corpus
包含中文和英文短信息語料，據說是世界最大公開的短消息語料
ChatterBot中文基本聊天語料
ChatterBot聊天引擎提供的一點基本中文聊天語料，量很少，但質量比較高
Datasets for Natural Language Processing
這是他人收集的自然語言處理相關數據集，主要包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三部分，都是英文文本。可以使用機器翻譯為中文，供中文對話使用
小黃雞
據傳這就是小黃雞的語料：xiaohuangji50w_fenciA.conv.zip （已分詞）和 xiaohuangji50w_nofenci.conv.zip （未分詞）
白鷺時代中文問答語料
由白鷺時代官方論壇問答板塊10,000+ 問題中，選擇被標注了“最佳答案”的紀錄匯總而成。人工review raw data，給每一個問題，一個可以接受的答案。目前，語料庫只包含2907個問答。(備份)
Chat corpus repository
chat corpus collection from various open sources
包括：開放字幕、英文電影字幕、中文歌詞、英文推文
保險行業QA語料庫
通過翻譯 insuranceQA產生的數據集。train_data含有問題12,889條，數據 141779條，正例：負例 = 1:10； test_data含有問題2,000條，數據 22000條，正例：負例 = 1:10；valid_data含有問題2,000條，數據 22000條，正例：負例 = 1:10

這部分語料，網絡上有所流傳，但由於我們能力所限，或者原作者並未公開，暫時未獲取。只是列舉出來，供以后繼續搜尋。

二、其它中文聊天語料

參考：現在有哪些中文的聊天語料庫？ - 知乎

1.candlewill/Dialog_Corpus：這個是一個集合，包括之前答主的答案！

2.中文單輪短文本對話：Short-Text Conversation 找了下，李航老師對應論文：Neural Responding Machine for Short-Text Conversation

3.中文多輪對話：MarkWuNLP/MultiTurnResponseSelection，來自豆瓣的多輪對話

4.面向垂直領域智能問答的語料：Samurais/insuranceqa-corpus-zh　是目前已知的最好的中文保險語料。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 ug中英文對照前端中英文互譯 ocis code中英文前端中英文轉換 vue實現中英文切換 vscode 切換中英文界面 AAL模版中英文對照完整的中英文詞頻統計中英文之間是否需要空格？ Android APP 中英文切換