本文僅供學習使用
CrossWOZ清華大學CoAI實驗室做的任務型中文跨域對話系統數據集,模擬北京游客進行酒店、景點、餐館、地鐵、出租車共5個領域進行對話。
文中詳細介紹了多輪對話的NLU、DST、Policy、NLG各個模塊。
提供了基准實驗,基於ConvLab2和基於規則。
作者解讀了自己的論文。
CrossWOZ
大規模中文多域任務型對話數據集
human-to-human dialogue
旅游信息Hotel、Attraction、Restaurant;Metro從旅游信息抽取;Taxi對接API
slot是人工設定的。景點的門票、開放時間;餐館的菜單等;
NLG: BLUE高不代表生成效果好。
- 采集數據。
- 生成目標。Domain、Slot、Value。隨機采樣,定義約束。
- 收集對話。構建網站,聘請人工,上下文依賴的對話,保證一致性。
- 對話標注
語料統計
基准
ConvLab-2
PyDial:關注對話策略的強化學習
ParlAI:支持多種任務:閱讀理解、QA。需要自己寫模塊化的代碼
ConvLab:模塊層次的評估。不是用戶模擬器的交互評估,不是機器跟機器的完整對話。corpus表現好,不代表真實表現好。
Rasa和Plato:用於生產環境,工程師快速搭建對話系統。例如公眾號,查天氣。脫離研究。