【原創】task-oriented dialogues 面向任務型對話綜述


task-oriented對話系統主要是為解決特定任務的,比如訂票任務(訂機票,電影票等),預定飯店等。

區別於問答系統和閑聊機器人,任務是否能成功完成是衡量系統的一大重要因素,也是很多論文中的一個評價指標:task sucess rate。

目前主要有兩種實現方式,pipeline結構和end-to-end結構。

1.end-to-end 結構

end-to-end結構則是不將具體步驟模塊化,而是直接學習輸入到輸出的映射關系,用一個總的神經網絡結構(RNN/LSTM/Attention)來代替上述的各個模塊

end-to-end結構對話系統

2.pipeline 結構

pipeline結構主要包括四個部分。

自然語言理解(nature language understanding, NLU):以用戶對話為輸入(經ASR識別得到的可能會有誤差),輸出的得到話語中包含的語義信息(domain、intent、slot-value)。

對話狀態跟蹤(dialog state track, DST):對話狀態包含了到對話當前輪為止關於用戶意圖的所有信息,學習對話狀態的變化,以供系統做出正確策略。

對話策略學習(dialog policy learning, DPL):根據對話狀態,判斷用戶意圖,返回系統行為,對用戶的話進行回復。

自然語言生成(nature language generation):根據系統行為,生成正確合語法的自然語句回復。

2.1 自然語言理解(nature language understanding, NLU)

NLU模塊以用戶話語為輸入,執行三個任務:領域識別、意圖檢測和槽填充[3]。如圖W是用戶話語,S是slot  filling任務,D是domain detection任務,I是Intent determination任務。

領域識別和意圖檢測通常被建模為分類問題,槽填充被建模為序列標注問題

對於這三個任務可以分開來做,也可以聯合來做(類似於multi-task learning)。目前的一些方向:

1.考慮mutli-class classification任務。

2.考慮多輪對話中的contextual information來完成slot filling任務。

3.考慮零樣本學習(zero-shot learning)解決訓練數據不足問題。

2.1.1 SLot filling

這里簡單介紹下slot是什么,slot filling任務又是做什么。

slot可以理解為有專家預定義的一些標簽,這些標簽有具體的值。比如在訂電影票的任務中,有一個slot是movie_name,表示電影名這個標簽,而這個標簽具體對應的值要根據用戶的意圖來填空,可能是“Titanic”,可能是”Three fools"等,要根據對話看哪個值是用戶提到的或者想看的。

此外,slot一般分為兩類: informable 和 requestable。

a slot is called informable if the value for this slot can be used to constrain the conversation, such as phone_number; 
a slot is called requestable if the speaker can ask for its value, such as ticket_price.
Note that a slot can be both informable and requestable, an example being movie_name.

即:

informable slot 一般是由用戶告知系統的,用來約束對話的一些條件,系統為了完成任務必須滿足這些約束。

requestable slot 一般是用戶向系統咨詢的,可以來做選擇的一些slot。

一個slot可能既是informable的也是requestable的。

2.2 對話狀態跟蹤(dialog state track, DST)

對話狀態包含了到對話當前輪為止關於用戶意圖的所有信息,之后對話策略學習部分將把對話狀態作為輸入來做決策(即決定系統行為dialog act)。

對話狀態可能包含的部分:

1.每個informable slot的目標約束,以槽值對的形式表示。

2.用戶向系統咨詢的requested slot的值。

3.上一輪系統做出的決策,系統行為。

4.當前輪的用戶意圖。

最近出來比較流行的DST模型就是17年的Neural Belief Tracker(NBT)[4]。

該模型使用了神經網絡的方法。該模型有三個輸入:系統話語,用戶話語,正在 被DST追蹤的任意槽值對。前兩個首先分別(通過多層感知機和 卷積神經網絡)被映射為一個內部的 向量表示。 第三個候選的slot-value對也會被表示 為向量。這三個向量之間互相作用來獲得上下文 模型,用來從對話中獲得未來的上下文 信息和語義解碼,來決定用戶是否清晰 表達了一個對應於輸入的槽值對的意圖。最后上下文模型和語義解碼向量經過一 個softmax層來得到最后的預測。 對於每一個候選的槽值對都會重復上述 過程。

 另一個新出的是18年的Sequicity framework。這是一個將DST和DPL結合起來訓練的端到端方法。

該篇論文提出使用belief spans來表示對話狀態。belief spans包含兩個部分:一個用於informable slot,一個用於requestable slots。每個部分收集到目前為止為對話中的各個插槽找到的值。

另外DST領域有個很著名的比賽DSTC。(感興趣的可以自行搜索。

 2.3 對話策略學習(dialog policy learning, DPL)

 DPL是我目前主要學習和研究的方向。之前一直在學習和研究NLU。

對話策略可以由標准強化學習算法優化。有兩種使用強化學習的方法:online和batch。online方法是指代理與用戶進行交互來改進其策略;batch方法是指系統事先假定了一系列的用戶對話的轉變,並且只基於數據優化策略。

2.3.1 DQN

這里只主要介紹下DQN作為典型。(其他強化學習的內容這里先不討論)

DQN是指用深度學習的方法(MLP/RNN/CNN等)實現Q-learning。DQN的輸入是當前對話狀態的編碼。一種方法是將其編碼為特征向量,由(1)上一輪用戶行為和與之相關的slots的one-hot編碼;(2)上一輪系統行為和與之相關的slots的one-hot編碼;(3)到目前為止之前對話中所有填過值得一組槽;(4)當前的輪數;(5)來自KB(knowledge base)的滿足之前所有informed slots的約束的結果;組成。假設這些組成的輸入向量為s

DQN輸出一個實值向量,所有可能被系統選擇的(dialogue act, slot)對。假設輸出向量為q

整個模型有 ≥ 1 層隱藏層,參數矩陣為${W_1, W_2, ..., W_L}$。則有

$$ h_0 = s $$

$$ h_l = g(W_lh_l-1),   l = 1,2,...,L-1 $$

$$ q = W_Lh_L-1 $$

g(•)是激活函數,ReLU或者sigmoid函數。最后輸出的qQ(s,·)的近似,在狀態s時的Q-values。學習網絡中的參數可以使用現有的強化學習算法。當學到這些參數后,網絡會得到一個貪心的系統行為選擇策略:對於當前的對狀態 s, 使用網絡中的前向過程計算 q,所有系統行為的 Q-values。通過選擇 q 中最大值來選擇了某個行為(dialogue act 和 與之相關的 slots)。但是這里有個問題就是,由於需要exploration,上述的貪心地選擇系統的策略可能不是長期以來最好的。這里解釋下 exploration,在使用強化學習方法學習策略時我們不僅要選擇當前可以預見的最好的回復,還要去探尋那些可能產生更好的回復的系統行為,這樣可能是在長期來說對學習策略的一個好處,這就是 exploration。與之相對的就是 exploitation

2.3.2 Policy Gradient

Policy Gradient是另一類強化學習方法。這個算法直接優化策略,而不學習Q函數。在這種算法中策略本身由θ參數化,$\pi(s,\theta)$是關於系統行為的分布。給定參數θ,策略可以通過輪次為H,$\tau = (s_1,a_1,r_1,...,s_H,a_H,r_H)$的對話中的平均長期獎勵來評估:

$$ J(\theta):= E[\sum_{t=1}^{H}\gamma^{t-1}r_t|a_t\sim\pi(s_t;\theta)] $$

$$  \theta \leftarrow \theta + \alpha\nabla_{\theta}J(\theta) $$

2.3.3 Policy Learning 目前的幾個方向

1. Effient Exploration

這個問題主要是考慮如何權衡exploitation 和 exporation 之間的關系。

在用強化學習方法來學習策略時,在沒有老師的情況下,基於RL的代理通過與最初未知的環境交互,然后從收集的交互數據中學習。通常,代理需要在新的狀態時嘗試新的系統行為來發現潛在的可能更好的策略(這就是exploration),但有時候也要考慮:根據目前收集到的信息,選擇好的行為來最大化獎勵(這就是exploitation)。所以這時候我們就要考慮如何進行有效的exploration。在對話策略學習的語境中,策略學習者嘗試新的方式與用戶交互通常是希望可以發現一個從長遠來看更好的策略。

現在研究的兩個方向,一是finite-state RL,另一個是參數化模型是神經網絡這種的。目前第二種的論文會更多一些,主要是出現在NIPS上的。

2. Domain Extension

領域擴展問題是指在系統部署后,隨着時間可能需要添加更多的intent和slot使得系統更豐富。這個問題也使得exploration更具有挑戰性:因為agent需要明確地量化intents/slot參數中的不確定性,以便更積極地探索新內容,同時避免探索已經學習過的內容。

主要方法有18年提出的BBQ網絡,受到了Thompson Sampling的啟發。

3. Composite-task Dialogues

在許多現實生活問題中,一個任務可能由一系列需要解決的子任務共同組成。而同樣,復合任務對話,指的是可以被分解為一系列相關的子對話,每個子對話集中在一個子主題上。比如說一個旅行規划對話系統,需要以一種協同的方式訂機票,旅館,汽車租賃,以滿足所謂的slot constraints 的特定交叉子任務的約束。slot constraints是對應於特定應用的。在旅行規划問題中,一個很平常的約束就是出站航班的到達時間要早於旅館的辦理入住時間。

這類問題的策略學習有兩個挑戰:(1)由於每個子任務對應於一個域,有其自己領域內的槽定義,這些所有槽的集合組成了復合問題的槽集。由於槽的約束,這些字任務無法獨立解決,因此狀態空間也會比一般任務大很多。(2)復合任務通常需要更多輪次來完成,一般的獎勵函數只在整個對話結束后給出成功與否的獎勵,因此整個獎勵信號是稀疏和有延遲的,使得優化更困難。

目前的一種方法是分級強化學習[6]。任務等級有兩級。頂層策略$\pi_g$選擇哪個子任務g來解決,底層策略$\pi_{a,g}$解決由上級選擇的特定子任務。另外有論文將deepRL換成了Gaussian processRL來完成策略學習。

這里引發出來的一個問題是:基於子目標的分級強化學習需要合理的子任務和選項分類。如何去定義這些子任務,專家?ML?DL?。

另一種分級RL是Feudal RL(封疆強化學習)。上述的分級RL是在時間維上分為多個子任務,FRL是在空間上將任務進行了分解。在每輪對話,feudal policy首先決定是information-gathering行為還是information-providing行為,然后在相關的高水平類別中選擇一個行為。

4. Multi-domain Dialogues

 多域對話里的屬於不同域的子對話是獨立的任務,沒有跨任務的時隙約束。因為涉及到多域對話,因此也需要更大的對話狀態空間,因此,需要學習可重用策略,這些策略的參數可以跨多個域共享,只要它們是相關的。介紹幾種方法:

1.15年提出的BCM(Bayesian Committee Machine),提出在訓練的時候在不同的可能很小的數據集上學習得到多個策略,在測試階段這些策略都提議一個行為,然后所有的建議最終由BCM policy聚集為一個行為。

2.16年提出來的NDQN(Network of DQNs),每個DQN被訓練為可以在特定的子對話中對話。meta-policy來控制如何在這些DQN中轉換。

3.18年有論文提出通過描述一個域的一組特征,針對不同域優化的策略可以被共享。

5. Integration of Planning and Learning

 優化針對人類的以任務為導向的對話策略是代價高昂的,因為它需要對話系統和人之間進行許多互動。模擬用戶為基於RL的策略優化提供了一種廉價的替代方法,但可能不是一個足夠真實的近似人類用戶。在這里,我們關注的是在優化對話系統時使用用戶模型來生成更多的數據,從而提高示例的復雜性。受Dyna-Q框架的啟發(Sutton, 1990),Peng et al.(2018)提出Deep Dyna-Q (DDQ)來處理深度學習模型的大規模問題,直觀地說,DDQ允許與人類用戶和模擬用戶進行交互。DDQ的訓練包括三個部分:

(1)直接強化學習:對話系統與真實用戶交互,收集真實對話,通過模仿學習或強化學習來改進策略;

(2)環境模型學習:使用直接強化學習收集的真實對話細化環境模型(用戶模擬器);

(3)規划:通過強化學習,針對模擬用戶改進對話策略。

DDQ的一個挑戰是平衡來自真實用戶(直接強化學習)和模擬用戶(計划)的樣本。19年ACL有篇論文在上述模型基礎上提出BCS(Budget-Conscious Scheduling)模塊根據預算合理分配各部分強化學習。

18年另一篇論文提出受到生成對抗網絡啟發的Discriminative Deep Dyna-Q(D3Q),它整合了一個經過訓練的判別器來區分模擬用戶和真實用戶的體驗。在規划步驟中,根據判別器,只有當模擬經驗看起來是真實用戶經驗時,才使用模擬經驗進行策略訓練。

6. Reward Function Learning

 在與用戶交互時,對話策略通常被優化為最大化長期回報。因此,獎勵功能對於創建高質量的對話系統至關重要。一種可能性是讓用戶在對話期間或對話結束時提供反饋,以對質量進行評估,但這樣的反饋是干擾性的,而且成本高昂。通常,較容易測量的量(如時間流逝)被用來計算獎勵函數。但是在實踐中,設計一個合適的獎勵函數並不總是顯而易見的,需要大量的領域知識。目前有的方法:

(1)利用機器學習從數據中學習更好的與用戶喜好相關的獎勵函數;

(2)領用RNN和CNN來評估對話的成功程度,但是這種方法需要數據標簽(dialogue, success-or-not)對,比較難獲得;

(3)在與人類用戶交互時,同時學習獎勵功能和策略;

(4)對話成功只是衡量對話政策質量的一個方面,針對信息搜索任務,作者提出了一種新的基於交互質量的獎勵評估器,它平衡了對話策略的多個方面;

(5)將獎勵功能視為區分人類產生的對話與對話策略產生的對話的判別器,利用對話學習同時學習判別器和策略。

 2.4 自然語言生成(nature language generation)

 (待補充)

 2.5 References

Gao J, Galley M, Li L. Neural approaches to conversational ai[J]. Foundations and Trends® in Information Retrieval, 2019, 13(2-3): 127-298.

Bapna, A., Tür, G., Hakkani-Tür, D., and Heck, L. P. (2017). Towards zero-shot frame semantic parsing for domain scaling. In Proceedings of the 18th Annual Conference of the International Speech Communication Association (INTERSPEECH), pages 2476–2480.

Bellemare, M. G., Srinivasan, S., Ostrovski, G., Schaul, T., Saxton, D., and Munos, R. (2016). Unifying count-based exploration and intrinsic motivation. In Advances in Neural Information Processing Systems (NIPS), pages 1471–1479.

Budzianowski, P., Ultes, S., Su, P.-H., Mrkˇ si´ c, N., Wen, T.-H., nigo Casanueva, I., Rojas-Barahona, L. M., and Gaˇ si´ c, M. (2017). Sub-domain modelling for dialogue management with hierarchical reinforcement learning. In Proceedings of the 18h Annual SIGdial Meeting on Discourse and Dialogue (SIGDIAL), pages 86–92.

Casanueva, I., Budzianowski, P., Su, P.-H., Ultes, S., Rojas-Barahona, L. M., Tseng, B.-H., and Gaˇ si´ c, M. (2018). Feudal reinforcement learning for dialogue management in large domains. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pages 714–719.

Chen, L., Zhou, X., Chang, C., Yang, R., and Yu, K. (2017d). Agent-aware dropout DQN for safe and efficient on-line dialogue policy learning. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2454–2464.

Chen, Y.-N., Hakkani-Tür, D., Tur, G., Gao, J., and Deng, L. (2016b). End-to-end memory networks with knowledge carryover for multi-turn spoken language understanding. In Proceedings of The 17th Annual Meeting of the International Speech Communication Association, pages 3245–3249.

Cuayáhuitl, H., Yu, S., Williamson, A., and Carse, J. (2016). Deep reinforcement learning for multi-domain dialogue systems. arXiv preprint arXiv:1611.08675.

Daubigney, L., Gaˇ si´ c, M., Chandramohan, S., Geist, M., Pietquin, O., and Young, S. J. (2011). Uncertainty management for on-line optimisation of a POMDP-based large-scale spoken dialogue system. In Proceedings of the 12th Annual Conference of the International Speech Communication Association (INTERSPEECH), pages 1301–1304.

Dhingra, B., Li, L., Li, X., Gao, J., Chen, Y.-N., Ahmed, F., and Deng, L. (2017). Towards end-toend reinforcement learning of dialogue agents for information access. In ACL (1), pages 484–495.

El Asri, L., Laroche, R., and Pietquin, O. (2012). Reward function learning for dialogue management. In Proceedings of the Sixth Starting AI Researchers’ Symposium (STAIRS), pages 95–106.

Mrkˇ si´ c, N., Séaghdha, D. O., Wen, T.-H., Thomson, B., and Young, S. J. (2017). Neural belief tracker: Data-driven dialogue state tracking. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL), pages 1777–1788.

Ren, L., Xie, K., Chen, L., and Yu, K. (2018b). Towards universal dialogue state tracking. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2780–2786.

Rieser, V. and Lemon, O. (2008). Learning effective multimodal dialogue strategies from wizard-of-oz data: Bootstrapping and evaluation. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics (ACL), pages 638–646.

Su, P.-H., Gasic, M., Mrksic, N., Rojas-Barahona, L. M., Ultes, S., Vandyke, D., Wen, T.-H., and Young, S. J. (2016a). On-line active reward learning for policy optimisation in spoken dialogue systems. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL), volume 1, pages 2431–2441.

Gaˇ si´ c, M., Mrkˇ si´ c, N., hao Su, P., Vandyke, D., Wen, T.-H., and Young, S. J. (2015). Policy committee for adaptation in multi-domain spoken dialogue systems. In Proceedings of the 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), pages 806–812.

Hakkani-Tür, D., Tur, G., Heck, L., Fidler, A., and Celikyilmaz, A. (2012). A discriminative classification-based approach to information state updates for a multi-domain dialog system. In Proceedings of the 13th Annual Conference of the International Speech Communication Association (INTERSPEECH), pages 330–333.

Tang, D., Li, X., Gao, J., Wang, C., Li, L., and Jebara, T. (2018). Subgoal discovery for hierarchical dialogue policy learning.  In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2298––2309.

Wang, C., Wang, Y., Huang, P.-S., Mohamed, A., Zhou, D., and Deng, L. (2017a). Sequence modeling via segmentations. In Proceedings of the 34th International Conference on Machine Learning, pages 3674–3683.

Hakkani-Tür, D., Tür, G., Celikyilmaz, A., Chen, Y.-N., Gao, J., Deng, L., and Wang, Y.-Y. (2016).
Multi-domain joint semantic frame parsing using Bi-directional RNN-LSTM. In Proceedings of the 17th Annual Conference of the International Speech Communication Association (INTERSPEECH), pages 715–719.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

題外話:我回來了!還是寫文字記憶深刻些。orz

之后主要會記錄一些刷題的筆記和讀論文的總結。

目前的方向是做面向任務型的對話系統,側重dialog policy learning部分。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM