論文筆記 Context-Aware Attentive Knowledge Tracing

本文轉載自查看原文 2021-03-06 17:17 368

摘要

這篇文章提出了AKT模型，使用了單調性注意力機制，考慮過去的做題記錄來決策未來的做題結果，另外使用了Rasch 模型來正則化習題和概念的嵌入。

AKT方法

1上下文感知表示和知識檢索

通過兩個encoder使用單調性注意力機制，分別將原始的習題嵌入 $\{\mathbf{x}_1,...,\mathbf{x}_t\}$ 編碼為 $\{\mathbf{\hat{x}}_1,...,\mathbf{\hat{x}}_t\}$ , 以及原始的習題-反饋嵌入 $\{\mathbf{y}_1,...,\mathbf{y}_{t-1}\}$編碼為 $\{\mathbf{\hat{y}}_1,...,\mathbf{\hat{y}}_{t-1}\}$ , 該部分為上下文感知的嵌入部分，是基於 學生在做題的時候的理解和學習都是因人而異的 這一直覺。

知識檢索部分將 $\mathbf{\hat x}_{1:t}$ 以及 $\mathbf{\hat y}_{1:t-1}$ 為輸入，輸出對於當前問題檢索到的知識狀態，

2單調性注意力機制

引入單調性注意力機制的原因為：學習過程是時序的，伴隨着記憶力的衰減；並且很久之前的表現相較於近期的表現來說重要程度更小，因此引入該機制，可以反應出以下直覺： 學生面對新題目時，過去概念上不太相關的題目以及很久遠的題目，它們與當前的題目並不會很相關 。該機制計算注意力的權重時，加入了一個乘法指數衰減項：

\[\alpha_{t,\tau} = \frac{exp(s_{t,\tau})}{\sum_{\tau^{\prime}}exp(s_{t, \tau\prime})} \]

其中

\[s_{t,\tau}=\frac{exp(-\theta·d(t,\tau))·\mathbf{q}_t^Tk_\tau}{\sqrt{D_k}} \]

雖然有很多建模時間關系的方式，比如NLP中的position embedding，等等，但是文中后面經過實驗，上面這種建模方法效果比較好。

上下文感知距離衡量 ：一個直觀做法是直接用絕對距離，$d(t,\tau)) = |t-\tau|$ , 但是這種距離不帶有上下文感知，並且忽略了過去的聯系，為了能夠反應這種關系提出了一種新的上下文感知的距離度量：

\[d(t,\tau)) = |t-\tau|·\sum^{t}_{t^\prime=\tau+1}\gamma_{t,t^\prime}\\ \gamma_{t,t^\prime}=\frac{exp(\frac{q_t^Tk_{t^\prime}}{\sqrt{D_k}})} {\sum_{1\le\tau^\prime\le t}exp(\frac{q_t^Tk_{t^\prime}}{\sqrt{D_k}})} \]