論文筆記 Context-Aware Attentive Knowledge Tracing


摘要

這篇文章提出了AKT模型, 使用了單調性注意力機制, 考慮過去的做題記錄來決策未來的做題結果, 另外使用了Rasch 模型來正則化習題和概念的嵌入。

AKT方法

1上下文感知表示和知識檢索

通過兩個encoder使用單調性注意力機制,分別將原始的習題嵌入 \(\{\mathbf{x}_1,...,\mathbf{x}_t\}\) 編碼為 \(\{\mathbf{\hat{x}}_1,...,\mathbf{\hat{x}}_t\}\) , 以及原始的習題-反饋嵌入 \(\{\mathbf{y}_1,...,\mathbf{y}_{t-1}\}\)編碼為 \(\{\mathbf{\hat{y}}_1,...,\mathbf{\hat{y}}_{t-1}\}\) , 該部分為上下文感知的嵌入部分, 是基於 學生在做題的時候的理解和學習都是因人而異的 這一直覺。

知識檢索部分將 \(\mathbf{\hat x}_{1:t}\) 以及 \(\mathbf{\hat y}_{1:t-1}\) 為輸入,輸出對於當前問題檢索到的知識狀態,

2單調性注意力機制

引入單調性注意力機制的原因為:學習過程是時序的,伴隨着記憶力的衰減;並且很久之前的表現相較於近期的表現來說重要程度更小,因此引入該機制,可以反應出以下直覺: 學生面對新題目時,過去概念上不太相關的題目以及很久遠的題目,它們與當前的題目並不會很相關 。該機制計算注意力的權重時,加入了一個乘法指數衰減項:

\[\alpha_{t,\tau} = \frac{exp(s_{t,\tau})}{\sum_{\tau^{\prime}}exp(s_{t, \tau\prime})} \]

其中

\[s_{t,\tau}=\frac{exp(-\theta·d(t,\tau))·\mathbf{q}_t^Tk_\tau}{\sqrt{D_k}} \]

雖然有很多建模時間關系的方式,比如NLP中的position embedding,等等,但是文中后面經過實驗,上面這種建模方法效果比較好。

上下文感知距離衡量 :一個直觀做法是直接用絕對距離,\(d(t,\tau)) = |t-\tau|\) , 但是這種距離不帶有上下文感知,並且忽略了過去的聯系,為了能夠反應這種關系提出了一種新的上下文感知的距離度量:

\[d(t,\tau)) = |t-\tau|·\sum^{t}_{t^\prime=\tau+1}\gamma_{t,t^\prime}\\ \gamma_{t,t^\prime}=\frac{exp(\frac{q_t^Tk_{t^\prime}}{\sqrt{D_k}})} {\sum_{1\le\tau^\prime\le t}exp(\frac{q_t^Tk_{t^\prime}}{\sqrt{D_k}})} \]

3 反饋預測

這里還是常用的交叉熵,不多提了

4 基於Rasch模型的嵌入

Rasch類似於IRT,將答對問題的概率用兩個參數來建模:問題難度和學習者能力。

我們將概念 \(c_t\) 下的問題 \(q_t\) 嵌入表示為:

\[\mathbf{x}_t = \mathbf{c}_{c_t} + \mu_{q_t}·\mathbf{d}_{c_t} \]

其中 \(\mathbf{c}_{c_t}\) 是概念的嵌入,\(\mathbf{d}_{c_t}\) 是涵蓋這個概念的習題變化的總結, \(\mu_{q_t}\)是難度系數,問題-反饋對\((q_t,r_t)\) 也被類似的表示:

\[\mathbf{y_t} = \mathbf{e}_{(c_t,r_t)} +\mu_{q_t}·\mathbf{f}_{(c_t,r_t)} \]

\(\mathbf{e}_{(c_t,r_t)}\) 為概念-反饋嵌入,$ \mathbf{f}_{(c_t,r_t)}$ 為變化向量。

這個模型的選擇反映了我們的第三個直覺: 標注為相同概念的習題是相關的,但是個體困難程度不應該被忽略

整體架構圖:

可視化

為了提供解釋性,對多頭注意力權重進行了可視化,可以看到不同的head捕獲到不同的特性,有的關注局部,有的關注全體,等等

另外使用t-SNE可視化了問題嵌入,有比較明顯的聚類特征,同時困難度也有所體現:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM