摘要
這篇文章提出了AKT模型, 使用了單調性注意力機制, 考慮過去的做題記錄來決策未來的做題結果, 另外使用了Rasch 模型來正則化習題和概念的嵌入。
AKT方法
1上下文感知表示和知識檢索
通過兩個encoder使用單調性注意力機制,分別將原始的習題嵌入 \(\{\mathbf{x}_1,...,\mathbf{x}_t\}\) 編碼為 \(\{\mathbf{\hat{x}}_1,...,\mathbf{\hat{x}}_t\}\) , 以及原始的習題-反饋嵌入 \(\{\mathbf{y}_1,...,\mathbf{y}_{t-1}\}\)編碼為 \(\{\mathbf{\hat{y}}_1,...,\mathbf{\hat{y}}_{t-1}\}\) , 該部分為上下文感知的嵌入部分, 是基於 學生在做題的時候的理解和學習都是因人而異的 這一直覺。
知識檢索部分將 \(\mathbf{\hat x}_{1:t}\) 以及 \(\mathbf{\hat y}_{1:t-1}\) 為輸入,輸出對於當前問題檢索到的知識狀態,
2單調性注意力機制
引入單調性注意力機制的原因為:學習過程是時序的,伴隨着記憶力的衰減;並且很久之前的表現相較於近期的表現來說重要程度更小,因此引入該機制,可以反應出以下直覺: 學生面對新題目時,過去概念上不太相關的題目以及很久遠的題目,它們與當前的題目並不會很相關 。該機制計算注意力的權重時,加入了一個乘法指數衰減項:
其中
雖然有很多建模時間關系的方式,比如NLP中的position embedding,等等,但是文中后面經過實驗,上面這種建模方法效果比較好。
上下文感知距離衡量 :一個直觀做法是直接用絕對距離,\(d(t,\tau)) = |t-\tau|\) , 但是這種距離不帶有上下文感知,並且忽略了過去的聯系,為了能夠反應這種關系提出了一種新的上下文感知的距離度量:
3 反饋預測
這里還是常用的交叉熵,不多提了
4 基於Rasch模型的嵌入
Rasch類似於IRT,將答對問題的概率用兩個參數來建模:問題難度和學習者能力。
我們將概念 \(c_t\) 下的問題 \(q_t\) 嵌入表示為:
其中 \(\mathbf{c}_{c_t}\) 是概念的嵌入,\(\mathbf{d}_{c_t}\) 是涵蓋這個概念的習題變化的總結, \(\mu_{q_t}\)是難度系數,問題-反饋對\((q_t,r_t)\) 也被類似的表示:
\(\mathbf{e}_{(c_t,r_t)}\) 為概念-反饋嵌入,$ \mathbf{f}_{(c_t,r_t)}$ 為變化向量。
這個模型的選擇反映了我們的第三個直覺: 標注為相同概念的習題是相關的,但是個體困難程度不應該被忽略
整體架構圖:
可視化
為了提供解釋性,對多頭注意力權重進行了可視化,可以看到不同的head捕獲到不同的特性,有的關注局部,有的關注全體,等等