【論文筆記】MOOCCube: A Large-scale Data Repository for NLP Applications in MOOCs


  MOOCCube是一個服務於MOOC相關研究的開源大規模數據倉庫。和已有類似的教育資源數據庫相比它的規模龐大,數據豐富且多樣。其中的學生行為記錄包括學習時長、學習次數、學習視頻的區間等非常完善的學生行為。包含近20萬名學生的、總計將近500萬人次的視頻觀看學習的記錄。這部分數據其實可以拿來做包括用戶的行為分析建模甚至是相關推薦等等;對於課程視頻資源,選取了706門課程和將近4萬個視頻並做以相應的數據處理;最后以知識概念為核心,將學生行為和課程的內容通過與知識建立聯系、來完成實體之間的相互關聯,構成MOOCCube。

  • MOOCs研究目的
    • 對NLP和AI在在線教育中的應用研究
    • 包含三個維度的MOOCs大型數據庫(學生行為、課程、知識概念)
    • 應用目標為幫助學生更好的掌握更多的知識同時幫助提升教學資源

    • 建立以知識為核心的在線課程資源體系 

    • 以學生的需求及知識狀態為前提構建智能可交互的應用 

  • 數據采集
    • MOOCCube概述

MOOCCube是從學堂在線中獲取課程、概念和學生的實體並根據實體間的豐富關系將數據組織成知識庫的形式,以便查詢和存儲。MOOCCube是從學堂在線中獲取課程、概念和學生的實體並根據實體間的豐富關系將數據組織成知識庫的形式,以便查詢和存儲。其次,在構建應用時,也應該充分考慮mooc這些性質,並考慮到學生不同的需求和知識狀態,來構建合理的、智能的、可交互的應用,達到利用AI來自動化輔助學習的目的。  

    • 課程抽取

將MOOC視頻作為實體並從中抓取大綱、視頻列表以及教師和組織,並作為這門課的屬性。並且在獲取視頻字幕的同時保存視頻的順序以便進一步的知識發現

 

    • 概念以及概念圖

從課程視頻中抽取十個最具有代表性的課程概念並從wiki中記錄概念描述,同時從外部資源中搜索十個相關性最高的論文作為資源參考。

作者研究發現由於許多NLP類型的研究都是挖掘了概念之間的語義關系,所以進一步構建了一個新的概念分類法,將先決條件鏈作為概念圖(其中先決條件鏈。先決關系的定義是:如果概念A有助於理解概念B,那么從A到B存在先決關系)

在構造的過程中作者參考了以往的分類方法。作者發現對於課程分類以往的分類方法有以下不足:2004ConceptNet、2007Wiki分類法不能直接應用於課程概念因為課程概念大多是學術術語,而非學術類別極大地干擾了分類法的質量。

我們從cnctst4中選擇了一個跨語言的術語分類法作為基礎,並引導手動注釋來為MOOCCube構建一個可用的課程概念分類法

    • 學生行為

學生行為就是記錄的學生行為數據。行為數據包括注冊記錄以及視頻觀看日志,同時考慮到數據的質量和隱私性,刪除視頻觀看記錄少於兩條的用戶,然后將用戶名匿名化為用戶名。

    • 數據處理
      • 將課程視頻字幕化
      • 將相關論文保存為json格式
      • 課程/視頻依賴性注釋
      • 概念分類以及前置關系的標注

其中需要標注的三個關系有課程依賴鏈、概念分類鏈以及概念前提鏈

      • 其中課程依賴鏈推薦了課程學習的順序(專家標注)
      • 概念分類分為兩個過程概念前提鏈選擇在同一過程中出現的概念來抽樣候選概念對。與先前的工作一樣,如果概念A有助於理解B,則標注者會標注標簽。同時采用已有的良好數據集作為標准,如果標注與其不符,則由另外的專家進行評估
        • 使用預訓練詞嵌入來計算最可能的類別。然后要求相應字段中的三個注釋者標記該概念是否屬於此類別。
        • 對於標記為“不屬於”的概念類別對,選擇前一個類別的兄弟類別作為新候選者,然后將刷新后的配對再次放入注釋池。這樣的過程有效地減少了無效注釋的數量。
      • 概念前提鏈選擇在同一過程中出現的概念來抽樣候選概念對。與先前的工作一樣,如果概念A有助於理解B,則標注者會標注標簽。同時采用已有的良好數據集作為標准,如果標注與其不符,則由另外的專家進行評估
  • 應用

以上介紹了MOOCCube的數據構成以及相處理。接下來文章便是介紹了MOOCCube的相關應用,利用MOOCCube中不同類型的數據挖掘先決條件關系。但文章中只是提到了方法和圖表對比,並沒有詳細說明。MOOCCube融合了MOOC現有的研究任務所需的數據集,一類是關注課程內容的課程概念提取、前置關系發現以及課程概念擴展;另一類便是關注學生學習行為的輟學預測、課程建議等。在未來的研究中也將利用MOOCCube中的豐富多樣的數據集來促進已有主題;研究使用更加高級的模型;以及在在線教育任務中應用於更具有創新性的NLP任務

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM