摘要:
大白話解釋字典學習,分享第五個月的學習過程,人生感悟,最后是自問自答。
目錄:
1.字典學習(Dictionary Learning,DL)
2.學習過程
3.自問自答
內容:
1.字典學習(Dictionary Learning,DL)
——如果把“0”,“1”看做是字典中的“字”,萬事萬物皆可用字典表示。
對於漢字來說,只含“0”,“1”字典就顯得過於簡單,《康熙字典》47035個漢字又臃腫了些,《現代漢語常用字表》就3500個漢字似乎剛剛好,這樣我們就能把隨便一篇文章表示成3500個元素組成的向量a。當然了,這個向量大部分元素可能都是0,我們把向量a叫做文章的稀疏表達。
然而在現實生活中,除了各種語言的字典,也沒聽說過其它字典了。但是我們開篇就誇下了海口,萬事萬物皆可用字典表示,現在來了一批圖片X,怎么學它們的字典D(Dictionary)呢?這就是所謂的字典學習,也可以叫做稀疏表達。
我們只知道圖片X,字典D和稀疏表達A是未知的,這時候我們可以使用KSVD算法交替求解A和D,即固定D求A,固定A逐列更新D,直到D不改變。
字典學習是一個比較容易理解的思想,通常要和其他的一些方法結合,應用在不同的場景,如多任務、多目標、多步學習等。值得注意的是,我閱讀的幾篇文章都不止學習一個字典,即既要學習共享字典,又要學習獨立字典,充分發掘源域S和目標域T組合之間的關系(如S-S, S-T, T-T),再結合現在比較流行的深度學習會取得比較好的實驗效果。
2.學習過程
這個月主要就在看老師給的文章,並在組會的時候做了匯報,說實話,看論文對我來說不容易,在匯報的過程中被問到一些細節的東西解釋不清,有些東西只有自己親身經歷過才會明白。至此我論文閱讀分有了更深刻的理解。首先是語言關,論文是用英文寫的,首先得把論文讀順,其中涉及的專有名詞得翻譯得當。其次是理解思想和實驗設置。最后是公式推導、優化求解和代碼實現。除此以外,論文思想方法的由來,論文寫作團隊的最新進展也是需要了解的。
最近導師讓我們了解一下對抗域適應和部分遷移學習相關的內容,我選了這篇 [Partial Adversarial Domain Adaptation-eccv18],希望能在學期末組會的時候能對這篇文章和涉及的知識點有系統深入地認識。最起碼要比這次組會的表現強!
3.自問自答
Q1:如何有系統的學習一個新方向?
A1:首先,找到這個方向的國內的學術帶頭人。然后,找到他學生的碩博論文,一般來說碩博論文會比較系統的介紹這個方向,對於閱讀和理解外文資料有很大的幫助。
Q2:如何面對論文中看不懂的公式?
A2:如果數學基礎薄弱,就盡可能地嘗試去了解公式的物理意義,最起碼每一個符號的含義要了如指掌。最好挑選一篇附有代碼的文章去實踐,聽說,只要代碼理解了,文章以及公式自然就理解了。
Q3:arXiv是干嘛的?
A3:讀音如archive(檔案),英 [ˈɑ:kaɪv],美 [ˈɑrkaɪv]。為了防止自己的idea在論文被收錄前被別人剽竊,我們會將預稿上傳到arxiv作為預收錄,因此這就是個可以證明論文原創性(上傳時間戳)的文檔收錄網站。由於arXiv上的文章多半都會投稿到學術期刊,作者對文章多半保持嚴謹態度(文章質量良莠不齊,如果是初學者,最好請老師幫忙看一下)。
Q4:第一次開組會講論文是什么體驗?
A4:卡殼嚴重,被問到公式的時候講不清楚。老師說,讀一篇論文不是說簡單讀一讀就完事了,要把論文變成自己的東西,以后見到了才能想得起來,用得起來。我相信有很多人和我一樣,既想追求廣度,又想追求深度,但是經過這5個月的探索,我認為需要把一樣東西學精。