Global Gated Mixture of Second-order Pooling for Imporving Deep Convolutional Neural Network(2018 NIPS,大工李培華組)
論文motivation:
(1)現存的池化:一階GAP(全局均值池化)是很多CNN結構的標配,有研究者提出高階池化來提高性能
(2)缺點:但是這些池化都有個缺點就是假設了樣本服從了單峰分布,限制了CNN的表達能力。
(3)論文的改進:於是論文提出了基於二階池化的門混合結構來提高CNN對復雜特征和多模態分布的建模。
論文貢獻:
(1)提出了門混合結構:在最后一層之前,適應性地從N個分組模型中選擇K個模型來生成最后的特征表示。
(2)提出了帶參數的二階池化:在N個分組模型中使用了池化層,為了克服一階GAP和二階池化帶來的局限性,提出了帶參數的二階池化。
(3)實驗:在下采樣的ImageNet-1K和Places365兩個數據集上跑了實驗,以ResNet和WRN為骨架,發現加入本文的模型后能夠提高准確率。
架構解釋
(1)門混合模型:受hinton在ICLR2017的一篇論文“專家混合模型”啟發,提出了如下圖所示的結構。對於最后一層之前的輸入X,自適應地從N個CM(組件模型)選擇K個CM來讓X流入,其它分支都關閉,這個K是通過另外的預測層計算得到的。
(2)Balance Loss:單純的門混合模型學習可能會使得模型每次只訓練特定的幾個組件,所以為了讓所有組件都充分訓練,加入了一個Balance Loss,如下所示,讓組件權重的變異系數(標准差除以均值)盡可能小,減小組件權重之間的差異。其中S表示min-batch的大小,\(\omega\)表示N個分支的權重(向量)。
(3)二階池化(SOP):全局均值池化(一階池化)后得到的特征圖為1x1xC,而二階池化是計算的是特征圖之間的協方差,因為有C個特征圖計算后得到對稱的CxC矩陣。
(4)平方根歸一化的二階池化(SR-SOP):對二階池化后的結果(也就是上面說的協方差)做矩陣的平方根分解,如下公式(用矩陣分解來計算),其中\(X\in \mathbb{R}^{L \times d}\),1表示全為1的L維向量。這么做的原因是因為在小樣本高維特征的場景下,用協方差來估計樣本(分布)並不魯棒,使用平方根后的協方差來估計更加合適。
(5)帶參數的二階池化(Parametric SR-SOP):上面的池化都是假設了樣本服從一個高斯分布的場景下計算的。然而樣本在現實中往往並不是這樣的,於是論文提出了帶參數的二階池化的計算,這種計算基於的假設是樣本服從一個多元的高斯分布。如下公式,其中\(Q_j\)是可學習的參數,可以用卷積的方式來實現這種矩陣乘法,這就是為什么上圖中的組件中含有1x1的卷積。
個人思考
(1)論文中的門混合模型很直覺,把對於不同樣本最后應該選擇性地讓它經過不同的組件模型,有點類似Inception塊里面讓樣本經過不同的卷積模塊從而讓網絡自己學習對於不同的樣本應該用哪些不同的卷積去卷。在論文中可以看到其實是借鑒了hinton的一篇專家混合模型的論文,不管怎么說,這種分成不同組件模型來進行訓練的想法還是很不錯的。
(2)對於論文中帶參數二階池化的提出,其實之前有看到過涉及二階池化的論文,把最后一層的全局均值池化換成二階池化,計算協方差可以建模通道和通道之間的關系,以此來提升模型表現,但是論文中在這個基礎上的修改和推進(平方根和帶參數)涉及到一些統計和線代上的知識,感覺比較難想到。
(3)對於論文的實驗,論文用了下采樣的Imagenet(64x64),讓人想到的是,如果跑不動那么大的數據集,為了保證能跑,可以對圖像做下采樣,或者取其中一部分數據來跑,然后比較算法的時候用別人的算法也跑一遍,感覺這么做也是可行的。還有就是做對比實驗的時候最好保證兩個模型的參數處於一個量級,這樣更有說服力。
### Reliable Crowdsourcing and Deep Locality-Preserving Learning for Expression Recognition in the Wild(2017 CVPR,北郵模式識別組)
motivation和貢獻
(1)數據集:目前的人臉數據集很多是實驗控制得到,缺少in-the-wild的數據集,於是本文提出了一個人臉數據集RAF-DB,收集數據的過程發現人臉表情具有混合屬性而不是單一的一種,如下圖所示,於是把數據集按兩種類型划分成兩個數據集,除了6種基本表情還有12種混合表情。
(2)DLP-CNN:因為RAF-DB是in-the-wild的,會具有更強的多樣性,所以分類起來會更困難,為了應對這個問題,論文提出了Deep Locality preserving loss,在網絡最后加入一個局部保留loss,使得類內樣本更加緊湊
![Alt text]
關於數據集:
(1)采集:用關鍵詞和圖片共享網站的API爬取數據,獲得29672張人臉;
(2)情感標注:雇佣315個標注者(大學里的學生和員工),開發一個網頁讓他們線上對圖像進行標注,選擇7類情感中最符合的情感,每張圖像會經過40個人的獨立標注,標注前對他們進行一小時的情感心理學指導;
(3)額外信息:圖像含有精准的位置,人臉區域大小,還有手動標記的5個landmark點(根據這5個landmark計算他們的姿態),同時用Face++ API進行37個landmark點的標注,還手動標注了性別,年齡,種族的基本屬性。
(4)可靠性評估:用EM算法對標注者進行可靠性評估,最后留下285名標注者的標注數據,最后根據標注數據按6種基本表情划分一個數據集,按12種混合表情划分成另一個數據集。
(5)數據集分析和效果評估:做了RAF->CK+ 和CK+ -> RAF的兩個遷移實驗,發現 RAF -> CK+ 表現效果更好,通過分析說明RAF具有更強的多樣性,識別更困難。
關於DLP-CNN
(1)Local Proserving Loss:在最后一層加多一個loss(當然要加一個\(\alpha\)超參控制權重),如下式所示(其中x指的是softmax前一層的輸出特征),就是計算跟同類中k緊鄰點的距離,希望它們能夠盡量小,這樣就增強了類內樣本的緊湊性,也使得類間樣本距離更遠,如下效果圖。
(2)缺點:加了loss的缺點也很明顯,每次訓練的時候要計算樣本之間的兩兩距離,增加了計算時間。
(3)和center loss的聯系:當這個k等於nc-1(nc表示所屬類的所有樣本數)時這個loss就是center loss(2016 ECCV提出)。
個人思考
(1)數據集:論文很大一部分在解釋數據集的構成,解釋數據集經過一系列的采集,標注,過濾,分析和評估,有這樣一套過程會更有說服力。其中使用了EM算法來進行標注者評估,還給出了公式算法和解釋分析,這樣可以讓人更加可信。
(2)加個loss:加了loss是個常用的創新點,前提是確實有道理,有根據,能夠讓人信服。這個局部保留loss就很直覺,引入了大家都普遍認同的觀點,類間距離最大,類內距離最小,其實就是經典的fisher分類器的思想。
(3)特殊形式的一般化:局部保留loss其實就是center loss的一種特殊形式。局部保留loss把center loss中的nc-1抽象成了一個可變的k,使得模型可以更加靈活,可以看作是將特殊形式一般化。
### 其它論文 (1)**Image Correction via Deep Reciprocating HDR Transformation(2018 CVPR,大工,港城大,騰訊AI Lab)** **做了啥(what)**:根據相機成像的過程,提出了往復式HDR的思想,用於恢復過曝光或欠曝光圖像在圖像恢復過程中易丟失的細節。 **怎么做(how)**:如下圖所示,用了2個encoder-decoder(其中使用了類似ResNet的skip-connect),先將輸入圖像轉為HDR(High-Dynamic Range高動態范圍圖像)以此獲得更豐富的細節信息,做一個高動態細節重建。然后再將其經過LDR(Low-Dynamic Range低動態范圍圖像)糾正來進行恢復,做一個低動態細節校正。 **個人思考**:第一個啟發是在encoder-decoder中加入跳連接,組合創新。第二個啟發是用encoder-decoder來輸入映射到另一個空間來獲取更豐富的信息,然后再映射回原來的空間,有點像在encoder-decoder里面內嵌了encoder-decoder,對原結構做一個“自包含”來創新,很有腦洞。
(2)Two-stream Collaborative Learning with Spatial-Temporal Attention for Video Classification(2018 TCSVT,北大多媒體信息處理組)
空間-時間的注意力模型:如圖中上半部分所示,輸入是視頻中的幀信息和光流信息,然后使用時間注意力來獲取更具判別信息的時間幀(動態特征)。使用空間注意力來獲取顯著性區域(靜態特征)。
動態-靜態的協作模型:如圖中下半部分所示,指導靜態特征和動態特征進行協作,自適應地學習權重(最后做出預測,進行視頻分類)。
個人思考:框架看上去很合理,利用視頻的特點(圖像空間上的靜態性和時間上的動態性)來構建網絡,然后相互協作。啟發就是要根據實際任務的特點去開腦洞,有理有據,更有道理,更有說服力,本文的模型就是分析了視頻的特點提出的。
(3)Text-to-image Synthesis via Symmetrical Distillation Networks(2018 ACM MM,北大多媒體信息處理組)
源判別模型:如下圖中的上半部分所示,輸入真實圖像和合成圖像,產生多水平的特征,可以作為訓練目標模型的指導。
目標生成模型:如下圖中的下半部分所示,在文本的條件下生成圖像,利用了一個蒸餾loss把源判別模型的多層次信息轉移給目標生成模型。
兩階段蒸餾:第一個階段,目標模型根據源模型給定的信息和文本信息得到的視覺信息,畫出一個模糊的圖像。第二個階段,目標模型學到更多合成圖像和真實圖像之間的細小差異,用更多的細節來合成圖像。
個人思考:第一個啟發還是要根據實際問題的特點分析,第二個啟發就是要分解。本文就是把合成問題分解成兩步,第一步是先從真實圖像中學習大致特征,第二部是學習真實圖像和生成圖像的差異。同時模型也分成了兩個,一個用來提供需要的信息,一個直接生成。
(4)Modality-Specific Cross-Modal Similarity Measurement With Recurrent Attention Network(2018 TIP,北大多媒體信息處理組)
文本的語義空間:如下圖中的左半部分所示,輸入文本,經過CNN和LSTM后得到文本模態的特征,然后聯合圖像的CNN特征進行跨模態學習,獲得一個聯合特征。
圖像的語義空間:如下圖中的右半部分所示,輸入圖像,經過CNN和LSTM后得到圖像模態的特征,然后聯合文本的CNN特征進行跨模態學習,獲得一個聯合特征。
動態融合:最后把這兩個聯合特征進行動態融合,得到一個跨模態的相似度。有了這個相似度就可以根據這個相似度來提升跨模態檢索的表現。
個人思考:第一個比較大的啟發就是對稱的設計,左邊是文本語義空間結合圖像特征,右邊是圖像語義空間結合文本特征,一個對稱的結構通常會帶來美感。第二個啟發是考慮多模態,復雜現實中很多任務是多模態的,不一定是文本和圖像的跨模態的,可以是各種多模態,比如前面那篇門混合結構就是考慮了現實中樣本往往不是單模態的高斯分布,而是復雜的多模態分布,所以假設樣本服從多元高斯分布,然后提出了帶參數的二階池化。
(5)Learning Multi-view Representation with LSTM for 3D Shape Recognition and Retrieval(2018 TMM,國防科技大)
做了啥:如下圖所示,模型輸入多個角度的圖像給不同CNN,后面接不同的HighWay,LSTM,然后序列投票,全連接層,分類。
個人思考:emm貌似看不出特別新穎的點子,可能是把這個結構用在了3D上的識別,然后實驗效果好,論文中的分析寫的好。