FactorVAE論文學習-1


Disentangling by Factorising

 

我們定義和解決了從變量的獨立因素生成的數據的解耦表征的無監督學習問題。我們提出了FactorVAE方法,通過鼓勵表征的分布因素化且在維度上獨立來解耦。我們展示了其通過在解耦和重構質量之間提供一個更好的權衡(trade-off)來實現優於β-VAE的效果。而且我們着重強調了通常使用的解耦度量方法的問題,並引入一種不受這些問題影響的新度量方法。

 

1. Introduction

學習能夠揭示數據語義意思的可解釋(interpretable)表示對人工智能具有重要的影響。該表征不僅對標准下行任務,如監督學習和強化學習,還對任務如轉移學習和zero-shot學習這種人類勝於機器的學習 (Lake et al., 2016)有用。在深度學習社區中,對於學習數據變量的因素付出了很多的努力,共同將其稱作學習一個解耦表征。當對這個術語沒有標准的定義時,我們采用了Bengio et al. (2013)中的定義:一個表征即當在一個維度上有一個變化時,對應地將在變量的一個因素上發生了變化,其與其他變量上的變化是無關的。實際上,我們假設數據從一個有着固定數量的獨立因素的變量中生成。我們集中處理圖像數據,因為其變量中因素的影響更容易可視化

使用生成模型展示了在圖像中學習解耦表征的巨大希望。明顯地,半監督方法這種需要隱式或顯式地了解數據真正的潛在因素的方法在解決解耦問題方面做得很好(Kulkarni et al., 2015; Kingma et al., 2014; Reed et al., 2014; Siddharth et al., 2017; Hinton et al., 2011; Mathieu et al., 2016; Goroshin et al., 2015; Hsu et al., 2017; Denton & Birodkar, 2017)。但是在理想的情況下我們想要以無監督的方式來學習它的原因有如下幾點:

  • 人類能夠無監督地學習變量的因素(Perry et al., 2010)
  • 標簽是昂貴的,因為獲得它們需要一個人在循環中
  • 由人類分配的標簽可能是不一致的,或者忽略了人類難以識別的因素。

β-VAE(Higgins et al., 2016)是基於變分自編碼器(VAE)框架 (Kingma & Welling, 2014; Rezende et al., 2014)的生成模型中用於無監督解耦的一種流行方法。它使用了VAE的修改版本,在目標函數的變分后驗和先驗之間的KL散度中添加一個巨大的權重(β>1),其被證明是用於解耦的一個有效且穩定的方法。β-VAE的一個缺點就是為了獲得更好的解耦效果,重構質量必須放棄(相對於VAE來說)。我們工作的目標就是在解耦和重構之間獲得一個更好的權衡,允許在不需要降低重構質量的條件下也能獲得更好的解耦效果。在該工作中,我們分析了該權衡的源頭並提出了FactorVAE方法,其使用能夠鼓勵表征的邊際分布因子化且本質上不影響重構質量的懲罰來增強了VAE目標函數。該懲罰表示為一個在這個邊際分布和它的邊際積之間的KL散度,並使用一個遵循GANs的散度最小化觀點的判別器網絡來優化它(Nowozin et al., 2016; Mohamed & Lakshminarayanan, 2016)。我們的實驗結果顯示了該方法在同樣的重構質量下能夠獲得比β-VAE更好的解耦效果。我們指出了在Higgins et al., 2016的解耦度量中的缺點,並提出了一個新的度量方法來解決這個缺點。

一種流行的更換β-VAE的方法是InfoGAN (Chen et al., 2016),其是基於用於生成模型的生成對抗框架(Goodfellow et al., 2014)的。InfoGAN通過獎勵觀察結果和一組潛伏向量之間的相互信息來學習解耦表征。可是至少部分原因是它的訓練穩定性問題(Higgins et al., 2016),這里有一些在基於VAE方法和InfoGAN方法之間的經驗比較。利用在GAN文獻中能幫助穩定訓練狀態的最新進展,在實驗評估階段我們還包含了InfoWGAN-GP方法,即InfoGAN的一種使用了Wasserstein距離方法(Arjovsky et al., 2017)和梯度懲罰方法的版本 (Gulrajani et al., 2017)。

總之,我們作出了如下貢獻:

  • 介紹了一種用於解耦的FactorVAE方法,在保持相同的重構質量下能夠獲得比β-VAE更高的解耦分數
  • 我們識別出了在Higgins et al., 2016中的解耦度量的缺點,並提出了一個更具魯棒性的替換方法
  • 我們定量地對用於解耦的FactorVAE、β-VAE和InfoGAN的WGAN-GP方法兩兩進行比較。

 

即從q(z)中采樣得到的為,對該采樣結果循環d次(d為z的維度數)隨機交換維度上的值后生成的樣本為,希望分別作為判別器的輸入,能夠把判別為真,判別為假

 

2. Trade-off between Disentanglement and Reconstruction in β-VAE

我們通過分析在β-VAE中提出的解耦和重構的平衡問題來啟發我們的方法。首先,我們介紹了我們VAE框架的概念和結構。我們假設觀察值為通過結合K個潛在因素f=(f1,...,fK)生成的比如一張圖x(i)需要設置x、y位置、其形狀和大小等潛在因素信息才能生成。該觀察值使用一個潛在/編碼向量的真值來建模,解釋為數據的表征。該生成模型使用標准高斯先驗p(z)=N(0,I)定義,被內部為一個因素分布;decoder pΘ(x|z)通過一個神經網絡實現參數化。對於一個觀察值的變量后驗為,帶着由encoder生成的均值和方差,同時通過一個神經網絡實現參數化。變量后驗能夠被看作是與數據點x相關表征分布。對於整個數據集來說,其表征分布為:

其被當作邊際后驗和或集合后驗,pdata表示經驗數據分布。一個解耦表征的每個zj都與一個潛在因素fk相關。當我們假設這些因素獨立變化時,我們希望有一個因素分布為

 β-VAE的目標函數為:

對於 β>=1,其為的一個變量下界;當β=1時即等價於VAE目標函數。其第一部分叫做負重構損失,第二部分為復雜度的懲罰,起到調節作用。我們可能將進一步打破該KL項(Hoffman & Johnson, 2016; Makhzani & Frey, 2017)為。其中的I(x;z)即x和z在pdata(x)q(z|x)的聯合分布下的互信息。詳細推導可見附錄C:

 

懲罰KL(q(z)||p(z))項會將q(z)推向因子先驗p(z),讓兩個分布近似,鼓勵z維度的獨立性(因為p(z)是獨立的),從而解決解耦問題。從另一方面來說,懲罰I(x;z)將減少存儲在z中的關於x的信息數量,設置為高值的β時會導致差的重構效果(Makhzani & Frey, 2017)。因此將β設置為比1大的數時,對這兩項的懲罰程度將更強,導致更好的解耦效果,但是會降低重構質量。當重構質量降低得過於嚴重時,潛在向量中將沒有關於觀察值的足夠信息,使得該潛在向量不可能去恢復真正的因素。因此該方法存在β>1的值,能夠給予更好的解耦,但是比VAE產生了更高的重構損失

即β-VAE通過減少兩項的值來實現讓q(z)更接近因子先驗p(z),保證z每個維度的獨立性,但是缺點就是I(x;z)的減少也將減少存儲在z中的關於x的信息數量,增大重構損失

 

3. Total Correlation Penalty and FactorVAE

對於解耦來說,比VAE更多地對I(x;z)項進行懲罰(即減少了存儲在z中的關於x的信息數量,兩者不相關,不利於重構)即不是必須的,也不是其所期望的。比如,InfoGAN通過鼓勵I(x;c)值更高來解耦,此時c是潛在變量z中的一個子集。因此我們通過使用能夠直接激勵編碼分布的獨立性項來增強目標函數來構造FactorVAE的目標函數,如下所示:

 即跟 β-VAE的目標函數相比添加了項,假設所有因素獨立,則:,所以q(z)約等於,后面那一項就是希望能夠訓練兩個分布越來越接近,那就說明x中的因素越來越獨立

 稱為總相關(Total Correlation, TC, Watanabe, 1960),是一種用於多隨機變量的流行的獨立性測量方法。在該例子中,當q(z)和含有大量組分的混合物時,該項是十分難算的,而且直接的Monte Carlo評估方法需要傳遞整個數據集給每個q(z)評估。因此我們為了優化該項,使用了一個替換的方法。

我們從觀察開始,我們能通過先隨機均勻地選擇一個數據點x(i)來高效地從樣本q(z)中采樣,然后再將x(i)輸入q(z|x(i))中采樣得到z。然后通過先從q(z)中采樣d個樣本來生成分布,然后再從中采樣z',然后忽略除某一個維度以外的所有維度,然后就能夠對這兩個分布進行計算。

另一種更高效的替換采樣的方法是從q(z)中采樣一個batch,然后在batch中為每個潛在向量的維度進行隨機交換,可見算法1:

B即為B個batch,d表示潛在向量z的維度大小

即從q(z)采樣出一批z后,還要隨機選擇batch中的某個zπ(i)第j維去換掉z(i)第j維,對於batch中的每個z來說都循環進行該交換d次,最后得到一個新的z(i),得到,這樣得到的新的潛在向量與從中采樣出來的結果相似

這是一種使用在獨立測試文獻 (Arcones & Gine, 1992)中的標准技巧,只要batch是足夠的,這些采樣樣本的分布將近似於

能夠從兩個分布中進行采樣使得我們能夠使用密度比(density-ratio)技巧 (Nguyen et al., 2010; Sugiyama et al., 2012) 來最小化它們的KL散度,該技巧包含了訓練一個分類器/判別器來近似KL項中出現的密度比。假設我們有一個判別器D(在該例子中是一個MLP),其輸出一個輸入是來自q(z)而不是的概率D(z)的估計,因此我們有:

 我們共同訓練判別器和VAE。在實際中,VAE的參數將使用在等式(2)中的目標函數更新,使用上面基於判別器的來自等式(3)的近似代替等式(2)中的TC項。判別器被訓練來對來自q(z)和的樣本進行分類,因此為了估計TC需要學習去近似密度比。算法2為FactorVAE的偽代碼:

  • 即從q(z)隨機選擇m個批量觀察值,即得到batch Β
  • 從這m個觀察值encoder獲得樣本
  • 然后計算該目標函數對數似然估計,得到encoder的參數Θ,更新其參數
  • 然后再從q(z)中隨機選擇m個批量觀察值,即得到batch B'
  • 輸入encoder獲得潛在向量樣本
  • 對batch B'中的所有z'使用上面的替換算法替換后得到新的潛在向量
  • 然后將這兩次隨機選取得到的潛在向量值一一輸入判別器,希望其能夠將判定為真,即為1;將判定為假,即為0
  • 然后計算判別器的交叉熵損失梯度來更新判別器的參數Ψ
  • 循環重復上面的步驟直至收斂

着重強調低的TC值是必需的,但是對於一個有意義的解耦來說還不夠。比如,當q(z|x)=p(z),TC=0,但是z沒有攜帶任何關於數據的信息。因此有低的TC值僅在我們能在潛在向量中保存信息時有意義,所以控制重構損失是很重要的。

在GAN文獻中,散度最小化通常是在數據空間上的兩個分布之間完成的,這通常是非常高維的數據(如圖像)。因為這兩種分布往往有不相交的支持,使得訓練不穩定,特別是當判別器較強時。因此使用技巧如instance noise (Sønderby et al., 2016) 去弱化判別器或者使用一個critic,就像Wasserstein GANs (Arjovsky et al., 2017)中一樣去替代判別器是十分必要的。在該論文中,我們最小化潛在空間的兩個分布間的散度(如 (Mescheder et al., 2017)里一樣),通常潛在空間相對於數據空間是更低的維度,且兩個分布有重疊的支持。我們觀察到對於足夠的大batch size來說訓練是穩定的(如batch size=64在維度d=6時表現得很好),這樣就允許我們使用一個強的判別器

 

4. A New Metric for Disentanglement

我們使用在該論文中解耦的定義是在表征中一維的改變完全對應於變量中一個因素的改變,這顯然是一個簡單化定義。它不允許因素之間的關聯或它們之上的層次結構。因此該定義看起來更適合去合成帶有獨立因素的向量的數據而不是更真實的數據集。可是如我們將要在下面展示的一樣,魯棒的解耦問題在這樣簡單的設定下是不能被完全解決的。其中的一個阻礙就是沒有用於測量解耦的可靠的定量度量標准。

一個流行的測量解耦的方法是通過檢查潛在遍歷:在遍歷一次(即調節該維度的值的大小,如從-2慢慢調到2)潛在空間的一個維度時,可視化重構的變化,下面的圖3就是做了這樣的操作。雖然潛在遍歷可以作為一個有用的指示器來判斷模型何時無法解耦,但是這種方法的定性使得它不適合可靠地比較算法。這樣做需要在訓練期間檢查多個參考圖像、隨機種子和點上的大量潛在遍歷。讓一個人在循環中評估遍歷也是非常耗時和具有主觀性的。不幸的是,對於沒有可用的真實變量因子的數據集,目前這是評估解耦的唯一可行選項。

Higgins et al. (2016) 提出了一種有監督的度量方法,它試圖在給定數據集的真實因素時量化解耦。該度量即如下訓練中的線性分類器的錯誤率。

  • 選擇一個因素k,比如設置大小為3;
  • 生成帶有該固定因素的數據x,其他的因素如顏色、位置等信息就隨機變化;
  • 輸入encoder獲得它們的表征(定義為q(z|x)的均值);
  • 取這些表征兩兩之差的絕對值
  • 然后,這些統計量每對之間的均值和為分類器提供一個訓練輸入,固定因子指標k為相應的訓練輸出

即最后結果最小的維度即對應於該因素k,說明該因素由該維度控制

可見圖2的上半部分:

所以如果表征能夠完美地解耦,我們能夠看見在該與變量固定因素相關的訓練輸入的維度上的值為0,分類器將學會映射該0值的索引到該因素的索引。

可是該度量有幾個缺點:

  • 首先,它可能對線性分類器優化的超參數敏感,例如優化器及其超參數、權重初始化和訓練迭代次數的選擇
  • 其次,使用線性分類器並不那么直觀——我們可以得到每個因子對應於維度的線性組合而不是單個維度的表示。
  • 最后,也是最重要的一點,這個度量有一個失效模式:k個因素中即使只有K - 1個被解耦,它也能給出100%的准確度;為了預測剩余的因子,分類器只需學習檢測與K - 1個因子對應的所有值何時為非零。

該情況的例子如圖3所示:

 

為了解決該弱點,我們提出一個新的解耦度量方法。

  • 選擇一個因素k;
  • 生成帶有該固定因素的數據,其他的因素就隨機變化;
  • 獲得它們的表征;
  • 通過使用整個數據(或足夠大的隨機子集)的經驗標准差將每個維度標准化;
  • 得到這些歸一表征的每個維度的經驗方差
  • 然后有着最低方差的維度的索引和和目標索引k為分類器提供了一個訓練輸入/輸出示例

即有着最低方差的維度對應於因素k,說明該因素由該維度控制

詳情可見上面圖2的下半部分

因此如果表征能完美地解耦,與固定因素相關的維度中的經驗方差將為0。我們對表征進行標准化,使argmin對於每個維度中的表征的重新縮放是不變的。當輸入和輸出坐落在一個離散空間中時,最優分類器為多數投票分類器(詳見附錄B),度量為分類器錯誤率。

 

得到的分類器是訓練數據的確定性函數,因此不需要優化超參數。我們還認為,這個度量在概念上比前一個度量更簡單、更自然。最重要的是,它避免了早期度量的失效模式,因為分類器需要看到給定因素的潛在維數的最小方差才能正確分類。

我們認為開發一個不使用真正因子的可靠的無監督解耦度量方法是未來研究的一個重要方向,因為無監督解耦對於我們無法獲得真實因子的場景非常有用。考慮到這一點,我們相信擁有一個可靠的監督度量仍然是有價值的,因為它可以作為評估無監督度量方法的黃金標准。

 

5. Related Work

最近有幾項研究使用判別器來優化散度,以鼓勵潛在編碼的獨立性。對抗自編碼器(AAE, Makhzani et al., 2015)移除了VAE目標函數中的I(x;z)項,通過密度比技巧最大化負重構損失-KL(q(z) || p(z))的值,展示了在半監督分類和無監督聚類中的應用。這意味着AAE目標不是對數邊際似然的下界。雖然優化一個下界並不是完全必要的,但它確實確保我們有一個有效的生成模型;擁有一個具有解耦潛在向量的生成模型的好處是,它是一個單一的模型,可以用於各種任務,例如基於模型的RL規划、視覺概念學習和半監督學習等。在PixelGAN自編碼器中(Makhzani & Frey, 2017),同樣的目標也被用來研究潛在編碼與解碼器之間的信息分解。作者指出,在編碼器的輸入中添加噪聲是至關重要的,這意味着限制編碼中包含的關於輸入的信息是至關重要的,而I(x;z)項不應該從VAE目標中刪除。Brakel & Bengio (2017)也使用一個判別器對編碼的分布與其邊值乘積之間的Jensen-Shannon散度進行懲罰。然而,他們使用的是帶有確定性編碼器和解碼器的GAN損失,且只在獨立成分分析源分離的背景下探索他們的技術。

早期在無監督解耦中的研究包含(Schmid-huber, 1992) 企圖通過懲罰給定其他潛在維度的可預測性去解耦在一個自動編碼器中的編碼,以及 (Desjardins et al., 2012) 使用玻爾茲曼機的一個變體來解耦數據中兩個變量的關系。最近 Achille & Soatto (2018)在監督學習的背景下,使用了一個懲罰TC項的損失函數。他們表明,他們的方法可以擴展到VAE環境,但沒有進行任何有關解耦的實驗來支持該理論。在同期的研究中,Kumar et al. (2018) 在VAEs中使用矩匹配來懲罰潛在維度之間的協方差,但不限制平均或更高的矩。我們在附錄F中提供了這些相關方法的目標,並展示了包括AAE在內的解耦性能的實驗結果。

已經有很多工作使用可預測性的概念來量化解耦,最多的是從潛在編碼z中預測真實因素f=(f1,...,fK)的值。日期再推回Yang & Amari (1997),其在線性ICA環境中學習從表征到因子的線性映射,並量化此映射與排列矩陣的距離。最近的Eastwood & Williams (2018)研究通過訓練Lasso回歸器將z映射到f,並使用訓練后的權值對解耦進行量化,將這一思想擴展到解耦。與其他基於回歸的方法一樣,該方法引入了超參數,如優化器和Lasso懲罰系數。Higgins et al. (2016)的度量方法和我們提出的度量方法都從帶有一個固定fk但其他f-k對隨機變化的圖像的z中預測因素k。Schmidhuber (1992) 量化z的不同維度之間的可預測性,使用一個訓練有素的預測器從z - j預測zj

 不變性和等方差性在文獻(Goodfellow et al., 2009; Kivinen & Williams, 2011; Lenc & Vedaldi, 2015)中經常被認為是表征的理想性質。如果在數據的有害因素(與任務無關)發生更改時,某個表征沒有發生更改,則該表征對於特定任務來說是不變的。當改變變量的因子時,等方差性表示以穩定和可預測的方式變化。在本文所使用的意義上,解耦表征是等變的,因為改變一個變量因子將以可預測的方式改變解耦表征的某一維。給定一個任務,通過忽略編碼該任務的有害因素的維度,可以很容易地從解耦表征中獲得一個不變的表征(Cohen & Welling, 2014)。

基於本文的初步版本,(Chen et al., 2018)最近提出了一種基於小批量的方法來替代我們基於密度比技巧的方法來估計總相關性,並引入了一種信息理論解耦度量方法。

 

6. Experiments

在下面的數據集中比較FactorVAE和β-VAE:

i)已知生成因素的數據集,即定義好下面的因素就能夠生成相同的圖像:

  • 2D Shapes(Matthey et al., 2017):737280個帶着真實因素[值的數量]:形狀shape[3]、大小scale[6]、方向orientation[40]、x位置x-position[32]和y位置y-position[32]的2D形狀的二進制的64*64大小的圖像
  • 3D Shapes(Burgess & Kim, 2018):480000張帶着真實因素:形狀shape[4]、大小scale[8]、方向orientation[15]、背景顏色floor clour[10]和目標顏色object colour[10]的大小為64*64*3的3D形狀的RGB圖

ii)未知生成因素的數據集:

  • 3D Faces (Paysan et al., 2009):239840張大小為64*64的3D Faces灰度圖
  • 3D Chairs(Aubry et al., 2014):86366張大小為64*64*3的椅子CAD模型的RGB圖
  • CelebA(裁剪版)(Liu et al., 2015):202599張大小為64*64*3的名人頭像的RGB圖

該實驗的細節如encoder/decoder的結構和超參數設置可見附錄A。解耦度量方法的細節以及根據其超參數的敏感性分析在附錄B中給出。

從圖4中可見FactorVAE比VAEs(β=1)得到更好的解耦分數,同時犧牲的重構損失更少,着重強調了添加總相關性懲罰到VAE目標中的解耦效果:

 

 

 給定相同的重構損失,FactorVAE最好的解耦分數明顯比β-VAE要好。

在圖5中能夠更清晰地看出FactorVAE(γ=40)的最好平均解耦分數大約是0.82,明顯地比β-VAE(β=4)的要高,其大約為0.73,兩者的重構損失大概都是45:

 

 

在圖6中我們可以看見兩個模型都有找到x位置、y位置和大小的能力,但是不能解耦方向和形狀,尤其是 β-VAE。對於這個數據集,沒有一個方法能夠魯棒地捕獲形狀,即該變量的離散因素

 

 

 作為一個完整性檢查,我們還評估了我們的度量與Higgins et al. (2016)的度量之間的相關性。Pearson(線性相關系數):0.404,Kendall(排序相同的配對比例):0.310,Spearman(排名線性相關):0.444,p值均為0.000。因此,正如預期的那樣,這兩個度量方法顯示出相當高的正相關。

我們還研究了如何判別器對總相關性(TC)的估計行為和γ對真正的TC的影響。從圖7中可以看出,判別器總是低估了真實TC,這一點也在 (Rosca et al., 2018)研究中得到了證實。然而真正的TC減少在訓練中,以及更高的γ將導致TC的降低,因此使用判別器獲得的梯度能夠充分鼓勵編碼分布的獨立性:

 

 

然后我們評估了InfoWGAN-GP,它是Info-GAN的副本,使用了Wasserstein距離和梯度懲罰。有關概述,請參見附錄G。Info-GAN的一個優點是,其目標的蒙特卡羅估計相對於其參數是可微的,即使對於離散編碼c也是如此,這使得基於梯度的優化非常簡單。相比之下,基於VAE的梯度優化方法依賴於reprameterisation技巧,需要z是一個可重參數的連續隨機變量,替代方法需要梯度估計的各種方差減少技術 (Mnih & Rezende, 2016; Maddison et al., 2017)。

因此,我們可能期望Info(W)GAN(-GP)在某些因素是離散的情況下顯示出更好的解耦性。因此,我們使用了4個連續潛在向量(每個連續因子對應一個)和3個類別的一個分類潛在向量(每個形狀一個)。我們微調λ,Info(W)GAN(-GP)中互信息項的權重∈{0.0, 0.1, 0.2,……,1.0},噪聲變量數目∈{5,10,20,40,80,160},以及生成器的學習率∈{10−3,10−4}、判別器的學習率∈{10−4,10−5}。

但是從圖8我們可以看見解耦分數是低的:

 

 

從圖9的潛在向量遍歷可以看出,模型只學習到了大小因子,並試圖將位置信息放入離散編碼中,這也是解耦分數較低的原因之一。然而,使用5個連續編碼和沒有分類編碼的方法並沒有提高解耦分數。早期停止的Info-GAN(訓練不穩定發生前-見附錄H)也給出了類似的結果。一些潛在遍歷給出空白重構的事實表明,該模型不能很好地推廣到p(z)域的所有部分:

 

 

InfoWGAN-GP在這個數據集上表現不佳的一個原因可能是InfoGAN對生成器和判別器結構很敏感,這是我們沒有進行廣泛微調的一點。我們使用類似結構的基於VAE的方法對2D Shapes數據集進行一個公平的比較,但也試着使用更大的結構,得到的是類似的結果(參見附錄H)。如果結構搜索確實是重要的,這將是InfoGAN相對於FactorVAE和β-VAE的一個弱點,其都選擇了更魯棒的結構。在附錄H中,我們檢驗了是否可以使用InfoWGAN-GP復制Chen et al.(2016)等人對MNIST的研究結果,驗證了與InfoGAN相比,它使訓練更加穩定,並結合InfoGAN和InfoWGAN-GP的進一步實證研究給出了實施細節。

我們現在顯示三維形狀數據的結果,這是一個更復雜的帶有額外特性,如陰影和背景(天空)的三維場景的數據集。我們對β-VAE和FactorVAE訓練1m次迭代。圖10再次顯示FactorVAE實現了更好的解耦,與VAE相比重構誤差幾乎沒有增加。此外,對於平均解耦分數來說,FactorVAE和β-VAE相似,但是FactorVAE的重建誤差較低:3515(γ= 36)和3570(β= 24):

圖11中的潛在遍歷表明,這兩個模型都能夠在最佳情況下捕獲變化的因素。然而,通過觀察許多隨機種子的潛在遍歷,可以明顯看出,這兩個模型都難以理清形狀和尺度的因素:

 

為了證明FactorVAE對於二維和三維形狀也給出了一個有效的生成模型,我們在附錄E中給出了對整個數據集的對數邊際似然評估,以及生成模型的樣本。
我們也顯示了β-VAE和FactorVAE在帶有未知的生成因素的實驗數據集上的結果,即3D chairs,3D Faces,CelebA。注意,檢查潛在遍歷是這里唯一可能的評估方法。我們可以看到在圖12(圖38和39在附錄I) 中:

FactorVAE與β-VAE相比,重建誤差更小,並能學習變量的合理因素,如圖13、14和15所示的數據的潛在遍歷:

 

 

 

 

 

不幸的是,正如第4節所解釋的,潛在遍歷對我們的方法的健壯性幾乎沒有什么幫助。

 

7. Conclusion and Discussion

我們介紹了FactorVAE方法,即一種用於解耦的新方法,能夠比β-VAE在2D Shapes和3D Shapes數據集有着相同的重建質量時達到更好的解耦分數。此外,我們還確定了Higgins et al. (2016)常用的解耦度量方法的缺點,提出了一種概念更簡單、不含超參數且避免了超參數失效模式的替代度量方法。最后,我們對基於VAE的方法和InfoGAN的一個更穩定的變體InfoWGAN-GP方法的解耦進行了實驗評估,並確定了其相對於基於VAE方法的缺點。

我們的方法的一個限制是,低的總相關是必要的,但不足以解耦變量的獨立因素。例如,如果除一個潛在維度外的所有維度都折疊到之前的維度,則TC將為0,但表示不會被解耦。我們的解耦度量方法還要求我們能夠生成包含一個固定因子的樣本,這可能並不總是可能的,例如,當我們的訓練集不能覆蓋所有可能的因子組合時。該指標也不適用於具有非獨立變異因素的數據。
在未來的工作中,我們希望使用離散的潛在變量來建模離散變量的因素,並研究如何使用離散和連續的潛在變量來可靠地捕獲離散和連續因素的組合。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM