【題外話:今天上課我做了一個關於DA-GAN技術的ppt演講,寫一點東西留念一下...】
轉載請注明出處:https://www.cnblogs.com/GraceSkyer/p/9107471.html
DA-GAN技術是微軟亞洲研究院新研發的一項技術,可能對今后的藝術創造模式產生巨大影響。
前言
首先,大家還記得微軟小冰嗎,目前最新的第五代擁有“高級感官”的小冰不僅會唱歌、講故事、寫文章,還能主動與人交往。除此之外,她還出版了人類首部人工智能靈思詩集《陽光失了玻璃窗》,這已體現其具有文字的創造力。
我們知道,人工智能可以大致分為下圖四個層次:
從下往上依次是運算智能、感知智能、認知智能和創造智能。而正如前面舉例的小冰,其創作的詩集就已經在文字方面體現了人工智能在創造能力上的發展。而我要介紹的DA-GAN技術,是微軟亞洲研究院研發的一種讓機器繪畫創造成為可能的技術。
GAN(Generative Adversarial Nets)簡介
GAN(Generative Adversarial Nets)生成式對抗網絡,啟發自博弈論中的二人零和博弈(two-player game),GAN 模型中的兩位博弈方分別由生成式模型(generative model)和判別式模型(discriminative model)充當。生成模型 G 捕捉樣本數據的分布,用服從某一分布(均勻分布,高斯分布等)的噪聲 z 生成一個類似真實訓練數據的樣本,追求效果是越像真實樣本越好;判別模型 D 是一個二分類器,估計一個樣本來自於訓練數據(而非生成數據)的概率,如果樣本來自於真實的訓練數據,D 輸出大概率,否則,D 輸出小概率。
簡單說明GAN就比如:生成網絡 G 好比假幣制造團伙,專門制造假幣,判別網絡 D 好比警察,專門檢測使用的貨幣是真幣還是假幣,G 的目標是想方設法生成和真幣一樣的貨幣,使得 D 判別不出來,D 的目標是想方設法檢測出來 G 生成的假幣。雙方在訓練中都極力優化自己的網絡,從而形成競爭對抗,直到最后G可以以假亂真,D難以判定G是否為真時,目標就達成了。實際中,我們就可以用這個生成式的模型G來生成圖片。
Deep Attention GAN(DA-GAN)簡介
但是,基於GAN展開的研究工作使得翻譯圖像的分布與目標集合的分布無法區分。這樣的集合約束不能學習實例級別的對應關系(例如對象配置任務中對齊的語義部分)。這種限制常常導致誤報(例如幾何或語義偽像),並進一步導致模式崩潰問題。為了解決上述問題,微軟研究院提出了一個由Deep Attention GAN(DA-GAN)提供的用於實例級圖像轉換的新框架。
這樣的設計使DA-GAN能夠將翻譯兩個集合的樣本任務分解成翻譯高度結構化的潛在空間中的實例。具體來說,我們共同學習一個深入關注的編碼器,通過參加學習的實例對可以發現實例級別的對應關系。因此,可以在集合級別和實例級別上利用約束條件。
DA-GAN實現效果
我們首先來看一下DA-GAN實現的效果是什么樣的。當我們用文字描述“我想要一只腹部、胸部為白色、頭頂灰色、翅膀有白色翅斑的小鳥”時,計算機便可以通過DA-GAN在幾毫秒的時間內生成多個與文字描述高度吻合的形象,如下圖所示。這些由計算機生成的鳥 完全符合人們期待的鳥的形象,不過它有可能是真實存在於現實世界中的,也有可能是系統根據鳥類特征和文字描述“創造”出來的一只“鳥”。
技術核心部分
DA-GAN在技術上最大的創新是 “隱空間”(latent space),這是它最核心的部分。
與傳統的數據訓練模式需要pair data(數據對)不同,DA-GAN不需要將文本與真實的鳥一一對應,而是將原始圖片分割成不同的部分(暫稱該部分的樣本為T),例如頭部、身體、尾巴、姿勢等,不同的部分分別投射到一個“隱空間”(暫稱該部分的生成樣本為T’),然后通過大量的圖片訓練,去驗證T-T’對應的精確程度,也就是去不斷驗證該“隱空間”的好壞,從而不斷迭代,確保從T-T’的過程並非隨機產生,而是保持一定的規則,進而讓“隱空間”的模型逐步趨於完善。這個過程就是DA-GAN系統最為核心的創新所在,也是它能夠更加智能、真正具有舉一反三學習能力的關鍵點。
上圖用於說明DA-GAN流水線的姿態變形示例。給定從源域S和目標域T兩個鳥類的圖像,姿態變形的目標是將源姿態轉換為目標姿態,同時仍然保持s的身份。
(a)中顯示了前饋過程,其中兩個輸入圖像被送到DAE中,並將它們投影到一個潛在空間(用虛線框標記)。然后,G從潛在空間中取出這些高度結構化的表示(DAE(s)和DAE(t)),以生成轉換后的樣本,即s0 = G(DAE(s)),t0 = G(DAE(t))。 (b)中顯示了上述DAE的細節(以橙色塊標記)。給定圖像X,定位函數floc將首先根據X的特征圖(即E(X),其中E是可以以任何形式使用的編碼器)預測N個關注區域的坐標。然后在X上產生並激活N個注意掩模以產生N個關注區域。最后,每個區域的功能由實例級別的表示組成。通過在S和T上操作相同的方式,可以在潛在空間中找到實例級別的對應關系。我們利用實例級別和集合級別上的約束條件進行優化,如(c)所示。(d)中列出了所有符號。
接下來,DA-GAN就可以基於該模型創作用戶想要的鳥類了,正就如我前面說的,輸入你的需求,一只栩栩如生的鳥就會相應生成。它可能是真實存在的,也可能是一只擁有A種鳥類的頭部特征、B種鳥類的身體特征、C種鳥類的尾部特征以及任意姿態的一只“想象中 的鳥”,而在現實世界里並沒有這樣的鳥類,但它看上去就是一只真正的 “鳥”。
優勢
其分辨率已經從其他相關技術能夠達到的64*64升級到了256*256,分辨率的提高,意味着圖片每個部分所包含的細節信息更加完善,也正因為細節的豐富,才使得DA-GAN的表現在與真實世界的對比中優於同類技術。
對於DA-GAN來說,最重要的是早期的數據訓練,圖片越多質量越高。DA-GAN生成的眾多新的圖片,又可以反哺給該系統,從而讓它擁有更多的學習數據。也就是說,只要基於少量的原始數據,它就可以產生更多“真實”的練習數據,大大改善某些領域真實數據缺乏的問題。利用這一優勢,研究團隊實現了業內首次在鳥類數據集中增加生成數據,並將系統的准確度提升了兩個百分點。
下圖是數據增強結果——一個姿態變換任務。圖中有三組圖片,每組圖片的第一列是原始樣本,第二列是目標樣本,第三列是DA-GAN生成的鳥類。它保存了與第一列鳥類類別一致,但保留了第二列的鳥類姿態。
發展前景
在未來,或許,DA-GAN技術將開啟一個每個人都是創造者的時代。只要你的需求輸入它能夠讀懂,哪怕是你腦海中幻想出來的物體和場景,它都能“畫”出來。而由它所描繪出來的虛擬世界,可能一點都不比文學家、藝術家創作出來的場景遜色。
它能為安防領域提供更真實的犯罪嫌疑人畫像;在生活購物方面幫助人們貼合自身的情況試穿網絡售賣的衣物,它也可能讓已經滅絕的動植物,通過記載文字的描述重新躍然紙上,等等。它可以用於任何與圖片相關的創作。
【這幾個應用,老師覺得有些牽強???】
【然后我回答了兩個問題,一個是無監督學習方式,一個是... 我又講了其他類似的技術... Over... .) 】
參考:
【讀書筆記】DA-GAN: Instance-level Image Translation
不要慫,就是GAN (生成式對抗網絡) (一): GAN 簡介
其他閱讀(可能跟本博客內容無關,我看着了解了一點...):
http://www.cyzone.cn/article/14379.html 【了解了一下“視覺文字”以及一種圖像分析方式...】
感興趣的可以再了解了解“視頻結構化”。。。。。。