阿里AI設計師一秒出圖,小撒連連驚呼,真相是...


近期,央視《機智過人》的舞台上來了位“三超設計師”——設計能力超強;出圖能力超快;抗壓能力超強,成功迷惑嘉賓和現場觀眾,更讓撒貝寧出錯三連。

節目一開場,這位“設計師”就為現場嘉賓:主持人撒貝寧、演員韓雪、神經科學家魯白生成了三張獨具特色的海報。幾乎是說話的瞬間,海報立即生成,出圖速度之快讓撒貝寧驚呼“秒完”。

e98c53259d4adf2599164bbfc45945f614c39c53

鹿班為現場嘉賓設計的海報

這位設計師正是阿里巴巴研制的AI設計師——鹿班。鹿班是為解放人類平面設計師而生,它學習了五百萬張人類設計作品,現在它每秒能做八千次設計。自從2016年上線至今,鹿班已經完成了十億次海報制作,是全球首位大規模投入使用的人工智能平面設計師。

節目中,鹿班將接受設計領域的兩輪檢驗,如果鹿班的作品被現場觀眾成功找出,則認為鹿班通過檢驗。究竟AI能否在設計領域達到人類水平?接下來,我們一起走進檢驗場。

第一輪挑戰中,鹿班與一次成稿率在80%以上的設計師、從業十二年的資深設計師等三位同台競技,各自設計一張以“汽車卓越加速性能”為主題的商業海報。下圖即四位設計師的設計成圖,大家不妨來猜一猜哪幅是鹿班的作品。

675895eb951155e4e5300a1017caf9676bb24520

根據現場觀眾投票,多數觀眾認為4號作品出自鹿班之手。讓觀眾出乎意料的是2號才是鹿班的創作,這個結果讓神經學家魯白大呼“不服氣”。

不信?眼見為實!

b15c215b3b64e1819a8887333a7e41b93571752e

接下來,戰況升級。中央美術學院院長范迪安教授帶來畫家與服裝設計師來和鹿班同台創作,為《孫子兵法》這本書設計封面。

面對設計難度升級,鹿班能否成功應對?我們馬上揭曉鹿班和兩位人類設計師為《孫子兵法》設計的封面的作品:

c6b93299dd30d85980ed118faaa9e389e440aad4

以上圖片中有三幅作品,其中哪一張是鹿班的設計?到底觀眾們有沒有猜對?不急,我們先請阿里巴巴資深技術專家星瞳為我們揭秘鹿班背后的技術。

使用場景

視覺生成引擎的使用場景大致可抽象成下圖。以顯式輸入而言,用戶可以輸入標簽需要的風格、色彩、構圖等,或者輸入一個例子,或者進行一些交互的輸入。除顯式輸入之外還可以有隱式輸入,比如人群信息、場景信息、上下文信息等。總的來說,輸入可以是千變萬化的,但通過規范化之后就會減少變化,使得生成過程可控,輸出質量可控。

14e002ca459065efbc623e6276b582269a5766cb

對視覺生成引擎來說,它要求輸入是規范化的。但在輸入前,可以加入各種交互方式,如自然語言處理,語音識別等,將其轉化成規范化輸入。最后輸出結構化信息或可視成圖。

70bdb9fddb686c28344211e46440f466899bfbbe

技術框架和生產流程

其技術框架如下圖左側。首先對視覺內容進行結構化理解,如分類、量化、特征化。其次通過一系列學習、決策變成滿足用戶需求的結構化信息即數據,最后將數據轉化成可視的圖像或視頻。這一框架依賴於大量的現有數據。其核心是一個設計內核。同時,引入效用循環,利用使用后的反饋來不斷迭代和改進系統。

其生產流程分成六個步驟,如下圖右側所示。首先用戶提出需求,將需求特征化轉變成系統可以理解的結構化信息。其次將信息進行規划得到草圖。有了粗略的草圖后再將其轉變成相對更精確的圖,然后調整細節,最后通過數據可視化形成最終的圖。當然其中還有很多的trick,以及各部分的優化。

202c438e407eacc2bacc2875bcb414240f2285e0

關鍵算法

下面介紹一些關鍵算法。我們希望基於下圖最左的耐克鞋生成最右的圖。先通過規划器得到草圖,再通過強化學習獲得相對細致的結果,再通過對抗學習及渲染算法得到圖片,再通過評估器進行評估,最后形成業務閉環,其中還會有一些基礎的能力,包含更強的聯合特征(非普通 CNN特征)及多維度檢索算法等。

1961bf67dca943906d815fcc32b13ff8d85334f5

基本上,處理的第一步是將圖片中的信息結構化,這也是與現有的識別理解技術結合最緊密的地方。其中的難點和重點包括,對圖像中多目標的識別、遮擋和互包含情況如何得到分割的信息等,下圖只是個簡單的示例。

187ffdb81e933c75dfa78bd6319cfa2b8e350d29

有了結構化信息之后,需要對信息進行量化。可以量化成特征或量化圖。量化過程中會包含很多信息,比如主題風格、布局配色、元素種類、量化空間等。有了這些信息后可以在主題、種類、風格、視覺特征大小位置上,量化成各種碼,用相對有限的特征來表達無限的圖。

1081512fefc51982bfb72e972c60e992ba178ab5

下一步是通過用戶的輸入,得到一個相對粗略的結果即草圖。目前主要使用的是深度序列學習。從圖像角度,首先選定一個點的像素顏色再選擇位置,再迭代進行操作,最后形成一張圖。規划器模擬的就是這個過程。本質上預測過程是一棵樹,當然也可以拆成一條條路徑。為了簡化,可以分成幾步進行,比如空間序列,視覺序列。最后形成量化特征模型,主要應用的是LSTM模型。它把設計的過程轉化成基於遞歸、循環的過程。

e8050a9fac62028b80039620e4bef734d652bc5c

得到草圖后,利用行動器將草圖細化。如果將圖中的每個元素看作一個Agent,那么它將有若干個可選的行動空間。

396e81b41e3efe753fc018b46e560c2903d9deb2

假設一張圖中有20個元素,每個元素在視覺上有多種可選的行動空間,由其組合成的可選行動空間非常龐大。我們有很多trick可以解決這一問題,比如在空間上,只允許在有限范圍內進行變動,且行動方向有序,即狀態有序,行動有限。

b3ae46369b017e698b0dee81408ae9aa51310759

下一步是如何衡量結果的好壞。圖像的評估相對比較主觀,主要可以從美學和效果兩方面來評估。美學角度可以包括是否對齊、色系搭配是否合理、有無遮擋這些較低級別的判斷標准,以及較高級的,比如風格是否一致,是否切合主題。從效果上,產品投放后是否會在點擊率等方面實現提升。最后將多個指標形成對應權重並形成多個DeepLR聯合模型。

66957a63254fe38759ccbac9779d66975a7f7f36

但在衡量結果之前,需要形成像素級別可見的圖。這里有以下幾種構造器分類,包括臨摹、遷移、創造、搭配與生成。

2c5b3412b39565ee145341cd54ab93c9920a9ae6

前面介紹了,如何通過用戶的需求形成可見的圖。后續還需要進行投放和反饋並進行優化,形成效用外循環。這樣才能使得系統效用不斷得到提升,形成一個在線閉環,這也是智能設計相對設計師的一大優勢。

f024d57ccc5c8a07cf2bead172adcb3793d0ebf9

從技術角度來說,鹿班可以滿足海量無選擇客戶的需求。相信在未來,可以做到“所想,即所見”。節目的最后,撒貝寧、韓雪、魯白紛紛為鹿班站台,鹿班也因此成功入選 “2018智能先鋒”。


原文鏈接
本文為雲棲社區原創內容,未經允許不得轉載。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM