評論 收藏 點贊 褲子(zǐ)換裙子(zǐ),就(jiù)問(wèn)你(nǐ)GAN的(¶‌¶de)這(zhè)波操作(zuò)秀不(bù)秀

本文(wén)來(lái)自(zì)微(wē∞≤λ♠i)信公衆号:機(jī)器(qì)之能(néng)(ID:almosthuman2017),選自(zì) arXiv,作(zuò)者:Sangwoo Mo , MinsΩ♦u Cho , Jinwoo Shin,機(jī)器(qì)之心編譯。

 

把照(zhào)片裡(lǐ)的(de)綿羊​•↔換成長(cháng)頸鹿、牛仔長(cháng)≤¥∏β褲換成短(duǎn)裙。聽(tīng)起來(  lái)有(yǒu)點不(bù)可(kě)思議(yì),但(dàn✔£)韓國(guó)科(kē)學技(jì)術(shù)院和(h★'é)浦項科(kē)技(jì)大(dà)學的(de)研究人(<¶ rén)員(yuán)目前已實現(xià§£Ω♣n)了(le)這(zhè)一(yī)騷操作(zuò)。他(tā)們開(kāi)發的(de★®)一(yī)種機(jī)器(qì)學習(xí)算(suàn)法可(kě÷∏₽)在多(duō)個(gè)圖像數(shù)據集上(shàng)實現(xiàn)這(zhè)種操作α✔¶≥(zuò)。其論文(wén)《InstaGAN: Instan♦→ βce-Aware Image-to-Image ♠≤Translation》已被 ICLR2019 接收。

 

長(cháng)褲變短(duǎn)裙

 

圖像到(dào)圖像的(de)轉換系統,即學會(huì)把輸入圖像映¥ ®射到(dào)輸出圖像的(de)系統,并非什(shén)麽新鮮≥'事(shì)。去(qù)年(nián) 12 月(yuè),Ωβ≠®Google AI 研究人(rén)員(yuán)開(kāi)發了(l§♦α↔e)一(yī)種模型,該模型通(tōng)過預測對(duì)象的(de)大(dà)小(xiǎδ←o)、遮擋、姿勢、形狀等,可(kě)以逼真地(dì)将Ω♥∏其插入照(zhào)片中的(de)合理(lǐ)位置。但(dàn)正如(rú) InstaG♦©☆AN 的(de)創建者在論文(wén)中所說(shuō)的(de)一(≠ελyī)樣,即使當前最先進的(de)方法仍是(shì)不(bù)夠★→ε₩完美(měi)的(de)。

 

本文(wén)要(yào)介紹的(de)這(zhè∑≈♥)項新研究基于 CycleGAN 實現(xiàn)了(le)實例級别的(de)圖像轉→‌←→換。

 

圖源:Context-Aware Synthesis ≠≈‌and Placement of Object Instances

 

CycleGAN 克服了(le) pix2pix 在圖像轉換中必須一(y>≠£ī)一(yī)配對(duì)的(de)限制(zhìσ♣),給定兩個(gè)無序圖像集 X 和(hé) Y,CycleGAN   ♦↕可(kě)以自(zì)動對(duì)它們進行(xíng)互相(xiàng¥∑)“翻譯”。

 

 

但(dàn)它無法編碼圖像中的(de)實例信息,因此✔★©•在涉及目标類别特征的(de)圖像轉換時(shí),效果不®÷∞(bù)太理(lǐ)想。

 

“由于其近(jìn)期基于生(shēng)成對(duì)抗網絡取得(de©§λ)的(de)進步令人(rén)印象深刻,無監督的(de)圖像到(dà↓ε→₽o)圖像轉換已受到(dào)大(dà)量關注。然而,以前的(de)方法在面對∞&÷¶(duì)具有(yǒu)挑戰性的(de)任務時(shí)常常失敗,尤其是(shì)£‍₩當圖像具有(yǒu)多(duō)個(gè)目标實例÷®©并且任務涉及形狀的(de)大(dà)幅變化(huà)時(shí)。”研究₽≈↓人(rén)員(yuán)表示。

 

他(tā)們的(de)解決方案是(shì) I♠ nstaGAN 系統,該系統結合了(le)多(duō)個(gè)任務目标的(de)實例‍↑×​信息。InstaGAN 會(huì)生(shēng)成圖像的(de₹↑)實例分(fēn)割掩碼(屬于同一(yī)實例的(de)像素組),它會(huì)結合目标的(de)邊界并同時(shí)忽略顔色等細節。

 

新奇的(de)是(shì),InstaGAN 轉換了(le)一(yī)幅圖像和(hé)一(yī)φ¶ ≠組相(xiàng)應的(de)實例屬性,并同時(shí)力求保留背景語境。當與一₹×®¥(yī)種創新的(de)技(jì)術(shù)γσ₽φ(該技(jì)術(shù)允許其在傳統硬件(jiàn)上(shàng)♠Ω©↑處理(lǐ)大(dà)量實例屬性)結合時(shí),它可(kě)以推廣到(dào)具有(yǒu)許多(duō)實例的(de)圖像 β。如(rú)下(xià)圖所示,把兩個(gè)人(rén)的(de←×)牛仔褲換成裙子(zǐ),把四隻綿羊換成長(cháng)頸鹿都(dōu)不(bù)是✘"♥♣(shì)問(wèn)題。

 

 

“據我們所知(zhī),在我們之前,還(hái)沒有(yǒu)≤©¶α人(rén)實現(xiàn)過圖像到(dào)圖像轉換中的(de)多(d ₽±uō)實例轉換任務。和(hé)以前在簡單'✘  設置中的(de)結果不(bù)同,我們的(de)重點是(≠♣shì)和(hé)諧,讓實例與背景自(zì)然地(dì)渲染。”

 

研究人(rén)員(yuán)為(wèi) InstaGAN 系統提供¥>φδ了(le)來(lái)自(zì)不(bù)同數(shù)據集(包括 multi-human parsing 數(shù)據集、MS COCO 數(shù₩σ)據集和(hé) clothing co-parsing 數(shù®Ω)據集)的(de)兩類圖像。與圖像到(dào)圖像轉換的(de)公認基線 § ΩCycleGAN 相(xiàng)比,Insta♣↑♦GAN 能(néng)夠更成功地(dì)在保留原始語境的(de)同時(shí)生(shēn↓™"§g)成目标實例的(de)“合理(lǐ)形狀”。

 

“在不(bù)同數(shù)據集上(shπ↔àng)的(de)實驗成功實現(xiàn)了(le)圖像至圖像轉換中的(de)挑δ≥₹↑戰性任務——多(duō)實例轉換,包括把時(shí)尚圖像中的(de)牛仔褲換成短(duǎn)裙等→'¥新任務。探索新任務和(hé)新信息将是(shì)未來(lái)有(yǒuφσ↔$)趣的(de)研究方向。”研究人(rén)員(yuán)寫道₹₩φ(dào)。

 

這(zhè)篇論文(wén)已被 ICLR2019 €↕&→接收為(wèi) Poster 論文(wén)♠λ♣€,獲得(de)了(le) 7、8、7 的(de)高(gāo)分(fēλλn),其中一(yī)位評審在評審意見(jiàn)中寫道(dào):

 

本文(wén)作(zuò)者對(duì)多(duō)圖像實例進₽®​ 行(xíng)非成對(duì)的(de)跨域轉換,他(tā)¥↓β₽們提出了(le)一(yī)種方法——InstaGAN。☆'$÷該方法基于 CycleGAN,考慮了(le)以每個(gè←&)實例分(fēn)割掩碼形式存在的(de)實例信息。

 

本文(wén)文(wén)筆(bǐ)較好(hǎo),容易理(lǐ)解。該方✘≠法很(hěn)新穎,解決了(le)一(yī)類之前∑↕₽₹方法無法解決的(de)信息問(wèn)題。該模型及訓練目标每個(gè‍®)部分(fēn)的(de)動機(jī)在該問(wèn)題的(de)語境中都(d¥ ōu)得(de)到(dào)了(le)清晰的(de)解釋♣≥≥。結果看(kàn)起來(lái)相(xiàn₽&$g)當不(bù)錯(cuò),明(míng)顯優于 CycleGAN±£σγ 和(hé)其它基線。

 

論文(wén):INSTAGAN: INSTANCE-AWA∏£©>RE IMAGE-TO-IMAGE TR₹σλ ANSLATION

 

 

  • 論文(wén)鏈接:https://arxiv.org/pd≤β'∞f/1812.10889.pdf

  • 項目地(dì)址:https://githu♥  βb.com/sangwoomo/instagan

  • ICLR 鏈接:https://openrev≥∏iew.net/forum?id=ryxwJhC9YX

     

摘要(yào):由于生(shēng)成對(duì)抗網絡的(de)快★£☆(kuài)速發展,無監督圖像到(dào)圖像的(de)轉換吸引了(lβ∏→e)大(dà)量研究者的(de)目光(guāng)。然而,之前的(de)方法通(tōng‌γ")常不(bù)适用(yòng)于較難的(de)任務,尤其是(shì)在圖像擁<×有(yǒu)多(duō)個(gè)目标實例或轉換任務涉及極具挑戰性的(de)λπ₩形狀問(wèn)題時(shí),如(rú)将時(shí)尚圖片中的(de)褲子(zǐ)轉換‍★​∞成短(duǎn)裙。

 

為(wèi)了(le)解決這(zhè)一(yī)問(wèn×βφ)題,本文(wén)提出了(le)一(yī)種新∞✘"≠的(de)方法——instance-aware β✘GAN(InstaGAN),這(zhè)種 GAN 結合了(le)實例信息(如(rú)目标分(fēn)割掩碼),提高(gāo)了(le)多(duō)實例轉換的(de)能(néng)✔ 力。在保持實例置換不(bù)變性的(de)同時(shí),該 GAN 對(duì)≈≥' 圖像和(hé)相(xiàng)應的(de)實例屬性集進行(xíng)轉換。

 

為(wèi)此,研究人(rén)員(yuá  ✔n)引入了(le)一(yī)個(gè)語境保留損失函數(ε§ shù),鼓勵網絡學習(xí)目标實例之外(wài)的(de)恒等函數(shù)。此外(wà≈$↑ i),他(tā)們還(hái)提出了(le)一‌&ε∑(yī)種序列 mini-batch 推理(lǐ)/訓練技(jì)術(shù),這(× γzhè)種技(jì)術(shù)借助有(yǒu)限的(de) GPU 內(nèi)存處理(l↑γ€ǐ)多(duō)個(gè)實例,增強了(le)該±π♠網絡在多(duō)實例任務中的(de)泛化(huà)能(néng)力。α∞對(duì)比評估證明(míng)了(le)該方法在不(bù)同圖像數(shù)據‍ ™α集上(shàng)的(de)有(yǒu)效性,尤其是(shì)在 ₽上(shàng)述具有(yǒu)挑戰性的(deβ↕≠←)情況下(xià)。

 

圖 1:先前方法(CycleGAN, Zhu et al. (2017))的(≠₽≤de)轉換結果 vs InstaGAN。後者在多(duō)實例轉換問∏✘✔(wèn)題中得(de)到(dào)的(de)結果更好(hǎo)

 

在谷歌(gē)搜索圖片上(shàng)的(de)結果(褲子(zǐ)→短(d∏÷<γuǎn)裙)
 


在 YouTube 視(shì)頻(pín)上(shàng€↓©)的(de)結果(褲子(zǐ)→短(duǎn)裙)

 

研究者還(hái)在 GitHub 給出了(le)兩個(gè)★♣ 預訓練模型,感興趣的(de)讀(dú)者可(kě)以₹¶'$下(xià)載試試。點擊以下(xià)鏈接下(xià)載預↕∞π≥訓練模型(褲子(zǐ)→短(duǎn)裙及/或綿羊→長(cháng)頸鹿)

 

地(dì)址:https://drive.google.co↔γm/drive/folders/10Tfnuq×® Z4tIVAQP23cgHxJQKuVeJusu85

 

圖 2:(a)InstaGAN 架構概覽,其中的(de)•¶♦★生(shēng)成器(qì) G_XY、G_YX 和(hé)判别器(qì) φ∞D_X、D_Y 分(fēn)别遵循(b)和(hé)(c)中的(dβ₽↔e)架構,每個(gè)網絡都(dōu)同時(shí)編碼一(yī)幅圖βπ‍§像及相(xiàng)應的(de)一(yī)套實例掩碼

 

InstaGAN 成功地(dì)把牛仔褲和  (hé)短(duǎn)裙互換,把短(duǎn$​♣​)褲和(hé)長(cháng)褲互換。

 

 

圖 4:在 clothing co-parsing(CCP)(Yangπ↑λ et al., 2014)數(shù)據集上(shàng)的(de)轉換結果

 

綿羊和(hé)長(cháng)頸鹿互換,杯子(zǐ)和(hé)瓶子(zǐ)互✔♠€×換都(dōu)不(bù)是(shì)問(wèn)題。

 

 

圖 6:在 COCO(Lin et al., 2014)數(sh•★×ù)據集上(shàng)的(de)轉換結果

 

我們可(kě)以隻給第一(yī)位小(xiǎo)姐(jiě)姐(jiě)換短(duǎ≤₽≥‌n)裙,也(yě)可(kě)以隻給第二位小(xiǎo)姐(jiě)姐γ₩(jiě)換,當然一(yī)起換也(yě) OK。

 

 

圖 7:輸入掩碼不(bù)同,InstaGAN 得(de)到(dào)的(de)結果也(yě)≈‌不(bù)同

 

具體(tǐ)的(de)玩(wán)法自(zì)$★然不(bù)限于此,作(zuò)者可(kě)沒說(shuō)需要(yào)限制→✔∞β(zhì)性别。

 

 

圖 13:在 MHP 數(shù)據集上(shàng)的(d'♣​e)更多(duō)轉換結果(褲子(zǐ)→短(duǎn)裙)

 

從(cóng)展示的(de)案例中也(yě)可(kě)以發現δ ☆(xiàn),CycleGAN 的(de)轉換效果總是(shì)受到(dào)源‌÷ >圖像的(de)形狀偏差影(yǐng)響,所以其轉換偏向于目标的(de)紋理(lǐ)層面。比如↔&γ(rú),在下(xià)圖中,CycleGAN 就(jiù)把短(Ωγ★₽duǎn)脖子(zǐ)的(de)綿羊變成了(le)短(duǎn)頸鹿。

 

 

圖 15:在 COCO 數(shù)據集上(shàng)↔<的(de)更多(duō)轉換結果(綿羊→長(cháng)頸鹿)

 

給予贊賞的(de)同時(shí),同一(yī)位評審♠×↕≤也(yě)指出了(le)該論文(wén)的(d♥α€₩e)一(yī)些(xiē)不(bù)足,并給出了(le)相♠←λ¥(xiàng)應的(de)建議(yì):

 

就(jiù)測試領域的(de)數(shù)量(三類圖像對(duì)——長(cháng)頸鹿/綿羊,長(chá∞♠≤¥ng)褲/短(duǎn)裙,杯子(zǐ)/瓶子(zǐ)₹‌‍)來(lái)看(kàn),結果有(yǒu&∑ €)一(yī)定的(de)局限性。從(cóng)某種意σ✘義上(shàng)來(lái)說(shu&←βō),這(zhè)也(yě)是(shì)可(kě)以理(lǐ)解的(de)。誰也(yě)不(bù)≤$₩ 會(huì)沒事(shì)用(yòng)它•₹≤•來(lái)轉換從(cóng)未在相(xiàng$∏₩>)同語境出現(xiàn)過或者大(dà)小(xiǎo)不(bù)同的(de)目标(如(rú)杯子(zǐ)和(hé)長(cháng)頸鹿)。但(dàn)如(rú)果示例對(duì)更多(duō)會(huì)更好(hǎo),也(y<∑<₩ě)會(huì)使該系統更具說(shuō)服力。

 

此外(wài),如(rú)果單個(gè)模型可(kě)以在多(duō)♥☆★個(gè)類别對(duì)上(shàng)訓練并從(cóng)它們之間(jiā♥Ωn)共享的(de)信息中受益,那(nà)将很(hěn)有(yǒu)趣。

 

評估主要(yào)是(shì)定性的(de)。我希望看(kàn)&σ α更多(duō)該模型的(de)控制(zhì)變量÷≈實驗。

 

 

圖 9:關于本文(wén)所述方法每個(gè)組成部Ω'分(fēn)效果的(de)控制(zhì)變量研究。這(zhè)些(xiē)部分‌♦✘↕(fēn)包括:InstaGAN 架構、語境保留損失函數₩∏‍(shù)、序列 mini-batch 推理(lǐ)/訓練算(suàn¥β₽)法,分(fēn)别表示為(wèi) InstaG€Ω®AN、L_ctx 及 Sequential

 

 

圖 10:關于序列 mini-batch 推理(lǐ)/訓練Ω >×技(jì)術(shù)效果的(de)控制(zhì)變量研究。One 和(hé) Sε $eq 分(fēn)别表示 one-step 推理(lǐ)和(hé)序列推理(lǐ)。

 

參考鏈接:https://venturebeat.com/2019/01/01/this-n‍β$eural-network-can-swap-sheep-for-giraffe-jeΩ≤ans-for-skirts/       &nbs∑ p;

上(shàng)一(yī)篇
下(xià)一(yī)篇