雲之夢,新聞中心

評論 收藏 點贊 褲子(zǐ)換裙子(zǐ),就(jiù)問(©×∞ wèn)你(nǐ)GAN的(de)這(zhè)波操作(zuò)秀不(bù)秀

閱讀(dú)數(shù): 2568

本文(wén)來(lái)自(zì)微(wēi)信公衆号:機(jī)器(qì)之能(néng)(ID:almosthuman2017 ↓₹),選自(zì) arXiv,作(zuò)者:Sangwoo Mo , Minσπ‍su Cho , Jinwoo Shin,機(jī)器(qì)之心編譯。

 

把照(zhào)片裡(lǐ)的(de)綿羊換成長(cháng)頸鹿、牛仔長(c★♣→háng)褲換成短(duǎn)裙。聽(tīng)起來(lái)  有(yǒu)點不(bù)可(kě)思議(yì),但(dàn)韓國(guó)科(♠δεkē)學技(jì)術(shù)院和(hé)浦項科(kē♠₽)技(jì)大(dà)學的(de)研究人(rén)員(yuán)目前$ →已實現(xiàn)了(le)這(zhè)一(yī)騷操作(zuò)。他(₩≤←tā)們開(kāi)發的(de)一(yī)種機(jī)器(qì✘$∞¶)學習(xí)算(suàn)法可(kě)在多(duō)個(gè)↑‍‍'圖像數(shù)據集上(shàng)實現(₩♥∑βxiàn)這(zhè)種操作(zuò)。其論文(wén)《InstaGAN: ≥ ✘₹Instance-Aware Image-to-Image Translation》已被₽₽φ ICLR2019 接收。

 

長(cháng)褲變短(duǎn)裙

 

圖像到(dào)圖像的(de)轉換系統,即學會(huì)把輸入圖像映射到¥δ¥₩(dào)輸出圖像的(de)系統,并非什(shén)麽新鮮事(shì)。去​←↓(qù)年(nián) 12 月(yuè),Go¥↑Ωogle AI 研究人(rén)員(yuán)開(kāi)發了(le)一(yīδε←')種模型,該模型通(tōng)過預測對(duì)≈≈'γ象的(de)大(dà)小(xiǎo)、遮​π擋、姿勢、形狀等,可(kě)以逼真地(dì)≈σ将其插入照(zhào)片中的(de)合理( $lǐ)位置。但(dàn)正如(rú) In​↑ staGAN 的(de)創建者在論文(wén)中所說(™ε∞shuō)的(de)一(yī)樣,即使當前最先進的(γ×​de)方法仍是(shì)不(bù)夠完美(měi)的(de)。

 

本文(wén)要(yào)介紹的(de)這(zhè)項新研究基φ€于 CycleGAN 實現(xiàn)了(le)實例級别的(de)圖像轉換。

 

圖源:Context-Aware SyntheΩ"sis and Placement of Objeσσ₽δct Instances

 

CycleGAN 克服了(le) pix2≈δ ©pix 在圖像轉換中必須一(yī)一(yī)配對(duì)的(de)限制(zhì),給定兩個(g÷♣✘'è)無序圖像集 X 和(hé) Y,CycleGAN 可(kě)以自(zì)>™↔♣動對(duì)它們進行(xíng)互相(xiàng)“翻譯”。  §$

 

 

但(dàn)它無法編碼圖像中的(de)實例信息,因此♣β在涉及目标類别特征的(de)圖像轉換時(shí),效果不(bù)太理(lǐ)想。

 

“由于其近(jìn)期基于生(shēng)成對(duì) ↑ →抗網絡取得(de)的(de)進步令人(r₹✔✔¶én)印象深刻,無監督的(de)圖像到(dào)圖像轉換已受到(d± π↕ào)大(dà)量關注。然而,以前的(de)方法£÷≤在面對(duì)具有(yǒu)挑戰性的(de)任務時(shí)常常失敗,尤其是(shì)當•₹"Ω圖像具有(yǒu)多(duō)個(gè)目标實例并且任務涉及形狀的(de)大(dγ¶à)幅變化(huà)時(shí)。”研究人(rén)員★γ₽★(yuán)表示。

 

他(tā)們的(de)解決方案是(shì) InstaGAN 系統,該系統結合$¥♦了(le)多(duō)個(gè)任務目标的(de)實例信息。InstaGAN 會(huì)δ♦÷生(shēng)成圖像的(de)實例分(fēn)割掩碼€​σ(屬于同一(yī)實例的(de)像素組),它會(huì)結合目标的(de)邊界并同時(shí)忽略顔< ♠✔色等細節。

 

新奇的(de)是(shì),InstaGAN  ♦≥≈轉換了(le)一(yī)幅圖像和(hé)一(yī)組相(xià®≤β✔ng)應的(de)實例屬性,并同時(shí)力求保↕$λ留背景語境。當與一(yī)種創新的(de)技(jì)術(s δ¶φhù)(該技(jì)術(shù)允許其在傳統硬件(jiàn)上(shàng)處理(lǐ)大(dà)量實₹±✔λ例屬性)結合時(shí),它可(kě)以推廣到(dào)具有(yǒu)許多(duō)實例的(× ♦↔de)圖像。如(rú)下(xià)圖所示,把兩個(gè)人(rén)的(d≈'e)牛仔褲換成裙子(zǐ),把四隻綿羊換成長(cháng)頸鹿都(dπ∞♣ōu)不(bù)是(shì)問(wèn)‍α÷↑題。

 

 

“據我們所知(zhī),在我們之前,還(hái)沒有(yǒu)人(rén)實現(xiàn)過圖像 <到(dào)圖像轉換中的(de)多(duō)實例轉換任務。和(hé)以前在簡單設置中的(♣★de)結果不(bù)同,我們的(de)重點是(shì)和(♣♥γhé)諧,讓實例與背景自(zì)然地(dì)渲染。”

 

研究人(rén)員(yuán)為(wèi) InstaGAN 系統提供了(le©£)來(lái)自(zì)不(bù)同數(shùα<)據集(包括 multi-human pars≤¶•€ing 數(shù)據集、MS COCO 數(shù)據集和(₩€​φhé) clothing co-parsing 數(shù)據集)₩₩™的(de)兩類圖像。與圖像到(dào)圖像轉換的(de)公認基線 Cycl$∏eGAN 相(xiàng)比,InstaGAN 能(néng)夠更成功地(dì)在保留原始語境的(∏∏de)同時(shí)生(shēng)成目标≥↑實例的(de)“合理(lǐ)形狀”。

 

“在不(bù)同數(shù)據集上(shàng)的(dε<e)實驗成功實現(xiàn)了(le)圖像至圖πβ♦像轉換中的(de)挑戰性任務——多(duō)實∏₩例轉換,包括把時(shí)尚圖像中的(d ↑↕♥e)牛仔褲換成短(duǎn)裙等新任務。探索新任務和(hé)新信息将是(shì)未來(lái)有(∑βΩ<yǒu)趣的(de)研究方向。”研究人(rén)員(yuán)寫∑™'φ道(dào)。

 

這(zhè)篇論文(wén)已被 ICLR2019 接收為(wèi)β↔ Poster 論文(wén),獲得(de)了(le) 7、8、7 的(π€de)高(gāo)分(fēn),其中一(yī)位評審在評審意見(jiàn)中寫道(dào) ₩:

 

本文(wén)作(zuò)者對(duì)多(duō)圖像實例進行(xíngφ↑Ω↓)非成對(duì)的(de)跨域轉換,他(tā)們提出了(le↕₩)一(yī)種方法——InstaGAN。該方法基于 CycleGAN,考慮了(le)以每個(gα↓ ←è)實例分(fēn)割掩碼形式存在的(de)實例信息。

 

本文(wén)文(wén)筆(bǐ)較好(h☆♦§ǎo),容易理(lǐ)解。該方法很(hěn)新穎,解決了(le)一(yī₽¶)類之前方法無法解決的(de)信息問(wèn)題。該模型及訓練目标每個(gè)₩≥×↑部分(fēn)的(de)動機(jī)在該問(wèn)題的(de)語境中都φ‍±(dōu)得(de)到(dào)了(le)清晰的(de)解釋。結果看(kàn)起來(lái)相(x→‌€iàng)當不(bù)錯(cuò),明(míng)顯優于 ∞∑¶®CycleGAN 和(hé)其它基線。

 

論文(wén):INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGEσ♠ TRANSLATION

 

 

  • 論文(wén)鏈接:https://arxiv.org/pdf/1812≠γ£.10889.pdf

  • 項目地(dì)址:https://github.com/sangwoomo/instagan£§$

  • ICLR 鏈接:https://openreview.net/≠‍forum?id=ryxwJhC9YX

     

摘要(yào):由于生(shēng)成對(duì)抗網絡的(de)快(kuàiσε≥Ω)速發展,無監督圖像到(dào)圖像的(∑¶→de)轉換吸引了(le)大(dà)量研究者的(d↑δ​♥e)目光(guāng)。然而,之前的(de)方法通(tōng)常不(bù)适用(yòng)于♥✘☆較難的(de)任務,尤其是(shì)在圖像‌•±擁有(yǒu)多(duō)個(gè)目标實例或轉換任務涉及極具挑戰性的(de)形狀問(wè♠δ→βn)題時(shí),如(rú)将時(shí)尚圖片中的(de)褲子(zǐ)轉換成短(duǎn☆ε)裙。

 

為(wèi)了(le)解決這(zhè)一(yī)問(wèn)題,本文(wé•π™n)提出了(le)一(yī)種新的(de)方法——in∑≈stance-aware GAN(InstaGAN),這(zhè)種 GAN 結合了(le)實例信息(如(rú)目标分(fēn)割掩碼),提高(gāo)了(le)多(duō)實例轉換的(de)能(néng)力。在保持實"β↑例置換不(bù)變性的(de)同時(shí),該 GAN 對¥±¶(duì)圖像和(hé)相(xiàng)應的(de)實例屬性集進行(xíng)轉換。

 

為(wèi)此,研究人(rén)員(yuán)引入了(le)一(₽☆€φyī)個(gè)語境保留損失函數(shù),鼓勵網絡學習(xí)目标φ♦≈實例之外(wài)的(de)恒等函數(shù)。此外(wài),他(tā)們還(h★ ái)提出了(le)一(yī)種序列 mini-batch 推理(lǐ)/訓練技(jì)術(sh☆‌∏ù),這(zhè)種技(jì)術(shù)借助有(yǒu)限的(de) G★'PU 內(nèi)存處理(lǐ)多(duō)個(gè)實例,增強了(le)該網絡在多(d‌₩>uō)實例任務中的(de)泛化(huà)能(néng)力。對(duì)比評估證明$¥(míng)了(le)該方法在不(bù)同圖像數(​★↑•shù)據集上(shàng)的(de)有(yǒu)效性,尤其是(shì)在上(sh✘εγàng)述具有(yǒu)挑戰性的(de)情況下(←β¶xià)。

 

圖 1:先前方法(CycleGAN, Zhu et al. (2017 <​©))的(de)轉換結果 vs InstaGAN。後者在多(dγ∞uō)實例轉換問(wèn)題中得(de)到(¶φ•dào)的(de)結果更好(hǎo)

 

在谷歌(gē)搜索圖片上(shàng)的(de)結>♦γ∏果(褲子(zǐ)→短(duǎn)裙)
 


在 YouTube 視(shì)頻(pín)上(shàng)的♠×(de)結果(褲子(zǐ)→短(duǎn)裙)

 

研究者還(hái)在 GitHub 給出了(le)兩個♣↓×(gè)預訓練模型,感興趣的(de)讀(dú÷•)者可(kě)以下(xià)載試試。點擊以下(xià)鏈接下(xià)載預±•∑訓練模型(褲子(zǐ)→短(duǎn)裙及/或綿羊→長(cháng)頸鹿)

 

地(dì)址:https://drive∞ ≠γ.google.com/drive/folders/10TfnuqZ4tIVAQP2$€3cgHxJQKuVeJusu85

 

圖 2:(a)InstaGAN 架構概覽,其中的(de)生(sδ♥φ★hēng)成器(qì) G_XY、G_YX 和(héβ​)判别器(qì) D_X、D_Y 分(fēn)别遵循(b)和(hé)(c)中的(de)ε≠≠$架構,每個(gè)網絡都(dōu)同時(shí)編碼一(yī)幅 ε‍圖像及相(xiàng)應的(de)一(yī)套實例掩碼

 

InstaGAN 成功地(dì)把牛仔褲和(hé)短(du&>ǎn)裙互換,把短(duǎn)褲和(hé)長(chá•λσ∏ng)褲互換。

 

 

圖 4:在 clothing co-parsing(CCP)(Yang et aβ∑l., 2014)數(shù)據集上(shàng)的(de)轉換 δ★σ結果

 

綿羊和(hé)長(cháng)頸鹿互換,杯子(zǐ)和✔♠©(hé)瓶子(zǐ)互換都(dōu)不(bù)₩ ×是(shì)問(wèn)題。

 

 

圖 6:在 COCO(Lin et al., 2014)數(shù)據集上(shàng)的(de)∞÷轉換結果

 

我們可(kě)以隻給第一(yī)位小(xiǎo)姐(jiě)姐(jiě↓↑)換短(duǎn)裙,也(yě)可(kě)以隻給第二↔₹∏位小(xiǎo)姐(jiě)姐(jiě)換,當然一(yī)起換也(yě) OK。

 

 

圖 7:輸入掩碼不(bù)同,InstaGAN 得>♣±(de)到(dào)的(de)結果也(yě)不(bù)同

 

具體(tǐ)的(de)玩(wán)法自(zì)然不(bù)限于此,作(zuò)者可(→λ∏kě)沒說(shuō)需要(yào)限制(zhì)性✘α别。

 

 

圖 13:在 MHP 數(shù)據集上(shàng)的α♠α←(de)更多(duō)轉換結果(褲子(zǐ)→短(duǎn)裙)

 

從(cóng)展示的(de)案例中也(yě)可(kě)以γ"↑發現(xiàn),CycleGAN 的(de)轉換效果總是(shì)受到ε​(dào)源圖像的(de)形狀偏差影(yǐng)響,所以其轉換偏向于目标的(de)紋理(✘ lǐ)層面。比如(rú),在下(xià)圖中,CycleGAN 就(jiù)↑✘把短(duǎn)脖子(zǐ)的(de)綿羊變成了(le)短(duǎn)₩♥頸鹿。

 

 

圖 15:在 COCO 數(shù)據集上(shà₽×ng)的(de)更多(duō)轉換結果(綿羊→長(cháng)頸鹿)¥£←

 

給予贊賞的(de)同時(shí),同一(yī)位評審也(yě)指出了(leδ∑)該論文(wén)的(de)一(yī)些(xiē•≠)不(bù)足,并給出了(le)相(xiàng)應的(de)建議(yì):

 

就(jiù)測試領域的(de)數(shù)量(三類圖像對(duì)——長(cháng)頸鹿/綿羊,長(cháng↓γ")褲/短(duǎn)裙,杯子(zǐ)/瓶子≥±(zǐ))來(lái)看(kàn),結果有(yǒu)一(yī)定的(de)局限性εΩ∞。從(cóng)某種意義上(shàng)來(l‍↓≠ái)說(shuō),這(zhè)也(yě)是(shì)可(kě)以理(lǐ)←>解的(de)。誰也(yě)不(bù)會(huì)沒事(shì)用(yòng)它來(lái)轉€£> 換從(cóng)未在相(xiàng)同語境出現(xiàn)過或者大(©∞dà)小(xiǎo)不(bù)同的(de)目标(如(rú)杯子(zǐ)和(hé)長(cháng)頸鹿)。但(dàn)如(rú)果示例對(duì)更多(duō)會(huì)更好(hǎo),±∑¶φ也(yě)會(huì)使該系統更具說(shuō)服'Ω♥α力。

 

此外(wài),如(rú)果單個(gè)模型可(kě)以在多(duō)個(♥₹gè)類别對(duì)上(shàng)訓練并從(cóng)它們之間(jiān)共享的σ→(de)信息中受益,那(nà)将很(hěn)有(yǒu)趣。

 

評估主要(yào)是(shì)定性的(de)。我希望看(kàn)更多(duō)該模≈  ¥型的(de)控制(zhì)變量實驗。

 

 

圖 9:關于本文(wén)所述方法每個(gè)組成部分(fēn)效果的(de)控制(zhì)✘φ'變量研究。這(zhè)些(xiē)部分(fēn)包括:In®↔♥>staGAN 架構、語境保留損失函數(shù)、序列 mini-batch 推理(lǐ)/訓練ε™↑算(suàn)法,分(fēn)别表示為(wèi) InsαπtaGAN、L_ctx 及 Sequential

 

 

圖 10:關于序列 mini-batch 推理(lǐ)/訓練技(jì)術(shù)效果的(Ω¥de)控制(zhì)變量研究。One 和(hé) Seq 分γβ÷δ(fēn)别表示 one-step 推理(lǐ)和(hé)序列推理(l≥↕¥✘ǐ)。

 

參考鏈接:https://venturebe↑πat.com/2019/01/01/this-neur>£al-network-can-swap-sheep-for-giraff¶↕₽↕e-jeans-for-skirts/&nb>∏sp;      &n≠§☆​bsp;

雲之夢,logo,品牌标志(zhì)

河南百城網購科技有限公司

用(yòng)心連接科(kē)技(jì)與生(←♣shēng)活

深圳市(shì)南(nán)山(shān)區(qū)南(✔₩↔nán)海(hǎi)大(dà)道(dào)2702号保利大(dà)廈&ε2401
公司總機(jī):0755-86936332
E-mail:wangjingw@cloudream.com

圖片

微(wēi)信公衆号

圖片

微(wēi)博

圖片

微(wēi)信公衆号

圖片

微(wēi)博

Copyright@2018-2020雲之夢 備案号:粵ICP備 15069815号-1  技(jì)術(shù)支持:大(dà)腕互聯

Copyright@2018-2020雲之夢 備案号:粵ICP備 15069815号-1 
技(jì)術(shù)支持:大(dà)腕互聯