編者按:還記得那個(gè)能自己寫(xiě)詩(shī)的微軟小冰嗎?很多人看到小冰的詩(shī)之后驚嘆原來(lái)機(jī)器也有了創(chuàng)造力。最近,微軟亞洲研究院研發(fā)的DA-GAN技術(shù)讓機(jī)器繪畫(huà)創(chuàng)造也成為了可能,只要人們用文字描述一下自己想要的畫(huà)面,計(jì)算機(jī)便可以在幾毫秒之內(nèi)生成多個(gè)與描述吻合的形象。也許在不久的將來(lái),DA-GAN技術(shù)將開(kāi)啟一個(gè)人人都是創(chuàng)造者的時(shí)代。
創(chuàng)造力一直被認(rèn)為是人類(lèi)智能與人工智能最大的差別之一。然而隨著技術(shù)的發(fā)展,近年來(lái)人工智能在具有“創(chuàng)造性”的工作中不斷突破。之前微軟小冰寫(xiě)詩(shī),已經(jīng)讓大家驚嘆計(jì)算機(jī)在文字創(chuàng)作上的大幅提升,如今微軟亞洲研究院研發(fā)的DA-GAN技術(shù),則將對(duì)今后的藝術(shù)創(chuàng)造模式產(chǎn)生重大影響。而關(guān)于DA-GAN的論文也已被CVPR 2018接收(點(diǎn)擊閱讀原文查看)。
當(dāng)人們用文字描述“我想要一只腹部、胸部為白色,頭頂灰色,翅膀有白色翅斑的小鳥(niǎo)”時(shí),計(jì)算機(jī)便可以通過(guò)DA-GAN在幾毫秒的時(shí)間內(nèi)生成多個(gè)與文字描述高度吻合的形象(如下圖)。這些由計(jì)算機(jī)生成的鳥(niǎo)栩栩如生,完全符合人們期待的鳥(niǎo)的形象,不過(guò)它有可能是真實(shí)存在于現(xiàn)實(shí)世界中的,也有可能是系統(tǒng)根據(jù)鳥(niǎo)類(lèi)特征和文字描述“創(chuàng)造”出來(lái)的一只“鳥(niǎo)”。
DA-GAN生成的“腹部、胸部為白色,頭頂灰色,翅膀有白色翅斑的鳥(niǎo)”(注意:該圖片中的鳥(niǎo)在現(xiàn)實(shí)世界中并不存在)
DA-GAN的最大創(chuàng)新——“隱空間”
DA-GAN研究團(tuán)隊(duì)的技術(shù)突破得益于特征表達(dá)技術(shù)的發(fā)展。以往的特征表達(dá)工作,多是讓機(jī)器理解圖片并抽取特征,然后再對(duì)圖片進(jìn)行分類(lèi);而DA-GAN則有些反向思維的意味,在提取圖片特征后,將特征在人類(lèi)的視覺(jué)空間中還原出來(lái)。
以上文所列舉的鳥(niǎo)為例,系統(tǒng)首先要能夠根據(jù)現(xiàn)實(shí)世界的鳥(niǎo),總結(jié)出鳥(niǎo)的結(jié)構(gòu)和特征,然后再根據(jù)用戶的需求,輸出他們所需要的鳥(niǎo)。之所以選擇鳥(niǎo)類(lèi)作為研究對(duì)象,是因?yàn)轼B(niǎo)類(lèi)的特征非常豐富,僅頭部就有幾十種特征,鳥(niǎo)類(lèi)專(zhuān)家就是利用這些細(xì)微的差別來(lái)判斷鳥(niǎo)的種類(lèi),而特征豐富就意味著可以更好地去驗(yàn)證模型的生成能力。
微軟亞洲研究院研究員傅建龍表示,“在訓(xùn)練DA-GAN系統(tǒng)時(shí),我們先讓它‘見(jiàn)’過(guò)很多種類(lèi)的鳥(niǎo),就如同一個(gè)人認(rèn)識(shí)了紅蘋(píng)果后,看到綠色的蘋(píng)果,也可以從它的外形中判斷出這是蘋(píng)果一樣。DA-GAN依據(jù)所接觸的鳥(niǎo)類(lèi)圖片,學(xué)會(huì)了判斷鳥(niǎo)的經(jīng)驗(yàn)性常識(shí)?!?/p>
與傳統(tǒng)的數(shù)據(jù)訓(xùn)練模式需要pair data(數(shù)據(jù)對(duì))不同,DA-GAN不需要將文本與真實(shí)的鳥(niǎo)一一對(duì)應(yīng),而是將原始圖片分割成不同的部分(暫稱(chēng)該部分的樣本為T(mén)),例如頭部、身體、尾巴、姿勢(shì)等,不同的部分分別投射到一個(gè)“隱空間”(暫稱(chēng)該部分的生成樣本為T(mén)’),然后通過(guò)大量的圖片訓(xùn)練,去驗(yàn)證T-T’對(duì)應(yīng)的精確程度,也就是去不斷驗(yàn)證該“隱空間”的好壞,從而不斷迭代,確保從T-T’的過(guò)程并非隨機(jī)產(chǎn)生,而是保持一定的規(guī)則,進(jìn)而讓“隱空間”的模型逐步趨于完善。這個(gè)過(guò)程可謂是DA-GAN系統(tǒng)最為核心的創(chuàng)新所在,也是它能夠更加智能、真正具有舉一反三學(xué)習(xí)能力的關(guān)鍵點(diǎn)。
DA-GAN深度注意力編碼流程圖
接下來(lái),DA-GAN就可以基于該模型創(chuàng)作用戶想要的鳥(niǎo)類(lèi)了,正如文章開(kāi)頭所描述的,輸入你的需求,一只栩栩如生的鳥(niǎo)就會(huì)相應(yīng)生成。它可能是一只自然界里真實(shí)存在的鳥(niǎo),也可能是一只擁有A種鳥(niǎo)類(lèi)的頭部特征、B種鳥(niǎo)類(lèi)的身體特征、C種鳥(niǎo)類(lèi)的尾部特征以及任意姿態(tài)的一只“想象中的鳥(niǎo)”,而在現(xiàn)實(shí)世界里并沒(méi)有這樣的鳥(niǎo)類(lèi),但它看上去就是一只真正的“鳥(niǎo)”。
(a) 文字到圖像生成 (b) 物體類(lèi)別變換
傅建龍表示,“目前,我們只將鳥(niǎo)類(lèi)分成了4個(gè)部分,這是我們計(jì)算出來(lái)的映射相對(duì)合理,同時(shí)系統(tǒng)代價(jià)較小的可行的方式。當(dāng)然也可以將鳥(niǎo)分為10個(gè)、30個(gè)部分,那樣模型會(huì)越來(lái)越精確,但系統(tǒng)代價(jià)可能也會(huì)成倍增加?!?/p>
開(kāi)啟人人都是創(chuàng)造者的時(shí)代
除了鳥(niǎo)類(lèi),DA-GAN還可以用于任何與圖片相關(guān)的創(chuàng)作,例如此前風(fēng)行的基于真實(shí)人臉生成卡通人臉的小程序,其實(shí)大部分只是將紋理附著到了原始照片上,如果利用DA-GAN,則可以做得更像是藝術(shù)家的現(xiàn)場(chǎng)漫畫(huà)寫(xiě)生,它可以是梵高風(fēng)格、莫奈風(fēng)格、漫畫(huà)風(fēng)格等等,用戶可以進(jìn)行任意轉(zhuǎn)換。
對(duì)于DA-GAN來(lái)說(shuō),最重要的是早期的數(shù)據(jù)訓(xùn)練,圖片越多質(zhì)量越高。而且其分辨率已經(jīng)從其他相關(guān)技術(shù)能夠達(dá)到的64*64升級(jí)到了256*256,分辨率的提高,意味著圖片每個(gè)部分所包含的細(xì)節(jié)信息更加完善,也正因?yàn)榧?xì)節(jié)的豐富,才使得DA-GAN的表現(xiàn)在與真實(shí)世界的對(duì)比中優(yōu)于同類(lèi)技術(shù)。
與此同時(shí),DA-GAN生成的眾多新的圖片,又可以反哺給該系統(tǒng),從而讓它擁有更多的學(xué)習(xí)數(shù)據(jù)。也就是說(shuō),只要基于少量的原始數(shù)據(jù),DA-GAN就可以產(chǎn)生更多“真實(shí)”的練習(xí)數(shù)據(jù),大大改善某些領(lǐng)域真實(shí)數(shù)據(jù)缺乏的問(wèn)題。利用DA-GAN的這一優(yōu)勢(shì),研究團(tuán)隊(duì)實(shí)現(xiàn)了業(yè)內(nèi)首次在鳥(niǎo)類(lèi)數(shù)據(jù)集中增加生成數(shù)據(jù),并將系統(tǒng)的準(zhǔn)確度提升了兩個(gè)百分點(diǎn)。
數(shù)據(jù)增強(qiáng)結(jié)果
姿態(tài)變換任務(wù) 圖中每組圖片的第一列是source,第二列是target,第三列是DA-GAN生成的鳥(niǎo)類(lèi):保持與第一列的鳥(niǎo)類(lèi)類(lèi)別一致,但具有第二列的鳥(niǎo)類(lèi)姿態(tài)
在可觸摸的未來(lái),或許,DA-GAN技術(shù)將開(kāi)啟一個(gè)人人都是創(chuàng)造者的時(shí)代。只要你的需求輸入它能夠讀懂,哪怕是你腦海中幻想出來(lái)的物體和場(chǎng)景,它都能“畫(huà)”出來(lái)。而由DA-GAN所描繪出來(lái)的虛擬世界,可能一點(diǎn)都不比文學(xué)家、藝術(shù)家創(chuàng)作出來(lái)的場(chǎng)景遜色。
不僅如此,讓已經(jīng)滅絕的動(dòng)植物,通過(guò)記載文字的描述重新躍然紙上;為安防領(lǐng)域提供更真實(shí)的犯罪嫌疑人畫(huà)像;幫助人們貼合自身的情況試穿網(wǎng)絡(luò)售賣(mài)的衣物等等,還有更多DA-GAN技術(shù)的應(yīng)用場(chǎng)景,等待大家去想象。同時(shí),傅建龍也表示,未來(lái)隨著技術(shù)的不斷發(fā)展,更多可以生成逼真圖片和影像的技術(shù)將會(huì)誕生,如何辨別真?zhèn)我彩切枰蒲腥藛T以及大眾思考和解決的問(wèn)題。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7663瀏覽量
90804 -
人工智能
+關(guān)注
關(guān)注
1806文章
49028瀏覽量
249507
原文標(biāo)題:突破特征表達(dá)方式:微軟亞洲研究院CVPR論文DA-GAN,讓計(jì)算機(jī)創(chuàng)造奇妙“新物種”
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論