91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

親戚逼相親?美國小哥生成了一個(gè)AI女友躲避催婚

商界觀察
2022-10-18

自從AI圖片生成技術(shù)爆火以后,各路玩家紛紛親自嘗試。

 

要不就是用AI做個(gè)頭像,要不就是生成一些奇思妙想的畫作。

 

但要我說,這些點(diǎn)子和今天的主人公Dinda比起來,簡直就是不值一提。

 

思路打開一點(diǎn)嘛。

 

用高科技應(yīng)付長輩?

 

Dinda是YouTube的一名照片編輯,本著近水樓臺先得月的原則,他每天就是和圖片生成軟件打交道。

 

最近,Dinda遭遇了全世界大齡青年都會面臨的問題——來自長輩的催婚。

 

然而,Dinda小哥事業(yè)未就,怎能思慮兒女情長?可來自長輩的壓力又不能不管,那就只剩一條路了——作假騙長輩。

 

在以前,作假是一件很麻煩的事,要找一個(gè)知根知底的異性朋友,約好來個(gè)一日情侶。見見家長,把兩邊都糊弄過去就算完。

 

但是不得不說,風(fēng)險(xiǎn)挺大的。一個(gè)大活人,可不能隨時(shí)都配合著應(yīng)付來自長輩的檢查。

 

Dinda想了一個(gè)妙招。如果自己能用DALL-E生成一大堆和女朋友合拍的照片,時(shí)不時(shí)給長輩發(fā)過去應(yīng)付一下,不就行了?

 

Dinda打開了DALL-E,用圖像修復(fù)功能進(jìn)行操作。該功能允許用戶擦除圖片上的一部分,然后DALL-E會根據(jù)用戶輸入的文字來填補(bǔ)空缺的部分。

 

于是,Dinda整了點(diǎn)自己的自拍照,然后把身邊的空間擦了一塊,留下一個(gè)正好能放下自己假想的女朋友的位置。

 

接著,他在指令中輸入——一個(gè)有女朋友的男人。

 

然后,啪。

 

 

 

這還不算完,一般和修圖打交道的人都很重視細(xì)節(jié)。

 

為了讓生成的圖像更加的逼真,Dinda還把虛擬女友的臉給裁了下來,導(dǎo)出到一個(gè)叫GFP-GAN的人工智能照片編輯程序中。

 

通過這個(gè)程序,Dinda可以進(jìn)行微調(diào),把這張臉做得更逼真。之后再把微調(diào)過的圖像放到ps里,再修一下,最后放回原始圖像。

 

這樣一來,生成的照片就無可挑剔了。

 

Dinda表示,「就算我告訴別人這張照片是生成的,90%的人也不知道哪里是動過的?!?/span>

 

與此同時(shí),他還演示了照片編輯人員如何使用同樣的技術(shù)在AI的幫助下把人去掉。

 

還是一樣的把要去掉的人身上涂抹一下,DALL-E就會生成一個(gè)替代背景出來。雖然背景很復(fù)雜,但是生成出來的圖片也還可以。

 

超凡圖像生成工具!

 

DALL-E究竟是什么呢?

 

我不允許還有人沒聽說過DALL·E。畢竟,現(xiàn)在都出到2代——DALL·E 2了。

 

 

這是一款由OpenAI開發(fā)的轉(zhuǎn)化器模型,全部的功能就是把「話」變成「畫」。

 

具體來說,DALL·E是一個(gè)有120億參數(shù)版本的GPT-3,被訓(xùn)練成了使用文本生成圖像的模型。背后的數(shù)據(jù)集是文本-圖像的對應(yīng)集。

 

 

比如上面這幾張圖,有戴帽子的狗,做實(shí)驗(yàn)的熊貓,還有長得像星云的狗狗。有沒有覺得,哪怕不合常理,但是并不違和?這就是DALL·E能做到的。說起DALL-E的源頭,其實(shí)是研究人員從GPT-3那里得到了啟發(fā)。GPT-3是個(gè)用語言生成語言的工具,而圖像GPT則可以用來生成高保真度的圖片。

 

研究人員發(fā)現(xiàn),用文本來操控視覺,是可以做到的。也就是這樣,DALL·E成為了一個(gè)和GPT-3一樣的轉(zhuǎn)化器。

 

 

在此基礎(chǔ)上,研究人員又開始琢磨同時(shí)用文本描述多個(gè)物體,生成一張圖。這些物體各自的特征、之間的空間位置關(guān)系全都交給文字來描述。

 

比方說,輸入文本:一只戴著紅帽子、黃手套,穿著藍(lán)襯衫和綠褲子的刺猬。為了正確生成對應(yīng)的圖片,DALL·E不僅要正確理解不同衣服和刺猬之間的關(guān)系,還不能混淆不同衣服和顏色的對應(yīng)關(guān)系。

 

這種任務(wù)被稱作變量綁定,在文獻(xiàn)中有大量的相關(guān)研究。

 

 

可以說,DALL·E從1代到2代,就是這么一個(gè)個(gè)小任務(wù)走過來的。最終能夠呈現(xiàn)的就是一個(gè)不錯(cuò)的文本-圖像轉(zhuǎn)化器。

 

T2I究竟有多卷?

 

要說今年最火的AI便是多模態(tài)人工智能崛起。

 

上半年,文本生成圖像AI模型(T2I)各家爭霸。

 

除了DALL-E,谷歌自家Imagen、Parti,Meta的文本圖像生成工具M(jìn)ake-A-Scene,再到現(xiàn)在大火的Stable Diffusion、谷歌文本3D生成模型DreamFusion都在擴(kuò)充著文本轉(zhuǎn)圖像的應(yīng)用。

 

先是4月,在GPT-3大模型的加持下,Open AI對畫圖界的扛把子DALL-E進(jìn)行了2.0版的全面升級。

 

和上一代相比,可以說,DALL·E 2簡直就是直接從二次元簡筆畫走向超高清大圖:

 

分辨率提升4倍,從256x256提升到了1024x1024,并且生成圖像的準(zhǔn)確率也更高!

 

 

5月,谷歌不甘落后推出AI創(chuàng)作神器Imagen,效果奇佳。

 

僅僅給出一個(gè)場景的描述,Imagen就能生成高質(zhì)量、高分辨率的圖像,無論這種場景在現(xiàn)實(shí)世界中是否合乎邏輯。

 

 

6月,谷歌再次推出了新一代AI繪畫大師Parti。

 

要說Imagen和Parti不同地方,便在于采取了不同的策略——自回歸和擴(kuò)散。

 

Parti是一個(gè)自回歸模型,它的方法首先將一組圖像轉(zhuǎn)換為一系列代碼條目,然后將給定的文本提示轉(zhuǎn)換為這些代碼條目并「拼成」一個(gè)新圖像。

 

 

7月,Meta公布了自家的AI「畫家」——Make-A-Scene,通過文本描述,再加上一張草圖,就能生成你想要的樣子。

 

最重要的是,構(gòu)圖上下、左右、大小、形狀等各種元素都由你說了算。

 

 

可以看到,DALL-E 2、Imagen等仍然停留在二維創(chuàng)作,無法生成360度無死角的3D模型。

 

而谷歌發(fā)布的文本3D生成模型DreamFusion便開辟了這一新路線。

 

訓(xùn)練后的模型可以在任意角度、任意光照條件、任意三維環(huán)境中基于給定的文本提示生成模型。

 

而且整個(gè)過程既不需要3D訓(xùn)練數(shù)據(jù),也無需修改圖像擴(kuò)散模型,完全依賴預(yù)訓(xùn)練擴(kuò)散模型作為先驗(yàn)。

 

 

由此可見,在文本轉(zhuǎn)圖像這塊,各大廠已經(jīng)卷上了新高度。

 

甚至有人稱,今年文本轉(zhuǎn)視頻AI模型暫時(shí)還不會到來。

 

 

沒想到的是,Meta和谷歌再次打破了這一預(yù)言。

 

T2V已來!

 

9月底,Meta最先公布了文本一鍵生成視頻模型Make-A-Video。

 

這一模型厲害到什么程度?

 

除了可以把文本變成視頻之外,它也可以把靜態(tài)圖變成Gif、把視頻變成視頻。

 

 

這一模型發(fā)布后,就連圖靈獎得主Yann LeCun稱,該來的都會來。

 

 

比如「馬兒喝水」,生成如下效果:

 

 

貓主子拿著遙控器在看電視

 

 

簡直AI導(dǎo)演上線。

 

緊接著10月,谷歌還是文本視頻模型兩連發(fā)。

 

先是Imagen Video,與Meta的Make-A-Video相比最突出一個(gè)特點(diǎn)就是「高清」。

 

它能生成1280*768分辨率、每秒24幀的視頻片段。

 

 

與此同時(shí),還有Phenaki模型,讓騎馬的宇航員也動了起來。

 

這一模型能根據(jù)200個(gè)詞左右的提示語生成2分鐘以上的長鏡頭,講述一個(gè)完整的故事。

 

 

 

在文本轉(zhuǎn)視頻上,下一個(gè)誰會接棒?

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com