沉迷AI畫圖三天后,我逐漸理解了一切
2022年10月的第二個星期五,大約是五六點快下班的時候,我的一個微信群里突然開始聊起了AI畫圖的事情。
正當(dāng)大家聊的興起的時候,一 個老哥不聲不響地發(fā)了一段“平平無奇”的神秘代碼:
我當(dāng)時正在興頭上,于是便立刻注冊了NovelAI的用戶,輸入了他給的這段代碼。
原圖我就不放了,放了號就沒了,我只能說:
畫面很逼真,效果很哇塞。
實際上,2022年10月的第二個星期的的確確是屬于AI繪畫的——一個名為NovelAI的網(wǎng)站悄然上線。對于這個AI模型, 真正有意思的是它的素材——NovelAI所使用的數(shù)據(jù)主要來自兩處,一部分來自國外的著名二次元網(wǎng)站Danbooru,另一部分則采集自著名的P站—老司機們應(yīng)該對這兩個網(wǎng)站的成色十分清楚——都不是什么正經(jīng)的地方。
TMD……這幫洋人程序員,果然是懂人性的。
雖然NovelAI利用技術(shù)手段從這兩個網(wǎng)站上扒數(shù)據(jù)進行學(xué)習(xí)的事情引起了不小的輿論風(fēng)潮甚至法律糾紛,但毫無疑問的是,NovelAI成功了。
NovelAI大獲成功之后,國內(nèi)外的諸多游戲/科技媒體紛紛都在傳遞著一個消息: AI已經(jīng)學(xué)會畫澀圖了。
本著 “體驗前沿科技成果,緊跟技術(shù)發(fā)展潮流” 的精神,局長開始了為期三天的AI畫圖之旅。
三天后,我好了,除了精神有些萎靡。
但,我逐漸理解了一切。
我的AI繪畫體驗
我選擇體驗的AI繪畫平臺是NovelAI。原因很簡單,因為它的訓(xùn)練素材實在是 “給了我一個無法拒絕的理由”。
唯一的不足就是需要花錢且有點貴——先交80塊錢作為會員,它會送你1000個點券,然后還可以再花80塊錢買10000個點券——每出一張圖就要花至少5個點券,看樣子倒是不貴,但若是想生成一個沒有瑕疵、滿意的作品,往往需要調(diào)整好幾次。平均下來,最后生成一張足夠滿意的圖可能需要幾十上百個點券。
10000個點券雖然看上去還挺多,實際上一點也不經(jīng)用。
對這種收費模式,我的朋友表示:NovelAI的這個生意做的好,讓我們這些用戶自掏腰包幫他們訓(xùn)練模型。我感覺她內(nèi)涵我,但我沒有證據(jù)。
正式進入之后,就可以開始操作了。
所謂的操作,其實就是輸入恰當(dāng)?shù)腜rompt(提示詞)從而實現(xiàn)預(yù)期的效果。
莎士比亞說過“一千個觀眾眼里有一千個哈姆雷特”,在AI作圖上也是如此,人們的惡趣味各有不同,所以prompt的內(nèi)容也五花八門。但總而言之,prompt無非就是一些簡單的描述,比如“黑長直的頭發(fā),戴眼鏡,打濕的白襯衣,緊身牛仔褲”等等......
由于命令A(yù)I生成滿意的圖片往往需要極度詳細且冗長的prompt,因此網(wǎng)友們便將promt戲稱為“咒語”,調(diào)整/輸入prompt的過程則被稱為“念咒”“施法”或“吟唱”。
一個AI繪圖平臺竟然能在這個靈氣稀薄的末法時代里催生出滿地的魔法師,霍格沃茨看了都得高呼內(nèi)行。
除此之外,Prompt的內(nèi)容還可以分成兩類,一類是“你希望實現(xiàn)的效果”,被稱為“Positive Prompt”(正咒),另一類則是“你不希望實現(xiàn)的效果”——Negative Prompt(反咒)——之所以會出現(xiàn)“反咒”,主要還是因為現(xiàn)階段的AI模型開發(fā)得還不算完備,一旦遇到需要精確表達且結(jié)構(gòu)形狀復(fù)雜的東西就會立刻抓瞎。用戶們必須想盡辦法來消除掉那些可能毀掉畫面效果的瑕疵。
比如,當(dāng)你需要你需要畫面中的人物“用手撩著頭發(fā)”的時候,AI就經(jīng)常做出一些令人感到迷惑的東西。
不過,雖然這些離譜的bug暫時還沒有被修正,但人們顯然已經(jīng)學(xué)會了用“反咒”或者其他方式“糊弄”過去—— 比如我就經(jīng)常要求AI把人物的手隱藏起來,反正只要看不見就不能說有問題。
除了精致的人物之外,NovelAI在風(fēng)景、場景上的表現(xiàn)也是可圈可點。這個畫質(zhì)雖然肯定比不過頂級的插畫師的手藝,但用在一些對畫面并不太講究的地方還是沒什么問題的。
相比之下,國內(nèi)某大廠開發(fā)的AI模型就顯得有點尷尬了。
在自然景物的呈現(xiàn)上,國產(chǎn)AI模型表現(xiàn)出了極致的效果,選擇輸出“寫實主義”風(fēng)格的作品時,效果基本已經(jīng)有了接近照片級的真實感,可以說是吊打NovelAI。
但一旦要求其繪制人物肖像,一種莫名其妙的詭異感覺便顯示了出來。
不過這并不算什么大問題,NovelAI團隊之前是做“AI續(xù)寫小說”的,在模型搭建的過程中自然會對文學(xué)類語言以及影視、動漫形象有更深刻的理解,加上訓(xùn)練素材也大多來自動漫形象或特殊渠道,所以在人物表現(xiàn)力上自然會更強。
“AI作圖”背后是什么?
如今,AI已經(jīng)開始滲透到了各行各業(yè)——“人工智能”,這個起源于1956年的概念,在近70年的發(fā)展史中先后經(jīng)歷了兩次起伏,最終在2006年深度學(xué)習(xí)算法突破后開始進入了新的一輪高潮—— 2017年以來,AI研究開始呈現(xiàn)爆發(fā)趨勢,“算力,算法,數(shù)據(jù)”成為了本輪AI大潮的主要動力。
以NovelAI為例,提供算力的各種硬件設(shè)備當(dāng)然是最最基礎(chǔ)的,聯(lián)網(wǎng)版本的NovelAI就不多說了,單機版的NovelAI極度依賴于電腦顯卡的性能——而GPU恰恰就是如今最主流的“算力引擎”之一——說實話,這幾年顯卡算是徹底火了,前幾年是用顯卡挖比特幣,現(xiàn)在是用顯卡畫畫。
除了算力,數(shù)據(jù)也是極為重要的。NovelAI的作品之所以有極為濃厚的二次元和游戲CG風(fēng)格,正是因為其訓(xùn)練所使用的素材絕大多數(shù)都來自于D站和P站——當(dāng)然,這也解釋了為什么NovelAI生成的圖片總有點離譜。
最后則是算法——這可以說是AI的靈魂所在,也就是為什么能做到“從文字生成圖像”。目前來看,最熱門、最受歡迎的就是Diffusion model(擴散模型),市面上絕大多數(shù)需要通過“吟唱”來繪畫的AI平臺用的都是這個。
Diffusion model的原理很有意思,簡單來說就是不斷地“加密”一張圖片(添加噪點),直到這張圖片變成徹底人鬼莫辨的模糊樣子。然后,人們再讓AI模型嘗試著一步步地將其還原成為最初的樣子。
要知道,當(dāng)加密過程結(jié)束后,最后得到的東西是一張已經(jīng)完全模糊的圖片。而當(dāng)AI模型能夠從這樣的一團混沌中解析出來正確的圖片,也就意味著AI掌握了“無中生有”的能力。
不過,如果只有diffusion model,那頂多也就是一個生成圖像的工具,我們還不能隨心所欲地“召喚”自己想要的畫面——我們只需要一個東西將文字和Diffusion model連接起來,而目前,擔(dān)任這個連接器的東西叫CLIP(Contrastive Language-Image Pre-training)—— 粗暴點說,它相當(dāng)于是一個給AI看的“兒童識字圖冊”,讓AI把文字和相關(guān)的圖像對應(yīng)起來。
因此,整個AI繪畫過程大概是這樣的:當(dāng)我們輸入了一大串Prompt“咒語”,CLIP就會產(chǎn)生一個相應(yīng)的結(jié)果“A”(學(xué)名叫“表征”)。與此同時,diffusion model里也會隨機生成一張圖片,而CLIP也會給一個相應(yīng)的結(jié)果“B”。然后,通過不斷地計算A和B的相似程度,讓A和B無限接近, 最終就能夠?qū)崿F(xiàn)“A=B”,也就是讓我們輸入的描述和電腦生成的結(jié)果一模一樣。
簡單來說,當(dāng)前AI的工作原理堪稱是“大力出奇跡”——開發(fā)人員輸入海量的數(shù)據(jù),算法平臺將根據(jù)這些數(shù)據(jù)來訓(xùn)練模型,最終形成AI技術(shù)工具。
整個AI產(chǎn)業(yè)鏈基本可以分為三段:基礎(chǔ)層、技術(shù)層、應(yīng)用層。
基礎(chǔ)層是數(shù)據(jù)和算力,包括AI芯片、AI基礎(chǔ)設(shè)施和數(shù)據(jù)以及服務(wù);技術(shù)層則主要指的是基于基礎(chǔ)層所開發(fā)的算法模型,模型會根據(jù)軟件框架對數(shù)據(jù)進行學(xué)習(xí),最終獲得人工智能技術(shù);應(yīng)用層則是根據(jù)不同場景來運用這些人工智能技術(shù)。
在AI領(lǐng)域,中美兩國基本上代表了全球最高水準(zhǔn)。
AI基礎(chǔ)設(shè)施領(lǐng)域,隨著技術(shù)進步,AI算力的基石也發(fā)生了改變。在過去,x86服務(wù)器是主流,但現(xiàn)在AI芯片、GPU、FPGA、ASIC等芯片為核心的服務(wù)器成為了主力——浪潮、華為、曙光、新華三都是國內(nèi)領(lǐng)先的AI基礎(chǔ)設(shè)施供應(yīng)商。
如果繼續(xù)深挖,我們會發(fā)現(xiàn)AI基礎(chǔ)設(shè)施的底層其實還是芯片。
事實上,百度、華為、阿里、寒武紀(jì)等國內(nèi)頭部科技企業(yè)現(xiàn)在都在依托自身的技術(shù)和業(yè)務(wù)優(yōu)勢在布局AI芯片的研發(fā):
華為的升騰910芯片是全球單芯片計算密度最大的芯片,寒武紀(jì)的思元370應(yīng)用了最新的小芯片(也叫芯粒,chiplet)技術(shù),功耗大幅度降低,算力也不差。
但需要注意的是,GPU/FPGA/ASIC這些是目前AI芯片行業(yè)的主流,GPU仍然是首選, 而全世界最強的GPU廠商則是美國的英偉達。
再結(jié)合一下最近的新聞,嘖嘖,你看看,是不是一切都串聯(lián)起來了。
我只能說:這棋局,大得很吶!
最后:“AI作圖”會消滅誰?
另外,只要談到AI,有一個問題是繞不開的:AI會取代人類嗎?
我無意于解答這個問題,在這里,我們先聊一件舊事:
大家都知道,2015年前后,正是中國互聯(lián)網(wǎng)經(jīng)濟發(fā)展最快的時候。在北京的西二旗、杭州的濱江區(qū)、深圳的南山區(qū),到處都是滿懷創(chuàng)業(yè)熱情的新興互聯(lián)網(wǎng)企業(yè)。
那幾年,雙十一購物節(jié)每一年的銷售額都要在上一年的基礎(chǔ)上進行一場大跳躍,而這一切的背后的原動力,則是中國互聯(lián)網(wǎng)用戶數(shù)量的暴漲。
用戶在暴漲,意味著服務(wù)用戶的種種也要暴漲——比如某個著名電商平臺頁面上的海報 。尤其是當(dāng)如今大數(shù)據(jù)和算法日益強勢,首頁上推廣的產(chǎn)品逐漸變得千人千面,做海報這件事開始變得越來越難—— 無數(shù)種商品,無數(shù)個用戶,意味著這個電商平臺必須要輸出數(shù)以億計的海報。
雖然這些海報很簡單,無非就是“產(chǎn)品圖+廣告語+背景素材”的排列組合,但如果靠人來進行操作,且不說設(shè)計師們會不會被累到猝死,光是付給設(shè)計師團隊的工資就是一筆巨大的成本。
于是,AI登場了——這家企業(yè)退出了一個名叫“魯班”的AI設(shè)計師, 一秒鐘可以制作8000張海報,一天時間制作4000萬張海報 ——不僅能做到超高產(chǎn)量,還能滿足千人千面的需求。
這就是AI殺入創(chuàng)作領(lǐng)域后所展示出來的力量——事實上,“魯班”的出現(xiàn)的確使得一批設(shè)計師失去了工作,但仍然有相當(dāng)數(shù)量的設(shè)計師并沒有被沖擊到。
之所以這些人沒有被“魯班”所取代,是因為他們掌握了或許機器永遠無法掌握的東西——創(chuàng)意。
從之前對NovelAI操作的介紹中我們會發(fā)現(xiàn),整個操作過程異?!吧倒稀薄灰獣蜃志涂梢粤恕攸c從不在于打字,而是“打什么字”——如果你不知道如何表達你的藝術(shù)創(chuàng)意,如果你不知道如何讓AI按照你的指令呈現(xiàn)效果,那么即便沒有AI,拿起畫筆的你也依舊沒有什么競爭力。
說白了,在當(dāng)前這個階段,AI依舊只是一種聽命于人類指令的機器。嚴(yán)格意義上,這只能算是“弱AI”
現(xiàn)階段的AI只是幫助人們省略掉了那些重復(fù)勞動的環(huán)節(jié),真正決定產(chǎn)品的質(zhì)量的,依舊是看你能夠做出何等水平的指令。
因此,今天仍然沒有被“魯班”取代的設(shè)計師,大多數(shù)都已經(jīng)摸索出了一條和“魯班”和睦相處的道路—— 設(shè)計師負責(zé)調(diào)教“魯班”,魯班負責(zé)設(shè)計和輸出海報圖片。
AI作圖真的會消滅誰嗎?
我的看法是:在生產(chǎn)力的革命里,被消滅的永遠只是落后的生產(chǎn)關(guān)系。
本文來自微信公眾號 “星海情報局”(ID:junwu2333),作者:老局長
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




