91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

讓AI像人類畫家一樣邊畫邊想,港中文&美團(tuán)讓模型「走一步看一步」

商界觀察
2025-12-23

將文本推理與視覺生成深度交織,在生成時(shí)規(guī)劃和思考,并自行修正錯(cuò)誤

在文生圖(Text-to-Image)和視頻生成領(lǐng)域,以FLUX.1、Emu3為代表的擴(kuò)散模型與自回歸模型已經(jīng)能生成極其逼真的畫面 。

 

但當(dāng)你要求模型處理復(fù)雜的空間關(guān)系、多物體交互或精準(zhǔn)的數(shù)量控制時(shí),它們往往會(huì)“露怯”:不是把貓畫到了窗戶外面,就是把三個(gè)蘋果畫成了四個(gè)。

 

 

為了解決這個(gè)問題,學(xué)術(shù)界此前主要有兩條路:

 

一條是“謀定而后動(dòng)”(Think-before-Generation),即在畫第一筆之前,先寫好詳細(xì)的布局計(jì)劃。但這就像讓畫家在動(dòng)筆前必須把每一筆都想得清清楚楚,一旦開畫就無法更改,缺乏靈活性。

 

另一條是“亡羊補(bǔ)牢”(Think-after-Generation),即先把圖畫完,再通過多輪對(duì)話來挑錯(cuò)、修改。這雖然有效,但往往意味著巨大的推理開銷和漫長的等待時(shí)間。

 

那么,有沒有一種方法,能讓模型像人類畫家一樣,在作畫的過程中停下來看一眼,既能審視剛才畫得對(duì)不對(duì),又能為下一筆做好規(guī)劃?

 

近日,來自香港中文大學(xué)、美團(tuán)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的范式——Thinking-while-Generating(TwiG)。這是首個(gè)在單一生成軌跡中、以局部區(qū)域?yàn)榱6?,將文本推理與視覺生成深度交織(Interleave)的框架。

 

 

什么是Thinking-while-Generating?

 

如果說之前的視覺生成是“一口氣跑到底”,TwiG則更像是一種“間歇性思考”。

 

研究團(tuán)隊(duì)受到大語言模型(LLM)中思維鏈(Chain-of-Thought)的啟發(fā),但他們反其道而行之:不再是用圖片輔助推理,而是用推理來引導(dǎo)作畫。

 

在TwiG的框架下,視覺生成不再是一個(gè)黑盒的連續(xù)過程,而是被拆解為“生成-思考-再生成”的循環(huán)。模型會(huì)在繪制過程中多次“暫停”,插入一段文本推理(Thought),用于總結(jié)當(dāng)前的視覺狀態(tài),并指導(dǎo)接下來的生成。

 

為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)將TwiG框架拆解為三個(gè)核心維度:

 

1. When to Think(何時(shí)思考):模型首先會(huì)根據(jù)用戶的Prompt(提示詞),規(guī)劃出一個(gè)“思維時(shí)間表”。研究發(fā)現(xiàn),將畫面生成過程拆解為3個(gè)階段效果最佳,這恰好符合圖像通常包含“上部背景、主體內(nèi)容、下部背景”的語義結(jié)構(gòu)。

 

2. What to Say(思考什么):在每個(gè)暫停點(diǎn),模型會(huì)生成一段“思維鏈”。這段文本不僅承接了上文的邏輯,更像是一個(gè)微型的路書,專門指導(dǎo)接下來的局部區(qū)域該怎么畫。這種細(xì)粒度的引導(dǎo),比那種“一句Prompt走天下”的方式要精準(zhǔn)得多。

 

3. How to Refine(如何修正):在畫完一個(gè)局部后,模型會(huì)立刻進(jìn)行自我批判(Self-Reflection)。如果發(fā)現(xiàn)畫歪了或者顏色不對(duì),它會(huì)立刻觸發(fā)“重畫”機(jī)制,只修正當(dāng)前的局部,而不需要推倒重來。

 

 

實(shí)證研究:從Zero-Shot到SFT到RL

 

為了驗(yàn)證這一范式的潛力,研究團(tuán)隊(duì)在統(tǒng)一多模態(tài)模型(如Janus-Pro)上進(jìn)行了層層遞進(jìn)的實(shí)驗(yàn)。

 

Zero-Shot潛力驚人

 

僅僅通過精心設(shè)計(jì)的Prompt,而不需要任何參數(shù)更新,模型就已經(jīng)展現(xiàn)出了強(qiáng)大的“邊畫邊想”能力。

 

在T2I-CompBench基準(zhǔn)測(cè)試中,Zero-Shot版的TwiG(TwiG-ZS)在屬性綁定、空間關(guān)系等多個(gè)維度上顯著超越了基準(zhǔn)模型。

 

結(jié)果表明,在合適的interleave約束與提示下,現(xiàn)有多模態(tài)模型已具備一定的在生成過程中進(jìn)行推理的潛力。

 

SFT提升穩(wěn)定性

 

團(tuán)隊(duì)進(jìn)一步構(gòu)建了包含50K數(shù)據(jù)的高質(zhì)量數(shù)據(jù)集TwiG-50K,對(duì)模型進(jìn)行監(jiān)督微調(diào)(SFT)。結(jié)果顯示,SFT有效減少了模型“胡思亂想”產(chǎn)生的幻覺,讓生成的思維鏈更加簡(jiǎn)練、可控。

 

RL突破上限

 

團(tuán)隊(duì)采用了針對(duì)TwiG優(yōu)化的GRPO策略(Group Relative Policy Optimization),讓模型在“何時(shí)思考、思考什么、如何修正”的策略上進(jìn)行自我博弈和進(jìn)化。

 

實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過RL訓(xùn)練的TwiG-RL,在T2I-CompBench++的多個(gè)關(guān)鍵組合與空間指標(biāo)上,展現(xiàn)出與Emu3、FLUX.1等模型具有競(jìng)爭(zhēng)力、甚至在部分維度上更優(yōu)的表現(xiàn)。

 

 

 

TwiG的提出,不僅是一種技術(shù)上的優(yōu)化,更是一種觀念上的轉(zhuǎn)變。它試圖打破視覺生成模型的“黑盒”屬性,通過引入可讀的文本推理,讓生成過程變得透明、可控且具有邏輯性。

 

研究團(tuán)隊(duì)的結(jié)論可以總結(jié)為以下幾點(diǎn):

 

1. 生成需要邏輯:?jiǎn)渭兊南袼馗怕暑A(yù)測(cè)難以處理復(fù)雜的邏輯約束,引入顯式的文本推理是必經(jīng)之路。

 

2. 修正優(yōu)于重繪:相比于畫完再改的“大動(dòng)干戈”,在生成過程中進(jìn)行局部的即時(shí)修正是更高效的策略。

 

3. RL是關(guān)鍵:強(qiáng)化學(xué)習(xí)不僅能優(yōu)化最終的圖像質(zhì)量,更能教會(huì)模型如何思考,是挖掘多模態(tài)模型推理潛力的關(guān)鍵鑰匙。

 

目前的TwiG中的具體實(shí)現(xiàn)與實(shí)驗(yàn)驗(yàn)證主要基于自回歸ULM(如Janus-Pro),但框架在設(shè)計(jì)上對(duì)擴(kuò)散模型同樣兼容。這種“邊生成邊思考”的范式有望擴(kuò)展到視頻生成、3D建模等更復(fù)雜的領(lǐng)域,為通往真正的通用視覺智能提供新的拼圖。

 

論文題目:Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

 

論文鏈接:https://arxiv.org/abs/2511.16671

 

項(xiàng)目主頁:https://think-while-gen.github.io

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com