91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

<ul id="qskgk"></ul>

讓AI像人類畫家一樣邊畫邊想，港中文&美團(tuán)讓模型「走一步看一步」

商界觀察

2025-12-23

將文本推理與視覺生成深度交織，在生成時(shí)規(guī)劃和思考，并自行修正錯(cuò)誤

在文生圖（Text-to-Image）和視頻生成領(lǐng)域，以FLUX.1、Emu3為代表的擴(kuò)散模型與自回歸模型已經(jīng)能生成極其逼真的畫面。

但當(dāng)你要求模型處理復(fù)雜的空間關(guān)系、多物體交互或精準(zhǔn)的數(shù)量控制時(shí)，它們往往會(huì)“露怯”：不是把貓畫到了窗戶外面，就是把三個(gè)蘋果畫成了四個(gè)。

為了解決這個(gè)問題，學(xué)術(shù)界此前主要有兩條路：

一條是“謀定而后動(dòng)”（Think-before-Generation），即在畫第一筆之前，先寫好詳細(xì)的布局計(jì)劃。但這就像讓畫家在動(dòng)筆前必須把每一筆都想得清清楚楚，一旦開畫就無法更改，缺乏靈活性。

另一條是“亡羊補(bǔ)牢”（Think-after-Generation），即先把圖畫完，再通過多輪對(duì)話來挑錯(cuò)、修改。這雖然有效，但往往意味著巨大的推理開銷和漫長的等待時(shí)間。

那么，有沒有一種方法，能讓模型像人類畫家一樣，在作畫的過程中停下來看一眼，既能審視剛才畫得對(duì)不對(duì)，又能為下一筆做好規(guī)劃？

近日，來自香港中文大學(xué)、美團(tuán)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的范式——Thinking-while-Generating（TwiG）。這是首個(gè)在單一生成軌跡中、以局部區(qū)域?yàn)榱６?，將文本推理與視覺生成深度交織（Interleave）的框架。

什么是Thinking-while-Generating？

如果說之前的視覺生成是“一口氣跑到底”，TwiG則更像是一種“間歇性思考”。

研究團(tuán)隊(duì)受到大語言模型（LLM）中思維鏈（Chain-of-Thought）的啟發(fā)，但他們反其道而行之：不再是用圖片輔助推理，而是用推理來引導(dǎo)作畫。

在TwiG的框架下，視覺生成不再是一個(gè)黑盒的連續(xù)過程，而是被拆解為“生成-思考-再生成”的循環(huán)。模型會(huì)在繪制過程中多次“暫停”，插入一段文本推理（Thought），用于總結(jié)當(dāng)前的視覺狀態(tài)，并指導(dǎo)接下來的生成。

為了實(shí)現(xiàn)這一目標(biāo)，研究團(tuán)隊(duì)將TwiG框架拆解為三個(gè)核心維度：

1. When to Think（何時(shí)思考）：模型首先會(huì)根據(jù)用戶的Prompt（提示詞），規(guī)劃出一個(gè)“思維時(shí)間表”。研究發(fā)現(xiàn)，將畫面生成過程拆解為3個(gè)階段效果最佳，這恰好符合圖像通常包含“上部背景、主體內(nèi)容、下部背景”的語義結(jié)構(gòu)。

2. What to Say（思考什么）：在每個(gè)暫停點(diǎn)，模型會(huì)生成一段“思維鏈”。這段文本不僅承接了上文的邏輯，更像是一個(gè)微型的路書，專門指導(dǎo)接下來的局部區(qū)域該怎么畫。這種細(xì)粒度的引導(dǎo)，比那種“一句Prompt走天下”的方式要精準(zhǔn)得多。

3. How to Refine（如何修正）：在畫完一個(gè)局部后，模型會(huì)立刻進(jìn)行自我批判（Self-Reflection）。如果發(fā)現(xiàn)畫歪了或者顏色不對(duì)，它會(huì)立刻觸發(fā)“重畫”機(jī)制，只修正當(dāng)前的局部，而不需要推倒重來。

實(shí)證研究：從Zero-Shot到SFT到RL

為了驗(yàn)證這一范式的潛力，研究團(tuán)隊(duì)在統(tǒng)一多模態(tài)模型（如Janus-Pro）上進(jìn)行了層層遞進(jìn)的實(shí)驗(yàn)。

Zero-Shot潛力驚人

僅僅通過精心設(shè)計(jì)的Prompt，而不需要任何參數(shù)更新，模型就已經(jīng)展現(xiàn)出了強(qiáng)大的“邊畫邊想”能力。

在T2I-CompBench基準(zhǔn)測(cè)試中，Zero-Shot版的TwiG（TwiG-ZS）在屬性綁定、空間關(guān)系等多個(gè)維度上顯著超越了基準(zhǔn)模型。

結(jié)果表明，在合適的interleave約束與提示下，現(xiàn)有多模態(tài)模型已具備一定的在生成過程中進(jìn)行推理的潛力。

SFT提升穩(wěn)定性

團(tuán)隊(duì)進(jìn)一步構(gòu)建了包含50K數(shù)據(jù)的高質(zhì)量數(shù)據(jù)集TwiG-50K，對(duì)模型進(jìn)行監(jiān)督微調(diào)（SFT）。結(jié)果顯示，SFT有效減少了模型“胡思亂想”產(chǎn)生的幻覺，讓生成的思維鏈更加簡(jiǎn)練、可控。

RL突破上限

團(tuán)隊(duì)采用了針對(duì)TwiG優(yōu)化的GRPO策略（Group Relative Policy Optimization），讓模型在“何時(shí)思考、思考什么、如何修正”的策略上進(jìn)行自我博弈和進(jìn)化。

實(shí)驗(yàn)數(shù)據(jù)顯示，經(jīng)過RL訓(xùn)練的TwiG-RL，在T2I-CompBench++的多個(gè)關(guān)鍵組合與空間指標(biāo)上，展現(xiàn)出與Emu3、FLUX.1等模型具有競(jìng)爭(zhēng)力、甚至在部分維度上更優(yōu)的表現(xiàn)。

TwiG的提出，不僅是一種技術(shù)上的優(yōu)化，更是一種觀念上的轉(zhuǎn)變。它試圖打破視覺生成模型的“黑盒”屬性，通過引入可讀的文本推理，讓生成過程變得透明、可控且具有邏輯性。

研究團(tuán)隊(duì)的結(jié)論可以總結(jié)為以下幾點(diǎn)：

1. 生成需要邏輯：?jiǎn)渭兊南袼馗怕暑A(yù)測(cè)難以處理復(fù)雜的邏輯約束，引入顯式的文本推理是必經(jīng)之路。

2. 修正優(yōu)于重繪：相比于畫完再改的“大動(dòng)干戈”，在生成過程中進(jìn)行局部的即時(shí)修正是更高效的策略。

3. RL是關(guān)鍵：強(qiáng)化學(xué)習(xí)不僅能優(yōu)化最終的圖像質(zhì)量，更能教會(huì)模型如何思考，是挖掘多模態(tài)模型推理潛力的關(guān)鍵鑰匙。

目前的TwiG中的具體實(shí)現(xiàn)與實(shí)驗(yàn)驗(yàn)證主要基于自回歸ULM（如Janus-Pro），但框架在設(shè)計(jì)上對(duì)擴(kuò)散模型同樣兼容。這種“邊生成邊思考”的范式有望擴(kuò)展到視頻生成、3D建模等更復(fù)雜的領(lǐng)域，為通往真正的通用視覺智能提供新的拼圖。

論文題目：Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

論文鏈接：https://arxiv.org/abs/2511.16671

項(xiàng)目主頁：https://think-while-gen.github.io

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

J人盯盤，P人隨緣 | 2025年輕人買黃金十大現(xiàn)象

押注“童年創(chuàng)傷”創(chuàng)始人：這家倫敦早期基金換來10倍回報(bào)

戶外影像的2025年：性能內(nèi)卷退潮，無感體驗(yàn)爆發(fā)，大疆影石雙雄爭(zhēng)霸

Cherry退場(chǎng)、國產(chǎn)崛起、AI入局：2025外設(shè)市場(chǎng)迎來大洗牌

多地官宣！高速免費(fèi)，終于要來了？

項(xiàng)目推薦

迪瓜租機(jī)

愛親母嬰連鎖品牌

<source id="agii2"></source>

<source id="agii2"></source>

<source id="agii2"><pre id="agii2"></pre></source>

<fieldset id="agii2"><pre id="agii2"></pre></fieldset>