國產(chǎn)圖像大模型再添開源新作,LongCat-Image實測連續(xù)編輯表現(xiàn)亮眼,中文渲染仍有提升空間

智東西12月8日消息,今日,美團正式推出并開源了圖像生成模型LongCat-Image。這是一款參數(shù)規(guī)模為6B的模型,在圖像編輯能力上達到了開源領(lǐng)域的頂尖水準,主要聚焦于文生圖和單圖編輯這兩大核心應(yīng)用場景。

根據(jù)官方公布的基準測試結(jié)果,LongCat-Image主要與Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流的開源和閉源生圖模型進行了對標,其核心優(yōu)化方向集中在“編輯可控性”和“中文文字渲染”這兩項關(guān)鍵能力上。
在實際使用體驗中,該模型在連續(xù)修改圖片、風格變換以及材質(zhì)細節(jié)呈現(xiàn)方面表現(xiàn)出色,但在面對復(fù)雜排版場景時,中文文字渲染依然存在不穩(wěn)定的情況。在處理復(fù)雜UI設(shè)計、游戲界面生成等任務(wù)時,模型的審美也暴露出一定的不足,這可能與其不具備聯(lián)網(wǎng)搜索功能有關(guān)。
在體驗入口方面,美團也同步提供了多種使用途徑。在移動端,LongCat APP已經(jīng)支持文生圖和圖生圖功能;在網(wǎng)頁端,用戶可以通過https://longcat.ai/進入圖片生成入口進行體驗。
對于開發(fā)者來說,LongCat-Image的模型權(quán)重和代碼也已同步開源:
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image
GitHub: https://github.com/meituan-longcat/LongCat-Image
接下來,我們將詳細了解LongCat-Image的模型結(jié)構(gòu)、評測成績以及具體的實測表現(xiàn)。
01.從模型結(jié)構(gòu)到評測成績,LongCat-Image以“編輯可控性”和“中文渲染”為核心發(fā)展方向
從模型設(shè)計角度來看,LongCat-Image采用了文生圖與圖像編輯同源的統(tǒng)一架構(gòu),并借助漸進式學(xué)習策略,在僅6B的參數(shù)規(guī)模下,實現(xiàn)了指令遵循精準度、生圖質(zhì)量與文字渲染三項能力的協(xié)同提升。

▲模型架構(gòu)
這套訓(xùn)練方案并非從零開始盲目增加參數(shù),而是基于文生圖中期訓(xùn)練模型進行初始化,并在后續(xù)階段采用文生圖與指令編輯的多任務(wù)聯(lián)合學(xué)習機制,以此避免編輯能力在后續(xù)訓(xùn)練階段被削弱的問題。
在圖像編輯能力方面,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多個編輯類基準測試中取得了開源領(lǐng)域的頂尖成績。

▲客觀基準測試性能對比
LongCat-Image通過引入多源數(shù)據(jù)預(yù)訓(xùn)練、指令改寫策略以及人工精心標注的SFT數(shù)據(jù),使得模型在應(yīng)對復(fù)雜編輯要求時,更不容易出現(xiàn)風格偏移和結(jié)構(gòu)失真的情況。
針對中文文字渲染這一長期存在的難題,LongCat-Image采用了覆蓋8105個規(guī)范漢字的合成字形數(shù)據(jù)進行預(yù)訓(xùn)練,并在SFT階段引入真實世界的文本圖片來強化排版和字體泛化能力,在RL階段還引入了OCR與美學(xué)雙獎勵模型共同進行約束,最終在ChineseWord評測中獲得了90.7分的成績,領(lǐng)先于現(xiàn)有的開源模型。
在真實感方面,LongCat-Image通過對抗訓(xùn)練和嚴格的數(shù)據(jù)篩選機制,刻意避開AIGC常見的“塑料感”紋理問題,并在RL階段引入AIGC檢測器作為獎勵信號,反向引導(dǎo)模型學(xué)習真實世界的物理紋理和光影變化。
綜合評測結(jié)果顯示,在人類主觀評分(MOS)維度上,LongCat-Image在文本對齊、視覺真實度與美學(xué)質(zhì)量等多個子項上的表現(xiàn)已經(jīng)接近Seedream4.0等商業(yè)模型的水平。

▲人類主觀評分(MOS)對比

▲并列對比評估勝率(SBS)
在圖像編輯任務(wù)的并列對比評估(SBS)中,LongCat-Image-Edit在綜合質(zhì)量與一致性這兩項關(guān)鍵指標上,相對于NanoBanana和Qwen-Image-Edit等模型都取得了較高的勝率。
整體而言,LongCat-Image在圖像編輯任務(wù)上已經(jīng)接近部分閉源模型的水平,在文生圖基礎(chǔ)能力上也處于開源領(lǐng)域的頭部陣營。
02.從漫畫重繪到玩偶產(chǎn)品渲染,連續(xù)編輯表現(xiàn)穩(wěn)定,中文渲染仍是待優(yōu)化之處
從實際體驗過程來看,LongCat-Image在“連續(xù)指令可編輯性”方面的表現(xiàn)較為穩(wěn)定。我們直接使用近期熱門的《瘋狂動物城2》相關(guān)圖片進行測試,在同一角色的基礎(chǔ)上連續(xù)執(zhí)行多輪修改指令。

▲參考圖
指令:修改為像素風格作品。

指令:重繪為彩色,保留像素質(zhì)感。

指令:圖片角色重繪為模仿樂高積木主題的動物。

在漫畫圖像測試中,通過像素風、彩色像素重繪以及模仿樂高積木動物主題的連續(xù)重繪指令,模型能夠保持角色結(jié)構(gòu)穩(wěn)定,同時完成風格與材質(zhì)的多輪遷移。在多次修改過程中,人物輪廓和構(gòu)圖基本沒有出現(xiàn)明顯錯誤。
在此基礎(chǔ)上,我們進一步嘗試了電影海報的制作場景,使用同一角色圖進行主視覺海報生成與多語言標題渲染測試。
指令:電影《瘋狂動物城2》的宣傳海報,海報的主畫面是電影主角的精彩場面,主標題用藝術(shù)手寫字體“瘋狂動物城2”,下面附上英文名“Zootopia”,另外附上電影海報需要的其他小字,文字清晰可辨認。

在電影海報場景中,模型對參考圖的繼承能力較為穩(wěn)定,無論是角色形象還是動態(tài)姿勢,都能與原始圖片保持較高的一致度,中英文標題的主標題表現(xiàn)也較為清晰。不過在“小字”區(qū)域,一系列細節(jié)文字仍然存在亂碼與英文混雜的問題,這表明中文文字渲染在復(fù)雜排版場景下依然存在不穩(wěn)定性。
進一步測試人物檔案式中文海報時,模型可以正確渲染部分核心字段信息,但仍不可避免地出現(xiàn)中英文錯位與局部亂碼的情況。
指令:生成動畫電影角色的人物檔案式宣傳海報,用文字體現(xiàn)以下信息: 尼克?王爾德(Nick Wilde),是一只在迪士尼動畫電影《瘋狂動物城》中出場的狐貍。 中文名:尼克狐尼克。 外文名:Nick Wilde。 原型:赤狐。 職業(yè):從騙子到警察。 搭檔:兔子警官朱迪。 經(jīng)典臺詞:“傷了你的小心臟?”

在產(chǎn)品級渲染測試中,朱迪警官玩偶在影棚光、臺燈暖光、自然光客廳與床品光照等多個現(xiàn)實場景下的質(zhì)感表現(xiàn)相對穩(wěn)定。短絨毛的細節(jié)、眼睛的高光反射、沙發(fā)布料與玩偶絨毛之間的材質(zhì)對比都能夠被較為準確地呈現(xiàn)出來,整體效果更接近商業(yè)產(chǎn)品渲染水平。

相比之下,在主流模型較為擅長的游戲界面生成場景中,LongCat-Image的短板更為明顯。無論是卡牌游戲、射擊游戲,還是MOBA類第一視角界面,整體風格都偏向十多年前的UI設(shè)計審美,與當下主流游戲產(chǎn)品存在明顯的代差。
指令:生成一個卡牌游戲界面。

指令:生成一個射擊游戲界面。

指令:生成一個英雄聯(lián)盟的游戲界面。

指令:生成一個王者榮耀第一視角的游戲界面。

從本次測試結(jié)果來看,LongCat-Image在改圖與產(chǎn)品渲染類任務(wù)中的可用性更高,而在游戲界面與復(fù)雜排版場景中的表現(xiàn)相對一般。
03.結(jié)語:開源圖像模型開啟“可控編輯”競爭,AI生圖領(lǐng)域競爭愈發(fā)激烈
從LongCat-Image的整體定位來看,美團并沒有試圖通過更大的參數(shù)規(guī)模去直接挑戰(zhàn)旗艦級生圖模型,而是明確選擇在可控性、連續(xù)編輯和中文渲染這幾個方向上進行深入挖掘。
圖像模型的競爭焦點,正在迅速向“能否真正融入設(shè)計、產(chǎn)品、品牌等具體生產(chǎn)流程”的實用能力集中。
本文來自微信公眾號 “智東西”(ID:zhidxcom),作者:江 宇,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




