明查·實(shí)驗(yàn)室:大模型能否識(shí)別AI生成圖片?
【編者按】
生成式人工智能讓人類進(jìn)入機(jī)器生成內(nèi)容與人類原創(chuàng)內(nèi)容深度交織的世界。
以Sora、Midjourney為代表的AIGC模型,展現(xiàn)了通向通用人工智能(AGI)的想象力,也讓虛假影像快速涌入公共空間,而人類識(shí)別速度遠(yuǎn)落后于造假節(jié)奏。
在此背景下,“以AI辨AI”成為可行思路。我們好奇,人工智能能否輔助核查員和讀者完成核查工作?大模型如何定義“真實(shí)”的邊界?
為解答疑問(wèn),“澎湃明查”發(fā)起挑戰(zhàn),將ChatGPT、Gemini、DeepSeek、豆包等熱門模型進(jìn)行測(cè)試。
背景
大語(yǔ)言模型的“讀圖”能力進(jìn)步顯著。
從OpenAI的GPT - 5,到xAI開發(fā)的Grok,再到國(guó)產(chǎn)模型豆包,如今的人工智能大模型能判斷圖像中的文字、場(chǎng)景和情緒,并給出接近人類水準(zhǔn)的描述。
AI似乎有了“眼睛”,但它們有人類的頭腦嗎?會(huì)被圖像欺騙嗎?能判斷圖片是否經(jīng)過(guò)編輯、識(shí)別AI生成的圖片嗎?
帶著這些問(wèn)題,我們對(duì)ChatGPT - 5、Grok - 4和豆包(Doubao)進(jìn)行測(cè)試。準(zhǔn)備了10張圖片,其中5張為AI生成圖像,5張為實(shí)際拍攝照片(含2張經(jīng)過(guò)編輯的圖片),均源自澎湃明查過(guò)往核查案例。
針對(duì)每張圖片,向大模型提三個(gè)問(wèn)題:
這張圖片是真實(shí)拍攝的,還是經(jīng)過(guò)后期編輯的?
這張圖片是由AI生成的嗎?
這張圖片是否呈現(xiàn)了網(wǎng)傳說(shuō)法中所描述的內(nèi)容?
問(wèn)題背后的目的是驗(yàn)證人工智能能否穩(wěn)定、真實(shí)地對(duì)圖片使用背景做出準(zhǔn)確判斷。以下是測(cè)試結(jié)果。
明查
是真懂,還是幻覺?
AI會(huì)說(shuō)謊,大模型功能變強(qiáng),但也更容易產(chǎn)生“幻覺”。例如,OpenAI o3在運(yùn)行PersonQA基準(zhǔn)測(cè)試時(shí),“幻覺”概率達(dá)33%,比o1高出兩倍多,o4 - mini的“幻覺”發(fā)生率達(dá)48%。
為防止人工智能是“蒙對(duì)”而非真懂圖片,我們先評(píng)價(jià)模型回答的一致性(魯棒性),采用“變著法子提問(wèn)”的方法。若模型能提供統(tǒng)一、穩(wěn)定的回答,就是“立場(chǎng)堅(jiān)定”的好模型。
3款模型中,國(guó)產(chǎn)大模型“豆包”表現(xiàn)最靠譜?;卮鹋c10張圖片相關(guān)的30個(gè)問(wèn)題時(shí),豆包回答前后一致,即便答錯(cuò)也堅(jiān)持錯(cuò)誤答案。


相對(duì)不可靠的是Grok。識(shí)別一張聲稱顯示“樺加沙臺(tái)風(fēng)前被‘五花大綁’的雕塑”的AI生成虛假圖片時(shí),Grok先查證可能是假圖,但變換提問(wèn)方式后,又給出不同說(shuō)法。

即便如此,Grok對(duì)10張圖片中8張的判斷有邏輯一致性。
ChatGpt - 5答錯(cuò)一題。一張反映“在立陶宛維爾紐斯大教堂參與彌撒、為失蹤士兵祈禱的人們”的真實(shí)照片,模型先說(shuō)圖片“經(jīng)過(guò)后期合成處理”,后又說(shuō)“看起來(lái)是真實(shí)拍攝的”。
測(cè)試后為三款大模型賦分,“豆包”因表現(xiàn)穩(wěn)定獲滿分。

魔法能打敗魔法嗎?
本輪測(cè)試的另一個(gè)目的是檢驗(yàn)大模型判斷AI生成圖片的能力。
理想情況下,希望模型準(zhǔn)確判斷AI生成圖片,不誤判非AI生成圖片。
測(cè)試發(fā)現(xiàn),對(duì)于有明顯AIGC特征的圖片,如存在畸形手指等不合理細(xì)節(jié),模型較易分辨。例如,評(píng)估“西藏地震中被壓在廢墟下的小男孩”一圖時(shí),所有模型都能準(zhǔn)確識(shí)別為AI生成。ChatGPT給出“皮膚與質(zhì)地異常”等判別理由,Grok提示左手“有畸形跡象”并提供參考照片。

對(duì)于經(jīng)Photoshop等軟件編輯的真實(shí)圖片,或AI生成后有編輯痕跡的圖片,大模型很難區(qū)分。例如,一張展示“太平洋上漂浮著的塑料垃圾”的圖片,ChatGPT和Grok都判為AI生成,實(shí)際是兩張真實(shí)照片拼合而成。

ChatGPT將這張圖片判為AI生成,而它是后期技術(shù)拼合的真實(shí)照片。
特別提到豆包,它似乎通過(guò)所有圖片考核并提供依據(jù),但依據(jù)主要來(lái)自中文網(wǎng)絡(luò)。補(bǔ)充測(cè)試中,對(duì)于未在中文網(wǎng)絡(luò)發(fā)表的AI生成圖片案例,如網(wǎng)傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應(yīng)援”的圖片,豆包無(wú)法準(zhǔn)確判斷,這可能意味著其信息檢索、整合能力強(qiáng)于讀圖、判別能力。


豆包將這張AI生成圖片判斷為真實(shí)圖片。
綜合以上線索,對(duì)3款模型的AI識(shí)別能力評(píng)價(jià)如下。

綜合能力哪家強(qiáng)?
最后對(duì)3款大模型的綜合辨圖能力打分。這不是簡(jiǎn)單加總上述評(píng)分,而是審視對(duì)3個(gè)問(wèn)題的回答,依據(jù)能否準(zhǔn)確判斷圖片真實(shí)性并提供翔實(shí)依據(jù)進(jìn)行綜合評(píng)價(jià)。

3款模型中,豆包對(duì)圖片背景和語(yǔ)境判斷較準(zhǔn)確,回答一致性好。但判別依據(jù)簡(jiǎn)短,像核查稿件概述,缺乏詳盡核查步驟和進(jìn)一步核查提示,對(duì)未成稿圖片案例判斷不準(zhǔn)確。

相較而言,Grok的專家模式會(huì)詳細(xì)呈現(xiàn)思考過(guò)程,引用真實(shí)圖片對(duì)比,利于激發(fā)用戶思考。但圖片判斷準(zhǔn)確度和幻覺度方面,現(xiàn)階段答案不可靠,只能選擇性參考。

總體上,ChatGPT圖像辨識(shí)能力突出,判斷可靠,能清晰展示推理路徑。不過(guò),它在各評(píng)價(jià)維度表現(xiàn)并非完美。對(duì)于借助AI判斷圖片真?zhèn)蔚挠脩?,理解模型“怎么想”比相信“怎么說(shuō)”更重要,模型結(jié)論僅供參考,最終判斷需人類完成。
海報(bào)設(shè)計(jì) 白浪
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

