91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

明查·實(shí)驗(yàn)室：大模型能否識(shí)別AI生成圖片？

2025-11-21

【編者按】

生成式人工智能讓人類進(jìn)入機(jī)器生成內(nèi)容與人類原創(chuàng)內(nèi)容深度交織的世界。

以Sora、Midjourney為代表的AIGC模型，展現(xiàn)了通向通用人工智能（AGI）的想象力，也讓虛假影像快速涌入公共空間，而人類識(shí)別速度遠(yuǎn)落后于造假節(jié)奏。

在此背景下，“以AI辨AI”成為可行思路。我們好奇，人工智能能否輔助核查員和讀者完成核查工作？大模型如何定義“真實(shí)”的邊界？

為解答疑問(wèn)，“澎湃明查”發(fā)起挑戰(zhàn)，將ChatGPT、Gemini、DeepSeek、豆包等熱門模型進(jìn)行測(cè)試。

背景

大語(yǔ)言模型的“讀圖”能力進(jìn)步顯著。

從OpenAI的GPT - 5，到xAI開發(fā)的Grok，再到國(guó)產(chǎn)模型豆包，如今的人工智能大模型能判斷圖像中的文字、場(chǎng)景和情緒，并給出接近人類水準(zhǔn)的描述。

AI似乎有了“眼睛”，但它們有人類的頭腦嗎？會(huì)被圖像欺騙嗎？能判斷圖片是否經(jīng)過(guò)編輯、識(shí)別AI生成的圖片嗎？

帶著這些問(wèn)題，我們對(duì)ChatGPT - 5、Grok - 4和豆包（Doubao）進(jìn)行測(cè)試。準(zhǔn)備了10張圖片，其中5張為AI生成圖像，5張為實(shí)際拍攝照片（含2張經(jīng)過(guò)編輯的圖片），均源自澎湃明查過(guò)往核查案例。

針對(duì)每張圖片，向大模型提三個(gè)問(wèn)題：

這張圖片是真實(shí)拍攝的，還是經(jīng)過(guò)后期編輯的？

這張圖片是由AI生成的嗎？

這張圖片是否呈現(xiàn)了網(wǎng)傳說(shuō)法中所描述的內(nèi)容？

問(wèn)題背后的目的是驗(yàn)證人工智能能否穩(wěn)定、真實(shí)地對(duì)圖片使用背景做出準(zhǔn)確判斷。以下是測(cè)試結(jié)果。

明查

是真懂，還是幻覺？

AI會(huì)說(shuō)謊，大模型功能變強(qiáng)，但也更容易產(chǎn)生“幻覺”。例如，OpenAI o3在運(yùn)行PersonQA基準(zhǔn)測(cè)試時(shí)，“幻覺”概率達(dá)33%，比o1高出兩倍多，o4 - mini的“幻覺”發(fā)生率達(dá)48%。

為防止人工智能是“蒙對(duì)”而非真懂圖片，我們先評(píng)價(jià)模型回答的一致性（魯棒性），采用“變著法子提問(wèn)”的方法。若模型能提供統(tǒng)一、穩(wěn)定的回答，就是“立場(chǎng)堅(jiān)定”的好模型。

3款模型中，國(guó)產(chǎn)大模型“豆包”表現(xiàn)最靠譜?；卮鹋c10張圖片相關(guān)的30個(gè)問(wèn)題時(shí)，豆包回答前后一致，即便答錯(cuò)也堅(jiān)持錯(cuò)誤答案。

相對(duì)不可靠的是Grok。識(shí)別一張聲稱顯示“樺加沙臺(tái)風(fēng)前被‘五花大綁’的雕塑”的AI生成虛假圖片時(shí)，Grok先查證可能是假圖，但變換提問(wèn)方式后，又給出不同說(shuō)法。

即便如此，Grok對(duì)10張圖片中8張的判斷有邏輯一致性。

ChatGpt - 5答錯(cuò)一題。一張反映“在立陶宛維爾紐斯大教堂參與彌撒、為失蹤士兵祈禱的人們”的真實(shí)照片，模型先說(shuō)圖片“經(jīng)過(guò)后期合成處理”，后又說(shuō)“看起來(lái)是真實(shí)拍攝的”。

測(cè)試后為三款大模型賦分，“豆包”因表現(xiàn)穩(wěn)定獲滿分。

魔法能打敗魔法嗎？

本輪測(cè)試的另一個(gè)目的是檢驗(yàn)大模型判斷AI生成圖片的能力。

理想情況下，希望模型準(zhǔn)確判斷AI生成圖片，不誤判非AI生成圖片。

測(cè)試發(fā)現(xiàn)，對(duì)于有明顯AIGC特征的圖片，如存在畸形手指等不合理細(xì)節(jié)，模型較易分辨。例如，評(píng)估“西藏地震中被壓在廢墟下的小男孩”一圖時(shí)，所有模型都能準(zhǔn)確識(shí)別為AI生成。ChatGPT給出“皮膚與質(zhì)地異常”等判別理由，Grok提示左手“有畸形跡象”并提供參考照片。

對(duì)于經(jīng)Photoshop等軟件編輯的真實(shí)圖片，或AI生成后有編輯痕跡的圖片，大模型很難區(qū)分。例如，一張展示“太平洋上漂浮著的塑料垃圾”的圖片，ChatGPT和Grok都判為AI生成，實(shí)際是兩張真實(shí)照片拼合而成。

ChatGPT將這張圖片判為AI生成，而它是后期技術(shù)拼合的真實(shí)照片。

特別提到豆包，它似乎通過(guò)所有圖片考核并提供依據(jù)，但依據(jù)主要來(lái)自中文網(wǎng)絡(luò)。補(bǔ)充測(cè)試中，對(duì)于未在中文網(wǎng)絡(luò)發(fā)表的AI生成圖片案例，如網(wǎng)傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應(yīng)援”的圖片，豆包無(wú)法準(zhǔn)確判斷，這可能意味著其信息檢索、整合能力強(qiáng)于讀圖、判別能力。

豆包將這張AI生成圖片判斷為真實(shí)圖片。

綜合以上線索，對(duì)3款模型的AI識(shí)別能力評(píng)價(jià)如下。

綜合能力哪家強(qiáng)？

最后對(duì)3款大模型的綜合辨圖能力打分。這不是簡(jiǎn)單加總上述評(píng)分，而是審視對(duì)3個(gè)問(wèn)題的回答，依據(jù)能否準(zhǔn)確判斷圖片真實(shí)性并提供翔實(shí)依據(jù)進(jìn)行綜合評(píng)價(jià)。

3款模型中，豆包對(duì)圖片背景和語(yǔ)境判斷較準(zhǔn)確，回答一致性好。但判別依據(jù)簡(jiǎn)短，像核查稿件概述，缺乏詳盡核查步驟和進(jìn)一步核查提示，對(duì)未成稿圖片案例判斷不準(zhǔn)確。

相較而言，Grok的專家模式會(huì)詳細(xì)呈現(xiàn)思考過(guò)程，引用真實(shí)圖片對(duì)比，利于激發(fā)用戶思考。但圖片判斷準(zhǔn)確度和幻覺度方面，現(xiàn)階段答案不可靠，只能選擇性參考。

總體上，ChatGPT圖像辨識(shí)能力突出，判斷可靠，能清晰展示推理路徑。不過(guò)，它在各評(píng)價(jià)維度表現(xiàn)并非完美。對(duì)于借助AI判斷圖片真?zhèn)蔚挠脩?，理解模型“怎么想”比相信“怎么說(shuō)”更重要，模型結(jié)論僅供參考，最終判斷需人類完成。

海報(bào)設(shè)計(jì) 白浪

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

金雞報(bào)曉：園區(qū)公共算力服務(wù)平臺(tái)榮獲國(guó)家級(jí)殊榮！

換季穿厚衣，一家三口確診過(guò)敏性鼻咽炎！

廚房一處如利刃，伸手進(jìn)去很危險(xiǎn)！

注意！這些食品不要買、不要吃！

拼多多富的可怕！茅臺(tái)都得叫大哥；雷軍豪氣發(fā)錢！人均34萬(wàn)丨老板早知道

項(xiàng)目推薦

迪瓜租機(jī)

愛親母嬰連鎖品牌