WildVideo基準(zhǔn):系統(tǒng)性評測多模態(tài)模型視頻問答幻覺問題

新智元報道
【導(dǎo)讀】WildVideo基準(zhǔn)聚焦多模態(tài)模型視頻問答中的「幻覺」難題,首次系統(tǒng)劃分9類幻覺任務(wù),打造了覆蓋雙重視角、支持中英雙語的大規(guī)模優(yōu)質(zhì)視頻對話數(shù)據(jù)集,采用多輪開放問答形式,貼合真實(shí)交互場景,全方位評估模型能力。
近年來,大模型在多模態(tài)理解領(lǐng)域進(jìn)步明顯,已能處理開放世界里的圖文乃至視頻內(nèi)容。
不過,「幻覺」這一普遍且嚴(yán)重的問題始終限制著其實(shí)際應(yīng)用。
特別是在動態(tài)、連續(xù)的視覺場景中,模型可能生成與視頻內(nèi)容矛盾、違背常識或多輪對話前后不一致的回答。
當(dāng)前主流評測基準(zhǔn)多集中于單輪、單視角、選擇題型,難以真實(shí)體現(xiàn)模型在開放、連續(xù)、交互式對話場景中的能力與不足。這種評測體系的局限,阻礙了我們對模型實(shí)際應(yīng)用表現(xiàn)的理解與優(yōu)化。
為填補(bǔ)這一空白,國防科技大學(xué)與中山大學(xué)的研究團(tuán)隊推出WildVideo,這是一個面向真實(shí)世界視頻-語言交互的系統(tǒng)性多輪開放問答評測基準(zhǔn)。

論文地址:https://ieeexplore.ieee.org/document/11097075
項(xiàng)目主頁:https://chandler172857.github.io/WildVideo-leaderboard/
Github:https://github.com/yangsongyuan18/WildVideo
數(shù)據(jù)集:https://huggingface.co/datasets/yangsongyuan18/wildvideo
該研究首次從感知、認(rèn)知與上下文理解三個層面系統(tǒng)定義了9類幻覺任務(wù),構(gòu)建了包含雙重視角、支持中英雙語的大規(guī)模高質(zhì)量視頻對話數(shù)據(jù)集,采用多輪開放問答形式,貼近真實(shí)交互場景,全面評估模型能力,且已被TPAMI 2025正式接收。
WildVideo的設(shè)計思路與核心價值
貼近真實(shí)交互的評測框架WildVideo的設(shè)計完全圍繞「真實(shí)世界應(yīng)用」展開,拋棄了傳統(tǒng)的單選/判斷題形式,采用開放問答,模擬真實(shí)對話中無預(yù)設(shè)選項(xiàng)的場景。
更關(guān)鍵的是,它引入多輪對話評測(最多5輪),要求模型具備連貫的上下文理解、信息關(guān)聯(lián)與指代消解能力,這是此前視頻評測中常缺失的部分。
細(xì)粒度、多維度的幻覺分類體系研究團(tuán)隊將模型在視頻任務(wù)中可能出現(xiàn)的幻覺系統(tǒng)歸納為三大類、九小項(xiàng):
感知幻覺:涵蓋靜態(tài)(物體屬性識別)和動態(tài)(動作理解、視覺定位、跨幀一致性)兩個維度,檢驗(yàn)?zāi)P蛯σ曨l內(nèi)容的基礎(chǔ)理解是否準(zhǔn)確、穩(wěn)定。
認(rèn)知幻覺:分為常識認(rèn)知(因果關(guān)系、跨模態(tài)指代)和世界知識認(rèn)知,要求模型不僅能「看到」,還要基于常識和外部知識進(jìn)行合理推斷。
上下文理解幻覺:專為多輪對話設(shè)計,包括上下文省略(理解對話中的省略信息)和跨輪檢索(關(guān)聯(lián)歷史對話中的關(guān)鍵信息),直接評估模型在連續(xù)對話中的核心能力。

豐富、高質(zhì)量的數(shù)據(jù)集
基準(zhǔn)包含1318段視頻,既有來自Charades-EGO數(shù)據(jù)集的874段記錄日常人類活動的第一人稱與第三人稱配對視頻,模擬不同人類觀察視角;還引入444段涵蓋全球事件與文化現(xiàn)象的YouTube視頻,豐富世界知識背景。
數(shù)據(jù)集最終有13704個單輪問答對與1585個多輪對話。數(shù)據(jù)構(gòu)建融合了強(qiáng)大LLM的生成能力與多國PhD級別專家的多次人工審核與增強(qiáng),保證了問題的挑戰(zhàn)性、答案的精確性與對話的自然流暢性。


主要實(shí)驗(yàn)結(jié)果與深度分析
研究團(tuán)隊在WildVideo上對14個主流開源與商業(yè)模型(如GPT-4o、Claude-3.5-Sonnet、Gemini系列、LLaVA-Video、InternVL等)進(jìn)行全面評估,得出若干關(guān)鍵發(fā)現(xiàn):
整體表現(xiàn)凸顯巨大挑戰(zhàn)即便是當(dāng)前最先進(jìn)的模型,在WildVideo上也面臨嚴(yán)峻挑戰(zhàn)。
單輪任務(wù)中,表現(xiàn)最好的GPT-4o準(zhǔn)確率僅為62.1%;擴(kuò)展至多輪對話時,準(zhǔn)確率進(jìn)一步降至52.7%。這清楚表明,處理多輪交互的復(fù)雜度遠(yuǎn)高于單輪問答,現(xiàn)有模型能力存在明顯短板。

能力結(jié)構(gòu)不均衡
感知層面:模型在靜態(tài)「物體」識別任務(wù)上表現(xiàn)最佳,在需要理解時序的「動作」識別和「視覺定位」任務(wù)上表現(xiàn)大幅下降,暴露了對動態(tài)信息處理的不足。
認(rèn)知層面:涉及常識推理和跨模態(tài)指代的任務(wù)是所有模型的普遍難點(diǎn),最低得分僅11.0%,說明模型在結(jié)合視覺與常識進(jìn)行深層推理方面還有很長的路要走。
上下文層面:多輪特有的「上下文理解」任務(wù)(省略與檢索)表現(xiàn)最不理想,最佳得分未超過51.4%,凸顯了當(dāng)前模型在維持長對話一致性、有效利用歷史信息方面的瓶頸。

視角偏好與語言差異
視角偏好:幾乎所有模型在第三人稱(外視角)視頻上的表現(xiàn)都系統(tǒng)性優(yōu)于第一人稱(自我視角)視頻。研究者分析,這可能是因?yàn)榈谝蝗朔Q視頻有更多運(yùn)動模糊、視角突變和遮擋,對模型動態(tài)感知要求更高。

中英雙語評測:WildVideo提供完整的中文版評測集。實(shí)驗(yàn)顯示,模型在中文任務(wù)上的表現(xiàn)普遍低于英文,最佳模型GPT-4o在中文多輪任務(wù)中也僅得54.0%,這為中文多模態(tài)模型優(yōu)化提供了明確的診斷工具。
輕量版與性能版模型的平衡對比GPT-4o/GPT-4o mini和Gemini 1.5 Pro/Gemini 1.5 Flash發(fā)現(xiàn),性能更強(qiáng)的版本在絕大多數(shù)任務(wù)上領(lǐng)先。
但有趣的是,輕量級的Gemini 1.5 Flash在多輪上下文理解任務(wù)中反超了其性能版,提示模型設(shè)計在效率與長上下文處理能力間可能有不同的優(yōu)化路徑。

意義與未來方向
WildVideo的發(fā)布,不僅為社區(qū)提供了新的、更嚴(yán)格的評測「標(biāo)尺」,還為多模態(tài)大模型研究指明了重要演進(jìn)方向:
推動評測范式升級:它促使視頻理解評測從「靜態(tài)快照問答」轉(zhuǎn)向「動態(tài)連續(xù)對話」,從「客觀選擇」轉(zhuǎn)向「開放生成」,更貼近最終應(yīng)用。
精細(xì)化診斷模型缺陷:其細(xì)分的幻覺分類體系能幫助研究者精準(zhǔn)定位模型失效的具體環(huán)節(jié)(是看不準(zhǔn)、想不對,還是記不住),從而進(jìn)行針對性改進(jìn)。
促進(jìn)多輪對話技術(shù)發(fā)展:基準(zhǔn)明確揭示了當(dāng)前模型在多輪交互中的脆弱性,將激勵學(xué)術(shù)界和產(chǎn)業(yè)界在對話狀態(tài)管理、長期記憶機(jī)制、指代消解等關(guān)鍵技術(shù)上投入更多。
支持跨語言與跨文化優(yōu)化:中英雙語并行設(shè)計,為開發(fā)更具全球適用性的多模態(tài)模型提供了重要評估基礎(chǔ)。
WildVideo就像一個功能全面的「體檢中心」,它告訴我們,當(dāng)前看似強(qiáng)大的多模態(tài)模型,在走向真正實(shí)用的視頻對話智能之路上,仍需在動態(tài)感知、深層推理和連貫交互等多個關(guān)鍵能力上實(shí)現(xiàn)突破。
這項(xiàng)工作已開源相關(guān)基準(zhǔn)數(shù)據(jù),期待它能持續(xù)推動視頻語言交互領(lǐng)域向更可靠、更智能的方向發(fā)展。
參考資料:https://ieeexplore.ieee.org/document/11097075
本文來自微信公眾號“新智元”,編輯:LRST,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



