91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

<li id="jfofu"><tbody id="jfofu"><bdo id="jfofu"></bdo></tbody></li>

<label id="jfofu"></label>

<button id="jfofu"><output id="jfofu"></output></button>

<center id="jfofu"></center>

<li id="jfofu"><tbody id="jfofu"></tbody></li>

<label id="dwmm4"></label>

<li id="dwmm4"></li>

WildVideo基準(zhǔn)：系統(tǒng)性評測多模態(tài)模型視頻問答幻覺問題

4天前

新智元報道

【導(dǎo)讀】WildVideo基準(zhǔn)聚焦多模態(tài)模型視頻問答中的「幻覺」難題，首次系統(tǒng)劃分9類幻覺任務(wù)，打造了覆蓋雙重視角、支持中英雙語的大規(guī)模優(yōu)質(zhì)視頻對話數(shù)據(jù)集，采用多輪開放問答形式，貼合真實(shí)交互場景，全方位評估模型能力。

近年來，大模型在多模態(tài)理解領(lǐng)域進(jìn)步明顯，已能處理開放世界里的圖文乃至視頻內(nèi)容。

不過，「幻覺」這一普遍且嚴(yán)重的問題始終限制著其實(shí)際應(yīng)用。

特別是在動態(tài)、連續(xù)的視覺場景中，模型可能生成與視頻內(nèi)容矛盾、違背常識或多輪對話前后不一致的回答。

當(dāng)前主流評測基準(zhǔn)多集中于單輪、單視角、選擇題型，難以真實(shí)體現(xiàn)模型在開放、連續(xù)、交互式對話場景中的能力與不足。這種評測體系的局限，阻礙了我們對模型實(shí)際應(yīng)用表現(xiàn)的理解與優(yōu)化。

為填補(bǔ)這一空白，國防科技大學(xué)與中山大學(xué)的研究團(tuán)隊推出WildVideo，這是一個面向真實(shí)世界視頻-語言交互的系統(tǒng)性多輪開放問答評測基準(zhǔn)。

論文地址：https://ieeexplore.ieee.org/document/11097075

項(xiàng)目主頁：https://chandler172857.github.io/WildVideo-leaderboard/

Github：https://github.com/yangsongyuan18/WildVideo

數(shù)據(jù)集：https://huggingface.co/datasets/yangsongyuan18/wildvideo

該研究首次從感知、認(rèn)知與上下文理解三個層面系統(tǒng)定義了9類幻覺任務(wù)，構(gòu)建了包含雙重視角、支持中英雙語的大規(guī)模高質(zhì)量視頻對話數(shù)據(jù)集，采用多輪開放問答形式，貼近真實(shí)交互場景，全面評估模型能力，且已被TPAMI 2025正式接收。

WildVideo的設(shè)計思路與核心價值

貼近真實(shí)交互的評測框架WildVideo的設(shè)計完全圍繞「真實(shí)世界應(yīng)用」展開，拋棄了傳統(tǒng)的單選/判斷題形式，采用開放問答，模擬真實(shí)對話中無預(yù)設(shè)選項(xiàng)的場景。

更關(guān)鍵的是，它引入多輪對話評測（最多5輪），要求模型具備連貫的上下文理解、信息關(guān)聯(lián)與指代消解能力，這是此前視頻評測中常缺失的部分。

細(xì)粒度、多維度的幻覺分類體系研究團(tuán)隊將模型在視頻任務(wù)中可能出現(xiàn)的幻覺系統(tǒng)歸納為三大類、九小項(xiàng)：

感知幻覺：涵蓋靜態(tài)（物體屬性識別）和動態(tài)（動作理解、視覺定位、跨幀一致性）兩個維度，檢驗(yàn)?zāi)Ｐ蛯σ曨l內(nèi)容的基礎(chǔ)理解是否準(zhǔn)確、穩(wěn)定。

認(rèn)知幻覺：分為常識認(rèn)知（因果關(guān)系、跨模態(tài)指代）和世界知識認(rèn)知，要求模型不僅能「看到」，還要基于常識和外部知識進(jìn)行合理推斷。

上下文理解幻覺：專為多輪對話設(shè)計，包括上下文省略（理解對話中的省略信息）和跨輪檢索（關(guān)聯(lián)歷史對話中的關(guān)鍵信息），直接評估模型在連續(xù)對話中的核心能力。

豐富、高質(zhì)量的數(shù)據(jù)集

基準(zhǔn)包含1318段視頻，既有來自Charades-EGO數(shù)據(jù)集的874段記錄日常人類活動的第一人稱與第三人稱配對視頻，模擬不同人類觀察視角；還引入444段涵蓋全球事件與文化現(xiàn)象的YouTube視頻，豐富世界知識背景。

數(shù)據(jù)集最終有13704個單輪問答對與1585個多輪對話。數(shù)據(jù)構(gòu)建融合了強(qiáng)大LLM的生成能力與多國PhD級別專家的多次人工審核與增強(qiáng)，保證了問題的挑戰(zhàn)性、答案的精確性與對話的自然流暢性。

主要實(shí)驗(yàn)結(jié)果與深度分析

研究團(tuán)隊在WildVideo上對14個主流開源與商業(yè)模型（如GPT-4o、Claude-3.5-Sonnet、Gemini系列、LLaVA-Video、InternVL等）進(jìn)行全面評估，得出若干關(guān)鍵發(fā)現(xiàn)：

整體表現(xiàn)凸顯巨大挑戰(zhàn)即便是當(dāng)前最先進(jìn)的模型，在WildVideo上也面臨嚴(yán)峻挑戰(zhàn)。

單輪任務(wù)中，表現(xiàn)最好的GPT-4o準(zhǔn)確率僅為62.1%；擴(kuò)展至多輪對話時，準(zhǔn)確率進(jìn)一步降至52.7%。這清楚表明，處理多輪交互的復(fù)雜度遠(yuǎn)高于單輪問答，現(xiàn)有模型能力存在明顯短板。

能力結(jié)構(gòu)不均衡

感知層面：模型在靜態(tài)「物體」識別任務(wù)上表現(xiàn)最佳，在需要理解時序的「動作」識別和「視覺定位」任務(wù)上表現(xiàn)大幅下降，暴露了對動態(tài)信息處理的不足。

認(rèn)知層面：涉及常識推理和跨模態(tài)指代的任務(wù)是所有模型的普遍難點(diǎn)，最低得分僅11.0%，說明模型在結(jié)合視覺與常識進(jìn)行深層推理方面還有很長的路要走。

上下文層面：多輪特有的「上下文理解」任務(wù)（省略與檢索）表現(xiàn)最不理想，最佳得分未超過51.4%，凸顯了當(dāng)前模型在維持長對話一致性、有效利用歷史信息方面的瓶頸。

視角偏好與語言差異

視角偏好：幾乎所有模型在第三人稱（外視角）視頻上的表現(xiàn)都系統(tǒng)性優(yōu)于第一人稱（自我視角）視頻。研究者分析，這可能是因?yàn)榈谝蝗朔Q視頻有更多運(yùn)動模糊、視角突變和遮擋，對模型動態(tài)感知要求更高。

中英雙語評測：WildVideo提供完整的中文版評測集。實(shí)驗(yàn)顯示，模型在中文任務(wù)上的表現(xiàn)普遍低于英文，最佳模型GPT-4o在中文多輪任務(wù)中也僅得54.0%，這為中文多模態(tài)模型優(yōu)化提供了明確的診斷工具。

輕量版與性能版模型的平衡對比GPT-4o/GPT-4o mini和Gemini 1.5 Pro/Gemini 1.5 Flash發(fā)現(xiàn)，性能更強(qiáng)的版本在絕大多數(shù)任務(wù)上領(lǐng)先。

但有趣的是，輕量級的Gemini 1.5 Flash在多輪上下文理解任務(wù)中反超了其性能版，提示模型設(shè)計在效率與長上下文處理能力間可能有不同的優(yōu)化路徑。

意義與未來方向

WildVideo的發(fā)布，不僅為社區(qū)提供了新的、更嚴(yán)格的評測「標(biāo)尺」，還為多模態(tài)大模型研究指明了重要演進(jìn)方向：

推動評測范式升級：它促使視頻理解評測從「靜態(tài)快照問答」轉(zhuǎn)向「動態(tài)連續(xù)對話」，從「客觀選擇」轉(zhuǎn)向「開放生成」，更貼近最終應(yīng)用。

精細(xì)化診斷模型缺陷：其細(xì)分的幻覺分類體系能幫助研究者精準(zhǔn)定位模型失效的具體環(huán)節(jié)（是看不準(zhǔn)、想不對，還是記不住），從而進(jìn)行針對性改進(jìn)。

促進(jìn)多輪對話技術(shù)發(fā)展：基準(zhǔn)明確揭示了當(dāng)前模型在多輪交互中的脆弱性，將激勵學(xué)術(shù)界和產(chǎn)業(yè)界在對話狀態(tài)管理、長期記憶機(jī)制、指代消解等關(guān)鍵技術(shù)上投入更多。

支持跨語言與跨文化優(yōu)化：中英雙語并行設(shè)計，為開發(fā)更具全球適用性的多模態(tài)模型提供了重要評估基礎(chǔ)。

WildVideo就像一個功能全面的「體檢中心」，它告訴我們，當(dāng)前看似強(qiáng)大的多模態(tài)模型，在走向真正實(shí)用的視頻對話智能之路上，仍需在動態(tài)感知、深層推理和連貫交互等多個關(guān)鍵能力上實(shí)現(xiàn)突破。

這項(xiàng)工作已開源相關(guān)基準(zhǔn)數(shù)據(jù)，期待它能持續(xù)推動視頻語言交互領(lǐng)域向更可靠、更智能的方向發(fā)展。

參考資料：https://ieeexplore.ieee.org/document/11097075

本文來自微信公眾號“新智元”，編輯：LRST，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

圣誕不休戰(zhàn)：OpenAI推限定版Codex掀AI編程三巨頭節(jié)日競逐

成年人如何重拾學(xué)習(xí)的熱情？

滬指放量實(shí)現(xiàn)八連陽市場沖高回落中商業(yè)航天概念持續(xù)走強(qiáng)

AI助力快遞包裝優(yōu)化升級，菜鳥綠色供應(yīng)鏈方案持續(xù)賦能

多地緊急加推汽車補(bǔ)貼十億預(yù)算力撐年末車市收官

項(xiàng)目推薦

<label id="pr3nw"><legend id="pr3nw"></legend></label>

<listing id="pr3nw"><pre id="pr3nw"></pre></listing>