VIDI2模型:開啟從文字搜索到視頻智能檢索的信息獲取革命
作為一名計(jì)算機(jī)專業(yè)的博士生,同時還在自己創(chuàng)立的科技公司擔(dān)任產(chǎn)品經(jīng)理,我近來對技術(shù)論文產(chǎn)生了濃厚的閱讀興趣。
這是因?yàn)檎撐闹胁粌H蘊(yùn)含著前沿技術(shù),更重要的是那些領(lǐng)先的算法與系統(tǒng)框架,能快速集成到現(xiàn)有系統(tǒng)中,高效解決用戶問題,提升用戶體驗(yàn),進(jìn)而完成商業(yè)化閉環(huán)。
上周,字節(jié)跳動更新了旗下最新模型VIDI2,它具備快速解讀視頻的能力——無需人工觀看,就能對視頻每一幀畫面進(jìn)行分析解讀,并輸出對應(yīng)的結(jié)果數(shù)據(jù)。
核心主角:VIDI2模型

作為產(chǎn)品經(jīng)理,我始終密切關(guān)注具有革命性的技術(shù),尤其是在博士階段,期待這些研究方案能成為工程化產(chǎn)品的技術(shù)壁壘。
革命性技術(shù):重塑人類信息獲取模式
如今,微信公眾號轉(zhuǎn)圖片消息或生成視頻已是主流內(nèi)容創(chuàng)作形式,而VIDI2能將視頻反向轉(zhuǎn)化為文本,這極大提升了內(nèi)容信息流的生產(chǎn)效率,讓人類的信息檢索能力實(shí)現(xiàn)翻倍。
過去人們常說“行萬里路”,現(xiàn)在信息獲取與檢索能力則決定著每個人的世界觀。
對于新媒體創(chuàng)作者和自媒體人而言,VIDI2堪稱一場革命。
就像我現(xiàn)在主要通過視頻獲取信息——短視頻與長視頻已成為信息傳播主流,閱讀文字的人越來越少。人類天性更傾向于快速、高頻的“懶人模式”來消費(fèi)信息。
關(guān)鍵功能:視頻關(guān)鍵詞精準(zhǔn)搜索
借助VIDI2,可打造多種新媒體工具,甚至應(yīng)用于教學(xué)視頻分析或機(jī)器人學(xué)習(xí)匹配。它能將視頻中的故事線與步驟轉(zhuǎn)化為文字,再結(jié)合大模型對視頻動作進(jìn)行比對記憶,加速模型收斂進(jìn)程。

以官方演示視頻為例,搜索“龍”的畫面,系統(tǒng)能精準(zhǔn)羅列對應(yīng)幀數(shù);輸入“手”,也能快速定位含手的視頻片段。
效率升級:從文字搜索邁向視頻內(nèi)容檢索
有了VIDI2的底層技術(shù)支撐,視頻搜索將不再依賴標(biāo)題——“標(biāo)題黨”會失去生存空間,那些封面與內(nèi)容不符的視頻也將徹底失效。
未來,視頻內(nèi)容本身將成為核心檢索依據(jù),視頻中的文字信息也能被解析。想象一下,面對互聯(lián)網(wǎng)上海量視頻內(nèi)容,無需逐幀觀看,尤其是監(jiān)控視頻,借助該技術(shù)可快速定位所需片段,大幅節(jié)省時間。
拓展能力:支持視頻元素編輯
VIDI2不僅能搜索視頻,還支持視頻元素編輯。用戶可對搜索到的對象進(jìn)行替換,改變視頻畫面呈現(xiàn)效果。
這讓人聯(lián)想到范迪塞爾主演的電影《喋血戰(zhàn)士》——片中科技公司通過視頻編輯技術(shù)篡改主角記憶中的物體、人物甚至對話,將其變成殺人機(jī)器。

上圖是電影中的記憶編輯畫面,記憶類似于空間智能。盡管目前VIDI2僅支持平面視頻處理,尚未覆蓋空間視頻,但已足以讓信息獲取效率再翻倍。其檢索速度已達(dá)到實(shí)用水平,遠(yuǎn)超人工觀看短視頻的效率,更不用說完整看完一部長視頻了。
以上就是VIDI2的新技術(shù)亮點(diǎn),希望各位產(chǎn)品經(jīng)理能重點(diǎn)關(guān)注。
今天的分享到此結(jié)束。
本文來自微信公眾號“Kevin改變世界的點(diǎn)滴”(ID:Kevingbsjddd),作者:Kevin那些事兒,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



