全球首款統(tǒng)一多模態(tài)視頻大模型問(wèn)世!可靈AI O1正式發(fā)布:一句話即可生成視頻
快科技12月2日?qǐng)?bào)道,可靈AI全新O1視頻大模型已全面上線,這款被稱(chēng)作“全球首個(gè)統(tǒng)一多模態(tài)視頻大模型”的產(chǎn)品,成功解決了傳統(tǒng)視頻生成工具功能分散、操作繁瑣的問(wèn)題。
目前,用戶可通過(guò)可靈App以及官方網(wǎng)站體驗(yàn)該模型。

區(qū)別于以往需要分步驟完成文生視頻、圖生視頻、局部編輯等操作的工具,可靈O1依托創(chuàng)新的MVL(多模態(tài)視覺(jué)語(yǔ)言)交互架構(gòu),能在同一個(gè)輸入框中流暢整合文字、圖像、視頻等多種指令形式。
借助Chain-of-thought技術(shù),該模型不僅可以準(zhǔn)確理解用戶的需求,還具備常識(shí)推理和事件推演能力,從而生成邏輯更通順的視頻內(nèi)容。

舉例來(lái)說(shuō),用戶上傳一段真人視頻后,僅需通過(guò)簡(jiǎn)單的對(duì)話指令,就能實(shí)現(xiàn)局部元素的添加或刪除、鏡頭前后的智能延展以及根據(jù)動(dòng)作生成新畫(huà)面等操作。
尤為重要的是,O1采用多視角主體構(gòu)建技術(shù),徹底攻克了視頻中人物或物體在鏡頭切換時(shí)出現(xiàn)“特征漂移”的行業(yè)難題,保證了多主體場(chǎng)景下畫(huà)面的精準(zhǔn)和連貫。
除此之外,O1支持3到10秒的自由生成時(shí)長(zhǎng),將敘事節(jié)奏的掌控權(quán)交還給創(chuàng)作者。
無(wú)論是短視頻博主、廣告制作團(tuán)隊(duì)還是普通個(gè)人用戶,都能借助該模型快速制作出高質(zhì)量、高一致性的創(chuàng)意視頻。



本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



