91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

年末5天連更5次 可靈AI以“狂飆式”升級(jí)引領(lǐng)生成式AI新賽道

2025-12-12
允中 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI



12月剛拉開序幕,可靈AI便接連推出重磅功能。


全球首款統(tǒng)一的多模態(tài)視頻與圖片創(chuàng)作工具——“可靈O1”、擁有“音畫同步生成”能力的可靈2.6模型、可靈數(shù)字人2.0功能……


短短5天內(nèi)完成5次“上新”,直接將生成式AI領(lǐng)域的競(jìng)爭(zhēng)推向了更激烈的高度。


可靈O1:從圖片到視頻,實(shí)現(xiàn)更強(qiáng)的創(chuàng)作“可控性”


可靈2.0發(fā)布時(shí),曾創(chuàng)新性地提出全新交互理念——Multimodal Visual Language(MVL),讓用戶能結(jié)合圖像參考、視頻片段等多模態(tài)信息,把腦海中包含身份、外觀、風(fēng)格、場(chǎng)景、動(dòng)作、表情、運(yùn)鏡的多維度復(fù)雜創(chuàng)意,高效地傳遞給AI。


基于MVL理念,在最新迭代中,可靈O1將所有生成與編輯任務(wù)整合到一個(gè)全能引擎里,為用戶構(gòu)建全新的多模態(tài)創(chuàng)作流程,實(shí)現(xiàn)從靈感到成品的一站式閉環(huán)。


正如a16z投資合伙人Justine Moore在產(chǎn)品發(fā)布后第一時(shí)間評(píng)價(jià)的:


我們終于迎來了視頻界的Nano Banana。


以可靈視頻O1模型為例,它打破了傳統(tǒng)單一視頻生成任務(wù)的模型界限,把參考生視頻、文生視頻、首尾幀生視頻、視頻內(nèi)容增刪、視頻修改變換、風(fēng)格重繪、鏡頭延展等多種任務(wù),融合進(jìn)同一個(gè)全能引擎,讓用戶無(wú)需在多個(gè)模型和工具間切換,就能一站式完成從生成到修改的全部創(chuàng)作步驟。


無(wú)論是創(chuàng)作者長(zhǎng)期困擾的主體一致性難題,還是視頻畫面的可控性問題,在這次模型迭代中都得到了相對(duì)完善的解決。


在圖片生成方面,可靈AI也完成了創(chuàng)新性迭代。


最新上線的圖像O1模型,能實(shí)現(xiàn)從基礎(chǔ)圖像生成到高階細(xì)節(jié)編輯的全鏈路無(wú)縫銜接。對(duì)用戶而言,既可以通過純文本生成圖像,也能上傳最多10張參考圖進(jìn)行融合再創(chuàng)作。


“音畫同出”能力來了!可靈2.6模型完成里程碑式迭代


可靈擁有眾多忠實(shí)的“發(fā)燒友”,他們既是產(chǎn)品的深度使用者,也能從功能層面提出專業(yè)見解。


O1發(fā)布后,不少網(wǎng)友排隊(duì)“許愿”功能,排名靠前的幾乎都在關(guān)注可靈何時(shí)推出伴隨視頻畫面的語(yǔ)音及音效直出功能。


答案很快揭曉。


12月3日晚,可靈AI繼續(xù)“放大招”,正式推出2.6模型。


這次更新中,可靈AI上線了里程碑式的“音畫同出”能力,徹底改變了傳統(tǒng)AI視頻生成模型“先生成無(wú)聲畫面、再人工配音”的工作流程。


它能在單次生成中,輸出包含自然語(yǔ)言、動(dòng)作音效和環(huán)境氛圍音的完整視頻,重構(gòu)了AI視頻創(chuàng)作的工作流,大幅提升創(chuàng)作效率。


可靈AI海外超級(jí)創(chuàng)作者、AI電影導(dǎo)演Simon Meyer制作的宣傳片,生動(dòng)展現(xiàn)了可靈2.6的能力創(chuàng)新點(diǎn)。


對(duì)創(chuàng)作者來說,輸入文本或結(jié)合圖片與提示詞文本,都能直接生成帶有語(yǔ)音、音效及環(huán)境音的視頻。


語(yǔ)音部分目前支持中文和英文生成,視頻長(zhǎng)度最長(zhǎng)可達(dá)10秒(據(jù)悉,更多語(yǔ)言體系及固定聲線等功能正在研發(fā))。


通過對(duì)物理世界聲音與動(dòng)態(tài)畫面的深度語(yǔ)義對(duì)齊,可靈2.6模型在音畫協(xié)同、音頻質(zhì)量和語(yǔ)義理解上表現(xiàn)出色。


對(duì)“音畫同出”能力感興趣的朋友可以盡快嘗試,說不定會(huì)和Simon Meyer產(chǎn)生強(qiáng)烈共鳴。


密集更新背后,可靈AI的布局深意


除了全新推出的可靈O1和2.6模型這兩大重磅更新,可靈上周還相繼推出數(shù)字人2.0、可靈O1主體庫(kù)&對(duì)比模板等功能,從AI內(nèi)容生成的實(shí)際流程出發(fā),帶來更便捷的操作體驗(yàn)。


5天內(nèi)5次“上新”,功能精進(jìn)的背后是可靈對(duì)生成式AI技術(shù)的極致追求。


比如12月1日推出的視頻O1模型,打破了視頻模型在生成、編輯與理解上的功能割裂,構(gòu)建了全新的生成式底座。


融合多模態(tài)理解的Multimodal Transformer和多模態(tài)長(zhǎng)上下文(Multimodal Long Context),實(shí)現(xiàn)了多任務(wù)的深度融合與統(tǒng)一。


根據(jù)可靈AI團(tuán)隊(duì)的內(nèi)部測(cè)評(píng),在“圖片參考”任務(wù)上,可靈AI對(duì)Google Veo 3.1的整體效果勝負(fù)比達(dá)247%;在“指令變換”任務(wù)上,與Runway Aleph對(duì)比的整體效果勝負(fù)比為230%。


值得一提的是,作為國(guó)產(chǎn)視頻生成大模型領(lǐng)域的代表,自2024年6月正式推出以來,可靈AI的每一次迭代幾乎都能引發(fā)業(yè)界的“集體關(guān)注”。


從早期備受熱議的“吃面條”案例,到特斯拉創(chuàng)始人馬斯克的點(diǎn)贊,再到此次“批量上新”操作,在視覺生成技術(shù)逐步成熟的過程中,可靈AI無(wú)疑是常引發(fā)共鳴的關(guān)鍵角色。


△ X網(wǎng)友Min Choi發(fā)布的文章,對(duì)比了不同技術(shù)下“威爾·史密斯吃意大利面”的經(jīng)典場(chǎng)景


在持續(xù)引發(fā)討論的同時(shí),推進(jìn)技術(shù)的廣泛應(yīng)用落地也是生成式AI平臺(tái)必須面對(duì)的問題。


數(shù)據(jù)顯示,可靈AI目前覆蓋的企業(yè)用戶超2萬(wàn)家,涵蓋影視制作、廣告、創(chuàng)意設(shè)計(jì)、自媒體、游戲、電商等多個(gè)領(lǐng)域。


多元的行業(yè)客戶結(jié)構(gòu),要求可靈AI不斷突破技術(shù)應(yīng)用的上限。


比如此次升級(jí)的可靈2.6模型,支持說話、對(duì)話、旁白、唱歌、Rap、環(huán)境音效、混合音效等多種聲音的單獨(dú)或混合生成,能廣泛應(yīng)用于各行業(yè)實(shí)際創(chuàng)作場(chǎng)景,大幅提升效率;


再如數(shù)字人2.0功能迭代,創(chuàng)作者只需上傳角色圖、添加配音內(nèi)容并描述角色表現(xiàn),就能得到表現(xiàn)力生動(dòng)的“自定義數(shù)字人”,更令人驚喜的是,視頻內(nèi)容最長(zhǎng)可達(dá)5分鐘。


快手高級(jí)副總裁、可靈AI事業(yè)部負(fù)責(zé)人兼社區(qū)科學(xué)線負(fù)責(zé)人蓋坤曾在多個(gè)場(chǎng)合表示:


我們的初心是讓每個(gè)人都能用AI講好故事,也真切希望這一天早日到來。


從可靈AI年末的一系列更新中,我們感受到這一天越來越近了。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com