AI視覺新突破:Meta新模型一鍵“分割世界”引驚嘆
一張圖,一鍵就能扣出3D模型。智東西11月20日消息,今日,Meta宣布推出全新的模型家族SAM 3D,并發(fā)布兩款3D模型,分別是用于物體和場景重建的SAM 3D Objects以及用于人體和體型估計(jì)的SAM 3D Body。
SAM 3D系列模型效果驚人,用戶點(diǎn)擊圖像中的元素后,它能直接從2D圖像中扣出一個(gè)3D模型,不管是物體還是人像,都能被精準(zhǔn)重建。重建后的模型進(jìn)行360度旋轉(zhuǎn),基本看不出破綻。

SAM全稱是Segment Anything Model,即“分割一切”模型。此前,Meta已開源SAM 1、SAM 2這兩款2D圖像分割模型,它們是該領(lǐng)域的標(biāo)桿之作。
在SAM 3D系列模型發(fā)布當(dāng)天,此前在ICLR大會審稿期間就備受關(guān)注的SAM 3也正式發(fā)布。SAM 3圖像分割模型的亮點(diǎn)在于引入了“可提示概念分割”新功能。
以往,多數(shù)圖像分割模型只能依據(jù)有限的預(yù)設(shè)標(biāo)簽分割圖像,而SAM 3允許用戶輸入“狗”“大象”“斑馬”等具體標(biāo)簽,或“動(dòng)物”等整體概念,甚至“穿著黑色外套、戴著白色帽子的人”這樣的描述來完成圖像分割,大大提升了圖像分割模型的通用性。

SAM 3推理速度極快,在單張英偉達(dá)H200 GPU上,它能在30毫秒左右識別一張包含超過100個(gè)可檢測物體的圖片。
SAM 3的發(fā)布,讓英偉達(dá)開發(fā)者技術(shù)總結(jié)Nader Khalil感慨:“這可能就是計(jì)算機(jī)視覺的ChatGPT時(shí)刻,強(qiáng)大的分割功能意味著用戶只要點(diǎn)擊一下就能訓(xùn)練計(jì)算機(jī)視覺模型,太瘋狂了?!?/p>

Meta已開始借助SAM 3D Objects和Sam 3開展業(yè)務(wù)。Facebook Market現(xiàn)在提供“房間視圖”功能,讓用戶在購買家具前能直觀感受家居裝飾品在空間中的風(fēng)格和適配度。
目前,SAM 3D系列模型和SAM 3都可在Meta新打造的Segment Anything Playground中體驗(yàn)。SAM 3D的訓(xùn)練和評估數(shù)據(jù)、評估基準(zhǔn)、模型檢查點(diǎn)、推理代碼以及參數(shù)化人類模型均已開源,SAM 3也開源了模型檢查點(diǎn)、評估數(shù)據(jù)集和微調(diào)代碼。
SAM 3D博客(內(nèi)含論文、開源鏈接): https://ai.meta.com/blog/sam-3d/
SAM 3博客(內(nèi)含論文、開源鏈接): https://ai.meta.com/blog/segment-anything-model-3/
01.標(biāo)注近百萬張圖像,幾秒鐘完成全紋理3D重建
過去,三維建模面臨數(shù)據(jù)匱乏問題。與豐富的文本、圖像資料相比,真實(shí)世界的3D數(shù)據(jù)極少,多數(shù)模型只能處理孤立的合成資產(chǎn),或在簡單背景下重建單個(gè)高分辨率物體,導(dǎo)致3D重建在現(xiàn)實(shí)場景中難以施展。
SAM 3D Objects的出現(xiàn)打破了這一局限。它通過強(qiáng)大的數(shù)據(jù)注釋引擎,在大規(guī)模自然圖像上實(shí)現(xiàn)了3D物體的精細(xì)標(biāo)注:標(biāo)注近百萬張圖像,生成超過314萬個(gè)網(wǎng)格模型。

這一過程采用“眾包+專家”模式,普通數(shù)據(jù)標(biāo)注者對模型生成的多個(gè)選項(xiàng)評分,最難的部分由資深3D藝術(shù)家處理。
SAM 3D Objects還借鑒大型語言模型的訓(xùn)練理念,將合成數(shù)據(jù)學(xué)習(xí)重新定義為“三維預(yù)訓(xùn)練”,再通過后續(xù)微調(diào),讓模型在真實(shí)圖像上表現(xiàn)出色。
這種方法不僅提升了模型的魯棒性和輸出質(zhì)量,還提高了數(shù)據(jù)生成效率,實(shí)現(xiàn)了數(shù)據(jù)引擎與模型訓(xùn)練的良性循環(huán)。
為驗(yàn)證成果,團(tuán)隊(duì)與藝術(shù)家合作建立了SAM 3D藝術(shù)家對象數(shù)據(jù)集(SA-3DAO),這是首個(gè)用于評估物理世界圖像中單幅3D重建能力的數(shù)據(jù)集,其圖像和物體比現(xiàn)有基準(zhǔn)更具挑戰(zhàn)性。

性能方面,SAM 3D Objects在一對一的人類偏好測試中,以5:1的優(yōu)勢擊敗現(xiàn)有領(lǐng)先模型。結(jié)合擴(kuò)散捷徑和優(yōu)化算法,它能在幾秒鐘內(nèi)完成全紋理3D重建,使幾乎實(shí)時(shí)的三維應(yīng)用成為可能,如為機(jī)器人提供即時(shí)視覺感知。
它不僅能重建物體的形狀、紋理和姿態(tài),還能讓用戶自由操控?cái)z像機(jī),從不同角度觀察場景。即便面對小物體、遮擋或間接視角,SAM 3D Objects也能從日常照片中提取三維細(xì)節(jié)。
不過,該模型仍有改進(jìn)空間。當(dāng)前模型輸出分辨率有限,復(fù)雜物體的細(xì)節(jié)可能缺失;物體布局預(yù)測主要針對單個(gè)物體,尚未實(shí)現(xiàn)多物體的物理交互推理。
未來,通過提高分辨率和加入多物體聯(lián)合推理,SAM 3D Objects有望在真實(shí)世界場景中實(shí)現(xiàn)更精細(xì)、自然的三維重建。
02.三維重建更具交互性和可控性,配備新型開源3D格式
SAM 3D Objects主要用于物體的三維重建,而SAM 3D Body專注于人體的三維重建。它能從單張圖像中精確估算人體的三維姿態(tài)和形狀,即便面對異常姿勢、局部遮擋或多人復(fù)雜場景,也能穩(wěn)定輸出。
值得一提的是,SAM 3D Body支持提示輸入,用戶可通過分割掩碼、二維關(guān)鍵點(diǎn)等方式引導(dǎo)和控制模型的預(yù)測,使三維重建更具交互性和可控性。
SAM 3D Body的核心是名為Meta Momentum Human Rig(MHR)的開源3D網(wǎng)格格式,它將人體的骨骼結(jié)構(gòu)與軟組織形狀分離,提高了模型輸出的可解釋性。
模型采用Transformer Encoder - Decoder架構(gòu),圖像編碼器能捕捉身體各部位的高分辨率細(xì)節(jié),網(wǎng)格解碼器支持基于提示的三維網(wǎng)格預(yù)測。這種設(shè)計(jì)讓用戶既能獲得精確的三維人體模型,又能在交互中靈活調(diào)整結(jié)果。
在數(shù)據(jù)方面,SAM 3D Body研究團(tuán)隊(duì)整合了數(shù)十億張圖像、多機(jī)位高質(zhì)量視頻以及專業(yè)合成數(shù)據(jù),通過自動(dòng)化數(shù)據(jù)引擎篩選出罕見姿勢、遮擋或復(fù)雜服裝等高價(jià)值圖像,形成約800萬張高質(zhì)量訓(xùn)練樣本。
這樣的數(shù)據(jù)策略使模型在多樣化場景中保持強(qiáng)大的魯棒性,結(jié)合基于提示的多步細(xì)化訓(xùn)練,讓三維預(yù)測與二維視覺證據(jù)更精確對齊。
發(fā)布的基準(zhǔn)結(jié)果顯示,SAM 3D Body在多個(gè)三維人體基準(zhǔn)測試中優(yōu)勢明顯,準(zhǔn)確性和穩(wěn)健性均優(yōu)于以往模型。

此外,團(tuán)隊(duì)開放了MHR模型,這一參數(shù)化人體模型在商業(yè)許可下可供使用,推動(dòng)了Meta的技術(shù)如Codec Avatars等的落地應(yīng)用。
SAM 3D Body主要針對單人處理,尚未支持多人或人與物體的交互預(yù)測,限制了對相對位置和物理互動(dòng)的準(zhǔn)確推理。其手部姿勢的估計(jì)精度也落后于專門的手部姿勢估計(jì)方法。
未來,SAM 3D Body計(jì)劃將人與物體、環(huán)境互動(dòng)納入訓(xùn)練,同時(shí)提升手部姿勢重建精度,使模型在真實(shí)場景中更全面、自然。
03.分割靈活性增強(qiáng),AI深度參與數(shù)據(jù)構(gòu)建
如果說SAM 3D系列模型是Meta在三維視覺重建領(lǐng)域的首次突破,那么SAM 3則是對Meta在2D圖像分割領(lǐng)域探索的延續(xù)。
SAM 3是一款統(tǒng)一模型,能基于文本、示例圖像或視覺提示實(shí)現(xiàn)對象的檢測、分割和跟蹤,其開放性和交互性為視覺創(chuàng)作和科學(xué)研究帶來更多可能。
通過“可提示概念分割”,SAM 3能夠識別更復(fù)雜、細(xì)微的概念,如“條紋紅傘”或“手中未持禮盒的坐著的人”。
為衡量大詞匯量分割性能,Meta推出了Segment Anything with Concepts(SA - Co)數(shù)據(jù)集,該基準(zhǔn)覆蓋了更多數(shù)據(jù)概念,并對圖像和視頻中的開放式概念分割進(jìn)行挑戰(zhàn)測試。
SAM 3模型支持多種提示形式,包括文本短語、示例圖像以及視覺提示(如掩碼、框選點(diǎn)),增強(qiáng)了分割靈活性。
Meta公布的測試結(jié)果顯示,SAM 3在SA - Co基準(zhǔn)上的概念分割性能提升約100%,在用戶偏好測試中,相較最強(qiáng)競品模型OWLv2,SAM 3的輸出更受青睞,比例約為3:1(SAM 3:OWLv2)。

此外,SAM 3在傳統(tǒng)SAM 2的視覺分割任務(wù)中也表現(xiàn)領(lǐng)先,在零樣本LVIS和目標(biāo)計(jì)數(shù)等挑戰(zhàn)性任務(wù)中同樣取得顯著進(jìn)展。
在數(shù)據(jù)構(gòu)建方面,SAM 3采用人類與AI協(xié)同的數(shù)據(jù)引擎。先使用SAM 3及Llama 3.2v模型自動(dòng)生成初始分割掩碼和標(biāo)簽,再由人類與AI注釋者驗(yàn)證和修正。
AI注釋者不僅能提高標(biāo)注速度(負(fù)樣本快約400%,正樣本快約36%),還會自動(dòng)篩選簡單樣本,讓人力集中于最具挑戰(zhàn)的案例。
同時(shí),Meta利用概念本體(基于維基百科的概念字典)擴(kuò)展數(shù)據(jù)覆蓋范圍,使稀有概念也能得到標(biāo)注支持。

消融實(shí)驗(yàn)表明,AI與人類注釋結(jié)合的策略能顯著提升模型性能,為新視覺域的自動(dòng)數(shù)據(jù)生成提供了可行途徑。
在模型架構(gòu)上,SAM 3結(jié)合了多項(xiàng)先進(jìn)技術(shù):文本與圖像編碼器基于Meta Perception Encoder,檢測器采用DETR架構(gòu),跟蹤組件延續(xù)了SAM 2的記憶模塊。

通過統(tǒng)一架構(gòu)處理檢測、分割和跟蹤任務(wù),SAM 3在處理復(fù)雜視覺任務(wù)時(shí)避免了任務(wù)間沖突,同時(shí)保持高性能和高效訓(xùn)練。
SAM 3在某些極端場景下仍有提升空間,如零樣本下識別專業(yè)術(shù)語(如“血小板”)或處理長復(fù)雜文本描述。在視頻場景中,SAM 3將每個(gè)對象單獨(dú)處理,多對象場景下的效率和性能有待優(yōu)化。
Meta提供了模型微調(diào)方法和工具,鼓勵(lì)開源社區(qū)針對特定任務(wù)和視覺域進(jìn)行適配和擴(kuò)展。
04.結(jié)語:生成式AI,正改變CV的玩法
生成式AI的興起,正在反哺以計(jì)算機(jī)視覺為核心的上一輪AI浪潮。從數(shù)據(jù)集打造到模型訓(xùn)練方式創(chuàng)新,生成式AI拓展了CV模型的能力邊界,帶來更多創(chuàng)新玩法。
此外,我們看到Meta已積極將相關(guān)技術(shù)應(yīng)用于真實(shí)業(yè)務(wù),隨著數(shù)據(jù)和用戶反饋的積累,SAM和SAM 3D系列模型有望帶來更多驚喜。
本文來自微信公眾號 “智東西”(ID:zhidxcom),作者:陳駿達(dá),36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com

