蘋果新研究:AI 靠文本描述零樣本識別 12 種活動,或用于 Apple Watch
IT 之家 11 月 22 日消息,科技媒體 9to5Mac 于 11 月 21 日發(fā)布博文,報道稱蘋果在最新公布的研究報告中指出,大語言模型(LLM)可通過分析音頻和運動數據的文本描述,精準識別用戶活動,未來該技術可能會應用于 Apple Watch 上。
名為“后期多模態(tài)傳感器融合”(Late Multimodal Sensor Fusion)的這項技術,主要是將 LLM 的推理能力與傳統(tǒng)傳感器數據相結合,即便在傳感器信息不足時,也能準確判斷用戶正在進行的具體活動。
該研究的核心方法十分新穎。大語言模型并不直接處理用戶的原始音頻錄音或運動數據,而是對專門的小型模型生成的文本描述進行分析。

具體而言,音頻模型會生成描述聲音環(huán)境的文字,例如“水流聲”,基于慣性測量單元(IMU)的運動模型則會輸出動作類型的預測文本。這種方式既保護了用戶隱私,又驗證了 LLM 在理解和融合多源文本信息以進行復雜推理方面的強大能力。
為驗證該方法,研究團隊采用了包含數千小時第一人稱視角視頻的 Ego4D 數據集。他們從中挑選出 12 種日?;顒樱缥鼔m、烹飪、洗碗、打籃球、舉重等,每段樣本時長為 20 秒。
之后,研究人員把小模型生成的文本描述輸入到谷歌的 Gemini - 2.5 - pro 和阿里的 Qwen - 32B 等多個大語言模型中,并測試其在“零樣本”(無任何示例)和“單樣本”(提供一個示例)兩種情況下的識別準確率。
測試結果顯示,即便沒有進行任何針對性訓練,大語言模型在活動識別任務中的表現也遠高于隨機猜測的水平,其 F1 分數(衡量精確率和召回率的指標)表現出色。當獲得一個參考示例后,模型的準確度還會進一步提高。

這項研究表明,利用 LLM 進行后期融合,能夠有效開發(fā)出強大的多模態(tài)應用,無需為特定場景開發(fā)專門模型,從而節(jié)省了額外的內存和計算資源。蘋果公司還公開了實驗數據和代碼,方便其他研究者復現和驗證。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com


