蘋果公布三項AI研究新成果，持續深耕空間計算助力Vision Pro發展-生活家電-虎科技

蘋果公布三項AI研究新成果，持續深耕空間計算助力Vision Pro發展

時間：2026-05-12 16:38 來源：互聯網作者：江紫萱

近日，科技領域傳來新動態，蘋果公司在空間計算與 Vision Pro 頭顯項目上的進展備受關注。此前有消息稱，蘋果公司內部擱置了新款 Vision Pro 的研發，將團隊重心轉向 Siri 和 AI 智能眼鏡，然而最新公開的三項研究卻表明，蘋果并未放棄 Vision Pro 頭顯項目。

蘋果此次公開的三項研究分別涉及多模態大模型空間推理評測、美式手語視頻標注以及 3D 頭部重建。其中，在機器學習博客發布的《From Where Things Are to what They’re For：Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》論文頗具亮點。該論文提出了 SFI-Bench，用于測試多模態大模型對空間布局的理解以及物體功能的認知能力。這套視頻基準包含 134 段室內視頻掃描，并整理出 1555 道專家標注問題。與以往只測試空間識別的舊方法不同，SFI-Bench 不僅會問模型“這是什么、在哪里”，還會追問“它怎么用、出了故障怎么辦”。例如，讓模型從柜子里找出同品牌數量最多的一組瓶子，理解洗衣機當前程序如何取消，或者判斷電視遙控器的用途，這些測試更貼近日常家庭場景，也更接近未來空間助手需要處理的真實任務。在測試結果中，Google Gemini 3.1 Pro 總分最高，OpenAI GPT-5.4-High 排名第二，Gemini-3.1-Flash-Lite 排名第三。不過，論文也指出，幾乎所有模型都不擅長“帶條件的全局計數”，并且在空間記憶、功能知識整合以及將眼前畫面與外部知識關聯等方面存在明顯限制。

另一項研究《Bootstrapping Sign Language Annotations with Sign Language Models》聚焦于美式手語視頻標注。研究團隊嘗試利用 AI 自動生成候選標注，以減少手工標注的時間成本。團隊建立了近 500 條人工英文字詞到術語標注，并擴展到超過 300 小時的 ASL STEM Wiki 和 7.5 小時的 FLEURS-ASL 數據。其手指拼寫模型在 FSBoard 上達到 6.7％ CER，在 ASL Citizen 數據集上達到 74％ top-1 準確率。

第三項研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》則把重點放在了 3D 頭像重建上。蘋果提出了 HeadsUp 方法，能夠從大規模多攝像頭采集中重建高質量的 3D Gaussian 頭部模型。測試使用了包含超過 10000 名受試者的內部數據集，規模比現有多視角人頭數據集高一個數量級。這一研究成果可能與 Vision Pro 的 Persona 功能，或者 visionOS 中更自然的人臉捕捉與表情渲染相關。

蘋果公司全球營銷高級副總裁格雷格·喬斯維亞克（Greg Joswiak）曾表示，Vision Pro 展示了數字世界與物理世界融合的未來形態，這種融合是必然的。當被問及“空間計算”何時能成為主流時，他坦言無法預測具體時間，但堅信這一發展方向不可逆轉。

更多>同類內容

常州具身智能數據實驗平臺運營開啟真實場	螞蟻押注大曉機器人：具身智能突破虛擬，在
華為鴻蒙智行智界V9旗艦MPV來襲智能隱私調	百度AI價值重估：從昆侖芯布局到智能體矩陣

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

蘋果公布三項AI研究新成果，持續深耕空間計算助力Vision Pro發展