近日,科技領域傳來新動態,蘋果公司在空間計算與 Vision Pro 頭顯項目上的進展備受關注。此前有消息稱,蘋果公司內部擱置了新款 Vision Pro 的研發,將團隊重心轉向 Siri 和 AI 智能眼鏡,然而最新公開的三項研究卻表明,蘋果并未放棄 Vision Pro 頭顯項目。
蘋果此次公開的三項研究分別涉及多模態大模型空間推理評測、美式手語視頻標注以及 3D 頭部重建。其中,在機器學習博客發布的《From Where Things Are to what They’re For:Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》論文頗具亮點。該論文提出了 SFI-Bench,用于測試多模態大模型對空間布局的理解以及物體功能的認知能力。這套視頻基準包含 134 段室內視頻掃描,并整理出 1555 道專家標注問題。與以往只測試空間識別的舊方法不同,SFI-Bench 不僅會問模型“這是什么、在哪里”,還會追問“它怎么用、出了故障怎么辦”。例如,讓模型從柜子里找出同品牌數量最多的一組瓶子,理解洗衣機當前程序如何取消,或者判斷電視遙控器的用途,這些測試更貼近日常家庭場景,也更接近未來空間助手需要處理的真實任務。在測試結果中,Google Gemini 3.1 Pro 總分最高,OpenAI GPT-5.4-High 排名第二,Gemini-3.1-Flash-Lite 排名第三。不過,論文也指出,幾乎所有模型都不擅長“帶條件的全局計數”,并且在空間記憶、功能知識整合以及將眼前畫面與外部知識關聯等方面存在明顯限制。
另一項研究《Bootstrapping Sign Language Annotations with Sign Language Models》聚焦于美式手語視頻標注。研究團隊嘗試利用 AI 自動生成候選標注,以減少手工標注的時間成本。團隊建立了近 500 條人工英文字詞到術語標注,并擴展到超過 300 小時的 ASL STEM Wiki 和 7.5 小時的 FLEURS-ASL 數據。其手指拼寫模型在 FSBoard 上達到 6.7% CER,在 ASL Citizen 數據集上達到 74% top-1 準確率。
第三項研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》則把重點放在了 3D 頭像重建上。蘋果提出了 HeadsUp 方法,能夠從大規模多攝像頭采集中重建高質量的 3D Gaussian 頭部模型。測試使用了包含超過 10000 名受試者的內部數據集,規模比現有多視角人頭數據集高一個數量級。這一研究成果可能與 Vision Pro 的 Persona 功能,或者 visionOS 中更自然的人臉捕捉與表情渲染相關。
蘋果公司全球營銷高級副總裁格雷格·喬斯維亞克(Greg Joswiak)曾表示,Vision Pro 展示了數字世界與物理世界融合的未來形態,這種融合是必然的。當被問及“空間計算”何時能成為主流時,他坦言無法預測具體時間,但堅信這一發展方向不可逆轉。















