螞蟻集團旗下具身智能公司靈波科技近日宣布開源其高精度空間感知模型LingBot-Depth,這一進展為機器人與自動駕駛領域帶來新的技術(shù)突破。該模型基于奧比中光Gemini 330系列雙目3D相機的原始數(shù)據(jù)開發(fā),通過提升環(huán)境深度感知與三維空間理解能力,使智能終端能夠更精準地"看懂"三維世界,有效解決了傳統(tǒng)深度相機在復雜場景下的性能瓶頸。
在權(quán)威基準測試中,LingBot-Depth展現(xiàn)出顯著優(yōu)勢。對比主流模型PromptDA與PriorDA,該模型在室內(nèi)場景的相對誤差(REL)降低超70%,在稀疏SfM任務中的RMSE誤差下降約47%,刷新了行業(yè)精度記錄。這一突破得益于其獨特的"掩碼深度建模"技術(shù),該技術(shù)通過融合RGB圖像的紋理、輪廓及環(huán)境上下文信息,能夠智能補全深度數(shù)據(jù)缺失區(qū)域,生成邊緣更清晰的三維深度圖。
針對透明玻璃、高反光鏡面等傳統(tǒng)深度相機的感知難題,LingBot-Depth通過奧比中光深度視覺實驗室驗證,在復雜光學場景下仍能輸出平滑完整的深度圖。實驗數(shù)據(jù)顯示,搭載該模型的Gemini 330系列在透明及反光場景中的表現(xiàn)明顯優(yōu)于Stereolabs的ZED深度相機,物體輪廓邊緣銳利度提升顯著,且無需升級傳感器硬件即可實現(xiàn)性能躍升。
支撐模型性能的核心是靈波科技構(gòu)建的龐大真實場景數(shù)據(jù)集。研發(fā)團隊采集近千萬份原始樣本,篩選出200萬組高價值深度配對數(shù)據(jù)用于訓練,其中包含200萬真實世界數(shù)據(jù)和100萬仿真數(shù)據(jù)。這套核心數(shù)據(jù)資產(chǎn)將隨模型同步開源,為行業(yè)攻克復雜場景空間感知難題提供關(guān)鍵資源。目前,靈波科技已與奧比中光達成戰(zhàn)略合作,雙方計劃基于該模型聯(lián)合開發(fā)新一代深度相機產(chǎn)品。
據(jù)悉,靈波科技將于近期陸續(xù)開源多款具身智能方向模型,持續(xù)推動空間智能技術(shù)的開源生態(tài)建設。此次LingBot-Depth的開源不僅為學術(shù)界提供研究基礎,也為工業(yè)界降低三維視覺技術(shù)應用門檻,加速智能終端在家庭、物流、制造等場景的落地進程。
















