京東探索研究院近日宣布,其自主研發的圖像編輯模型JoyAI-Image-Edit正式面向全球開發者開源。這款模型突破了傳統圖像編輯技術的平面局限,首次將空間智能深度融入設計框架,使AI能夠精準理解三維空間關系并實現復雜場景重塑,標志著圖像處理技術從二維平面邁向三維空間的新紀元。
該模型通過構建空間位置感知、多視角一致性維護、相機參數解析等核心模塊,實現了相機視角變換、物體空間位移、幾何結構精準控制等技術創新。京東實驗室測試數據顯示,其在物體移動精度、空間連續性等關鍵指標上已達到國際領先水平,尤其在處理復雜遮擋關系和光影過渡時展現出顯著優勢。與傳統模型相比,JoyAI-Image-Edit能夠同時處理15類通用編輯任務,包括物體增刪改、風格遷移、細節優化等高頻創作需求。
模型三大核心功能構成其獨特競爭力:視角變換功能支持通過自然語言指令調整相機偏航角、俯仰角和縮放比例,在保持場景幾何結構完整的前提下生成新視角圖像;空間漫游功能可模擬三維空間移動軌跡,自動生成邏輯連貫的多視角圖像序列;物體空間關系操控功能則能在維持場景整體穩定性的同時,對指定物體進行位移、旋轉或縮放操作,并自動優化遮擋關系和光影效果。
這項技術突破為多個行業帶來革新可能。在電商領域,商家可通過自然語言指令快速生成多角度商品展示圖;創意設計行業能利用空間漫游功能制作沉浸式場景預覽;智能圖像處理領域可實現更精準的3D模型重建;具身智能研發則獲得關鍵的視覺感知底層支持。開發者現可自由獲取模型推理代碼,基于其開放架構開發各類商業應用。
技術團隊透露,模型訓練過程中構建了包含數百萬空間標注數據的訓練集,特別強化了對室內外場景的空間關系理解能力。其創新的空間坐標編碼機制,使模型能夠解析物體在三維空間中的絕對位置和相對關系,這項突破解決了開源社區長期存在的空間感知難題。隨著模型開源,預計將推動AI圖像技術在自動駕駛、機器人導航、虛擬現實等領域的快速落地應用。















