AI繪畫領域迎來重要突破,復旦大學與小紅書聯合研發的InstanceAssemble技術,在布局控制生成(Layout-to-Image)方向實現關鍵性進展。這項基于擴散變換器架構的創新方案,通過引入"實例拼裝注意力"機制,成功解決了復雜場景下物體布局對齊與語義匹配的難題,相關研究成果已被國際頂級學術會議NeurIPS 2025收錄。
傳統AI繪畫技術主要依賴文字描述生成圖像(Text-to-Image),而新一代布局控制生成技術則要求系統根據用戶指定的空間約束條件進行創作。這些約束條件包括物體邊界框、分割掩碼或骨架圖等空間定位信息,技術難點在于如何確保生成圖像中的每個物體都嚴格符合預設位置,同時保持語義邏輯的連貫性。現有方案普遍存在布局偏移、語義脫節或計算資源消耗過大等問題。
研究團隊提出的InstanceAssemble技術通過創新機制實現了精準控制。該系統采用輕量化設計,僅需在現有模型基礎上增加約7100萬個參數(相當于Stable Diffusion3-Medium模型容量的3.46%),即可完成模型適配。特別值得注意的是,當適配Flux.1模型時,額外參數需求更低至0.84%,顯著降低了技術落地門檻。
實驗數據顯示,在包含90萬個實例的密集布局數據集測試中,新技術展現出卓越性能。研究團隊專門構建的"Denselayout"基準測試集包含5000張圖像和9萬個實例,配合全新設計的"Layout Grounding Score"評估指標,能夠精確量化生成圖像與布局指令的匹配程度。測試結果表明,即使訓練數據僅包含稀疏布局(≤10個實例),系統在處理密集場景(≥10個實例)時仍能保持穩定輸出。
這項突破性成果標志著AI繪畫技術進入精準構圖時代。用戶只需提供物體位置框和內容描述,系統即可在指定區域生成符合語義的圖像元素,無論是簡單場景還是復雜構圖都能保持高度一致性。研究團隊表示,該技術已具備實際應用條件,未來可廣泛應用于數字內容創作、虛擬場景構建等領域,為創意產業提供新的技術支撐。















