国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

  • 虎科技 - 領先的互聯網科技媒體

螞蟻技術研究院發布LLaDA2.0 擴散語言模型 參數達100B且開源共享

   時間:2025-12-12 18:41 來源:快訊作者:柳晴雪

螞蟻技術研究院近日正式發布全新離散擴散大語言模型系列——LLaDA2.0,同步公開的技術報告顯示,該系列包含100B參數的"flash"版本與16B參數的"mini"版本,成為全球首個突破百億參數的擴散語言模型。這一突破性成果標志著擴散模型在參數規模擴展領域取得重大進展,成功打破業界對擴散模型難以規模化應用的固有認知。

研發團隊創新采用混合專家(MoE)架構,通過模塊化設計實現模型性能與計算效率的平衡。在訓練策略方面,提出的Warmup-Stable-Decay(WSD)持續預訓練方法,使新模型能夠直接繼承現有自回歸(AR)模型的知識體系,避免了傳統從頭訓練帶來的高昂成本。配合置信度感知并行訓練(CAP)與擴散模型專用DPO技術,在保證生成質量的同時,將推理速度提升至AR模型的2.1倍。

多維度評估數據顯示,LLaDA2.0在結構化生成任務中表現尤為突出。在代碼生成、數學推理及智能體交互等場景下,其性能指標全面超越同級別AR模型,而在自然語言理解等基礎能力方面則與開源AR模型持平。這種"專長強化+基礎穩固"的特性,為特定領域的大模型應用開辟了新路徑。

為推動技術生態發展,研究院已將16B與100B兩個版本的模型權重及完整訓練代碼開源至Huggingface平臺。開發者可通過公開資源復現訓練過程,或基于現有模型進行二次開發。此次開源不僅降低了超大規模模型的技術門檻,更為學術界提供了研究擴散模型規模化應用的重要樣本。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群