国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

<style id="1z4mz"><tbody id="1z4mz"><noframes id="1z4mz"></noframes></tbody></style>

<noscript id="1z4mz"><tbody id="1z4mz"></tbody></noscript>

手機版

虎科技 - 領先的互聯網科技媒體

小米與北大聯合發文！“天才少女”羅福莉參與，提出MoE模型新解法

時間：2025-10-16 18:00 來源：快訊作者：顧青青

近日，一篇由小米與北京大學聯合署名的論文在arXiv平臺發布，引發科技圈關注。論文中一個引人注目的細節是，此前被傳以千萬年薪被小米集團創始人兼CEO雷軍招攬的DeepSeek“天才少女”羅福莉，出現在通訊作者名單里，不過論文未標注其是否屬于小米大模型團隊。

羅福莉出生于1995年，本科階段在北京師范大學計算機專業深造，碩士畢業于北京大學計算語言學研究所的計算語言學專業。畢業后，她加入阿里巴巴達摩院，主導開發了多語言預訓練模型VECO，還推動了AliceMind的開源工作。2022年，羅福莉入職DeepSeek，參與MoE大模型DeepSeek - V2的研發。去年年底，有消息稱小米以千萬年薪挖角羅福莉，此事一度登上熱搜，但雙方至今都未公開聲明其是否正式入職小米。

此次發表的論文聚焦于提升MoE模型強化學習訓練的新方法——Rollout Routing Replay（R3）。實驗數據顯示，R3的整體性能優于GRPO、TIS等強化學習領域用于提升模型性能的優化算法。引入R3的所有組合方法在訓練全程未出現崩盤情況，訓練過程中訓練 - 推理KL散度始終維持在較低水平，且在不影響訓練速度的前提下，使極端token比例減少了一個量級。

當下，強化學習（RL）在提升大語言模型能力方面扮演著關鍵角色。通過大規模強化學習，大模型能夠進行更深入、廣泛的推理，從而獲得解決復雜問題所需的高級能力。然而，在MoE模型中，路由機制常常會引入不穩定性，甚至導致強化學習訓練崩潰?，F有的引入重要性采樣機制等方法，并不能有效提升訓練穩定性。與以往采取丟棄差異較大數據等變通方法不同，此次論文的研究人員希望通過解決路由分布問題，即R3方法，從根本上解決這一難題。

論文提出的R3方法，其工作原理是在序列生成期間，從推理引擎捕獲路由分布，并直接將其重放到訓練引擎中。這一過程縮小了訓練和推理之間的差距，顯著特征是不同引擎生成的邏輯向量的KL散度明顯降低，兩個階段之間概率差異顯著的token數量減少了大約一個數量級。該方法同時適用于在線策略（on - policy）和小批量（mini - batch）式離線策略強化學習（off - policy）場景。

論文闡述了研究團隊的三大主要貢獻：一是系統識別并分析了MoE模型中訓練和推理之間的路由分布差異，強調了這些差異在訓練不穩定性中的作用；二是提出Rollout Routing Replay方法，重用訓練引擎內部的推理時間路由分布，以協調訓練和推理之間的路由行為；三是將R3應用于多種RL設置進行MoE強化學習，結果顯示R3在穩定性和整體性能方面優于GSPO和TIS。

R3的主要設計思路是在訓練前向傳播過程中重用推理路由掩碼I，同時仍將softmax應用于訓練邏輯以保持梯度流。這一設計有兩個目的：一是對齊訓練和推理，確保訓練重放期間使用的專家與推理期間選擇的專家相匹配，消除專家選擇中的不匹配；二是保留梯度數據流，僅重放掩碼可使梯度流回logits而不干擾計算圖，有助于有效優化路由器。

在效率優化方面，R3通過路由掩碼緩存（Router Mask Caching）適配多輪對話場景，降低計算開銷。緩存的路由掩碼具有相似屬性，對于相同的前綴token，MoE路由器應產生相同結果，因此來自推理引擎的路由掩碼可與前綴KVCache一起緩存。對于每個層和token前綴，相應的路由掩碼存儲在KVCache中。當相同前綴出現并命中緩存時，這些掩碼可被重用，無需重新計算，使R3能與前綴緩存機制無縫集成。研究人員稱，緩存路由掩碼在Agent場景中有較大應用空間，如軟件工程和網頁瀏覽等Agent任務，涉及自回歸生成和工具調用之間的多輪交互，為提高效率，這些過程直接重用前幾輪的KVCache，路由掩碼緩存使R3能在強化學習代理任務中保持高效，無需重新預填充以生成路由掩碼。

為證明R3在縮小訓練 - 推理差異上的有效性，研究人員使用Qwen3 - 30B - A3B模型進行驗證，將推理過程中獲得的路由分布緩存在SGLang上，并在Megatron框架內重放。結果顯示，應用R3后，訓練和推理之間的KL散度從1.5×10?3減小到7.5×10??，接近稠密模型的6.4×10??水平，表明訓練 - 推理差異減少。研究人員還繪制了使用R3的訓練 - 推理差異比率的累積分布圖，對于MoE模型，應用R3可將具有較大訓練推理差異的token的頻率降低一個數量級。

為評估R3對強化學習的性能改進，研究人員從BigMath、ORZ等開源數據集篩選約10萬道可驗證數學題，采用AIME24、AIME25、AMC23和MATH500作為基準數據集進行評估，并在單次訓練過程中每5個全局步驟測量一次模型性能。選擇的模型是Qwen3 - 30B - A3B - Base及其微調模型Qwen3 - 30B - A3B - SFT。評估方式是每5個全局步驟記錄模型性能，最終報告最佳性能及對應訓練步驟，若模型后期性能驟降，同時追蹤訓練崩盤步驟。

實驗結果顯示，在整體性能上，R3在多步更新場景中表現突出，GRPO + R3平均得分68.05分，比GSPO高出1.29分；GSPO + R3進一步提升至69.00分，比單獨GSPO高2.24分。在單步更新場景中，SFT模型上，GRPO + R3平均得分71.83分，比GRPO（62.23）高9.6分，比GRPO + TIS（66.24）高5.59分；Base模型上，GRPO + R3平均得分70.73，比GRPO（61.69）高9.04分。研究人員還發現，將R3與TIS結合使用并不能帶來明顯的性能提升，甚至可能降低性能，例如在SFT模型的單小步設置下，TIS + R3的得分比單獨使用R3低1.69分，這是因為R3已顯著降低了訓練和推理之間的策略差異，TIS的額外校正效果微乎其微。

在訓練穩定性方面，GRPO、GRPO + TIS等無R3的方法在單步更新場景中均出現崩盤，GRPO在60步崩盤、GRPO + TIS在105步崩盤。而引入R3后，所有組合方法均無崩盤，且訓練過程中訓練 - 推理KL散度等始終較低。

在優化與生成行為方面，R3在訓練過程中能增強優化穩定性、探索行為和生成動態。研究人員繪制的單步 + 基礎模型組訓練過程中的序列長度、梯度范數、生成熵和評估分數顯示，R3具有更小的梯度范數、更平滑的序列增長模式和更穩定的熵。使用R3時，生成的序列長度在訓練開始時迅速上升，表明R3能快速捕捉到正確的優化方向，相比之下其他兩個訓練過程在第80步之后才緩慢上升，且波動更為明顯；R3始終保持較低的梯度范數，表明優化過程更加穩定；使用R3時，熵在大約第25步后開始穩步上升，表明模型更早地開始探索更優策略，不使用R3時，熵上升得更晚，且波動較大。

MoE架構已成為擴展現代語言模型的基石，它采用門控網絡，對每個token稀疏地僅激活一部分專家參數，將模型的總參數數量與其推理成本分離開來，大幅提升了模型容量。但由于門控網絡的敏感性，MoE模型容易受到訓練不穩定性的影響，路由穩健性成為有效模型收斂的核心挑戰。此次論文中研究人員在訓練過程中重用推理時的路由分布，在保留梯度流的同時對齊專家選擇，為行業提供了新的研究思路。

更多>同類內容

雷軍親駕小米汽車挑戰盤龍古道，連續急彎中盡顯車輛卓越性能

10-13

小米測試車隊新疆盤龍古道“闖關”，雷軍親駕驗車顯技術實力

10-13

小米汽車深度適配蘋果生態：CarPlay體驗升級，Apple Music賬號永久同步暢享

09-21

NVIDIA與英特爾強強聯手：共筑AI計算新生態開啟計算新時代

09-19

2025年6-8月國內千元機市場：vivo奪冠，榮耀緊隨，小米跌至第四

09-19

榮耀新品陣容曝光：Magic8系列領銜，GT2、500及Power2等多款新機將至

09-19

小米YU7高性能版現身紐北賽道，或命名YU7 GT/Ultra，動力性能升級引期待

09-19

?英偉達50億美元注資英特爾攜手開發芯片或重塑半導體產業格局?

09-19

蘋果iPhone 17及Pro系列預售新機啟動發貨，9月19日將正式開售

09-18

拜雅AVENTHO 100無線頭戴評測：均衡音質與貼心設計，打造日常好伴侶

09-18

一加新機或配行業首塊超高刷高分屏京東方獨家定制屏幕成亮點

09-18

watchOS 26為Apple Watch添慢速充電提示，助你明晰充電狀況享高效

09-17

蘋果推送iOS 26正式版：安裝后電池續航或受影響幾天內可恢復

09-17

商務部反傾銷調查啟動，國產模擬芯片乘勢而上，加速崛起正當時

09-17

英特爾中國董事長王銳9月退休，領導層交接恰逢入華四十周年

09-17

點擊查看更多 +

推薦圖文

推薦內容

點擊排行

網站首頁 | 關于我們 | 聯系方式 | 加入我們 | 合作伙伴 | 隱私政策 | APP下載 | 媒體大全

虎科技 - 領先的互聯網科技媒體 - 聚合優質的創新信息與人群,捕獲精選、深度、犀利的商業科技資訊，不錯過互聯網的每個重要時刻。
合作微信：netspread，添加時務必注明虎科技
Copyright ? 2010-2021 HUKEJI.COM - All rights reserved. 魯ICP備11015305號-21

ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群