国产美女野战在线播放-国产乱人av一区二区三区-日韩一区二区三区在线视频观看-小黄片无码在线观看视频-澳门蜜桃av成人av-久久青青草线视频免费观看-最新亚洲天堂资源av-国产大学生自拍三级视频-成人影院在线免费观看视频

  • 中文科技資訊 CWX中文科技資訊官方網(wǎng)站!

月之暗面發(fā)布新論文:AttnRes模塊亮相,深度學(xué)習(xí)2.0時(shí)代或?qū)砼R

   時(shí)間:2026-03-18 06:55 來源:快訊作者:楊凌霄

在深度學(xué)習(xí)領(lǐng)域,一場(chǎng)關(guān)于模型架構(gòu)創(chuàng)新的討論正愈演愈烈。近日,月之暗面團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性研究,提出了一種名為注意力殘差(Attention Residuals,簡(jiǎn)稱AttnRes)的新型模型模塊,為深度學(xué)習(xí)模型的發(fā)展開辟了新路徑。這一成果不僅引發(fā)了學(xué)界和業(yè)界的廣泛關(guān)注,更得到了前OpenAI核心成員Jerry Tworek等知名學(xué)者的高度評(píng)價(jià)。

傳統(tǒng)Transformer架構(gòu)中,殘差連接是確保深層網(wǎng)絡(luò)穩(wěn)定訓(xùn)練的關(guān)鍵設(shè)計(jì)。每一層的輸出會(huì)直接與前一層相加,形成"等權(quán)累加"的機(jī)制。這種設(shè)計(jì)雖然解決了梯度消失問題,但隨著模型層數(shù)增加,歷史層信息被簡(jiǎn)單疊加,導(dǎo)致深層網(wǎng)絡(luò)表達(dá)能力受限。月之暗面的研究團(tuán)隊(duì)敏銳地捕捉到了這一局限性,提出用動(dòng)態(tài)注意力機(jī)制替代固定殘差連接的創(chuàng)新方案。

AttnRes的核心突破在于引入了可學(xué)習(xí)的權(quán)重分配機(jī)制。每層網(wǎng)絡(luò)不再被動(dòng)接受前層輸出,而是通過注意力機(jī)制主動(dòng)"檢索"歷史層中最有價(jià)值的信息。這種設(shè)計(jì)使模型能夠根據(jù)當(dāng)前上下文動(dòng)態(tài)調(diào)整信息聚合方式,有效緩解了深層網(wǎng)絡(luò)中的信息稀釋問題。研究團(tuán)隊(duì)進(jìn)一步提出的塊級(jí)注意力殘差(Block AttnRes)結(jié)構(gòu),通過將網(wǎng)絡(luò)劃分為多個(gè)計(jì)算塊,在保持靈活性的同時(shí)顯著降低了計(jì)算復(fù)雜度。

實(shí)驗(yàn)數(shù)據(jù)顯示,將AttnRes集成到480億參數(shù)的Kimi Linear架構(gòu)后,模型在1.4萬億token的預(yù)訓(xùn)練中展現(xiàn)出顯著優(yōu)勢(shì)。在數(shù)學(xué)推理、科學(xué)問答等復(fù)雜任務(wù)上,新模型性能提升超過20%,特別是在多步推理基準(zhǔn)測(cè)試GPQA-Diamond中表現(xiàn)尤為突出。更令人矚目的是,Block AttnRes在驗(yàn)證損失上達(dá)到1.692,相比基線模型1.714的成績(jī),相當(dāng)于提升了約25%的計(jì)算效率。

這項(xiàng)創(chuàng)新不僅體現(xiàn)在理論層面,更在工程實(shí)現(xiàn)上取得突破。研究團(tuán)隊(duì)針對(duì)Block AttnRes帶來的通信開銷問題,開發(fā)了跨階段緩存機(jī)制,將訓(xùn)練階段的額外開銷控制在4%以內(nèi)。在推理階段,通過兩階段計(jì)算策略和序列分片技術(shù),使內(nèi)存延遲增加不超過2%,同時(shí)顯著降低了長(zhǎng)上下文場(chǎng)景下的顯存需求。這些優(yōu)化措施確保了新技術(shù)在實(shí)際應(yīng)用中的可行性。

據(jù)研究團(tuán)隊(duì)介紹,該成果是數(shù)十名研究員共同協(xié)作的結(jié)晶,其中Guangyu Chen、Yu Zhang和Jialin Su三位研究員貢獻(xiàn)最為突出。這項(xiàng)突破不僅展示了中國(guó)研究團(tuán)隊(duì)在AI基礎(chǔ)架構(gòu)領(lǐng)域的創(chuàng)新能力,也為全球深度學(xué)習(xí)社區(qū)提供了值得深入探索的新方向。隨著相關(guān)研究的持續(xù)推進(jìn),注意力機(jī)制在深度維度上的應(yīng)用有望成為下一代模型架構(gòu)的關(guān)鍵特征。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新