国产美女野战在线播放-国产乱人av一区二区三区-日韩一区二区三区在线视频观看-小黄片无码在线观看视频-澳门蜜桃av成人av-久久青青草线视频免费观看-最新亚洲天堂资源av-国产大学生自拍三级视频-成人影院在线免费观看视频

  • 中文科技資訊 CWX中文科技資訊官方網(wǎng)站!

AlphaGo之父團(tuán)隊(duì)新突破:AI自主發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)規(guī)則,性能超越人工設(shè)計(jì)

   時(shí)間:2025-10-29 00:57 來(lái)源:快訊作者:唐云澤

強(qiáng)化學(xué)習(xí)作為人工智能領(lǐng)域的核心方向之一,近年來(lái)持續(xù)受到全球科研機(jī)構(gòu)的關(guān)注。谷歌DeepMind團(tuán)隊(duì)在《自然》雜志發(fā)表的研究成果,為該領(lǐng)域開(kāi)辟了全新路徑——通過(guò)元學(xué)習(xí)機(jī)制,機(jī)器首次實(shí)現(xiàn)了自主設(shè)計(jì)強(qiáng)化學(xué)習(xí)算法,并在多個(gè)基準(zhǔn)測(cè)試中超越人類專家設(shè)計(jì)的頂尖算法。

研究團(tuán)隊(duì)構(gòu)建的元學(xué)習(xí)框架包含雙重優(yōu)化機(jī)制:智能體優(yōu)化層負(fù)責(zé)調(diào)整策略網(wǎng)絡(luò)參數(shù),元優(yōu)化層則通過(guò)元網(wǎng)絡(luò)動(dòng)態(tài)生成學(xué)習(xí)目標(biāo)。這種設(shè)計(jì)突破了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法需要人工設(shè)計(jì)損失函數(shù)的局限,轉(zhuǎn)而通過(guò)智能體在復(fù)雜環(huán)境中的交互經(jīng)驗(yàn),自動(dòng)推導(dǎo)出最優(yōu)學(xué)習(xí)規(guī)則。實(shí)驗(yàn)數(shù)據(jù)顯示,在包含57個(gè)Atari游戲的基準(zhǔn)測(cè)試中,新算法Disco57的歸一化分?jǐn)?shù)中位數(shù)達(dá)到13.86,顯著優(yōu)于MuZero等現(xiàn)有SOTA算法,同時(shí)計(jì)算效率提升40%以上。

研究的核心創(chuàng)新在于構(gòu)建了可擴(kuò)展的預(yù)測(cè)空間。智能體網(wǎng)絡(luò)不僅輸出傳統(tǒng)策略π,還同時(shí)生成基于觀測(cè)的向量預(yù)測(cè)y(s)和基于動(dòng)作的向量預(yù)測(cè)z(s,a)。這種設(shè)計(jì)靈感源自強(qiáng)化學(xué)習(xí)中"預(yù)測(cè)"與"控制"的二元性——價(jià)值函數(shù)分為狀態(tài)價(jià)值v(s)和動(dòng)作價(jià)值q(s,a),獎(jiǎng)勵(lì)預(yù)測(cè)和后繼特征等概念也存在類似的觀測(cè)-動(dòng)作二分結(jié)構(gòu)。通過(guò)元網(wǎng)絡(luò)處理智能體軌跡數(shù)據(jù),系統(tǒng)能夠自動(dòng)發(fā)現(xiàn)傳統(tǒng)算法中未定義的預(yù)測(cè)維度。

實(shí)驗(yàn)驗(yàn)證環(huán)節(jié)展現(xiàn)了算法的強(qiáng)大泛化能力。在未經(jīng)訓(xùn)練的ProcGen程序生成游戲測(cè)試中,Disco57在16個(gè)不同風(fēng)格的游戲中均取得最優(yōu)表現(xiàn),證明其能夠適應(yīng)全新的觀測(cè)空間和獎(jiǎng)勵(lì)結(jié)構(gòu)。更引人注目的是,在Crafter生存挑戰(zhàn)中,算法展現(xiàn)出類似人類的學(xué)習(xí)能力,通過(guò)自主探索掌握了資源采集、工具制造等復(fù)雜技能。這些環(huán)境與訓(xùn)練階段使用的Atari游戲在視覺(jué)風(fēng)格、操作機(jī)制和獎(jiǎng)勵(lì)設(shè)計(jì)上存在顯著差異,充分驗(yàn)證了算法的跨領(lǐng)域適應(yīng)性。

技術(shù)實(shí)現(xiàn)層面,元網(wǎng)絡(luò)采用LSTM架構(gòu)處理智能體軌跡,輸入包含連續(xù)n步的預(yù)測(cè)值、策略分布、即時(shí)獎(jiǎng)勵(lì)和終止信號(hào)。這種設(shè)計(jì)確保算法能夠處理任意大小的離散動(dòng)作空間,并通過(guò)權(quán)重共享機(jī)制實(shí)現(xiàn)動(dòng)作維度的通用處理。實(shí)驗(yàn)表明,元網(wǎng)絡(luò)定義的搜索空間完整保留了引導(dǎo)更新(bootstrapping)等核心算法思想,同時(shí)通過(guò)神經(jīng)網(wǎng)絡(luò)的表達(dá)能力,實(shí)現(xiàn)了比標(biāo)量損失函數(shù)更精細(xì)的上下文感知更新。

進(jìn)一步分析揭示了算法的獨(dú)特機(jī)制。定性觀察顯示,新發(fā)現(xiàn)的預(yù)測(cè)維度在獎(jiǎng)勵(lì)獲取和策略熵變化等關(guān)鍵事件前會(huì)出現(xiàn)顯著波動(dòng),表明系統(tǒng)能夠自主識(shí)別任務(wù)中的重要狀態(tài)。信息論分析證實(shí),這些預(yù)測(cè)包含傳統(tǒng)價(jià)值函數(shù)未捕捉的未來(lái)獎(jiǎng)勵(lì)和策略不確定性信息。當(dāng)人為阻斷元網(wǎng)絡(luò)的未來(lái)預(yù)測(cè)輸入時(shí),算法性能出現(xiàn)斷崖式下降,驗(yàn)證了引導(dǎo)機(jī)制對(duì)當(dāng)前目標(biāo)計(jì)算的關(guān)鍵作用。

研究團(tuán)隊(duì)通過(guò)擴(kuò)大訓(xùn)練環(huán)境規(guī)模持續(xù)優(yōu)化算法性能。使用包含Atari、ProcGen和DMLab-30的103個(gè)環(huán)境訓(xùn)練的Disco103算法,在所有測(cè)試基準(zhǔn)上均取得提升,特別是在Crafter環(huán)境中達(dá)到人類水平表現(xiàn)。這種隨著環(huán)境復(fù)雜度增加而提升的性能特征,表明算法具備持續(xù)進(jìn)化的潛力。效率分析顯示,每個(gè)Atari游戲約6億步的訓(xùn)練量即可產(chǎn)生最優(yōu)規(guī)則,遠(yuǎn)低于傳統(tǒng)算法開(kāi)發(fā)所需的人工調(diào)試時(shí)間。

 
 
更多>同類內(nèi)容
全站最新
熱門(mén)內(nèi)容