国产美女野战在线播放-国产乱人av一区二区三区-日韩一区二区三区在线视频观看-小黄片无码在线观看视频-澳门蜜桃av成人av-久久青青草线视频免费观看-最新亚洲天堂资源av-国产大学生自拍三级视频-成人影院在线免费观看视频

  • 中文科技資訊 CWX中文科技資訊官方網(wǎng)站!

DeepMind新突破:AI智能體自主發(fā)現(xiàn)RL算法,性能超主流算法

   時間:2025-10-28 15:22 來源:快訊作者:趙云飛

當人工智能(AI)開始具備自主“進化”能力,人類在技術發(fā)展中的角色或?qū)⒈恢匦露x。近日,Google DeepMind團隊在權威科學期刊《自然》上發(fā)表了一項突破性研究,提出了一種名為DiscoRL的全新方法,使智能體(Agent)能夠在多環(huán)境交互中自主發(fā)現(xiàn)強化學習(RL)規(guī)則,無需依賴人類設計的算法。實驗表明,該方法在Atari游戲基準測試中超越了MuZero等主流RL算法,并在未見過的環(huán)境中展現(xiàn)出高效穩(wěn)定的性能。

強化學習是AI實現(xiàn)自主決策的核心技術之一,但長期以來,如何讓智能體自主開發(fā)高效的RL算法一直是研究難點。傳統(tǒng)方法依賴人類專家設計算法,不僅耗時費力,且難以適應復雜多變的環(huán)境。DeepMind團隊提出的DiscoRL通過多代智能體在不同環(huán)境中的交互經(jīng)驗,實現(xiàn)了RL規(guī)則的自主發(fā)現(xiàn)。其核心在于結(jié)合智能體優(yōu)化與元優(yōu)化:智能體通過更新策略和預測優(yōu)化自身參數(shù),元網(wǎng)絡則通過調(diào)整學習規(guī)則的目標,最大化智能體的累積獎勵。

具體而言,智能體的訓練過程涉及兩類優(yōu)化:在智能體優(yōu)化階段,研究團隊采用Kullback–Leibler散度衡量策略與預測的差距,確保訓練穩(wěn)定性。智能體會輸出策略(π)、觀測預測(y)、動作預測(z)等結(jié)果,元網(wǎng)絡為其生成學習目標,智能體據(jù)此更新自身參數(shù)。同時,模型引入輔助損失函數(shù),優(yōu)化動作價值與策略預測,提升學習效率。在元優(yōu)化階段,多個智能體在不同環(huán)境中獨立學習,元網(wǎng)絡根據(jù)整體表現(xiàn)計算元梯度,調(diào)整自身參數(shù)以最大化累積回報。智能體參數(shù)定期重置,使學習規(guī)則能在有限時間內(nèi)快速提升性能。

為驗證DiscoRL的有效性,研究團隊以四分位數(shù)平均值(IQM)作為綜合性能指標,在Atari基準測試中進行了評估?;?7款Atari游戲訓練的Disco57規(guī)則,在相同游戲中的IQM得分達13.86,超越了MuZero、Dreamer等現(xiàn)有算法,且在實際運行效率上顯著優(yōu)于MuZero。進一步測試顯示,Disco57在16個ProcGen二維游戲、Crafter基準測試中均表現(xiàn)出色,并在NetHack NeurIPS 2021挑戰(zhàn)賽中獲得第三名,且未使用任何領域特定知識。

研究還發(fā)現(xiàn),環(huán)境復雜性與多樣性對RL規(guī)則的泛化能力具有關鍵影響?;贏tari、ProcGen和DMLab-30三個基準(共103個環(huán)境)發(fā)現(xiàn)的Disco103規(guī)則,在Crafter基準上達到人類水平表現(xiàn),并在Sokoban任務中接近MuZero的最先進性能。這表明,參與訓練的環(huán)境越復雜多樣,所發(fā)現(xiàn)的RL規(guī)則越強大,即使面對未見過的環(huán)境也能保持高效。

在效率與穩(wěn)定性方面,DiscoRL同樣表現(xiàn)突出。最優(yōu)版本的Disco57規(guī)則在每個Atari游戲約6億步內(nèi)被發(fā)現(xiàn),相當于在57個游戲中進行3輪實驗,遠低于傳統(tǒng)人工設計算法所需的實驗次數(shù)和人力投入。隨著訓練環(huán)境數(shù)量增加,DiscoRL在未見過的ProcGen基準上的性能持續(xù)提升,顯示出強大的擴展性。

DeepMind團隊指出,未來高級AI的RL算法設計可能由機器主導,通過高效擴展數(shù)據(jù)與計算能力實現(xiàn)自動化,無需人類干預。這一突破雖為學術領域帶來新潛力,但也引發(fā)了對技術社會影響的擔憂——當前社會尚未完全準備好應對此類技術的廣泛應用。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容