2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
想象和計劃的代表:這是本月早些時候六個DeepMind團隊成員的DeepMind討論的標題。
他們在兩個論文上完成了DeepMind研究工作的方向,現在正在arXiv上。

他們說,在你采取行動之前想象你行為的后果是人類認知的有力工具。(我們每天都這樣做。就像那個筆在你桌面的邊緣搖搖晃晃。你可以“想象”它落下,所以你把它移到一個更安全的位置。)
“如果我們的算法要發展同樣復雜的行為,他們也必須具備'想象'和推理未來的能力。”
正如Thomas Claburn在The Register中指出的那樣,DeepMind“已經發現,用想象力灌輸其軟件代理可以幫助他們更好地學習。”
什么樣的想象。
如果你研究報道這項研究的新聞網站,你會發現他們會仔細地說出它是什么以及它不是什么,而是使用諸如想象力 - “喜歡”和想象力 - “基于”這樣的短語。
他們從根本上研究了改進深層強化學習的新技術。
克拉本用非常清晰的語言翻譯了他們正在做的事情:
“強化學習是機器學習的一種形式。它涉及一種軟件代理,通過與特定環境的交互來學習,通常是通過反復試驗。深度學習是一種機器形式,涉及受人類大腦啟發的算法,稱為神經網絡。這兩種技術可以一起使用。“ 他說,DeepMind的工作試圖提供兩全其美的優勢。
代理人從像素表示中播放Sokoban,而不知道游戲規則。在特定的時間點,我們想象代理人對五種可能未來的想象。根據該信息,代理商決定采取什么行動。突出顯示相應的軌跡。閱讀DeepMind博客:想象和計劃的代理商
在現實世界中,復雜性規則。說到規則,在現實生活中,它們并沒有如此清晰地定義。事情發生你無法輕易預測。至于規劃策略,我們非常清楚,一個通用的答案并不總是適用于真實的環境。
代理商如何處理復雜問題?團隊成員有兩篇論文涉及這一切。他們描述了一系列基于想象力的計劃方法。引入了體系結構,以便代理商學習和構建計劃以最大化任務效率的新方法。
關于這些代理人的一個更有趣的特征描述是“他們可以學習不同的策略來構建計劃。他們通過在繼續當前的想象軌跡或從頭開始重新選擇之間做出選擇。”
他們還可以使用不同的想象模型,“具有不同的精度和計算成本。”
研究人員測試了任務的架構,包括益智游戲推箱子和宇宙飛船導航游戲。
推箱子視頻說明:一名經紀人從像素表示中扮演推箱子,不知道游戲規則。
宇宙飛船任務的注意事項:DeepMind的帖子帶有一個“代理人玩太空飛船任務的視覺效果。紅線表示在環境中執行的軌跡,而藍色和綠色表示想象的軌跡。”
結果?
“對于這兩項任務,想象力增強的特工大大優于無想象力的基線:他們以較少的經驗學習,能夠應對環境建模的不完美之處。”
正如TNW的亞歷杭德羅·陶伯所說,“這些論文中描述的想象力類型遠不及人類所能達到的那種,但它確實表明,人工智能可以并且能夠在行動之前有效地想象不同的場景。”
關于論文:“想象力增強的深層強化學習代理”本月在arXiv上提交。
他們表示,這些代理人通過“學習解釋”他們的不完美預測來使用近似環境模型,并且他們的算法可以直接在低級別的觀察上進行訓練,只需很少的領域知識。
“在不對環境模型的結構及其可能的不完善性做出任何假設的情況下,我們的方法以端到端的方式學習,從模型模擬中提取有用的知識 - 特別是不依賴于模擬的回報。”
另一篇論文是“從零開始學習基于模型的規劃”,本月也提交了arXiv。“我們表明,我們的架構可以學習解決具有挑戰性的連續控制問題,并在離散的迷宮解決任務中學習精心策劃的策略。”
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)