鉅亨網新聞中心 2025-03-05 22:10
2024圖靈獎頒予兩位「強化學習」先驅 為AlphaGo、ChatGPT等成功的背後功臣(圖:shutterstock)
全球最大的教育和科學計算學會 ACM(國際電腦學會)5 日宣布,將 2024 年 ACM A.M. 圖靈獎授予巴托 (Andrew G. Barto) 和薩頓 (Richard S. Sutton),以表彰他們在強化學習 (reinforcement learning) 的概念和演算法基礎方面的開創性發展。
巴托和薩頓在一系列始於 1980 年代的論文中,提出了強化學習的主要思想,構建了其數學基礎,並開發了重要的演算法,強化學習是創建智慧系統的最重要方法之一。
巴托是麻薩諸塞大學阿默斯特分校資訊與電腦科學系的榮譽教授。薩頓是亞伯達大學的電腦科學教授、Keen Technologies 的研究科學家,以及 Amii(亞伯達機器智慧研究所) 的研究員。
ACM A.M. 圖靈獎通常被譽為「計算領域的諾貝爾獎」,獎金為 100 萬美元,由 Google 公司提供贊助。該獎項以英國數學家艾倫 · 圖靈 (Alan M. Turing) 的名字命名,他闡明了計算的數學基礎。
什麼是強化學習?
人工智慧 (AI) 領域通常關注於構建能夠感知和行動的代理 (agents)。更智慧的代理是那些能夠選擇更好行動方案的代理。因此,「某些行動方案比其他方案更好」的概念是人工智慧的核心。獎勵 (reward)——一個借鑒自心理學和神經科學的術語——指的是提供給代理的與其行為質量相關的信號。強化學習 (RL) 是根據這個信號學習更成功行為的過程。
從獎勵中學習的想法在數千年前就為動物訓練師所熟知。後來,艾倫 · 圖靈 1950 年的論文《計算機器與智慧》(Computing Machinery and Intelligence) 提出了「機器能思考嗎?」的問題,並提出了一種基於獎勵和懲罰的機器學習方法。
雖然圖靈報告說曾對這種方法進行了一些初步實驗,並且亞瑟 · 塞繆爾 (Arthur Samuel) 在 1950 年代後期開發了一個通過自我對弈學習的西洋棋程式,但在隨後的幾十年裡,人工智慧的這個分支幾乎沒有進展。1980 年代初,受到心理學觀察的啟發,巴托和他的博士生薩頓開始將強化學習公式化為一個通用的問題框架。
他們借鑑了馬可夫決策過程 (Markov decision processes,MDPs) 提供的數學基礎,在 MDP 中,代理在隨機 (隨機確定) 的環境中做出決策,在每次轉移後接收獎勵信號,並旨在最大化其長期累積獎勵。標準 MDP 理論假設代理知道關於 MDP 的一切,而 RL 框架允許環境和獎勵是未知的。RL 的最低資訊要求,加上 MDP 框架的通用性,使得 RL 演算法能夠應用於廣泛的問題。
巴托和薩頓的貢獻
巴托和薩頓,單獨地以及與其他人一起,開發了許多基本的 RL 演算法方法。其中包括他們最重要的貢獻,時間差分學習 (temporal difference learning),這在解決獎勵預測問題方面取得了重要進展。他們還提出了策略梯度方法 (policy-gradient methods) 以及使用神經網路作為表示學習函數的工具。他們還提出了結合學習和規劃的代理設計,展示了獲取環境知識作為規劃基礎的價值。
或許同樣具有影響力的是他們的教科書《強化學習:導論》(Reinforcement Learning: An Introduction)(1998 年),至今仍是該領域的標準參考文獻,已被引用超過 75000 次。它使成千上萬的研究人員能夠理解並貢獻於這個新興領域,並且至今仍在激發著電腦科學領域許多重要的研究活動。
儘管巴托和薩頓的演算法是在幾十年前開發的,但強化學習在實際應用中的重大進展發生在過去十五年中,這是通過將 RL 與深度學習演算法 (由 2018 年圖靈獎得主本吉奧、辛頓和李昆率先提出) 相結合實現的。這導致了深度強化學習 (deep reinforcement learning) 技術的出現。
RL 最突出的例子是 AlphaGo 電腦程式在 2016 年和 2017 年戰勝了最優秀的人類圍棋棋手。最近的另一個重大成就是 ChatGPT 聊天機器人的開發。