Skip to content

第五章:安德鲁·巴托 & 理查德·萨顿

两个"叛逆者"改写人工智能的历史

强化学习的缔造者

1948年安德鲁·巴托出生于美国 约1957年理查德·萨顿出生于美国俄亥俄州托莱多

1970年巴托获密歇根大学数学学士学位(曾主修船舶建筑与工程,后转向数学与计算机) 1975年巴托获密歇根大学计算机与通信科学博士学位 1977年巴托加入马萨诸塞大学阿默斯特分校,任博士后研究员 1978年萨顿获斯坦福大学心理学学士学位 1980年萨顿获马萨诸塞大学阿默斯特分校计算机科学硕士学位 1983年巴托、萨顿与查尔斯·安德森共同提出"Actor-Critic"架构(强化学习框架) 1984年萨顿获马萨诸塞大学阿默斯特分校计算机科学博士学位,导师为巴托 1988年萨顿发表里程碑论文,正式提出"时间差分学习"(TD Learning) 1998年两人合著的《强化学习导论》第一版由MIT Press出版 2003年萨顿加入阿尔伯塔大学,任计算机科学教授 2018年《强化学习导论》第二版出版 2024年巴托与萨顿因"开发强化学习的概念与算法基础"共同获得ACM图灵奖


安德鲁·巴托 (Andrew Barto)

计算机科学家,强化学习先驱

信息内容
出生1948年,美国
学历密歇根大学计算机与通信科学博士
贡献Actor-Critic架构、时间差分学习
荣誉2024年ACM图灵奖

巴托是强化学习领域的奠基人之一。他与萨顿的合作奠定了现代强化学习的理论基础。


理查德·萨顿 (Richard Sutton)

计算机科学家,强化学习先驱

信息内容
出生约1957年,美国俄亥俄州托莱多
学历马萨诸塞大学阿默斯特分校计算机科学博士
贡献时间差分学习(TD Learning)、强化学习导论
荣誉2024年ACM图灵奖

萨顿被誉为"强化学习之父",他的研究深刻影响了现代人工智能的发展方向。


核心贡献:强化学习

什么是强化学习?

强化学习是一种机器学习方法,智能体通过与环境交互,学习最优策略以最大化累积奖励。

"强化学习的基本思想很简单:奖励好的行为,惩罚坏的行为。"

关键概念

  • 智能体(Agent):学习和决策的主体
  • 环境(Environment):智能体所处的世界
  • 动作(Action):智能体可以采取的行为
  • 奖励(Reward):环境对动作的反馈
  • 策略(Policy):智能体选择动作的规则

时间差分学习(TD Learning)

1988年,萨顿提出了时间差分学习,这是一种结合了蒙特卡洛方法和动态规划的强化学习方法。


历史意义

巴托和萨顿的工作为现代强化学习奠定了理论基础,他们合著的《强化学习导论》是该领域的经典教材。

2024年,他们因"开发强化学习的概念与算法基础"共同获得ACM图灵奖,这是对他们毕生贡献的最高认可。


本章内容基于公开资料整理

版权所有 © 2024-2026 AI名人传