第五章:安德鲁·巴托 & 理查德·萨顿
两个"叛逆者"改写人工智能的历史
强化学习的缔造者
1948年安德鲁·巴托出生于美国 约1957年理查德·萨顿出生于美国俄亥俄州托莱多
1970年巴托获密歇根大学数学学士学位(曾主修船舶建筑与工程,后转向数学与计算机) 1975年巴托获密歇根大学计算机与通信科学博士学位 1977年巴托加入马萨诸塞大学阿默斯特分校,任博士后研究员 1978年萨顿获斯坦福大学心理学学士学位 1980年萨顿获马萨诸塞大学阿默斯特分校计算机科学硕士学位 1983年巴托、萨顿与查尔斯·安德森共同提出"Actor-Critic"架构(强化学习框架) 1984年萨顿获马萨诸塞大学阿默斯特分校计算机科学博士学位,导师为巴托 1988年萨顿发表里程碑论文,正式提出"时间差分学习"(TD Learning) 1998年两人合著的《强化学习导论》第一版由MIT Press出版 2003年萨顿加入阿尔伯塔大学,任计算机科学教授 2018年《强化学习导论》第二版出版 2024年巴托与萨顿因"开发强化学习的概念与算法基础"共同获得ACM图灵奖
安德鲁·巴托 (Andrew Barto)
计算机科学家,强化学习先驱
| 信息 | 内容 |
|---|---|
| 出生 | 1948年,美国 |
| 学历 | 密歇根大学计算机与通信科学博士 |
| 贡献 | Actor-Critic架构、时间差分学习 |
| 荣誉 | 2024年ACM图灵奖 |
巴托是强化学习领域的奠基人之一。他与萨顿的合作奠定了现代强化学习的理论基础。
理查德·萨顿 (Richard Sutton)
计算机科学家,强化学习先驱
| 信息 | 内容 |
|---|---|
| 出生 | 约1957年,美国俄亥俄州托莱多 |
| 学历 | 马萨诸塞大学阿默斯特分校计算机科学博士 |
| 贡献 | 时间差分学习(TD Learning)、强化学习导论 |
| 荣誉 | 2024年ACM图灵奖 |
萨顿被誉为"强化学习之父",他的研究深刻影响了现代人工智能的发展方向。
核心贡献:强化学习
什么是强化学习?
强化学习是一种机器学习方法,智能体通过与环境交互,学习最优策略以最大化累积奖励。
"强化学习的基本思想很简单:奖励好的行为,惩罚坏的行为。"
关键概念
- 智能体(Agent):学习和决策的主体
- 环境(Environment):智能体所处的世界
- 动作(Action):智能体可以采取的行为
- 奖励(Reward):环境对动作的反馈
- 策略(Policy):智能体选择动作的规则
时间差分学习(TD Learning)
1988年,萨顿提出了时间差分学习,这是一种结合了蒙特卡洛方法和动态规划的强化学习方法。
历史意义
巴托和萨顿的工作为现代强化学习奠定了理论基础,他们合著的《强化学习导论》是该领域的经典教材。
2024年,他们因"开发强化学习的概念与算法基础"共同获得ACM图灵奖,这是对他们毕生贡献的最高认可。
本章内容基于公开资料整理
