第五章：安德鲁·巴托 & 理查德·萨顿

两个"叛逆者"改写人工智能的历史

强化学习的缔造者

1948年安德鲁·巴托出生于美国约1957年理查德·萨顿出生于美国俄亥俄州托莱多

1970年巴托获密歇根大学数学学士学位（曾主修船舶建筑与工程，后转向数学与计算机） 1975年巴托获密歇根大学计算机与通信科学博士学位 1977年巴托加入马萨诸塞大学阿默斯特分校，任博士后研究员 1978年萨顿获斯坦福大学心理学学士学位 1980年萨顿获马萨诸塞大学阿默斯特分校计算机科学硕士学位 1983年巴托、萨顿与查尔斯·安德森共同提出"Actor-Critic"架构（强化学习框架） 1984年萨顿获马萨诸塞大学阿默斯特分校计算机科学博士学位，导师为巴托 1988年萨顿发表里程碑论文，正式提出"时间差分学习"（TD Learning） 1998年两人合著的《强化学习导论》第一版由MIT Press出版 2003年萨顿加入阿尔伯塔大学，任计算机科学教授 2018年《强化学习导论》第二版出版 2024年巴托与萨顿因"开发强化学习的概念与算法基础"共同获得ACM图灵奖

安德鲁·巴托 (Andrew Barto)

计算机科学家，强化学习先驱

信息	内容
出生	1948年，美国
学历	密歇根大学计算机与通信科学博士
贡献	Actor-Critic架构、时间差分学习
荣誉	2024年ACM图灵奖

巴托是强化学习领域的奠基人之一。他与萨顿的合作奠定了现代强化学习的理论基础。

理查德·萨顿 (Richard Sutton)

计算机科学家，强化学习先驱

信息	内容
出生	约1957年，美国俄亥俄州托莱多
学历	马萨诸塞大学阿默斯特分校计算机科学博士
贡献	时间差分学习（TD Learning）、强化学习导论
荣誉	2024年ACM图灵奖

萨顿被誉为"强化学习之父"，他的研究深刻影响了现代人工智能的发展方向。

核心贡献：强化学习

什么是强化学习？

强化学习是一种机器学习方法，智能体通过与环境交互，学习最优策略以最大化累积奖励。

"强化学习的基本思想很简单：奖励好的行为，惩罚坏的行为。"

关键概念

智能体（Agent）：学习和决策的主体
环境（Environment）：智能体所处的世界
动作（Action）：智能体可以采取的行为
奖励（Reward）：环境对动作的反馈
策略（Policy）：智能体选择动作的规则

时间差分学习（TD Learning）

1988年，萨顿提出了时间差分学习，这是一种结合了蒙特卡洛方法和动态规划的强化学习方法。

历史意义

巴托和萨顿的工作为现代强化学习奠定了理论基础，他们合著的《强化学习导论》是该领域的经典教材。

2024年，他们因"开发强化学习的概念与算法基础"共同获得ACM图灵奖，这是对他们毕生贡献的最高认可。

本章内容基于公开资料整理

第五章：安德鲁·巴托 & 理查德·萨顿 ​

两个"叛逆者"改写人工智能的历史 ​

强化学习的缔造者 ​

安德鲁·巴托 (Andrew Barto) ​

理查德·萨顿 (Richard Sutton) ​

核心贡献：强化学习 ​

什么是强化学习？ ​

关键概念 ​

时间差分学习（TD Learning） ​

历史意义 ​