安德鲁·巴托 & 理查德·萨顿

两个"叛逆者"与他们的试错哲学

人工智能领域有两种方法：一种是用人类的知识来教导机器，另一种是让机器自己从经验中学习。强化学习属于后者——这也是它更接近人类真正学习方式的原因。 —— 安德鲁·巴托 & 理查德·萨顿 1948年，美国。那一年，一个叫安德鲁·巴托的男孩降生了。差不多十年后，在俄亥俄州的托莱多，另一个男孩理查德·萨顿来到了这个世界。他们的人生轨迹将在马萨诸塞大学阿默斯特分校交汇。在那里，两个"叛逆者"将共同开创一个全新的领域——强化学习。而他们的思想，将在此后数十年里，深刻影响从AlphaGo到ChatGPT的每一个AI里程碑。 · · · · · ·

巴托的故事：从造船到模拟大脑

巴托最初在大学主修的是船舶建筑与工程——一个与计算机科学毫不相关的领域。然而，一次偶然的阅读改变了他的人生方向。他读到了迈克尔·阿比布、麦卡洛克和皮茨关于大脑与计算的著作。"我意识到，自己真正感兴趣的不是设计船舶，而是理解'智能'本身——用计算机和数学来模拟大脑活动。" 于是，他毅然转向数学和计算机科学。1975年，他在密歇根大学获得计算机与通信科学博士学位。他的导师之一是约翰·霍兰德——遗传算法的发明者。这种跨领域背景，培养了巴托贯通生物学与计算科学的视野。他相信，智能不是写出来的，而是从与环境的交互中涌现出来的。 · · · · · ·

萨顿的故事：被心理学点燃的探索者

萨顿第一次接触计算机是在高中时期。他被计算机的本质深深吸引：一台机器只能精确执行指令，但这是否意味着机器可以拥有"思想"？这个问题让年少的萨顿彻夜难眠。但当他进入大学时，计算机科学学位项目在美国极为稀缺。于是他选择了斯坦福大学，攻读心理学。他相信，理解人类和动物的学习机制，或许是回答"机器能否思考"这一问题的关键。在斯坦福，他读到了斯金纳的行为主义实验，突然意识到：这可能就是机器学习的答案——不是从数据中统计规律，而是通过试错来学习最优行为。 "当我读到斯金纳的行为主义实验时，我突然意识到，这可能就是机器学习的答案——不是从数据中统计规律，而是通过试错来学习最优行为。" —— 理查德·萨顿后来，他受到了一位当时鲜为人知的研究者——A. 哈里·克洛普夫的影响。克洛普夫在1970年代提出了一个在当时极为异端的观点：监督学习不足以解释智能行为；真正的智能，必须由"行为的享乐方面"——即对奖励与惩罚的趋避——来驱动。萨顿被这个观点彻底打动了。他意识到：这正是他一直在寻找的框架。 · · · · · ·

他们的相遇：1980年代，志同道合的"叛逆者"

1978年，萨顿进入马萨诸塞大学阿默斯特分校攻读研究生。他选择了巴托作为导师——一位同样认为"试错学习"是通往智能正确道路的计算机科学家。萨顿是巴托指导的第一位博士生。他们的合作天衣无缝：巴托擅长将模糊的想法转化为严谨的数学框架；萨顿则贡献了来自心理学的深刻理论洞察。当时的AI领域由"符号主义"统治，人们忙于用逻辑和规则手动编写智能。巴托和萨顿都是"叛逆者"——他们坚信，通过与环境的直接互动、通过试错来学习，是更本质的智能路径。 "我们开始合作的时候，AI领域几乎没人看好我们。大家都说'基于试错的学习'太过简单。但我们都知道，我们的方向是正确的。" —— 安德鲁·巴托

Actor-Critic：思维的双人芭蕾

1983年，巴托、萨顿与查尔斯·安德森共同提出了Actor-Critic架构。这一架构将决策分解为两个协作部分：

演员与评论家

Actor（演员）负责决策。像一个学生，面对环境不断尝试做出选择。 Critic（评论家）负责评估。像一位严厉而公正的教练，不断给演员的表现打分。

Actor观察当前状态，做出一个动作。
Critic评估这个动作的优劣，给出一个"分数"——即TD误差。
Actor根据教练的分数，调整自己的行为策略。这种"边做边评、在评价中学习"的架构，精妙地模拟了人类和动物通过实践获得技能的过程。直到今天，Actor-Critic架构仍然是强化学习最主流的算法框架之一。

时间差分学习：萨顿的核心贡献

1988年，萨顿正式提出了"时间差分学习"——TD Learning。它的核心思想极其简洁：用预测来学习预测。

什么是时间差分学习？

想象你在看一场足球赛。你不需要等到比赛结束才判断输赢。每次进球、每次红牌，你都会立刻更新对最终结果的预测。TD学习正是如此——它利用接连不断的"预测误差"，一步步逼近真实评估，像一个人不断根据新线索修正自己的看法。这种"持续更新"的机制，使得智能体能够在不确定的环境中不断优化自己的决策，逐步接近最优策略。 · · · · · ·

那本改变一切的"圣经"

1998年，巴托与萨顿合著的《Reinforcement Learning: An Introduction》由MIT Press出版。这本书系统地构建了强化学习的完整数学框架，从动态规划、蒙特卡洛方法到时间差分学习，层层递进。它不仅是教科书，更是一部学科"宪法"，定义了现代强化学习的语言和理论边界。 "我们写这本书的初衷，是为了让强化学习变得更容易理解。真正的理解，来自对原理的掌握，而不是对技巧的堆砌。" —— 巴托和萨顿这本书已被引用超过七万五千次，是全球数百所大学强化学习课程的标准教材。2018年出版的扩充第二版，至今仍是该领域的绝对权威。

萨顿的道路：从美国到加拿大

与巴托长期扎根于UMass不同，萨顿的职业生涯更为"漂泊"。在获得博士学位后，他先后在AT&T香农实验室担任首席技术人员。2003年，他做出了一个出人意料的决定——离开美国，加入加拿大阿尔伯塔大学。萨顿在后来接受采访时坦言，部分原因是"远离我所称之为的美国帝国"。他欣赏加拿大更平等的科研资助体系——不是"赢家通吃"，而是将小额资助更广泛地分配给更多研究者。 2015年，他正式加入加拿大国籍。 · · · · · ·

门徒的辉煌

在阿尔伯塔，萨顿建立了世界顶尖的强化学习研究团队。他的博士生之一——大卫·席尔瓦——后来在Google DeepMind领导开发了AlphaGo。 2016年，AlphaGo击败了围棋世界冠军李世石，震惊了世界。这是强化学习的胜利——一个来自三十年前两个"叛逆者"的想法，终于在最复杂的棋类游戏中击败了人类。 "我在萨顿教授的指导下学到的最重要的东西，不是某个具体的算法，而是一种信念——相信强化学习是通向人工智能的正确道路。" —— 大卫·席尔瓦

苦涩的教训

2019年，萨顿发表了一篇名为《苦涩的教训》的文章。他激烈批评了试图将人类知识手工编码进AI系统的做法： "70年的人工智能研究表明，利用计算的通用方法最终是最有效的，而且领先优势巨大。" —— 理查德·萨顿，《苦涩的教训》他认为，试图用自己的思维方式限制AI，是人类自大的表现；真正的突破，来自让机器通过大规模计算和自博弈去发现我们无法想象的解决方案。这种观点，在他学生大卫·席尔瓦开发的AlphaGo中得到了完美印证——AlphaGo在一些对局中走出了人类从未见过的"神之一手"，这些走法不是来自任何人类知识，而是来自机器的自我博弈。 2016年3月12日，韩国首尔，四季酒店。大卫·席尔瓦坐在窗边，望着窗外汉江两岸的灯火，手心微微出汗。AlphaGo三局全胜，宣告了一个新时代的到来。但此刻，他并没有庆祝。他想起的是五年前，在阿尔伯塔大学萨顿教授的办公室里，自己第一次读到那篇关于强化学习的论文时的情景。那时的他还是一个博士生，对"机器能否通过自我博弈学会下棋"将信将疑。萨顿教授当时对他说："不要问机器能不能学会，要问人类有没有耐心等待它学会。" 五年后，AlphaGo的神经网络已经自我博弈了数百万局。每一次对弈，机器都在从自己的错误中学习——那种学习方式，与人类棋手通过打谱和对弈来提升棋力，本质上并无不同。 "当李世石在第二局下出那步'神之一手'——第78挖——时，我意识到，机器还没有真正理解围棋的妙处。但这一刻，我也感到了一种奇异的欣慰：即使是最强大的人工智能，也还有它无法触及的人类智慧领域。" —— 大卫·席尔瓦比赛结束后，席尔瓦给萨顿发了一条简短的消息："我们做到了。"萨顿的回复只有两个字："知道。"那一刻，没有人知道这场胜利意味着什么——它是人类智慧的胜利，还是人类创造的又一次胜利？这个问题，至今仍在被讨论。 · · · · · ·

2024年：图灵奖

2024年，ACM正式授予巴托与萨顿"计算机科学的诺贝尔奖"——图灵奖，以表彰他们"开发强化学习的概念与算法基础"。

安德鲁·巴托

1948年生于美国密歇根大学博士马萨诸塞大学阿默斯特分校荣休教授 IEEE Fellow、AAAS Fellow 2024年获ACM图灵奖 "他将模糊的想法转化为严谨的数学框架。"

理查德·萨顿

约1957年生于俄亥俄州斯坦福大学心理学学士阿尔伯塔大学教授英国皇家学会院士 2024年获ACM图灵奖 "他贡献了来自心理学的深刻理论洞察。" 颁奖词中强调，他们"在1980年代开始的一系列论文中引入了强化学习的主要思想，构建了数学基础，并开发了重要算法"。这是对两个"叛逆者"数十年孤独坚守的最高认可。

从AlphaGo到ChatGPT

2020年代，强化学习迎来了全面爆发。 ChatGPT等大语言模型能够精准遵循人类指令，其背后最关键的技术之一就是人类反馈强化学习——RLHF。这直接源于巴托和萨顿开创的强化学习范式。今天的强化学习已渗透到机器人运动技能学习、芯片布局设计、金融交易、在线广告投放、全球供应链优化等几乎所有领域。 · · · · · ·

经验时代

2025年，萨顿在外滩大会上提出了一个新的论断：人工智能正从"数据时代"进入以持续学习为核心的"经验时代"。他尖锐地批评了当前大语言模型依赖人类数据进行训练的范式，称之为"一条死路"。他认为，真正的智能体必须通过自我博弈和环境交互来生成自己的"经验"数据，而不是被动地从人类提供的静态语料中"喂养"。 "真正的智能体必须通过自我博弈和环境交互自主生成'经验'，而非被动消耗人类数据。" —— 理查德·萨顿，2025年外滩大会在2024年图灵奖颁奖典礼上，萨顿还公开呼吁优先考虑人工智能安全，并警告不要让商业利益主导技术的发展方向。这位毕生研究"奖励最大化"的科学家，始终在思考：究竟谁的奖励，才值得被最大化？ · · · · · ·

两个叛逆者的遗产

1980年代，当整个AI领域都在追逐符号主义和专家系统时，巴托和萨顿选择了另一条路——让机器从经验中学习。他们的想法被认为是"太过简单"。但他们知道，这才是智能的本质。三十年后，从AlphaGo到大语言模型，强化学习的技术路径已经被证明是通往人工智能的关键道路之一。而巴托和萨顿合著的那本"圣经"，至今仍指引着无数学者在这条道路上继续探索。有时候，正是那些没人看好的人，才能做到没人能做到的事。 · · · 第五章 · 完

安德鲁·巴托 & 理查德·萨顿 ​

巴托的故事：从造船到模拟大脑 ​

萨顿的故事：被心理学点燃的探索者 ​

他们的相遇：1980年代，志同道合的"叛逆者" ​

Actor-Critic：思维的双人芭蕾 ​

演员与评论家 ​

时间差分学习：萨顿的核心贡献 ​

什么是时间差分学习？ ​

那本改变一切的"圣经" ​

萨顿的道路：从美国到加拿大 ​

门徒的辉煌 ​

苦涩的教训 ​

2024年：图灵奖 ​

安德鲁·巴托 ​

理查德·萨顿 ​

从AlphaGo到ChatGPT ​

经验时代 ​

两个叛逆者的遗产 ​