弗雷德里克·贾里尼克
一个用统计打败规则的人
每解雇一名语言学家,语音识别系统的性能就会提升。 —— 弗雷德里克·贾里尼克 1932年11月18日,捷克斯洛伐克。 那一天,在克拉德诺这个布拉格附近的小镇,一个男婴降生了。他的父亲是一位医生。在那个年代,没有人会想到这个孩子将在四十年后,彻底改变人类与机器对话的方式。 他叫弗雷德里克·贾里尼克。 命运给了他一个艰难的童年。二战期间,他的父亲被关入泰雷津集中营,并最终在那里去世。整个欧洲笼罩在战争的阴影下,一个犹太家庭在夹缝中苦苦挣扎。1949年,十六岁的贾里尼克随家人移民美国——这成为他人生的转折点。 在战火中长大的少年,不会说英语,带着东欧口音,最终却成为了改变人类语言处理方式的关键人物。 · · · · · ·
从布拉格到MIT:一个人的迁徙史
弗雷德里克·贾里尼克
1932年11月18日,捷克斯洛伐克克拉德诺 1949年,16岁移民美国 1962年,30岁获得MIT电子工程博士学位 1972年加入IBM沃森研究中心 1993年加入约翰·霍普金斯大学 2010年9月14日去世,享年78岁 "美国给了我第二次生命。" 移民美国后,贾里尼克展现出了惊人的学术天赋。1956年,二十四岁的他从麻省理工学院获得了电子工程学士学位——这已经够快了,但更惊人的还在后面。 四年后的1958年,他获得了MIT的电子工程硕士学位。又过了四年,1962年,三十岁的他获得了MIT的电子工程博士学位。 在MIT期间,他师从著名的电子工程学家罗伯特·福塞特,研究方向是信息论——这个由克劳德·香农在几年前刚刚建立的学科,将成为贾里尼克一生最重要的思想武器。
一个意外的转向:从通信到语音
博士毕业后,贾里尼克最初的研究方向仍然是电子工程和通信理论。他在IBM的一份临时工作,最终改变了他的人生轨迹。 1960年代中期,他开始接触语音识别问题。 当时的语音识别研究主流方法,是让语言学家设计复杂的规则系统——告诉计算机"什么是词"、"什么是音"、"什么语法是对的"等等。 但贾里尼克是搞信息论的。他看到了一个不同的角度: "语言能不能被当作一种信道来编码和解码?" —— 弗雷德里克·贾里尼克 这个看似简单的想法,最终颠覆了整个语音识别领域。 · · · · · ·
IBM时期:用统计方法颠覆语音识别
1972年,贾里尼克加入了IBM的沃森研究中心。在这里,他开始真正改变语音识别领域。 当时的语音识别系统主要依赖"规则":语言学家编写语法规则、词典、发音规则,系统根据这些规则来识别语音。这听起来很合理——毕竟,语言学家是语言的专业研究者,他们当然知道语言的规则是什么。 但贾里尼克提出了一个完全不同的思路:统计。 他的核心观点是:不需要告诉计算机"什么是对的",只需要给计算机大量的例子——语音数据和对应的文本——让计算机自己"学习"语言规律。 这听起来很简单,但背后的数学支撑——贝叶斯定理、隐马尔可夫模型——需要深厚的理论基础。而贾里尼克,恰恰两者兼备。
什么是隐马尔可夫模型?
隐马尔可夫模型是贾里尼克革命的核心工具。简单来说: 语音可以看作是一个"隐藏状态"——我们要说的词——通过某种概率分布产生的"观测"——声波。给定观测序列,我们可以计算各种可能的状态序列的概率。选择概率最大的状态序列,就是识别结果。 举例:当你听到"你好"这两个字时,语音信号是一串连续的声波。HMM的工作是:给定这串声波,找出最可能对应的词序列——"你好"。
那句著名的话
贾里尼克有一句名言,后来在学术界广为流传: "每解雇一名语言学家,语音识别系统的性能就会提升。" —— 弗雷德里克·贾里尼克 这句话后来被演绎成更夸张的版本:"每解雇一名语言学家,语音识别率就提升1%。" 当然,这句话更多是调侃。贾里尼克的真正意思是:数据比规则更重要。当你的数据量足够大时,数据驱动的方法会超过人工设计的规则。 这在今天已经是理所当然的观点——但在1980年代,这简直是离经叛道。 · · · · · ·
约翰·霍普金斯大学:建立语音研究的圣地
1993年,贾里尼克离开了IBM,加入约翰·霍普金斯大学,领导该校的语言与语音处理中心(Center for Language and Speech Processing,简称CLSP)。 CLSP很快成为了全球语音和语言处理研究的圣地。在接下来的二十多年里,该中心培养了一大批杰出的研究者,他们后来分布在全球各大高校和科技公司。 贾里尼克的一个著名做法是:每年夏天举办暑期学校,邀请全球最优秀学生和研究者来JHU学习交流。这些暑期学校培养了几代语音和NLP研究者,影响深远。
CLSP培养的人才
约翰·霍普金斯的CLSP在1984-2010年间培养了大量语音识别和NLP领域的领军人物,包括: • 约叔华·本吉奥(Yoshua Bengio)—— 深度学习先驱,2018年图灵奖得主 • 迈克尔·乔丹(Michael Jordan)—— 机器学习泰斗 这些研究者后来在深度学习和机器学习领域做出了重要贡献,而他们的学术成长深受CLSP学术氛围的影响。
不只是语音识别
贾里尼克的影响远不止语音识别。他的统计方法论直接影响了整个自然语言处理(NLP)领域。 在他之前,NLP主流是符号主义——用规则处理语言。在他之后,统计方法逐渐成为主流。今天的NLP,包括机器翻译、情感分析、问答系统等,最基础的方法仍然是统计方法——当然,现在更多是结合了深度学习的统计方法。 "他的工作彻底改变了我们处理和理解语言的方式。" —— 约翰·霍普金斯大学官方悼词 可以说,贾里尼克是现代NLP的奠基人之一。
晚年:与帕金森症抗争
2000年,贾里尼克被诊断出患有帕金森症。 这种疾病会逐渐剥夺患者的运动能力,对于一个热爱学术、热爱教学的人来说,这是一个残酷的命运。 但贾里尼克没有放弃。他继续在JHU工作,继续指导学生,继续参与学术讨论。他的学生回忆说,即使在病痛困扰时,他仍然坚持给学生们讲课——他说话直率,不喜欢含糊其辞,对错误的容忍度很低,但他热爱教学,热爱学生。 2010年9月14日,弗雷德里克·贾里尼克在佛罗里达州科勒尔盖布尔斯因心脏病发作去世,享年78岁。 · · · · · ·
影响与传承
今天,当你对着Siri说话、对着Google Translate翻译、用语音输入发消息时,这些应用背后都有贾里尼克的贡献。他开创的统计方法不仅没有过时,反而在深度学习时代得到了新的生命力——现代的语音识别系统仍然使用他发明的核心框架,只是加入了深度神经网络。 "语言不是一套规则,语言是一种信息。" —— 弗雷德里克·贾里尼克 用一个字总结:弗雷德里克·贾里尼克是一个用数学改变了人类与机器对话方式的人。 从一个在战火中长大的犹太少年,到MIT的博士、IBM的研究员、约翰·霍普金斯大学的教授——他的故事说明,真正的创新往往来自于跨界,来自于把一个领域的思想应用到另一个领域。 他用信息论的眼睛看语言,用统计的武器征服语音,最终改变了我们与机器互动的方式。 · · · 第三章 · 完
