Transformer团队 & OpenAI群像
大模型的"创世纪"
Attention Is All You Need. ——《Attention Is All You Need》,2017 2017年6月12日,一个寻常的周一早晨。硅谷的太阳刚刚升起,谷歌山景城总部的走廊里弥漫着咖啡香。在那栋被棕榈树环绕的建筑物里,一群研究员正在讨论一个他们已经研究了大半年的想法。 那天傍晚,一篇论文悄然出现在了学术预印本服务器arXiv上。论文的标题直白得近乎粗暴——"Attention Is All You Need"。作者们自己恐怕也没有想到,这个看似简单的标题,将会在接下来的七年里,彻底重塑人类与机器的关系。 这篇论文提出了一个叫做Transformer的架构。它将成为ChatGPT、Gemini、Claude以及几乎所有现代大语言模型的基础。它将开启一个时代,一个让机器能够理解和生成人类语言的时代。 而这篇论文背后的八个人,来自八个不同的国家,说着八种不同的母语,却在这一刻汇聚成了一股力量——一股足以改变世界的力量。 · · · · · ·
八个人的世界
Transformer的八位作者,是一个奇异的组合。 阿希什·瓦斯瓦尼,论文的第一作者,印度裔美国人,在印度读完中学后赴美深造。他说话时带着轻微的印度口音,思维敏捷,总是能在讨论中抓住问题的核心。诺姆·沙泽尔,谷歌的老将,出生于德国,在以色列长大,后来移居美国。他沉默寡言,但每一行代码都精准得像手术刀。尼基·帕尔马,那时候还是个学生,刚从学校毕业就被拉进了这个项目。雅各布·乌斯科雷特,德国出生,说话直接,从不拐弯抹角。利昂·琼斯,威尔士人,代码写得优雅而简洁。艾丹·戈麦斯,加拿大人,总是带着一个问题——"这个想法对现实世界有什么意义?"卢卡什·凯撒,波兰人,擅长将复杂的数学公式转化为实际的代码。伊利亚·波洛苏欣,乌克兰人,沉默而深邃,目光中总是带着某种忧郁。 这八个人,在2017年的那个夏天,聚集在谷歌的同一间会议室里。他们讨论、争辩、推翻、重建。他们的目标很简单:让机器能够更好地理解语言。 在此之前,处理语言最好的方法是RNN——循环神经网络。它的工作方式类似于人类阅读书籍——逐字逐句、从左到右。读到一个词时,机器会"记住"这个词的信息,然后带着这些记忆继续读下一个词。 但这种方法有一个致命的缺陷。当句子太长时,机器会逐渐"忘记"开头的内容。就像我们读完一页书后,已经很难记得第一行写的什么了。研究者们称这个问题为"长期依赖"——RNN很难有效地捕捉句子中相距较远的词之间的关系。 Transformer的创新在于:它不是线性地逐个处理词,而是同时关注句子中的所有词。机器会判断每个词与当前词的相关程度,然后给相关性高的词分配更多"注意力"。这就像我们在阅读时,眼睛虽然是从左到右扫过文字,但大脑会同时"注意到"句子中的关键信息。 "那只猫坐在垫子上,因为它很累了。"人类很容易理解这里的"它"指的是猫,而不是垫子——因为"累"这个形容词更自然地与"猫"关联。Transformer同样能做到这一点。 这种"同时关注"的能力,让Transformer能够处理任意长度的句子,再也不会"忘记"开头的内容。而且,由于它不需要按顺序处理,Transformer还可以并行计算,大大提高了训练效率。 · · · · · ·
理想的诞生
2015年,硅谷发生了一场看似平常、实则深刻的饭局。 饭局的地点是帕洛阿尔托的一家高档餐厅,时间是一个夏夜的傍晚。出席的人包括:特斯拉和SpaceX的CEO埃隆·马斯克、当时还是年轻投资人的萨姆·奥特曼、支付公司Stripe的前CTO格雷·布洛克曼,以及几位AI领域的研究者。 饭局的主题很简单,也很疯狂:如何确保人工智能不会毁灭人类? 那个时代,深度学习刚刚在ImageNet竞赛中取得突破,AlphaGo击败了李世石,AI的热潮正在升温。但大多数人对AI的想象还停留在科幻电影里——智能机器、意识觉醒、人类末日。马斯克是其中最严肃的警告者之一。他相信,如果不加控制,AI可能成为人类面临的最大威胁。 但仅仅担忧是不够的。那天晚上在座的人们决定做点什么。他们要创建一家公司,一家以"确保AI造福全人类"为使命的公司。这家公司的名字叫做OpenAI——开放的人工智能。 OpenAI的"Open"有两层含义。第一层是技术开放:作为一个非营利组织,OpenAI承诺公开研究成果,让全世界都能受益于AI的进步,而不是让这项技术被少数大公司垄断。第二层是使命驱动:创立者们希望创建一个以人类福祉为优先目标的组织,而非追求利润的机器。 2015年12月,OpenAI正式以非营利组织在特拉华州注册成立。创始捐赠者承诺向这家非营利组织投入超过10亿美元的资金。 创始团队星光熠熠:埃隆·马斯克、萨姆·奥特曼、格雷·布洛克曼、伊利亚·苏茨克维、沃伊切赫·扎伦巴、约翰·舒尔曼、亚历克·拉德福德。他们是这个时代最聪明的头脑,怀着最宏大的理想,聚在一起做一件也许是最危险的事——创造一个可能比人类更聪明的实体,并试图确保它会服务人类而非毁灭人类。 · · · · · ·
萨姆·奥特曼的故事
如果要选出过去几年里最知名的科技人物,萨姆·奥特曼一定榜上有名。他的人生轨迹如同一部好莱坞大片——8岁编程、20岁创业、30岁执掌Y Combinator、35岁成为全球最受关注的CEO,然后又经历了一场惊心动魄的"被解职"风波。 1985年,奥特曼出生于芝加哥。他在8岁时就学会了编程,对于一个1980年代的孩子来说,这是一项非同寻常的技能。在那个年代,个人电脑刚刚开始进入家庭,互联网还是新生事物。但奥特曼已经开始探索程序的奥秘,开始理解代码如何改变世界。 2005年,20岁的他从斯坦福大学计算机科学系辍学,创立了一家名为Loopt的移动应用公司。这家公司后来被收购,为他赚到了第一桶金。但更重要的是,这次创业让他看到了技术的力量,以及技术如何与商业结合创造价值。 之后,他转型成为投资人,并在2014年成为著名创业孵化器Y Combinator的掌门人。在他的领导下,YC的规模和影响力都大幅扩张,孵化了Reddit、Dropbox、Airbnb等众多明星公司。奥特曼的投资风格直接而果断——他善于识别哪些想法值得押注,哪些创始人值得追随。 2019年,他离开YC,全职加入OpenAI担任CEO。从那刻起,他的命运就与这家AI公司紧紧绑在了一起。他成为了OpenAI的公众面孔,那个在国会作证、在媒体上露面、在开发者大会上演讲的人。他也是那个在2023年11月被突然解雇的人。 · · · · · ·
2023年11月的那五天
2023年11月17日,硅谷发生了一件足以载入科技史册的事件。那天早晨,OpenAI的董事会成员们正在讨论一个已经酝酿了一段时间的决定。几个小时后,一则新闻震惊了整个科技圈:OpenAI董事会宣布解雇CEO萨姆·奥特曼。 公告给出的理由是"奥特曼在与董事会的沟通中不够坦诚"。这个模糊的理由引发了无数猜测——是业绩问题?战略分歧?还是更隐秘的原因? 接下来的五天,剧情如同过山车一般跌宕起伏。微软CEO纳德拉迅速表示欢迎奥特曼加入微软。OpenAI的员工们威胁集体辞职,要求董事会下台。投资者们焦急地寻找解决方案。媒体们疯狂挖掘内幕。 最终,在11月21日,OpenAI宣布奥特曼重返公司,复职担任CEO。这场"政变"以一种近乎荒诞的方式落幕——政变者失败了,但他们没有受到任何惩罚。 关于幕后的真相,至今仍有不同说法。据报道,OpenAI的首席科学家伊利亚·苏茨克维在事件中起到了关键作用——正是他向董事会表达了担忧,才导致了这一决定。但后来,苏茨克维也表示对自己"在董事会事件中扮演的角色"感到后悔。 整个事件揭示了OpenAI内部一个深刻的矛盾:一边是致力于快速推进AI技术的"加速派",另一边是强调AI安全和谨慎发展的"安全派"。这个矛盾,至今仍影响着OpenAI的发展方向。 "我认为保持愚蠢的乐观是领导的秘诀。你需要相信世界会变得更好,然后每天都为此努力。" —— 萨姆·奥特曼 · · · · · ·
伊利亚·苏茨克维:辛顿的学生
在OpenAI的创始团队中,伊利亚·苏茨克维是特别的存在。他是杰弗里·辛顿的学生,是AlexNet论文的合著者,是深度学习领域最具影响力的研究者之一。更重要的是,他是GPT系列模型背后的主要推动者——如果没有他,可能就没有今天的ChatGPT。 伊利亚1986年出生在俄罗斯(当时还属于苏联),后来随家人移民到以色列。他在以色列长大并完成了基础教育,之后前往加拿大深造。在多伦多大学攻读博士期间,他师从辛顿——深度学习之父。在辛顿的指导下,伊利亚迅速成长为深度学习领域的后起之秀。 2012年,伊利亚协助辛顿的AlexNet项目。那一年,AlexNet在ImageNet竞赛中取得了突破性的成绩,深度卷积神经网络开始被全世界所认识。这是深度学习革命的起点,也是伊利亚职业生涯的起点。 2013年,伊利亚正式加入谷歌大脑团队。2015年,他做出了一个改变命运的决定——离开谷歌,成为OpenAI的联合创始人和首席科学家。在OpenAI期间,他主导了GPT-2、GPT-3、GPT-4以及ChatGPT的研发工作。他对Transformer架构的深刻理解,以及他在训练大规模模型方面的经验,让他成为这个时代最关键的技术人物之一。 但2024年5月,伊利亚宣布离开OpenAI,创立了一家新公司——Safe Superintelligence(安全超级智能,简称SSI)。这家公司的使命非常明确:构建安全、强大的通用人工智能系统。与OpenAI不同,SSI从一开始就将安全性作为核心目标,而非后期附加的特性。 "这是我的下一个分水岭时刻。安全超级智能是我们这个时代最重要的技术问题。" —— 伊利亚·苏茨克维,2024年 · · · · · ·
亚历克·拉德福德:沉默的巨人
在OpenAI的众多明星中,亚历克·拉德福德是一个特别的存在。他很少接受媒体采访,很少在公开场合露面,却几乎以一己之力奠定了GPT系列的技术基础。 拉德福德在卡内基梅隆大学完成了本科学业,主修机器学习。2016年,他加入了OpenAI,彼时的OpenAI还是一家刚刚成立一年的小型研究机构。但在接下来的六年里,他将成为这家机构最核心的技术贡献者之一。 他对GPT系列的贡献是核心性的。2018年GPT-1发布时,他是核心作者;2019年GPT-2发布时,他仍是最主要的贡献者;2020年GPT-3发布时,他已是领导大规模语言模型研究的关键人物。 他主导了GPT系列scaling laws的研究。这项研究发现,模型的性能(困惑度)与模型参数数量、训练数据量、计算量之间存在可预测的幂律关系。这意味着,如果你想让模型性能提升一倍,你只需要按比例增加参数、数据和计算量——这是一种可预测的扩展路径。 GPT-3的1750亿参数并非随机选择。拉德福德的Scaling Laws精确预测了这个规模能够带来显著的性能提升。GPT-3的核心论文《Language Models are Few-Shot Learners》共有超过70位作者,但拉德福德的名字位列第一——他是这篇论文的第一作者,也是整个研究的主导者。 除了GPT系列,拉德福德还主导了CLIP的研究——这是OpenAI在多模态领域的另一项重要突破。CLIP的核心思想是训练一个神经网络同时理解图像和文本,让它能从自然语言描述来识别图像,而不需要针对每个具体类别进行训练。这种"零样本"能力彻底改变了计算机视觉的研究范式,也被认为是DALL-E和后来GPT-4V等多模态模型的基石。 2022年,拉德福德离开了OpenAI。据报道,他选择休息一段时间,并探索新的研究方向。尽管他已经不在OpenAI,但他的贡献是无法估量的——GPT系列已经成为AI历史上最重要的技术突破之一,而他关于Scaling Laws的研究,则为整个大型语言模型时代奠定了方法论基础。 "我们发现,只要规模够大,语言模型能够自然地发展出惊人的能力——包括写作、推理、甚至代码生成。" —— 亚历克·拉德福德,GPT-3论文 · · · · · ·
散落星海
2017年论文发表后,Transformer的八位作者大多数都离开了谷歌,各自发展自己的事业。他们的去向,折射出AI领域人才的流动趋势,也预示着这项技术将如何改变世界。 阿希什·瓦斯瓦尼和尼基·帕尔马共同创办了Adept AI,后又共同创立了Essential AI,致力于开发企业级AI解决方案。诺姆·沙泽尔加入了Character.ai,担任CEO。雅各布·乌斯科雷特创立了Inceptive,专注于mRNA药物设计——AI+生物科技的跨界创业。利昂·琼斯创立了Artisan公司,继续从事AI相关工作。艾丹·戈麦斯创立了Natural Learners公司,致力于开发更高效的语言模型。卢卡什·凯撒离开了谷歌,加入OpenAI,继续他的大模型研究生涯。伊利亚·波洛苏欣转向区块链领域,共同创立了NEAR Protocol。 他们像种子一样,散落在AI领域的各个角落,在那里生根发芽,生长出新的可能。 · · · · · ·
最后的问题
从2017年那篇论文到今天,不过短短几年时间。但在这几年里,我们见证了语言模型从"能说话"到"能理解"的飞跃,见证了一家公司从非营利到估值数千亿美元的转变,也见证了一群理想主义者如何在现实的压力下寻找平衡。 OpenAI最终从纯非营利组织转变为"有限营利"结构。这个转变引发了一些关于"OpenAI是否还是OpenAI"的讨论。批评者认为,这种转变背离了最初的理想;支持者则认为,在AI竞争日益激烈的情况下,这是确保OpenAI保持领先的必要之举。 但无论如何,OpenAI的故事仍在继续,它的每一步都在重新定义"开放"与"封闭"之间的边界。 Transformer的八位作者或许没有想到,他们的那篇论文会成为AI历史的一个转折点。OpenAI的创始人们或许也没有想到,他们担心的"AI毁灭人类"的问题,会以另一种方式展开——不是超级智能的崛起,而是大模型对信息传播、教育和工作的深刻改变。 故事还在继续。而我们,都是这个时代的见证者。 · · · 第八章 · 完
