Skip to content

开源AI革命

罗宾·隆巴赫 · 帕特里克·埃瑟 · 伊马德·莫斯塔克

历史会记住的,不是哪家公司市值最高,而是哪项技术真正改变了普通人的生活。 —— AI历史学家评价,2023年 2022年8月的一个寻常夜晚,一行代码悄然出现在GitHub上。没有任何新闻发布会,没有任何盛大的公告,只有一个压缩包,一份许可证,一篇arXiv论文的链接。 但就是这一行代码,在接下来的几天里,像野火一样烧遍了整个互联网。 Stable Diffusion开源了。 任何人——只要你有一块还算不错的显卡,有一台普通电脑——都可以在自己的客厅里,运行全世界最强大的AI图像生成模型。不是在遥远的谷歌云端,不是在某个研究机构的大规模集群上,而是在你自己的游戏电脑上,在你自己的桌面上。 这个消息像一颗石子投入平静的湖面,激起的涟漪远超所有人的预料。整个创意行业开始颤抖——设计师、摄影师、艺术家、游戏开发者、电影人——所有人突然意识到,他们手中握着的工具,即将被彻底改变。 而这一切的背后,是三个看似毫无交集的人。 · · · · · ·

一切从"太慢了"开始

2020年,当整个AI学术界都在为GPT-3和Transformer架构疯狂时,在德国慕尼黑大学的一间实验室里,两个年轻的博士生正在思考一个完全不同的问题: "为什么生成一张图片这么慢?" 当时的AI图像生成领域正处于变革前夜。OpenAI的DALL-E、谷歌的Imagen已经能够生成令人惊叹的图片,但它们有一个共同的致命弱点——太慢了。 这些模型的原理是:在像素空间中逐步添加噪声,然后再逐步去噪。想象一下:你要生成一张512x512的图片,就需要在这个巨大的三维空间——512乘以512乘以3个通道——中来回往复地处理信息。近80万个数字。每一次去噪迭代都要处理这近80万个数字,而一个完整的生成过程需要几十甚至上百次迭代。 结果:生成一张图片可能需要几分钟,甚至更长时间。这对于普通用户来说是无法接受的。 罗宾·隆巴赫和帕特里克·埃瑟——这两个名字当时在AI圈几乎无人知晓——决定挑战这个难题。他们的想法听起来近乎疯狂:为什么不在像素空间处理,而是在一个更小的"压缩空间"里处理? "问题的关键不是'能不能',而是'如何更快、更高效地'做这件事。" —— 罗宾·隆巴赫 · · · · · ·

德国工程师与他的一点执念

隆巴赫是典型的德国工程师性格——务实、低调、对技术细节痴迷不已。 学术会议上,很少看到隆巴赫做演讲。他更愿意把时间花在实验室里,调参数、调代码、调模型架构。 一位曾经与隆巴赫共事的研究者回忆说:有一次为了优化一个函数的运行速度,他花了整整三天时间,最后把速度提升了30%。换做其他人,可能早就放弃了。 在隆巴赫看来,代码即思想。一个优雅的算法实现和算法本身同样重要。 正是这种偏执,让Latent Diffusion的效率达到了前所未有的高度。他的代码不仅仅是能跑,还要跑得漂亮、高效。如果不是他对每一行代码的精雕细琢,Stable Diffusion可能在消费级GPU上根本无法运行。 他的同事们给这种态度取了一个外号:"德国制造"精神——精益求精,不浪费任何算力。 · · · · · ·

桥梁

帕特里克·埃瑟与隆巴赫形成了有趣的互补。 埃瑟相比隆巴赫更加外向,也更善于与外界沟通。他经常出现在各种AI艺术展览和研讨会上,与艺术家、设计师、创意工作者交流。他关注的是:技术如何服务于人类的创造力? "我们不只是在做技术研究,我们是在给艺术家和创作者提供新的工具。"埃瑟曾说,"Diffusion模型的神奇之处在于,它让没有任何绘画基础的人也能创作出令人惊叹的视觉作品。" 在团队中,埃瑟扮演着桥梁的角色:他既能与隆巴赫这样的技术宅深入讨论算法细节,又能走出去与艺术界和公众沟通愿景。这种跨界的沟通能力,在AI研究中极为罕见。 "我从来没有想过,我们做的一个学术研究项目,会在几个月内改变数百万人的工作方式。这既是惊人的,也是令人谦卑的。" —— 帕特里克·埃瑟,2023年访谈 · · · · · ·

那个局外人

伊马德·莫斯塔克的背景在AI企业家中显得有些非典型。 他没有在谷歌、Meta或OpenAI的工作经历。他没有发表过顶会论文。他甚至不是AI领域科班出身的研究者。他曾在牛津大学学习数学,在那里接触到了数学的抽象之美,也培养了逻辑思维的能力。 但他很快发现,纯粹的学术研究并不是他的最终归宿。他不满足于"解题",更感兴趣的是"发现问题"和"解决问题"。 "数学教会了我如何抽象问题、如何找到事物的本质。但我更想把这些能力用在实际问题上——那些能够改变人们生活的问题。" 这些"劣势"——没有大公司背景、不是技术顶尖——恰恰成了他的优势。他用一种完全不同的视角来看待AI行业。他看到的不是技术,而是技术如何影响世界。 · · · · · ·

那个夏天

2020年,新冠疫情席卷全球。许多人看到了灾难,但莫斯塔克看到了机会——AI基础设施将成为未来数字世界的水电煤。 他创立了Stability AI。为什么叫"稳定"? "我们希望构建稳定、可靠、安全的AI系统,让它们能够真正帮助人类,而不是取代或伤害人类。" 这个"稳定性"体现在多个层面:技术层面是构建稳定运行的AI模型和系统;社会层面是确保AI技术的发展方向符合人类利益;商业层面是建立可持续的商业模式,而不是追求短期泡沫。 当隆巴赫和埃瑟在慕尼黑研究Latent Diffusion时,莫斯塔克敏锐地察觉到了这项技术的潜力。那时候,Stable Diffusion还没有诞生——它只是一个学术研究项目,发表在arXiv上,代码虽然开源,但几乎没有引起太大的关注。 莫斯塔克做了两件事。第一是投资:他向慕尼黑LMU的CompVis团队提供了资金支持,帮助他们继续优化模型。第二是推动开源:他说服研究团队将模型完全开源,并且帮助他们处理法律、商业化等方面的事务。 一位知情人士透露:当时有很多公司想要收购这项技术的独家授权,出价高达数千万美元。但莫斯塔克坚持要做开源,放弃了那些钱。团队里有人反对,但他最终还是说服了大家。 "我不在乎赚快钱。我在乎的是建立一种可持续的模式,让AI技术真正服务于人类。" —— 伊马德·莫斯塔克 · · · · · ·

Latent Diffusion的秘密

2021年12月,隆巴赫和埃瑟在arXiv上发表了一篇论文,题目是《High-Resolution Image Synthesis with Latent Diffusion Models》。 这篇论文的核心思想后来被称为Latent Diffusion——潜伏扩散。它彻底改变了AI图像生成的游戏规则。 传统的扩散模型直接在像素空间工作,处理的是512x512这样的高分辨率图像的每一个像素点。这就像你要画一幅油画,却要把画布的每一平方毫米都单独处理一遍。 Latent Diffusion的核心创新是引入了一个"压缩-解压"两步走策略。 第一步,用一个变分自编码器把图片从像素空间压缩到一个更小的潜伏空间。比如把512x512的图片压缩成64x64。64乘以64等于4096个数字,比原来的786,432个数字少了将近200倍。 第二步,在压缩后的潜伏空间里进行扩散和去噪。由于数据量大幅减少,处理速度可以提升几十倍。 第三步,最后用解码器把潜伏空间的结果还原成高分辨率图片。 这个过程就像:你不用在巨大的画布上操作,而是先在缩略图上完成构思,然后再放大到正式画布。 · · · · · ·

那个开源之夜

2022年8月,一个让整个AI圈震惊的消息传来:Stable Diffusion正式开源发布。 与DALL-E或Imagen不同,Stable Diffusion是完全开源的——任何人都可以下载、修改、使用它的代码和权重。 它的出现意味着什么?在它之前,AI图像生成是"富人俱乐部"的游戏。DALL-E 2仅限受邀用户使用,而且每次生成需要付费。Imagen从未公开,只发布了几张演示图片。Midjourney需要付费订阅才能使用。 而Stable Diffusion——完全免费,完全开源,可以在消费级GPU上运行。 这就像有人突然把iPhone的图纸和所有源代码公之于众,任何人都可以自己"造手机"了。 Stable Diffusion最令人惊叹的特性之一是:它只需要一块NVIDIA RTX 3060或更高配置的消费级显卡就能流畅运行。这种显卡在2022年的价格大约是500到800美元,是游戏玩家的标准配置。 全球数亿游戏玩家突然发现:自己的电脑居然可以运行最前沿的AI图像生成。 一时间,各种教程、视频、模型权重在互联网上疯狂传播。AI图像生成不再是研究机构的专利——它走进了普通人的家庭。 · · · · · ·

三个人,一个完美三角

如果我们把隆巴赫、埃瑟、莫斯塔克三个人放在一起看,会发现一个有趣的组合。 隆巴赫是技术深度。他对算法和代码的极致追求,是Stable Diffusion能够如此高效的根本原因。没有他的工程洁癖,这个模型可能会慢上十倍。 埃瑟是连接能力。他既理解技术,又理解艺术;既能与研究人员沟通,也能与艺术家和公众沟通。他是技术与创意世界之间的翻译官。 莫斯塔克是愿景和执行力。他不是技术最出色的研究员,但他是最出色的放大器——他能够识别有价值的技术,然后动员资源让它发挥最大的影响。 这三个人的组合几乎完美:技术乘以连接乘以放大。缺少任何一环,Stable Diffusion可能都不会诞生——或者即使诞生了,也不会产生如此巨大的影响。 · · · · · ·

改变的一切

2022年8月Stable Diffusion发布时,很多人没有意识到这意味着什么。 但仅仅几个月后,整个创意行业都开始感受到了它的冲击。 无数设计师开始使用Stable Diffusion作为创作辅助工具。它可以快速生成概念图、素材图、背景图,大大提高了工作效率。独立游戏开发者发现,他们现在可以负担得起高质量的游戏美术——以前可能需要几十万美元的外包费用,现在可以由AI辅助完成。 摄影师和业余爱好者都开始使用AI图像生成作为Photoshop的终极版本——不仅可以修复旧照片,还能把粗糙的构思变成逼真的画面。 好莱坞的视效公司开始尝试使用AI辅助生成概念艺术和预可视化。虽然最终成片仍需要传统工艺,但前期的创意探索已经被AI改变。 "开源AI将比闭源AI更安全。这不是我的愿望,而是我的信念。" —— 伊马德·莫斯塔克,2022年 · · · · · ·

开源社区的爆炸式生长

Stable Diffusion开源后的几个月里,莫斯塔克目睹了一些他从未想象过的事情发生。 全球数万名开发者开始基于他的模型进行二次开发。有人优化了运行效率,让模型在更低配置的显卡上也能流畅运行;有人开发了定制的用户界面,让不懂代码的普通人也能轻松上手;有人训练了专门针对动漫风格、艺术风格、特定艺术家风格的模型变体;还有人将模型移植到手机端,让移动设备也能运行AI图像生成。 这种自发性的创新速度,远超过了任何一家公司内部的研发能力。 "我们在几个月内看到的东西,比我们整个研究团队几年内能想到的还要多。开源的力量不在于代码本身,而在于它释放了全世界最聪明的人的创造力。" —— 伊马德·莫斯塔克,2023年 其中最有趣的一个例子是ControlNet的诞生。这是一款由独立开发者孙启涵(Qi Chang)开发的插件,可以让用户通过骨骼姿态、深度图、轮廓等条件来精确控制AI生成的图像。这个插件的代码量不大,但它的创新彻底改变了AI图像生成的工作流——从"随机生成然后挑选",变成了"精确控制生成结果"。 而孙启涵完成这项工作时,只是一名在读研究生。 这些故事让莫斯塔克更加坚信:开源之所以强大,不是因为"免费",而是因为它释放了人类的集体智慧。当足够多的人为一个共同目标贡献力量时,其爆发出的创新能力是任何单一组织都无法比拟的。 · · · · · ·

莫斯塔克的信念

莫斯塔克最鲜明的标签是"开源AI的坚定倡导者"。 在2022到2023年,当OpenAI、谷歌、Meta等大公司纷纷加强AI技术的护城河时,莫斯塔克却选择了完全相反的道路——尽可能开放、尽可能开源。 "当一项技术足够强大时,它就不应该被少数人控制。电力、核能、互联网——这些技术都太重要了,不能成为私人的盈利工具。AI同样如此。" 他用Linux、Android、Python的成功来论证自己的观点:开源项目之所以成功,是因为当足够多的人共同参与一个项目时,它会变得更好。 "我们开源Stable Diffusion后,全世界数万名开发者帮助我们改进它——有人优化了速度,有人修复了bug,有人开发了新功能。这种集体智慧的力量,是任何一家公司都无法复制的。" 但莫斯塔克也承认开源带来的挑战。与所有生成式AI一样,Stable Diffusion偶尔会生成有问题的内容——虚假信息、暴力内容、深度伪造等。 "坏人用菜刀杀人,我们不应该禁止菜刀,"他说,"该做的是培训厨师,监管使用场景,但不要把刀藏起来。" · · · · · ·

未完的故事

莫斯塔克和Stability AI的道路并非一帆风顺。开源模式虽然带来了巨大的用户群和影响力,但变现并不容易。2023年,公司开始面临财务压力、人才流失、版权争议等挑战。 但莫斯塔克的态度是: "我们正在走一条前所未有的道路。没有地图,没有先例。我们只能一边走,一边学习。错了就改,但不要因为害怕犯错就停下脚步。" —— 伊马德·莫斯塔克 回顾2022年,如果莫斯塔克做出了不同的选择——把Stable Diffusion卖给谷歌或Meta,获得独家授权费——AI的历史可能会完全不同。 但他选择了开源。 这个选择改变了一切:无数独立开发者开始基于Stable Diffusion构建应用;无数普通人第一次接触到了AI图像生成;一个全新的"AI创作者经济"开始萌芽;闭源AI公司被迫加快自己的产品迭代,以应对开源的竞争。 而这,就是三个人的故事。一个关于技术、愿景和信念的故事。 · · · 第十章 · 完

版权所有 © 2024-2026 AI名人传