开源AI革命

罗宾·隆巴赫 · 帕特里克·埃瑟 · 伊马德·莫斯塔克

历史会记住的，不是哪家公司市值最高，而是哪项技术真正改变了普通人的生活。 —— AI历史学家评价，2023年 2022年8月的一个寻常夜晚，一行代码悄然出现在GitHub上。没有任何新闻发布会，没有任何盛大的公告，只有一个压缩包，一份许可证，一篇arXiv论文的链接。但就是这一行代码，在接下来的几天里，像野火一样烧遍了整个互联网。 Stable Diffusion开源了。任何人——只要你有一块还算不错的显卡，有一台普通电脑——都可以在自己的客厅里，运行全世界最强大的AI图像生成模型。不是在遥远的谷歌云端，不是在某个研究机构的大规模集群上，而是在你自己的游戏电脑上，在你自己的桌面上。这个消息像一颗石子投入平静的湖面，激起的涟漪远超所有人的预料。整个创意行业开始颤抖——设计师、摄影师、艺术家、游戏开发者、电影人——所有人突然意识到，他们手中握着的工具，即将被彻底改变。而这一切的背后，是三个看似毫无交集的人。 · · · · · ·

一切从"太慢了"开始

2020年，当整个AI学术界都在为GPT-3和Transformer架构疯狂时，在德国慕尼黑大学的一间实验室里，两个年轻的博士生正在思考一个完全不同的问题： "为什么生成一张图片这么慢？" 当时的AI图像生成领域正处于变革前夜。OpenAI的DALL-E、谷歌的Imagen已经能够生成令人惊叹的图片，但它们有一个共同的致命弱点——太慢了。这些模型的原理是：在像素空间中逐步添加噪声，然后再逐步去噪。想象一下：你要生成一张512x512的图片，就需要在这个巨大的三维空间——512乘以512乘以3个通道——中来回往复地处理信息。近80万个数字。每一次去噪迭代都要处理这近80万个数字，而一个完整的生成过程需要几十甚至上百次迭代。结果：生成一张图片可能需要几分钟，甚至更长时间。这对于普通用户来说是无法接受的。罗宾·隆巴赫和帕特里克·埃瑟——这两个名字当时在AI圈几乎无人知晓——决定挑战这个难题。他们的想法听起来近乎疯狂：为什么不在像素空间处理，而是在一个更小的"压缩空间"里处理？ "问题的关键不是'能不能'，而是'如何更快、更高效地'做这件事。" —— 罗宾·隆巴赫 · · · · · ·

德国工程师与他的一点执念

隆巴赫是典型的德国工程师性格——务实、低调、对技术细节痴迷不已。学术会议上，很少看到隆巴赫做演讲。他更愿意把时间花在实验室里，调参数、调代码、调模型架构。一位曾经与隆巴赫共事的研究者回忆说：有一次为了优化一个函数的运行速度，他花了整整三天时间，最后把速度提升了30%。换做其他人，可能早就放弃了。在隆巴赫看来，代码即思想。一个优雅的算法实现和算法本身同样重要。正是这种偏执，让Latent Diffusion的效率达到了前所未有的高度。他的代码不仅仅是能跑，还要跑得漂亮、高效。如果不是他对每一行代码的精雕细琢，Stable Diffusion可能在消费级GPU上根本无法运行。他的同事们给这种态度取了一个外号："德国制造"精神——精益求精，不浪费任何算力。 · · · · · ·

桥梁

帕特里克·埃瑟与隆巴赫形成了有趣的互补。埃瑟相比隆巴赫更加外向，也更善于与外界沟通。他经常出现在各种AI艺术展览和研讨会上，与艺术家、设计师、创意工作者交流。他关注的是：技术如何服务于人类的创造力？ "我们不只是在做技术研究，我们是在给艺术家和创作者提供新的工具。"埃瑟曾说，"Diffusion模型的神奇之处在于，它让没有任何绘画基础的人也能创作出令人惊叹的视觉作品。" 在团队中，埃瑟扮演着桥梁的角色：他既能与隆巴赫这样的技术宅深入讨论算法细节，又能走出去与艺术界和公众沟通愿景。这种跨界的沟通能力，在AI研究中极为罕见。 "我从来没有想过，我们做的一个学术研究项目，会在几个月内改变数百万人的工作方式。这既是惊人的，也是令人谦卑的。" —— 帕特里克·埃瑟，2023年访谈 · · · · · ·

那个局外人

伊马德·莫斯塔克的背景在AI企业家中显得有些非典型。他没有在谷歌、Meta或OpenAI的工作经历。他没有发表过顶会论文。他甚至不是AI领域科班出身的研究者。他曾在牛津大学学习数学，在那里接触到了数学的抽象之美，也培养了逻辑思维的能力。但他很快发现，纯粹的学术研究并不是他的最终归宿。他不满足于"解题"，更感兴趣的是"发现问题"和"解决问题"。 "数学教会了我如何抽象问题、如何找到事物的本质。但我更想把这些能力用在实际问题上——那些能够改变人们生活的问题。" 这些"劣势"——没有大公司背景、不是技术顶尖——恰恰成了他的优势。他用一种完全不同的视角来看待AI行业。他看到的不是技术，而是技术如何影响世界。 · · · · · ·

那个夏天

2020年，新冠疫情席卷全球。许多人看到了灾难，但莫斯塔克看到了机会——AI基础设施将成为未来数字世界的水电煤。他创立了Stability AI。为什么叫"稳定"？ "我们希望构建稳定、可靠、安全的AI系统，让它们能够真正帮助人类，而不是取代或伤害人类。" 这个"稳定性"体现在多个层面：技术层面是构建稳定运行的AI模型和系统；社会层面是确保AI技术的发展方向符合人类利益；商业层面是建立可持续的商业模式，而不是追求短期泡沫。当隆巴赫和埃瑟在慕尼黑研究Latent Diffusion时，莫斯塔克敏锐地察觉到了这项技术的潜力。那时候，Stable Diffusion还没有诞生——它只是一个学术研究项目，发表在arXiv上，代码虽然开源，但几乎没有引起太大的关注。莫斯塔克做了两件事。第一是投资：他向慕尼黑LMU的CompVis团队提供了资金支持，帮助他们继续优化模型。第二是推动开源：他说服研究团队将模型完全开源，并且帮助他们处理法律、商业化等方面的事务。一位知情人士透露：当时有很多公司想要收购这项技术的独家授权，出价高达数千万美元。但莫斯塔克坚持要做开源，放弃了那些钱。团队里有人反对，但他最终还是说服了大家。 "我不在乎赚快钱。我在乎的是建立一种可持续的模式，让AI技术真正服务于人类。" —— 伊马德·莫斯塔克 · · · · · ·

Latent Diffusion的秘密

2021年12月，隆巴赫和埃瑟在arXiv上发表了一篇论文，题目是《High-Resolution Image Synthesis with Latent Diffusion Models》。这篇论文的核心思想后来被称为Latent Diffusion——潜伏扩散。它彻底改变了AI图像生成的游戏规则。传统的扩散模型直接在像素空间工作，处理的是512x512这样的高分辨率图像的每一个像素点。这就像你要画一幅油画，却要把画布的每一平方毫米都单独处理一遍。 Latent Diffusion的核心创新是引入了一个"压缩-解压"两步走策略。第一步，用一个变分自编码器把图片从像素空间压缩到一个更小的潜伏空间。比如把512x512的图片压缩成64x64。64乘以64等于4096个数字，比原来的786,432个数字少了将近200倍。第二步，在压缩后的潜伏空间里进行扩散和去噪。由于数据量大幅减少，处理速度可以提升几十倍。第三步，最后用解码器把潜伏空间的结果还原成高分辨率图片。这个过程就像：你不用在巨大的画布上操作，而是先在缩略图上完成构思，然后再放大到正式画布。 · · · · · ·

那个开源之夜

2022年8月，一个让整个AI圈震惊的消息传来：Stable Diffusion正式开源发布。与DALL-E或Imagen不同，Stable Diffusion是完全开源的——任何人都可以下载、修改、使用它的代码和权重。它的出现意味着什么？在它之前，AI图像生成是"富人俱乐部"的游戏。DALL-E 2仅限受邀用户使用，而且每次生成需要付费。Imagen从未公开，只发布了几张演示图片。Midjourney需要付费订阅才能使用。而Stable Diffusion——完全免费，完全开源，可以在消费级GPU上运行。这就像有人突然把iPhone的图纸和所有源代码公之于众，任何人都可以自己"造手机"了。 Stable Diffusion最令人惊叹的特性之一是：它只需要一块NVIDIA RTX 3060或更高配置的消费级显卡就能流畅运行。这种显卡在2022年的价格大约是500到800美元，是游戏玩家的标准配置。全球数亿游戏玩家突然发现：自己的电脑居然可以运行最前沿的AI图像生成。一时间，各种教程、视频、模型权重在互联网上疯狂传播。AI图像生成不再是研究机构的专利——它走进了普通人的家庭。 · · · · · ·

三个人，一个完美三角

如果我们把隆巴赫、埃瑟、莫斯塔克三个人放在一起看，会发现一个有趣的组合。隆巴赫是技术深度。他对算法和代码的极致追求，是Stable Diffusion能够如此高效的根本原因。没有他的工程洁癖，这个模型可能会慢上十倍。埃瑟是连接能力。他既理解技术，又理解艺术；既能与研究人员沟通，也能与艺术家和公众沟通。他是技术与创意世界之间的翻译官。莫斯塔克是愿景和执行力。他不是技术最出色的研究员，但他是最出色的放大器——他能够识别有价值的技术，然后动员资源让它发挥最大的影响。这三个人的组合几乎完美：技术乘以连接乘以放大。缺少任何一环，Stable Diffusion可能都不会诞生——或者即使诞生了，也不会产生如此巨大的影响。 · · · · · ·

改变的一切

2022年8月Stable Diffusion发布时，很多人没有意识到这意味着什么。但仅仅几个月后，整个创意行业都开始感受到了它的冲击。无数设计师开始使用Stable Diffusion作为创作辅助工具。它可以快速生成概念图、素材图、背景图，大大提高了工作效率。独立游戏开发者发现，他们现在可以负担得起高质量的游戏美术——以前可能需要几十万美元的外包费用，现在可以由AI辅助完成。摄影师和业余爱好者都开始使用AI图像生成作为Photoshop的终极版本——不仅可以修复旧照片，还能把粗糙的构思变成逼真的画面。好莱坞的视效公司开始尝试使用AI辅助生成概念艺术和预可视化。虽然最终成片仍需要传统工艺，但前期的创意探索已经被AI改变。 "开源AI将比闭源AI更安全。这不是我的愿望，而是我的信念。" —— 伊马德·莫斯塔克，2022年 · · · · · ·

开源社区的爆炸式生长

Stable Diffusion开源后的几个月里，莫斯塔克目睹了一些他从未想象过的事情发生。全球数万名开发者开始基于他的模型进行二次开发。有人优化了运行效率，让模型在更低配置的显卡上也能流畅运行；有人开发了定制的用户界面，让不懂代码的普通人也能轻松上手；有人训练了专门针对动漫风格、艺术风格、特定艺术家风格的模型变体；还有人将模型移植到手机端，让移动设备也能运行AI图像生成。这种自发性的创新速度，远超过了任何一家公司内部的研发能力。 "我们在几个月内看到的东西，比我们整个研究团队几年内能想到的还要多。开源的力量不在于代码本身，而在于它释放了全世界最聪明的人的创造力。" —— 伊马德·莫斯塔克，2023年其中最有趣的一个例子是ControlNet的诞生。这是一款由独立开发者孙启涵（Qi Chang）开发的插件，可以让用户通过骨骼姿态、深度图、轮廓等条件来精确控制AI生成的图像。这个插件的代码量不大，但它的创新彻底改变了AI图像生成的工作流——从"随机生成然后挑选"，变成了"精确控制生成结果"。而孙启涵完成这项工作时，只是一名在读研究生。这些故事让莫斯塔克更加坚信：开源之所以强大，不是因为"免费"，而是因为它释放了人类的集体智慧。当足够多的人为一个共同目标贡献力量时，其爆发出的创新能力是任何单一组织都无法比拟的。 · · · · · ·

莫斯塔克的信念

莫斯塔克最鲜明的标签是"开源AI的坚定倡导者"。在2022到2023年，当OpenAI、谷歌、Meta等大公司纷纷加强AI技术的护城河时，莫斯塔克却选择了完全相反的道路——尽可能开放、尽可能开源。 "当一项技术足够强大时，它就不应该被少数人控制。电力、核能、互联网——这些技术都太重要了，不能成为私人的盈利工具。AI同样如此。" 他用Linux、Android、Python的成功来论证自己的观点：开源项目之所以成功，是因为当足够多的人共同参与一个项目时，它会变得更好。 "我们开源Stable Diffusion后，全世界数万名开发者帮助我们改进它——有人优化了速度，有人修复了bug，有人开发了新功能。这种集体智慧的力量，是任何一家公司都无法复制的。" 但莫斯塔克也承认开源带来的挑战。与所有生成式AI一样，Stable Diffusion偶尔会生成有问题的内容——虚假信息、暴力内容、深度伪造等。 "坏人用菜刀杀人，我们不应该禁止菜刀，"他说，"该做的是培训厨师，监管使用场景，但不要把刀藏起来。" · · · · · ·

未完的故事

莫斯塔克和Stability AI的道路并非一帆风顺。开源模式虽然带来了巨大的用户群和影响力，但变现并不容易。2023年，公司开始面临财务压力、人才流失、版权争议等挑战。但莫斯塔克的态度是： "我们正在走一条前所未有的道路。没有地图，没有先例。我们只能一边走，一边学习。错了就改，但不要因为害怕犯错就停下脚步。" —— 伊马德·莫斯塔克回顾2022年，如果莫斯塔克做出了不同的选择——把Stable Diffusion卖给谷歌或Meta，获得独家授权费——AI的历史可能会完全不同。但他选择了开源。这个选择改变了一切：无数独立开发者开始基于Stable Diffusion构建应用；无数普通人第一次接触到了AI图像生成；一个全新的"AI创作者经济"开始萌芽；闭源AI公司被迫加快自己的产品迭代，以应对开源的竞争。而这，就是三个人的故事。一个关于技术、愿景和信念的故事。 · · · 第十章 · 完

开源AI革命 ​

一切从"太慢了"开始 ​

德国工程师与他的一点执念 ​

桥梁 ​

那个局外人 ​

那个夏天 ​

Latent Diffusion的秘密 ​

那个开源之夜 ​

三个人，一个完美三角 ​

改变的一切 ​

开源社区的爆炸式生长 ​

莫斯塔克的信念 ​

未完的故事 ​