Skip to content

黄仁勋 & 梁文锋

AI时代的"军火商"与中国大模型革命

我们总是以为我们来得太早,但其实我们来得刚刚好。 —— 黄仁勋 2012年的某个深夜,加州山景城的一间办公室里,杰弗里·辛顿接通了一个电话。电话那头是他在多伦多大学的学生亚历克斯·克里切夫斯基,声音里带着一种奇异的兴奋:"老师,你不会相信发生了什么。我们用两块GPU训练出来的模型,在ImageNet上的准确率碾压了所有人。" 辛顿沉默了几秒,然后问:"你需要什么?" 克里切夫斯基的回答简单而直接:"更多的GPU。" 这个电话后来被载入了AI史册。它标志着一个时代的终结——CPU统治计算领域的时代——和一个新时代的开始。GPU的时代。 而在电话那头,克里切夫斯基用的两块GPU,来自一家当时市值不过100亿美元的芯片公司。它的CEO是一个台湾裔美国人,说话带着轻微的口音,常年穿着黑色皮衣,被媒体戏称为"显卡界的乔布斯"。 他的名字是黄仁勋。 · · · · · ·

那个从洗厕所开始的少年

1963年,黄仁勋出生于台湾省台北市。他的父亲是工程师,母亲是教师。1972年,9岁的黄仁勋随家人移民美国,开始了一段完全不同的旅程。 初到美国的日子并不好过。语言不通、文化陌生、经济拮据——全家人的生活重担压在父亲一个人身上。黄仁勋和哥哥被送去美国投靠亲戚,在一所陌生的学校里艰难适应。 "我小时候什么活都干过。洗厕所、打扫庭院、在餐厅端盘子……"多年后,黄仁勋回忆起这段经历时说,"我没有觉得这些工作卑微,因为每一份工作都让我学到东西。" 这种不怕吃苦、从最底层做起的品质,塑造了他日后面对困难时的坚韧。多年后,当他在创业路上遭遇重重挫折时,这种品质一次又一次地把他从悬崖边缘拉了回来。 少年时期的黄仁勋并不是乖乖读书的孩子。他喜欢捣鼓各种电子设备,把家里的收音机、电视机拆得七零八落,想看看里面到底有什么。这种对电子产品的痴迷,最终把他引向了电气工程这条道路。 1984年,他从俄勒冈州立大学毕业后,继续深造。1990年,他获得了斯坦福大学电气工程硕士学位。斯坦福的时光让他接触到了最前沿的计算机技术,也让他开始思考一个改变他一生的问题:图形计算的未来在哪里? · · · · · ·

1993年,那个赌上一切的夜晚

1993年,黄仁勋30岁。 他和两位合伙人——克里斯·马拉科夫斯基和柯蒂斯·普里姆——在加州的一家咖啡馆里,决定创办一家芯片公司。他们给公司取名叫NVIDIA——这个词融合了"视觉"和"未来"的概念,寓意"下一代视觉计算"。 "1993年,我们三个人坐在那家咖啡馆里,讨论着要做一块改变世界的芯片。"黄仁勋后来回忆说,"那时候没人相信我们。风险投资家拒绝了我们37次。" 创业初期的条件极其简陋。没有办公室,就在自家车库里办公。白天写代码、跑测试,晚上讨论产品规划。1995年,他们的第一个产品NV1上市,但市场反应冷淡。这次失败几乎让公司破产。创始人们不得不裁掉一半的员工,剩下的钱只够维持几个月运营。 但黄仁勋没有放弃。他做了一个疯狂的决定:把剩下的钱全部投入研发,开发下一款产品RIVA 128。1997年,RIVA 128上市,这款产品终于获得了市场认可,成为当年度最畅销的图形芯片之一。NVIDIA活了下来。 · · · · · ·

GPU诞生,一个时代的开始

1999年,NVIDIA推出了GeForce 256——这是世界上第一款真正意义上的GPU。黄仁勋在发布会上说了一句后来被载入史册的话:"GPU将重新定义计算机。" CPU和GPU的区别在哪里?打个比方:CPU就像一个数学教授,可以解决复杂的微积分问题,但一次只能做一道题。GPU就像一千个小学生,可以同时做一千道简单的加减法。当需要处理大量简单重复计算时——比如图形渲染、AI训练——GPU的速度可以比CPU快几十甚至上百倍。 GeForce 256的诞生彻底改变了电子游戏产业。游戏画面开始突飞猛进:从2D到3D,从像素风到写实风,从30帧到60帧甚至144帧。NVIDIA的GeForce系列成为游戏玩家的标配显卡。"GTX"和"RTX"这两个字母组合成为性能的代名词。黄仁勋也因为常年穿着黑色皮衣出现在发布会上,被媒体戏称为"显卡界的乔布斯"。 "我记得那个电话。辛顿教授打给我,说他们用两块NVIDIA GPU训练出了一个怪物级别的模型,识别准确率高得离谱。我问他需要什么,他说:'更多的GPU。'那一刻我明白了——GPU不只是画画的,它是AI的引擎。" —— 黄仁勋,回顾2012年的转折点 · · · · · ·

CUDA,打开另一扇门

2006年,NVIDIA推出了CUDA——Compute Unified Device Architecture,统一计算设备架构。这是一个改变一切的决定。 在CUDA出现之前,GPU只能用来画图。它就像一个只会做一件事的专才,虽然很快,但灵活性极差。CUDA让开发者可以直接用C语言来控制GPU进行通用计算。换句话说,CUDA把GPU从一个"画图工具"变成了一个"通用计算工具"。 这是一个革命性的突破。它意味着GPU不仅可以画图,还可以做科学计算、物理模拟、气候预测、基因研究——几乎任何需要大规模并行计算的任务,GPU都能胜任。 但当时,很少有人意识到这一点。CUDA推出后的几年里,它的应用场景主要局限于科研领域。黄仁勋在后来的采访中说:"那时候我们在CUDA上投入了数十亿美元,但市场反应平平。很多人问我为什么要花这么多钱在一个看起来没有市场的技术上。我的回答是:我相信GPU的未来,我相信它会改变世界。" · · · · · ·

那个深夜电话之后

2012年,AlexNet在ImageNet竞赛中一鸣惊人。它使用两块NVIDIA GeForce GTX 580显卡,训练出了一个深度卷积神经网络,在图像识别任务上的准确率一举碾压了所有传统方法。 这个成果像一颗巨石砸进了平静的湖面,在AI学术界引发了海啸。从2012年开始,几乎每一届ImageNet竞赛的冠军都使用了深度学习方法。而这些方法无一例外,都依赖GPU进行加速训练。 黄仁勋后来说:"我们当时并不知道深度学习会爆发得这么快。我们只是觉得这个方向很有希望,就一直投入。CUDA的成功不是偶然的,是我们坚持了十几年的结果。" 2016年,黄仁勋给NVIDIA的工程师们下达了一个命令:30天内交付一款全新AI计算平台。这个平台后来成为DGX-1——世界上第一台专为深度学习打造的超级计算机。30天,这在正常的软硬件开发周期里几乎是不可能的。但黄仁勋知道,深度学习的机会稍纵即逝。工程师们拼了命地工作。30天后,DGX-1如期交付。 第一台DGX-1被黄仁勋亲自送给了OpenAI。他在机箱上写下一句话:"为了计算民主化,为了AI的明天。" · · · · · ·

AI军火商

从2012年开始,NVIDIA的命运与AI紧紧绑在了一起。 今天,全球几乎所有的大模型都在NVIDIA的GPU上训练:OpenAI的GPT-4、Google的Gemini、Meta的Llama、Anthropic的Claude、字节跳动的豆包、阿里巴巴的通义千问……无论哪家公司在这场AI竞赛中最终胜出,有一家公司是确定无疑的赢家:卖GPU的那个。 2012年,NVIDIA的市值约为100亿美元。到了2024年,NVIDIA的市值突破3万亿美元,超越苹果、微软,成为全球市值最高的公司。12年时间,市值增长了300倍。媒体送给黄仁勋一个称号:"AI时代的军火商"。 "我相信,AI不会取代人类。但使用AI的人,会取代不使用AI的人。" —— 黄仁勋,2024年GTC演讲 · · · · · ·

另一条路

在中国广州,另一个关于AI的故事正在悄然展开。 注:梁文锋先生鲜少公开露面,以下关于其人及其公司的描述,主要来源于幻方量化、深度求索的公开公告、行业报道及有限的开源信息,部分场景和对话为基于合理推断的创作。如有失实之处,欢迎指正。 2023年,一家名为DeepSeek的公司横空出世,它的创始人是一个几乎从不接受媒体采访、不参加各种行业大会、不在社交媒体上发言的人。他的名字叫梁文锋。 梁文锋的创业起点是量化交易。2008年起,他带领团队探索全自动量化交易,2015年正式创立了幻方量化。这家公司凭借其在人工智能和机器学习方面的技术积累,迅速崛起为中国最大的量化私募基金之一。2019年,幻方量化的管理资金规模已经突破千亿元人民币。 但真正让他进入公众视野的,是他随后的跨界——从金融进入AI大模型。 有知情人士透露,幻方量化早在ChatGPT发布之前就已经在探索AGI的可能性——这比大多数中国科技公司早了至少两到三年。"幻方最早就把AI研究作为战略重点,因为我们相信AGI会早晚会来。"梁文锋在内部讲话中说。 · · · · · ·

那条鲶鱼

2023年,梁文锋创立深度求索(DeepSeek),正式进军大语言模型赛道。这个时候,中国AI大模型市场已经巨头林立——百度文心、阿里通义、字节豆包、华为盘古……竞争激烈。 但DeepSeek的出现让整个行业为之侧目。 2024年5月,DeepSeek发布了DeepSeek-V2。这款模型的性能与GPT-4 Turbo相当,但API价格仅为后者的百分之一——每百万token仅需1元人民币。这个定价直接引发了行业的价格战。阿里、百度、腾讯等大厂纷纷被迫跟进降价,整个中国AI大模型市场瞬间进入"白菜价"时代。业界将这次事件称为"DeepSeek冲击波"。 2024年12月,DeepSeek发布第三代大模型DeepSeek-V3。这一次,DeepSeek直接与全球最先进的闭源模型正面竞争。结果令人震惊:在多个权威基准测试中,DeepSeek-V3的性能与GPT-4o持平,部分数学和编程任务上甚至超越GPT-4o。更重要的是,它的训练成本仅为557.6万美元——约是GPT-4训练成本的二十分之一。 这个成本差异让整个行业哗然。一时间,"中国AI效率革命"、"DeepSeek模式"等词汇充斥着科技媒体的头条。 "我们不是在做me-too,我们是在探索AGI的本质。" —— 梁文锋 · · · · · ·

效率信仰

DeepSeek能够大幅降低成本,核心在于其技术创新:MoE架构(混合专家)、FP8混合精度训练、自研的并行训练框架。传统大模型每次推理需要激活全部参数,而MoE架构只激活"专家"网络的一小部分。这就像一家公司不是每个员工都处理每个任务,而是让专业的人做专业的事。 梁文锋有个明确的理念:DeepSeek不是要做"中国版ChatGPT",而是要探索AGI的真正边界。"很多人在争论中国AI和美国的差距。但我们不太关心这个问题。我们关心的是,AGI的本质是什么,如何到达。" DeepSeek选择了与OpenAI截然不同的道路——全面开源。梁文锋曾解释这个决定:"开源不仅是技术选择,更是理念选择。我们相信AGI不应该被少数公司垄断。" 这种"使命驱动"而非"商业驱动"的理念,贯穿DeepSeek的整个发展轨迹。DeepSeek的大部分技术论文都是开源发布的——包括DeepSeek-V2、DeepSeek-V3的架构设计和训练方法。这种开放的态度,在中文AI圈子里独树一帜。 · · · · · ·

两个人的两种哲学

黄仁勋和梁文锋,两个年龄相差22岁、背景截然不同的人,却在AI时代走到了同一个舞台的中央。 黄仁勋是"乐观的冒险家"。他相信技术改变世界,相信规模的力量,相信持续投入总会有回报。他用三十年的时间把一家濒临破产的小公司打造成市值3万亿美元的巨头,他的哲学是"永远提前十年布局"。 梁文锋是"谨慎的理想主义者"。他相信效率比规模更重要,相信原创比模仿更有价值,相信使命比商业更持久。他的哲学是"我们不是在做me-too,我们是在探索AGI的本质"。 两种哲学,两条道路,却在这个时代交汇。他们共同证明了一件事:AI的世界足够大,容得下不同的梦想。 · · · · · ·

未完的故事

2024年,DeepSeek应用一度登顶全球应用商店免费榜榜首,成为有史以来增速最快的AI应用——连ChatGPT都没有做到过。美国知名AI研究员吉姆·范在社交媒体上评论:"DeepSeek-V3是一个重要的里程碑。它证明了即使在有限资源下,也能训练出世界顶级的模型。" 而黄仁勋则在2024年的GTC大会上说:"我们正处在AI的iPhone时刻。就像移动互联网彻底改变了我们生活一样,AI将彻底改变我们的工作、教育、医疗——改变一切。" 两个人的故事还在继续。AI的革命才刚刚开始。 · · · 第十一章 · 完

版权所有 © 2024-2026 AI名人传