AI霸主英伟达是怎样炼成的

这几天,英伟达创始人、CEO黄仁勋要来中国大陆,会见腾讯、浪潮等企业高管的消息在网上炒得沸沸扬扬。随着黄仁勋在结束台北国际计算机展(Computex)后已经返回美国,该消息可以确认为虚假消息。

虽然黄仁勋没像特斯拉CEO伊隆·马斯克、通用汽车董事长兼CEO玛丽·博拉、福特CEO福特汽车总裁兼CEO吉姆·法利一样到访中国大陆,但最近英伟达仍因股价狂涨超万亿美元而成为业界的聚焦点。

5月30日晚,美股开盘,英伟达股价上涨3.8%至404.25美元/股,随后更是一路飙升至419.38美元/股,市值突破1万亿美元。到目前为止,只有7家美国公司的市值达到或曾经达到1万亿美元。

目前,英伟达市值大致相当于1.8个台积电、2.6个腾讯、3.3个贵州茅台、4.9个阿里。和同类芯片公司相比,英伟达的市值相当于8.4个英特尔、8.3 个高通、6.3个德州仪器、5个AMD。

据英伟达公布2024财年一季度数据(截至2023年4月30日),其中收入为71.9亿美元,尽管同比下降13%,但环比大增19%,且超出65亿美元的市场预期。英伟达预测下季度收入有望达110亿美元,增长幅度达53%。

根据彭博亿万富翁指数,英伟达创始人、CEO黄仁勋的净资产今年已经增长了211亿美元,接近350亿美元,在全球富人排行榜上排名第37位。

而这一切,与其在人工智能的发展中起到的巨大作用有着密不可分的关系。ChatGPT的病毒式成功让英伟达走出了游戏显卡滞销的低谷,几乎所有互联网大厂都在竞相采购英伟达的计算芯片。

英伟达30年的发展史可以大致分为四段。从1993年到1999年,英伟达在竞争激烈的图形卡市场中存活下来;2000年到2006年,英伟达创造了GPU这一革命性的芯片,并成为独显领域的霸主;2007年到2014年,英伟达利用CUDA平台,将业务从显卡扩展至高性能计算;2015年到2023年,英伟达利用软硬一体的策略,将GPU应用于机器学习、深度学习、云计算等领域,成为AI时代的巨擘。

美国银行最近一份报告称,英伟达是“AI淘金时代的卖铲王”,并引用了1850年代淘金热期间出售铲子的商人比真正的淘金者赚得更好的观点。

1993年黄仁勋联合Sun Microsystem公司两位年轻工程师克里斯·马拉科夫斯基和柯蒂斯·普利姆在美国加州共同创立了英伟达公司。

当时图形操作系统Windows 3.1刚刚问世,英伟达想要能找到一种方法让 3D 图形消费化、民主化,让大量的人能够接触到这项技术,从而创造一个当时不存在的全新行业——电子游戏。他们认为,如果做成,就有可能成为世界上最重要的技术公司之一。

英伟达在1996年推出Riva128芯片,在性能方面优于下一年英特尔推出的i740,并且芯片尺寸更小,因此结构成本更低。

在经历了行业发展初期洗牌之后,英伟达在独立显卡市场上的主要竞争对手只剩下ATi,整个独立显卡行业逐步向寡头垄断转变。英伟达通过坚持投入研发,完善产品线,竞争力持续提升。

2000年,英伟达推出世界上第一颗GPU——GeForce256,GPU擅长大数据量、逻辑不复杂的重复计算,是为解决图像像素处理发明的。同年,英伟达收购了显卡先驱企业3Dfx,在显卡行业与ATi公司形成双寡头垄断的格局。

2004年,英伟达的SLI技术问世,其允许将多个GPU连接在一起,从而大大提升了单台PC的图形处理能力。

同年,英伟达创新性推出CUDA(Compute Unified Device Architecture)架构,这是英伟达基于自有GPU的一个并行计算平台和编程模型,可利用图形处理器中的多颗计算核心进行通用计算处理工作,计算性能可获得显著提升,为今后的AI计算奠定了基础。

2007年,英伟达发布CUDA并行计算平台和开发套件,旨在推动基于GPU的并行计算生态系统的发展。

其革命性之处在于,能够在庞大运算问题中,通过CUDA编程充分利用GPU的并行处理能力提升算力,将传统通用计算单元、满足特定工作负载的加速计算单元以及满足网络和存储功能的加速单元进行高速互联协调,组合成一个完整的分布式异构算力模块,以高效满足复杂多变的云上数据中心算力场景。

CUDA让只做3D渲染的GPU得以实现通用计算功能,应用领域得以从游戏(图形渲染)向外扩展至高性能计算、自动驾驶等多个领域。但由于必须在硬件产品设计中增加相关CUDA逻辑电路,使得芯片面积增大、散热增加、成本上升、故障率增高;同时,要保证每款产品的软件驱动都支持CUDA,也给英伟达的工程师带来了巨大的工作量。

因此,英伟达的利润急剧下降,股价持续低迷,市值仅仅维持在10亿美元上下。股东们对CUDA持怀疑态度,并希望专注于提高盈利能力,但英伟达还是坚持下来了。

2009年,橡树岭国家实验室选择了英伟达代号为“Fermi”的第三代CUDA GPU架构来打造世界上最快的超级计算机,改变了英伟达的窘态。

关于如何转入人工智能领域,英伟达首席科学家兼高级研究副总裁比尔·戴利 ( Bill Dally ) 曾说:“我们是在和人工智能专家吴恩达开完早餐会后进入人工智能领域的。”

2010年的一天,加州帕罗奥图市的琼安咖啡馆里,刚做上英伟达首席科学家的比尔·戴利(Bill Dally)和当时在谷歌研发AI项目Google Brain的的AI界宗师吴恩达(Andrew Ng)聚餐。

两个老友在席间聊起了吴恩达当时课题面临的障碍:训练神经网络AI的算力不够了。而当时AI界的领军人物们仍然习惯串联CPU来执行此类任务。吴恩达预计,要完成课题得用1.6万块CPU。

就算是从不缺钱的谷歌,也不会给公司内任一研发项目组轻松批下买1.6万块CPU的预算。AI宗师被难住了。戴利听完老友诉苦,提出了自己的解决方案:“何必整1.6万块CPU,用我们英伟达公司的显卡产品,几十块就搞定,你信不信?”

随后,戴利找上刚从加大伯克利分校招到英伟达的非正职研究员布莱恩·卡坦扎罗(Bryan Catanzaro),请他帮忙。卡坦扎罗很快找到了解决方案:并联12块英伟达GPU成功驱动了吴恩达的神经网络模型,并联48块GPU就能获取预计要用1.6万块CPU才有的理想效果。

2012年,“AI教父”杰弗里·辛顿(Geoffrey Hinton)和学生克里泽夫斯基(Alex Krizhevsky)、萨茨克维尔(Ilya Suskever)效仿此举,用英伟达的GeForce GTX 580显卡训练由克里泽夫斯基提出的神经网络模型AlexNet,夺得ImageNet图像分类竞赛冠军,震撼了学术界,英伟达也借此一战成名,从游戏市场跨入了AI市场。

此后几年,英伟达的客户开始购买大量GPU用于深度学习,包括分子动力学、计算物理学、天体物理学、粒子物理学、高能物理学等在内的众多科学领域开始采用CUDA和GPU。

这让黄仁勋逐渐意识到AI才是这家公司的未来,随即将把一切赌注押在AI身上,推出专门为高性能计算应用设计的GPU。

在2014年的GTC主题演讲中,黄仁勋表示,人工智能成为焦点,机器学习是“当今高性能计算领域最激动人心的应用之一,其中一个已经取得令人兴奋的突破、巨大的突破、神奇的突破的领域是叫做深度神经网络的领域。”

此后,英伟达乘着深度学习和区块链的东风,成为AI芯片领域的绝对霸主。黄仁勋更是在GTC 2015上直言:”我们不是硬件公司,我们是AI公司。”

英伟达逐渐加快布局AI技术,逐渐建立了一个强大的生态系统,包括芯片、相关硬件以及一整套针对其芯片和系统进行优化的软件和开发系统。

英伟达一直在做的一件非常聪明的事情,就是软硬一体。在GPU硬件半导体的基础上,基于通用计算的CUDA促成了英伟达拿到了软件和硬件的双重规模效应。

在硬件端,因为英伟达采用图形和计算的统一架构,通用性保证了规模性,而规模性摊薄了研发成本;在软件端,CUDA有庞大的开发者生态,即便是这些软件开发人员换了一个公司,但他可能还是在继续用 CUDA 的软件。

现在,所有英伟达GPU都支持CUDA,从学生到科学家,用一台配备英伟达GPU的笔记本电脑,任何人都能开发软件。CUDA为计算、人工智能等带来了革新性影响,而积累多年的CUDA生态也成了英伟达最深的一条护城河,支撑起了万亿美元的市值。

2016年,英伟达推出首款专门为深度学习从零开始设计的AI加速器芯片TeslaP100。同年,英伟达还推出了全球首款一体化深度学习超级计算机——DGX-1,基于Nvidia的GPU架构构建的,搭载了8块 Tesla P100。

当年8月,黄仁勋非常前瞻地把第一台DGX-1直接捐给了OpenAI。现在因Chat GPT非常火爆的OpenAI,当时仅是成立不到一年的非营利性人工智能研究公司,创始人包括伊隆·马斯克、萨姆·阿尔托尼安、格雷格·布罗克等人,旨在研究和推动人工智能技术的发展。

虽然当时英伟达的DGX-1 12.9万美元的单价算不上很贵,但当时英伟达手里积压了100多家公司的DGX-1订单,在此情况下,黄仁勋还是把第一台捐给了OpenAI,并在机器上签下“致Elon和OpenAI团队,为了计算和人类的未来,我捐出世界上第一台DGX-1!”正是那台DGX-1,把OpenAI一年的训练时间,压缩到短短一个月。

黄仁勋向OpenAI捐赠AI超算电脑的举动,展现了他对OpenAI的支持和对AI技术的信心。这个次捐赠不仅让OpenAI能够更快速地推进人工智能技术的研究和开发,同时也展示了英伟达作为一个领先的GPU制造商,对AI技术的投入和支持。

2017年,英伟达发布了面向L5自动驾驶开发平台PegASUS。2018年年年初,英伟达成立了人工智能机器人实验室,由著名机器人专家、英伟达机器人研究高级主管、华盛顿大学教授迪特尔·福克斯 ( Dieter Fox ) 领导,旨在开发能够与人类安全合作的下一代机器人,并有望改变制造、物流和医疗保健等行业。

深度学习让人工智能系统能够解决以前不可能解决的问题,通过反复试错,其已经在数字助手、计算机视觉、语言翻译、聊天机器人、人脸识别等领域取得了突破性进展,而这些突破在很大程度上依赖于英伟达的 GPU。

2014年至2018年间,该公司数据中心优化芯片的营收增长了524%,有效提振了该公司的业绩。同期,英伟达股价翻了9倍多,深度学习将英伟达送上了AI领域第一股。

比尔·戴利说:“我们是全世界的供应商,每个人都通过英伟达的GPU训练他们的深度神经网络。”Facebook和谷歌使用英伟达平台为其平台上的人工智能功能提供支持。几乎所有的自动驾驶汽车公司都在使用英伟达的技术。英伟达还与腾讯、阿里巴巴和百度签署了合作协议。

2019年,英伟达以69亿美元收购高性能计算互连技术的领导者Mellanox,英伟达与Mellanox的合并,增强了其数据中心和人工智能业务,支持其与英特尔进行竞争。资料显示,占据70%高性能计算的计算机网络通信标准InfiniBand市场的Mellanox,是该领域绝对的老大。

2020年12月英伟达GTC CHINA大会上,黄仁勋发布了自动驾驶芯片Orin,它集成了NVIDIA新一代GPU架构Ampere和Arm Hercules CPU内核以及全新深度学习加速器(DLA)和计算机视觉加速器(PVA),单片算力达254TOPS,当时处于绝对领先地位。

目前Orin的订单火爆,已经有越来越多的车企和初创公司宣布搭载Orin平台。上汽的R和智己,理想L9、蔚来ET7、小鹏新一代P7,沃尔沃XC90,还有自动驾驶卡车公司智加科技,Robotaxi等众多明星企业Cruise、Zoox、滴滴、小马智行、AutoX、软件公司Momonta等等,都搭载Orin平台进行开发。

2022年9月,英伟达正式发布了名为“Drive Thor”的新一代AI芯片,单片算力就达到了2000TOPS,相当于此前发布的Orin芯片的八倍,暂居业内首位。Drive Thor旨在将将高级驾驶辅助系统、停车、驾驶员监控、摄像镜、数字仪表盘和信息娱乐系统等功能整合到一个系统中,从而降低整体系统成本。

2022年11月底,轰动世界的OpenAI旗下的人工智能聊天机器人ChatGPT推出,而实际处理ChatGPT的服务器平台,正是英伟达的HGX A100。此前,英伟达在AI训练端已经推出了V100、A100、H100三款服务器平台。

H100是当时英伟达最强大、最昂贵的处理器之一,每颗售价约为4万美元。尽管发布时机似乎不太理想,但不久之后,人工智能聊天机器人ChatGPT的出现改变了一切。

英伟达首席执行官黄仁勋表示,ChatGPT的突然流行创造了即时需求,引发了全球大科技公司和初创公司之间的人工智能军备竞赛。这些公司迫切需要H100,因为它是世界上第一个专为生成性AI设计的计算机芯片,可以快速创建类似人类的文本、图像和内容的人工智能系统。

在今年3月21日的GTC开发者大会上,黄仁勋宣称:“我们是全球AI的发动机。这是我们这一代人第一次真正让AI技术变得人人触手可及。不只是利用技术,更是开发技术。”

5月29日,英伟达CEO黄仁勋在台北COMPUTEX上表示:“我们正在重新发明计算机,加速计算和人工智能标志着计算正在被重新定义。”

会上黄仁勋宣布,为生成式人工智能推出AI超级计算机DGX GH200。DGX GH200是第一款将Grace Hopper超级芯片与NVLink Switch System配对使用的超级计算机,此种互连方式能够使其系统中的所有GPU作为一个整体协同运行,可用于支持生成式AI、数据处理的巨型模型。

DGX GH200共链接256个Grace Hopper超级芯片,能够提供1exaflop的性能、具有144TB的共享内存,相较2020年推出的上一代DGX A100,内存扩大了近500倍。DGX GH200有望在今年年底上市。据报道,谷歌云、Meta和微软是首批有望获得DGX GH200访问权的公司。

根据IDC的测算,全球数据总量将以每年50%的增速不断增长,在2025年数据量会增加到334ZB,在2035年则将达到19267ZB。而增长的数据量主要来源于IoT、移动互联网、智慧城市、自动驾驶。大数据的应用将会从商业分析向工业、交通、政府管理、医疗、教育等等行业渗透,并且成为产业供应链中不可或缺的一部分。

在算力需求激增的背景下,英伟达已经是GPU设计领域的领导者,其GPU几乎成为了AI计算的“硬通货”。

据Research发布的GPU市场数据统计报告,英伟达2022年全年PC GPU出货量高达3034万块,在独立GPU市场占据84%的市场份额。另据统计,在AI数据中心GPU领域英伟达控制着90%的市场,在深度学习GPU市场它更是占有95%的市场。

高盛分析师Toshiya Hari周四在一份报告中写道:“鉴于英伟达的竞争优势,以及客户开发和部署日益复杂的AI模型的紧迫性,我们预计,在可预见的未来,英伟达将保持其行业龙头的地位。”

Raymond James总经理Srini Pajjuri的观点近似:“GPU的供应商只有一家,而英伟达在过去10年里一直在投资这个市场。他们不仅有芯片,还有系统和软件,这是一家全套式解决方案公司。”

一位德国商用车企的自动驾驶工程师告诉汽车商业评论,英伟达的这种垄断情况可能会持续很久,因为这是软硬一体的技术壁垒,不仅仅是GPU,还涉及了软件CUDA,现在更有数据传输架构NV Link以及高效共享内存等,这些在大规模并行计算上都是核心壁垒。其实英伟达的生态壁垒这几年是越来越高了,而不是仅仅GPU这么简单。他认为,这种规模的生态,一般的初创公司是打不进来的。

据华尔街日报消息,随着谷歌、微软、亚马逊和Meta等科技巨头现在急于建立类似于ChatGPT技术的生成性AI能力,他们需要英伟达的H100芯片等组件。比如谷歌所使用的A3超级计算机,就需要配备8个英伟达H100 GPU。

英伟达在AI领域的“一家独大”,已然成为硅谷众巨头心腹大患,其应对之策就是自己下场研发AI芯片。据报道,云计算前五大厂商(亚马逊AWS、微软Azure、Google Cloud、阿里云和IBM)市场占比超60%,都在做自己的AI芯片。近期,Meta也推出了自主研发的AI推理和视频编码芯片。

谷歌的TPU是少数能与英伟达GPU匹敌的芯片,但面临着通用性的局限;而AMD MI300在制程、架构及算力等多方面虽向英伟达产品看齐,但较为单薄的软件生态或是其主要突围障碍。

还有一批创业公司也在拼命追赶,比如Cerebras、SambaNova Systems和Habana(已经被英特尔收购),都在开发出更好的、可以替代AI GPU的新产品。

虽然目前看来,这些在AI芯片上的努力都没能达到取代英伟达GPU的程度,但对于英伟达而言,友谊的小船随时有可能倾覆,就像特斯拉在自动驾驶芯片上抛弃英伟达转为自研一样,现在英伟达还远未到高枕无忧的时候。

“AI的iPhone时刻已经来临。”黄仁勋认为,生成式AI将重塑几乎所有行业。在这个决胜时刻,英伟达想做的角色,不仅仅是提供芯片的“军火商”,它更大的野心是AI的技术基础设施。因此,在COMPUTEX 2023大会上,黄仁勋带来了一批与AI相关的最新产品和服务,其目标是在下个十年,是让“我们的产业将使用新型AI电脑取代价值上兆美元的传统电脑。”