刚刚,老黄又高调向全世界秀了一把:已经量产的Blackwell,8年内将把1.8万亿参数GPT-4的训练能耗狂砍到1/350;英伟达惊人的产品迭代,直接原地冲破摩尔定律;Blackwell的后三代路线图,也一口气被放出。
就在刚刚,老黄手持Blackwell向全世界展示的那一刻,全场的观众沸腾了。
如果用老黄的话说,它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」
8年内,1.8万亿参数GPT-4的训练能耗,直接疯狂降到1/350;而推理能耗则直接降到1/45000
一手硬件,一手CUDA,老黄胸有成竹地穿过「计算通货膨胀」,放出豪言预测道——在不久的将来,每一个处理密集型应用都将被加速,每一个数据中心也肯定会被加速。
他表示,「英伟达正处于计算机图形模拟和人工智能的交叉点上。这是我们的『灵魂』」。
这一切都是物理世界中的模拟,它的实现,得益于两项基本的技术——加速计算和人工智能,将重塑计算机产业。
到目前为止,计算机行业已有60多年的历史,而现在,一个全新的计算时代已然开始。
1964年,IBM的System 360首次引入了CPU,通用计算通过操作系统将硬件和软件分离。架构兼容性、向后兼容性等等,所有我们今天所了解的技术,都是从这个时间点而来。
直到1995年,PC革命开启让计算走进千家万户,更加民主化。2007年,iPhone推出直接把「电脑」装进了口袋,并实现了云端链接。
可以看出,过去60年里,我们见证了2-3个推动计算行业转变的重要技术节点。
首先是处理器,性能扩展已经大大放缓,而我们所需的计算量、需要处理的数据都在呈指数级增长。
过去的20年里,英伟达一直在研究加速计算。比如,CUDA的出现加速了CPU负载。事实上,专用的GPU效果会更好。
当我们运行一个应用程序,不希望是一个运行100秒,甚至是100个小时的APP。
因此,英伟达首创了异构计算,让CPU和GPU并行运行,将过去的100个时间单位,加速到仅需要1个时间单位。
可见,它已经实现了100倍速率提升,而功耗仅增加的3倍,成本仅为原来的1.5倍。
英伟达同时为价值十亿美元的数据中心,配备了5亿美元的GPU,让其变成了「AI工厂」。
有了加速计算,世界上许多公司可以节省数亿美元在云端处理数据。这也印证了老黄的「数学公式」,买得越多,省得越多。
除了GPU,英伟达还做了业界难以企及的事,那就是重写软件,以加速硬件的运行。
也就是说,没有CUDA,就等同于计算机图形处理没有OpenGL,数据处理没有SQL。
而现在,采用CUDA的生态遍布世界各地。就在上周,谷歌宣布将cuDF加入谷歌云中,并加速世界上受欢迎的数据科学库Pandas。
而现在,只需要点击一下,就可以在CoLab中使用Pandas。就看这数据处理速度,简直快到令人难以置信。
老黄表示,要推行一个全新的平台是「蛋和鸡」的困境,开发者和用户,缺一不可。
但是经过20年的发展,CUDA已经打破了这个困境,通过全球500万开发者和无数领域的用户实现了良性循环。
有越多人安装CUDA,运行的计算量越大,他们就越能据此改进性能,迭代出更高效、更节能的CUDA。
2012年,神经网络AlexNet的诞生,将英伟达第一次与AI联系起来。我们都知道,AI教父Hinton和高徒当时在2个英伟达GPU上完成AlexNet的训练。
但由于,神经网络架构不断scaling,对数据、计算量「胃口」愈加庞大,这就不得不需要英伟达重新发明一切。
由此,2016年,老黄亲自将英伟达首个DGX超算送给了位于旧金山的一家「小公司」OpenAI。
直到,2017年Transformer架构诞生,需要更大的数据训练LLM,以识别和学习一段时间内连续发生的模式。
之后,英伟达建造了更大的超算。2022年11月,在英伟达数万个GPU上完成训练的ChatGPT横空出世,能够像人类一样交互。
这是世界第一次看到了生成式AI。它会一次输出一个token,可以是图像、语音、文字、视频,甚至是天气token,全部都是关于生成。
老黄表示,「我们可以学习的一切,现在都可以生成。我们现在已经进入了一个全新的生成式AI时代」。
当初,那个作为超算出现的计算机,已经变成了数据中心。它可以输出token,摇身一变成为了「AI工厂」。
人类首次实现了,仅靠3万亿美元的IT产业,创造出能够直接服务于100万亿美元产业的一切东西。
传统的软件工厂,到如今AI工厂的转变,实现了CPU到GPU,检索到生成,指令到大模型,工具到技能的升级。
接下来就让我们看看,英伟达是如何将一颗颗地表最强的Blackwell芯片,变成一座座超级「AI工厂」的。
比如,训练一个1.8万亿参数、8万亿token的GPT-4所用的能耗,直接降至1/350!
Pascal需要消耗的,是1000吉瓦时,这就意味着,它需要一个1000吉瓦的数据中心。(1吉瓦=1000兆瓦)
这也就是为什么,ChatGPT这样的LLM老黄一口气解密三代GPU!粉碎摩尔定律打造AI帝国量产Blackwell解决ChatGPT全球耗电难题, 在八年前是根本不可能存在的。
可以说,Blackwell就是为了推理,为了生成token而生的。它直接将每token的能量降低了45000倍。
在以前,用Pascal产生1个token的消耗,相当于两个200瓦的灯泡运行2天。让GPT-4生成一个单词,大概需要3个token。这根本不可能让我们得到如今和GPT-4聊天的体验。
而现在,我们每个token可以只使用0.4焦耳,用很少的能量,就能产生惊人的token。
当我们从DGX扩展到大型AI超算,Transformer可以在大规模数据集上训练。
而下一代AI,则需要理解物理世界。然而如今大多数AI并不理解物理规律。其中一种解决办法,是让AI学习视频资料,另一种,则是合成数据。
英伟达将两块目前能造出来的最大尺寸的芯片,用一条10TB/s的链路链接起来;然后再把它们放到同一个计算节点上,和一块Grace CPU相连。
在训练时,它被用于快速检查点;而在推理和生成的场景,它可以用于储存上下文内存。
而且,这种第二代GPU还有高度的安全性,我们在使用时完全可以要求服务器保护AI不受偷窃或篡改。
通过该系统,我们可以测试每一个晶体管、触发器、片上内存和片外内存,因此我们可以当场确定某个芯片是否出现故障。
基于此,英伟达将拥有十万个GPU超算的故障间隔时间,缩短到了以分钟为单位。
因此,如果我们不发明技术来提高超算的可靠性,那么它就不可能长期运行,也不可能训练出可以运行数月的模型。
最后,老黄表示,解压缩引擎的数据处理,也是英伟达必须做的最重要的事之一。
通过增加数据压缩引擎、解压缩引擎,就能以20倍的速度从存储中提取数据,比现在的速度要快得多。
英伟达不仅要做芯片,还要制造搭载最先进芯片的服务器。拥有Blackwell的DGX超算,在各方面都实现了能力跃升。
集成了Blackwell芯片的最新DGX,能耗仅比上一代Hopper提升了10倍,但FLOPS量级却提升了45倍。
NVLink将这些单独的GPU彼此连接起来,因此我们就得到了72个GPU的MGX
介绍完芯片,老黄特意提到了英伟达研发的NVLink技术,这也是英伟达的主板可以越做越大的重要原因。
由于LLM参数越来越多、越来越消耗内存,想要把模型塞进单个GPU已经几乎是不可能的事情,必需搭建集群。其中,GPU通信技术的重要性不亚于计算能力。
英伟达的NVLink,是世界上最先进的GPU互连技术,数据传输速率可以堪称疯狂!
因为如今的DGX拥有72个GPU,而上一代只有8个,让GPU数直接增加了9倍。而带宽量,则直接增加了18倍,AI FLops增加了45倍,但功率仅仅增加了10倍,也即100千瓦。
人们之所以意识到它的重要性,是因为它将所有这些不同的GPU连接在一起,从而能够让十万亿参数的LLM运行起来。
500亿个晶体管,74个端口,每个端口400GB,7.2TB每秒的横截面带宽,这本身就是个奇迹。
而更重要的是,NVLink内部还具有数学功能,可以实现归约。对于芯片上的深度学习,这尤其重要。
支撑着72个GPU的骨架,就是NVLink的5000根电缆,能够在传输方面节省20kw的功耗用于芯片计算。
老黄拿在手里的,是一个NVLink的主干,用老黄的原话说,它是一个「电气机械奇迹」
NVLink做到的仅仅是将不同GPU芯片连接在一起,于是老黄又说了一句「这还不够宏大」。
要连接超算中心内不同的主机,最先进的技术是「无限带宽」(InfiniBand)。
但很多数据中心的基础设施和生态,都是基于曾经使用的以太网构建的,推倒重来的成本过高。
因此,为了帮助更多的数据中心顺利迈进AI时代,英伟达研发了一系列与AI超算适配的以太交换机。
网络级RDMA、阻塞控制、适应性路由、噪声隔离,英伟达利用自己在这四项技术上的顶尖地位,将以太网改造成了适合GPU之间点对点通信的网络。
这个容器里有大量的软件,其中包括用于推理服务的Triton推理服务器、优化的AI模型、云原生堆栈等等。
现场,老黄再一次展示了全能AI模型——可以实现全模态互通。有了NIM,这一切都不是问题。
它可以提供一种简单、标准化的方式,将生成式AI添加到应用程序中,大大提高开发者的生产力。
未来,不再耗费数周的时间,开发者们可以在几分钟内,轻松构建生成式AI应用程序。
与此同时,NIM还支持Meta Llama 3-8B,可以在加速基础设施上生成多达3倍的token。
而基于NIM打造的各类应用,也将迸发涌现,包括数字人、智能体、数字孪生等等。
老黄表示,「NVIDIA NIM集成到各个平台中,开发人员可以随处访问,随处运行 —— 正在帮助技术行业使生成式 AI 触手可及」。
可以看到,在NIM容器之上,大多数智能体负责推理,去弄清任务并将其分解成多个子任务。还有一些,它们负责检索信息、搜索,甚至是使用工具等。
未来,每家公司都将有大量的NIM智能体,通过连接起来组成一个团队,完成不可能的任务。
他表示,虽然可以使用文字或语音形式的prompt给AI下达指令,但很多应用中,我们还是需要更自然的、更类人的交互方式。
这指向了老黄的一个愿景——数字人。相比现在的LLM,它们可以更吸引人,更有同理心。
这是由英伟达ACE提供的魔力,能够为创建栩栩如生的数字人,提供相应的AI工具。
现在,英伟达计划在1亿台RTX AI个人电脑和笔记本电脑上,部署ACE PC NIM微服务。
这其中包括英伟达首个小语言模型——Nemotron-3 4.5B,专为在设备上运行而设计,具备与云端LLM相似的精度和准确性。
此外,ACE数字人类AI新套件还包括基于音轨生成身体手势——NVIDIA Audio2Gesture,即将推出。
老黄表示,「数字人类将彻底改变各个行业,ACE提供的多模态LLM和神经图形学的突破,使我们更接近意图驱动计算的未来,与计算机的交互将如同与人类的交互一样自然」。
Hopper和Blackwell系列的推出,标志着英伟达逐渐搭建起完整的AI超算技术栈,包括CPU、GPU芯片,NVLink的GPU通信技术,以及NIC和交换机组成的服务器网络。
这足够大、足够 三牛登陆全栈了吧。但是老黄表示,我们的迭代速度还要加快,才能跟上GenAI的更新速度。
英伟达在不久前就曾放出消息,即将把GPU的迭代速度从原来的两年一次调整为一年一次,要用最快的速度推进所有技术的边界。
今天的演讲中,老黄再次实锤官宣GPU年更。但是他又紧跟着叠了个甲,说自己可能会后悔。
无论如何,我们现在知道了,英伟达不久后就会推出Blackwell Ultra,以及明年的下一代的Rubin系列。
除了芯片和超算服务器,老黄还发布了一个所有人都没有想到的项目——数字孪生地球「Earth-2」。
而且根据老黄的口吻推测,Earth-2已经推进了数年,今年取得的重大突破才让他觉得,是时候亮出来了。
为什么要为建造整个地球的数字孪生?是要像小扎的元宇宙那样,把社交和互动都搬到线上平台吗?
他希望在Earth-2的模拟,可以预测整个星球的未来,从而帮我们更好地应对气候变化和各种极端天气,比如可以预测台风的登陆点。
Earth-2结合了生成式AI模型CorrDiff,基于WRF数值模拟进行训练,能以12倍更高的解析度生成天气模型,从25公里范围提高到2公里。
不仅解析度更高,而且相比物理模拟的运行速度提高了1000倍,能源效率提高了3000倍,因此可以在服务器上持续运行、实时预测。
而且,Earth-2的下一步还要将预测精度从2公里提升到数十米,同时考虑城市内的基础设施,甚至可以预测到街道上什么时候会刮来强风。
对于这个狂飙突进的AI时代,老黄大胆预测了下一波浪潮——物理AI,或者说是具身AI。
它们不仅需要有超高的认知能力,可以理解人类、理解物理世界,还要有极致的行动力,完成各种现实任务。
想象一下这个赛博朋克的未来:一群机器人在一起,像人类一样交流、协作,在工厂里创造出更多的机器人。
在多模态AI的驱动下,它们可以学习、感知世界,理解人类指令,并进化出计划、导航以及动作技能,完成各种复杂任务。
那要怎样训练这些机器人呢?如果让他们在现实世界横冲直撞,代价要比训练LLM大得多。
正像LLM可以通过RLHF进行价值观对齐一样,机器人也可以在遵循物理规律的数字孪生世界中不断试错、学习,模仿人类行为,最终达到通用智能。
Nvidia的Omniverse可以作为构建数字孪生的平台,集成Gen AI模型、物理模拟以及动态实时的渲染技术,成为「机器人健身房」。
志在做全栈的英伟达也不仅仅满足于操作系统。他们还会提供用于训练模型的超算,以及用于运行模型的Jetson Thor和Orin。
为了适应不同应用场景下的机器人系统,英伟达的Omniverse将逐步扩展为Warehouse生态系统。
这个生态将无所不包,从搭配应用程序的SDK和API,到运行边缘AI计算的接口,再到最底层的可定制芯片。
为了让这个AI 机器人时代看起来更线个和老黄有同样身高的机器人一同登场。