老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国量产Blackwell解决ChatGPT全球耗电难题-首页「三牛注册」平台测速

三牛新闻三牛动态

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国量产Blackwell解决ChatGPT全球耗电难题

作者：管理员发布于：2024-06-10 23:01 文字：【大】【中】【小】

　　刚刚，老黄又高调向全世界秀了一把：已经量产的Blackwell，8年内将把1.8万亿参数GPT-4的训练能耗狂砍到1/350；英伟达惊人的产品迭代，直接原地冲破摩尔定律；Blackwell的后三代路线图，也一口气被放出。

　　就在刚刚，老黄手持Blackwell向全世界展示的那一刻，全场的观众沸腾了。

　　如果用老黄的话说，它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」

　　8年内，1.8万亿参数GPT-4的训练能耗，直接疯狂降到1/350；而推理能耗则直接降到1/45000

　　一手硬件，一手CUDA，老黄胸有成竹地穿过「计算通货膨胀」，放出豪言预测道——在不久的将来，每一个处理密集型应用都将被加速，每一个数据中心也肯定会被加速。

　　他表示，「英伟达正处于计算机图形模拟和人工智能的交叉点上。这是我们的『灵魂』」。

　　这一切都是物理世界中的模拟，它的实现，得益于两项基本的技术——加速计算和人工智能，将重塑计算机产业。

　　到目前为止，计算机行业已有60多年的历史，而现在，一个全新的计算时代已然开始。

　　1964年，IBM的System 360首次引入了CPU，通用计算通过操作系统将硬件和软件分离。架构兼容性、向后兼容性等等，所有我们今天所了解的技术，都是从这个时间点而来。

　　直到1995年，PC革命开启让计算走进千家万户，更加民主化。2007年，iPhone推出直接把「电脑」装进了口袋，并实现了云端链接。

　　可以看出，过去60年里，我们见证了2-3个推动计算行业转变的重要技术节点。

　　首先是处理器，性能扩展已经大大放缓，而我们所需的计算量、需要处理的数据都在呈指数级增长。

　　过去的20年里，英伟达一直在研究加速计算。比如，CUDA的出现加速了CPU负载。事实上，专用的GPU效果会更好。

　　当我们运行一个应用程序，不希望是一个运行100秒，甚至是100个小时的APP。

　　因此，英伟达首创了异构计算，让CPU和GPU并行运行，将过去的100个时间单位，加速到仅需要1个时间单位。

　　可见，它已经实现了100倍速率提升，而功耗仅增加的3倍，成本仅为原来的1.5倍。

　　英伟达同时为价值十亿美元的数据中心，配备了5亿美元的GPU，让其变成了「AI工厂」。

　　有了加速计算，世界上许多公司可以节省数亿美元在云端处理数据。这也印证了老黄的「数学公式」，买得越多，省得越多。

　　除了GPU，英伟达还做了业界难以企及的事，那就是重写软件，以加速硬件的运行。

　　也就是说，没有CUDA，就等同于计算机图形处理没有OpenGL，数据处理没有SQL。

　　而现在，采用CUDA的生态遍布世界各地。就在上周，谷歌宣布将cuDF加入谷歌云中，并加速世界上受欢迎的数据科学库Pandas。

　　而现在，只需要点击一下，就可以在CoLab中使用Pandas。就看这数据处理速度，简直快到令人难以置信。

　　老黄表示，要推行一个全新的平台是「蛋和鸡」的困境，开发者和用户，缺一不可。

　　但是经过20年的发展，CUDA已经打破了这个困境，通过全球500万开发者和无数领域的用户实现了良性循环。

　　有越多人安装CUDA，运行的计算量越大，他们就越能据此改进性能，迭代出更高效、更节能的CUDA。

　　2012年，神经网络AlexNet的诞生，将英伟达第一次与AI联系起来。我们都知道，AI教父Hinton和高徒当时在2个英伟达GPU上完成AlexNet的训练。

　　但由于，神经网络架构不断scaling，对数据、计算量「胃口」愈加庞大，这就不得不需要英伟达重新发明一切。

　　由此，2016年，老黄亲自将英伟达首个DGX超算送给了位于旧金山的一家「小公司」OpenAI。

　　直到，2017年Transformer架构诞生，需要更大的数据训练LLM，以识别和学习一段时间内连续发生的模式。

　　之后，英伟达建造了更大的超算。2022年11月，在英伟达数万个GPU上完成训练的ChatGPT横空出世，能够像人类一样交互。

　　这是世界第一次看到了生成式AI。它会一次输出一个token，可以是图像、语音、文字、视频，甚至是天气token，全部都是关于生成。

　　老黄表示，「我们可以学习的一切，现在都可以生成。我们现在已经进入了一个全新的生成式AI时代」。

　　当初，那个作为超算出现的计算机，已经变成了数据中心。它可以输出token，摇身一变成为了「AI工厂」。

　　人类首次实现了，仅靠3万亿美元的IT产业，创造出能够直接服务于100万亿美元产业的一切东西。

　　传统的软件工厂，到如今AI工厂的转变，实现了CPU到GPU，检索到生成，指令到大模型，工具到技能的升级。

　　接下来就让我们看看，英伟达是如何将一颗颗地表最强的Blackwell芯片，变成一座座超级「AI工厂」的。

　　比如，训练一个1.8万亿参数、8万亿token的GPT-4所用的能耗，直接降至1/350！

　　Pascal需要消耗的，是1000吉瓦时，这就意味着，它需要一个1000吉瓦的数据中心。（1吉瓦=1000兆瓦）

　　这也就是为什么，ChatGPT这样的LLM老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国量产Blackwell解决ChatGPT全球耗电难题，在八年前是根本不可能存在的。

　　可以说，Blackwell就是为了推理，为了生成token而生的。它直接将每token的能量降低了45000倍。

　　在以前，用Pascal产生1个token的消耗，相当于两个200瓦的灯泡运行2天。让GPT-4生成一个单词，大概需要3个token。这根本不可能让我们得到如今和GPT-4聊天的体验。

　　而现在，我们每个token可以只使用0.4焦耳，用很少的能量，就能产生惊人的token。

　　当我们从DGX扩展到大型AI超算，Transformer可以在大规模数据集上训练。

　　而下一代AI，则需要理解物理世界。然而如今大多数AI并不理解物理规律。其中一种解决办法，是让AI学习视频资料，另一种，则是合成数据。

　　英伟达将两块目前能造出来的最大尺寸的芯片，用一条10TB/s的链路链接起来；然后再把它们放到同一个计算节点上，和一块Grace CPU相连。

　　在训练时，它被用于快速检查点；而在推理和生成的场景，它可以用于储存上下文内存。

　　而且，这种第二代GPU还有高度的安全性，我们在使用时完全可以要求服务器保护AI不受偷窃或篡改。

　　通过该系统，我们可以测试每一个晶体管、触发器、片上内存和片外内存，因此我们可以当场确定某个芯片是否出现故障。

　　基于此，英伟达将拥有十万个GPU超算的故障间隔时间，缩短到了以分钟为单位。

　　因此，如果我们不发明技术来提高超算的可靠性，那么它就不可能长期运行，也不可能训练出可以运行数月的模型。

　　最后，老黄表示，解压缩引擎的数据处理，也是英伟达必须做的最重要的事之一。

　　通过增加数据压缩引擎、解压缩引擎，就能以20倍的速度从存储中提取数据，比现在的速度要快得多。

　　英伟达不仅要做芯片，还要制造搭载最先进芯片的服务器。拥有Blackwell的DGX超算，在各方面都实现了能力跃升。

　　集成了Blackwell芯片的最新DGX，能耗仅比上一代Hopper提升了10倍，但FLOPS量级却提升了45倍。

　　NVLink将这些单独的GPU彼此连接起来，因此我们就得到了72个GPU的MGX

　　介绍完芯片，老黄特意提到了英伟达研发的NVLink技术，这也是英伟达的主板可以越做越大的重要原因。

　　由于LLM参数越来越多、越来越消耗内存，想要把模型塞进单个GPU已经几乎是不可能的事情，必需搭建集群。其中，GPU通信技术的重要性不亚于计算能力。

　　英伟达的NVLink，是世界上最先进的GPU互连技术，数据传输速率可以堪称疯狂！

　　因为如今的DGX拥有72个GPU，而上一代只有8个，让GPU数直接增加了9倍。而带宽量，则直接增加了18倍，AI FLops增加了45倍，但功率仅仅增加了10倍，也即100千瓦。

　　人们之所以意识到它的重要性，是因为它将所有这些不同的GPU连接在一起，从而能够让十万亿参数的LLM运行起来。

　　500亿个晶体管，74个端口，每个端口400GB，7.2TB每秒的横截面带宽，这本身就是个奇迹。

　　而更重要的是，NVLink内部还具有数学功能，可以实现归约。对于芯片上的深度学习，这尤其重要。

　　支撑着72个GPU的骨架，就是NVLink的5000根电缆，能够在传输方面节省20kw的功耗用于芯片计算。

　　老黄拿在手里的，是一个NVLink的主干，用老黄的原话说，它是一个「电气机械奇迹」

　　NVLink做到的仅仅是将不同GPU芯片连接在一起，于是老黄又说了一句「这还不够宏大」。

　　要连接超算中心内不同的主机，最先进的技术是「无限带宽」（InfiniBand）。

　　但很多数据中心的基础设施和生态，都是基于曾经使用的以太网构建的，推倒重来的成本过高。

　　因此，为了帮助更多的数据中心顺利迈进AI时代，英伟达研发了一系列与AI超算适配的以太交换机。

　　网络级RDMA、阻塞控制、适应性路由、噪声隔离，英伟达利用自己在这四项技术上的顶尖地位，将以太网改造成了适合GPU之间点对点通信的网络。

　　这个容器里有大量的软件，其中包括用于推理服务的Triton推理服务器、优化的AI模型、云原生堆栈等等。

　　现场，老黄再一次展示了全能AI模型——可以实现全模态互通。有了NIM，这一切都不是问题。

　　它可以提供一种简单、标准化的方式，将生成式AI添加到应用程序中，大大提高开发者的生产力。

　　未来，不再耗费数周的时间，开发者们可以在几分钟内，轻松构建生成式AI应用程序。

　　与此同时，NIM还支持Meta Llama 3-8B，可以在加速基础设施上生成多达3倍的token。

　　而基于NIM打造的各类应用，也将迸发涌现，包括数字人、智能体、数字孪生等等。

　　老黄表示，「NVIDIA NIM集成到各个平台中，开发人员可以随处访问，随处运行 —— 正在帮助技术行业使生成式 AI 触手可及」。

　　可以看到，在NIM容器之上，大多数智能体负责推理，去弄清任务并将其分解成多个子任务。还有一些，它们负责检索信息、搜索，甚至是使用工具等。

　　未来，每家公司都将有大量的NIM智能体，通过连接起来组成一个团队，完成不可能的任务。

　　他表示，虽然可以使用文字或语音形式的prompt给AI下达指令，但很多应用中，我们还是需要更自然的、更类人的交互方式。

　　这指向了老黄的一个愿景——数字人。相比现在的LLM，它们可以更吸引人，更有同理心。

　　这是由英伟达ACE提供的魔力，能够为创建栩栩如生的数字人，提供相应的AI工具。

　　现在，英伟达计划在1亿台RTX AI个人电脑和笔记本电脑上，部署ACE PC NIM微服务。

　　这其中包括英伟达首个小语言模型——Nemotron-3 4.5B，专为在设备上运行而设计，具备与云端LLM相似的精度和准确性。

　　此外，ACE数字人类AI新套件还包括基于音轨生成身体手势——NVIDIA Audio2Gesture，即将推出。

　　老黄表示，「数字人类将彻底改变各个行业，ACE提供的多模态LLM和神经图形学的突破，使我们更接近意图驱动计算的未来，与计算机的交互将如同与人类的交互一样自然」。

　　Hopper和Blackwell系列的推出，标志着英伟达逐渐搭建起完整的AI超算技术栈，包括CPU、GPU芯片，NVLink的GPU通信技术，以及NIC和交换机组成的服务器网络。

　　这足够大、足够三牛登陆全栈了吧。但是老黄表示，我们的迭代速度还要加快，才能跟上GenAI的更新速度。

　　英伟达在不久前就曾放出消息，即将把GPU的迭代速度从原来的两年一次调整为一年一次，要用最快的速度推进所有技术的边界。

　　今天的演讲中，老黄再次实锤官宣GPU年更。但是他又紧跟着叠了个甲，说自己可能会后悔。

　　无论如何，我们现在知道了，英伟达不久后就会推出Blackwell Ultra，以及明年的下一代的Rubin系列。

　　除了芯片和超算服务器，老黄还发布了一个所有人都没有想到的项目——数字孪生地球「Earth-2」。

　　而且根据老黄的口吻推测，Earth-2已经推进了数年，今年取得的重大突破才让他觉得，是时候亮出来了。

　　为什么要为建造整个地球的数字孪生？是要像小扎的元宇宙那样，把社交和互动都搬到线上平台吗？

　　他希望在Earth-2的模拟，可以预测整个星球的未来，从而帮我们更好地应对气候变化和各种极端天气，比如可以预测台风的登陆点。

　　Earth-2结合了生成式AI模型CorrDiff，基于WRF数值模拟进行训练，能以12倍更高的解析度生成天气模型，从25公里范围提高到2公里。

　　不仅解析度更高，而且相比物理模拟的运行速度提高了1000倍，能源效率提高了3000倍，因此可以在服务器上持续运行、实时预测。

　　而且，Earth-2的下一步还要将预测精度从2公里提升到数十米，同时考虑城市内的基础设施，甚至可以预测到街道上什么时候会刮来强风。

　　对于这个狂飙突进的AI时代，老黄大胆预测了下一波浪潮——物理AI，或者说是具身AI。

　　它们不仅需要有超高的认知能力，可以理解人类、理解物理世界，还要有极致的行动力，完成各种现实任务。

　　想象一下这个赛博朋克的未来：一群机器人在一起，像人类一样交流、协作，在工厂里创造出更多的机器人。

　　在多模态AI的驱动下，它们可以学习、感知世界，理解人类指令，并进化出计划、导航以及动作技能，完成各种复杂任务。

　　那要怎样训练这些机器人呢？如果让他们在现实世界横冲直撞，代价要比训练LLM大得多。

　　正像LLM可以通过RLHF进行价值观对齐一样，机器人也可以在遵循物理规律的数字孪生世界中不断试错、学习，模仿人类行为，最终达到通用智能。

　　Nvidia的Omniverse可以作为构建数字孪生的平台，集成Gen AI模型、物理模拟以及动态实时的渲染技术，成为「机器人健身房」。

　　志在做全栈的英伟达也不仅仅满足于操作系统。他们还会提供用于训练模型的超算，以及用于运行模型的Jetson Thor和Orin。

　　为了适应不同应用场景下的机器人系统，英伟达的Omniverse将逐步扩展为Warehouse生态系统。

　　这个生态将无所不包，从搭配应用程序的SDK和API，到运行边缘AI计算的接口，再到最底层的可定制芯片。

　　为了让这个AI 机器人时代看起来更线个和老黄有同样身高的机器人一同登场。

上一篇：牛年已至看南安市司法局践行“三牛”精神
下一篇：彻底炸了！周末出大事了！

相关推荐：

彻底炸了！周末出大事了！

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国量产Blackwell解决ChatGPT全球耗电难题

牛年已至看南安市司法局践行“三牛”精神

锦基金牛沙路社区专项基金牛沙路社区三牛广场微更新活动项目结项公示

温州交管局践行“三牛精神” 推动万人双评议工作走深走实

石塘镇]温岭市“积洛三牛”海域海洋牧场示范区配套航标工程招标公告

起步提速开局争先广西柳州市场监管“三牛”奋蹄加力“犇”跑

发扬“三牛”精神惠阳全力以赴保障春节平安

培龙头振种业推进畜牧业发展

发扬“三牛”精神书写时代答卷

您现在的位置：三牛平台 > 三牛平台 > 三牛动态 >