中科云达-GPU服务器-深度学习集群-HPC高性能计算-超微服务器

AI芯片短缺即将到来

发表时间：2023年05月17日作者：浏览次数：805

微信图片_20230517135134.png

坊间曾传出一份报告，报告称今年年初百度紧急下单了3000台包含8张芯片的A800服务器（相当于2.4万张A800芯片），预计全年会有A800和H800共5万枚需求。无独有偶，阿里云预计也将在今年一万枚左右芯片，其中6000枚是H800。

有知情人士透露，A800、H800芯片目前正遭到包括服务器、互联网厂商的国内公司“哄抢”，“H800国内开始出货了，但本来产量也不多。A800国内今年一年出货的量，超过一半在互联网公司，”该知情人士称，“H800出货更少，剩下客户新订的可能要到12月才能交付。”

在这一轮由Chat GPT掀起的大模型创业潮里，AI芯片成了抢手货，其中GPU明显。

唯一的“硬通货”

随着现象级AI产品Chat GPT的走红，以大型语言模型为代表的前沿AI技术走向聚光灯之下。不少相关企业都接连推出了自己的大模型，百度、阿里、360、商汤等国内企业纷纷宣布入局AI大模型。

在技术架构层面，AI芯片可分为GPU（图形处理器）、ASIC（专业集成电路）、FPGA（现场可编程门阵列）和类脑芯片。Chat GPT背后的算力支撑主要来自GPU或CPU+FPGA。由于具备并行计算能力，可兼容训练和推理，GPU目前被广泛应用。

大模型对于GPU的要求极高。一方面是对于GPU的数量有要求。根据Semianalysis的测算，Chat GPT每天在计算硬件成本方面的运营成本为69万美元。Open AI需要约3,617台HGX A100服务器（2.8万个GPU）来为Chat GPT提供服务。

另一方面，对于GPU自身的性能也有要求。黄仁勋在一次会议上表示：“当前唯一可以实际处理Chat GPT的GPU是英伟达HGX A100。”A100由540亿个晶体管组成，打包了第三代Tensor核心，并具有针对稀疏矩阵运算的加速功能，对于AI推理和训练来说特别有用。此后，英伟达还推出A100的替代者——H100，该芯片由台积电5nm定制版本制程（4N）打造，单块芯片包含800亿晶体管。

一时间，GPU成为了各大企业走向AI时代的唯一“硬通货”。

除了前文提到的国内两家巨头企业在购买GPU外，4月14日，国内第四大云厂商腾讯宣布推出新一代的高性能计算集群，该集群采用腾讯云自研服务器，搭载了英伟达全新的中国特供版GPU H800，服务器间的连接带宽高达3.2Tbps。腾讯称，该服务器集群算力性能较前代提高了3倍，将腾讯自研的“混元NLP大模型”训练时间由11天缩短至4天。

随着国内大模型不断推出，GPU的数量还远远不够满足。据前人工智能NLP企业首席科学家、千芯科技董事长陈巍测算，国内如果想要直接训练出一个GPT-3级别的大模型，至少需要3000到5000枚A100级别的AI芯片。以保守情况估计，目前国内A100级别的AI芯片缺口在30万枚左右。

“疯狂”购买的不止是国内企业，海外巨头也在抢购。

2022年11月发布Chat GPT-3之后，Open AI背后的金主微软表示，已经购买了超过一万枚英伟达A100 GPU芯片，为Chat GPT构建AI计算集群。前不久，马斯克也为了推进推特内部的新AIGC项目，直接购买了约1万个GPU。

不过，地主家的存粮也不多，据消息人士透露，从2022年末，微软就实行了GPU资源配额供给，但今年1月以来审批时间越来越长，如今部分申请需要等待几天甚至几周才能获批。同时，微软向英伟达预订的数万枚GPU芯片，交货无期。

GPU价格攀升

如此巨大的需求，推动着本就昂贵的GPU价格再度上涨。

截止5月5日，英伟达新发布的旗舰AI芯片H100在ebay上的售价达到4万美元一枚。记者搜索eBay时发现，目前共有6家店铺挂牌销售H100芯片，其售价普遍达到4.5万美元左右。相较于之前零售商报价的3.6万美元，提价明显。

国内方面，AI应用的主力芯片——由英伟达2020年发布的A100，价格也在飞速飙升。从年初到现在的5个月内，A100的价格从原来的6万元一路飙升到10万元，涨幅超过50%。业内人士预测由于美国的禁令，国内相关芯片的价格将持续上涨。

去年年底，英伟达推出A100“阉割版”（带宽被限制）——A800显卡，价格也在同步上涨。记者了解到目前A800在京东官网的定价为89999元。但实际上A800现在处于“有价无市”的情况，供应紧张，真实成交价格高于平台报价。

即便按89999元一颗A800芯片的价格计算，1万颗的成本就是约人民币9亿元。A800目前在浪潮、新华三等国内服务器厂商手中是稀缺品，一次只能采购数百片。有业内人士感叹：“一天一个价，一天比一天贵。”

《芯片战争》的作者Chris Miller在接受采访时也做出预测：“对于用于AI的特定类型的芯片，实际上已经出现了繁荣和一些已经变得明显的短缺。而且似乎对这些类型芯片的需求只会增长。”

代工产能堪忧

英伟达已经供不上货了。

作为顶尖GPU，英伟达自然选择了拥有全球先进制程的台积电进行独家代工。具体来看，英伟达的A100、A800采用的是台积电7nm工艺、H100则是由台积电5nm定制版（4N）打造。

今年3月，台积电收到了英伟达增加的代工订单，其产品就是A100、H100，并且也包括为国内市场设计的A800系列GPU的代工订单。

在5nm-7nm制程这块，原本今年台积电的产能利用率并不算高点。5nm方面，去年四季度台积电就面临多家客户消减订单；7nm方面，台积电也预测在今年上半年不再处于过去3年的高点。

现实情况却出乎意料，Chat GPT的火热带来的不仅仅是对于英伟达订单的需求，同样也助力了AMD等企业。业内人士表示，AMD也获得了不少客户的急单需求，并且已经向台积电加大了订单量，其产品制程同样覆盖5nm和7nm家族。

台积电各公司销售额占比（2022年随机预测）

台积电先进制程的份额中，各家占比不同。根据日本精密加工研究所所长汤之上隆的预测，2022年的排名依次为：苹果（25.4%）、AMD（9.2%）、联发科（8.2%）、Broadcom（8.1%）、高通（7.6%）、英特尔（7.2%）、英伟达（5.8%）。可以看到，英伟达仅在第七。并且占据台积电25.4%营收的苹果，更是垄断了台积电80-90%的尖端制程。

随着去年年底，特斯拉大量订购了台积电的4nm/5nm制程订单，想将其用于全自动驾驶汽车。巨大的订单量，使得特斯拉一跃拉成为台积电的第七大客户，英伟达顺次排到了第八。

在前七大客户的订单冲击下，英伟达的订单不免也将受到挤压。

并且，远水救不了近火，芯片代工本来就需要较长时间。去年8月，受到美国禁令的影响，英伟达直接对台积电下了“超级急件(super hot runs)”订单。这批“超级急件”总量约5000片，交期将大幅缩短，从原本预估的5至6个月，压缩为2至3个月，尽快在10月底至11月初开始交货。

由此来看，即使英伟达现在下单台积电，正常情况下GPU的量产仍需要一段时间。

吊死在英伟达一棵树上？

业内有人甚至以2021年席卷全球的缺芯潮，来类比眼下的GPU短缺：成千上万的AI初创公司、甚至是大型云服务商，将如当年因缺少关键芯片而停产的车企，或因缺少GPU面临相似困境。

不过，也并非所有客户都“吊死在英伟达一棵树上”，很多人将目标光投向了英伟达的竞争对手，比如AMD的GPU、Cerebras的WSE，Cerebras表示自家WSE-2是”地球上顶尖的”AI处理器”。

今年1月，AMD预告了重磅产品AMD Instinct MI300，MI300被称为“世界上在数据中心集成的CPU+GPU”，MI300加速器专为领先的高性能计算（HPC）和AI性能而设计，借助3D封装技术将CPU和加速计算单元集成在一起，总共有1460亿个晶体管，预计在今年问世。苏姿丰表示，该芯片可以将推理建模过程的时间从几个月缩短至几周。

据了解，大约在5年前，微软就开始研发一种芯片，内部代号「雅典娜」（Athena），300人共同研发，专为训练大型语言模型（LLM）而设计。如果顺利，微软将通过Athena将每颗芯片成本降低三分之一，从而为Chat GPT发展提供重要动力。

与此同时，英特尔也率先掀起了GPU价格战。J.Gold Associates分析师Jack Gold表示，英特尔的GPU定价“相当激进，尤其是一些低端产品”；一些超大规模的厂商很有可能会向自家客户提供英特尔的高端GPU。

值得注意的是，面对众多大模型的算力需求，黄仁勋在2023年3月宣布英伟达将开展一项新的云租赁服务——向B端租赁用于开发Chat GPT等人工智能技术的超级计算机。

不过，此举看似开源，实则价格不菲——租赁这种包含8个A100或H100旗舰芯片的价格为3.7万美元/月，约合人民币25.4万元。

如此来看，AI仍旧是富人的游戏。