《芯片战争》的作者Chris Miller在接受采访时做出预测:“对于用于AI的特定类型的芯片,实际上已经出现了繁荣和一些已经变得明显的短缺。而且似乎对这些类型芯片的需求只会增长。”
有报告称今年年初百度紧急下单了3000台包含8张芯片的A800服务器(相当于2.4万张A800芯片),预计全年会有A800和H800共5万枚需求。无独有偶,阿里云预计也将在今年一万枚左右芯片,其中6000枚是H800。而A800、H800芯片目前正遭到包括服务器、互联网厂商的国内公司“哄抢”。
在这一轮由ChatGPT掀起的大模型创业潮里,AI芯片成了抢手货,其中GPU最为明显。业内有人甚至以2021年席卷全球的缺芯潮,来类比眼下的GPU短缺:成千上万的AI初创公司、甚至是大型云服务商,将如当年因缺少关键芯片而停产的车企,或因缺少GPU面临相似困境。
缺芯问题延续到大模型
过去几年,半导体芯片一直是卡住我国科技发展的拦路石。不论是智能手机,还是新能源汽车,一直都处于严重缺芯的动荡,如今的大模型也重蹈覆辙。
AI大模型需要极高的算力来训练,如同搭建城堡,基石直接决定城堡的成败,在大模型里,芯片的等级和数量就是那一块块基石。
根据英伟达公布的信息,训练一次1750亿参数的GPT-3需要34天、使用1024张A100 GPU芯片;同时,OpenAI可能至少需要32400张A100芯片用于日常推理,显著高于此前训练底层模型时的用量,以此推算,ChatGPT硬件成本达8亿美元以上。
昆仑万维集团CEO方汉也表示:“超过千亿级别的大模型,它的训练大概需要1000-2000张A100的卡,没有2000张A100的卡,实验都做不了;硬件成本约5000万美金,加上人力、电力、网络支出,一年需要5000万美金到1亿美金的投入。”
目前最适合ChatGPT的芯片为英伟达的旗舰芯片H100和次旗舰芯片A100。因为市场需求量过大,这两款芯片的售价早早开始水涨船高。
在短短三个月多时间里,H100芯片暴涨近7万元人民币,售价普遍高达30万元左右;A100芯片从6万元一路涨至9万元,涨幅超过50%。
据钛媒体报道,目前国内拥有英伟达A100/A800的厂商只有阿里、腾讯、字节跳动等几家科技巨头,大部分企业对高端GPU并没有直接采购需求,而是用更经济的调用云服务商的云计算能力,或是租用GPU芯片等硬件设备。
但就算是传输速率低且内存较小的A800、H800芯片,也被一抢而空,交付日期不断后延。缺芯的现实问题让中国大模型的未来蒙上一层阴影。
唯一的“硬通货”
在技术架构层面,AI芯片可分为GPU(图形处理器)、ASIC(专业集成电路)、FPGA(现场可编程门阵列)和类脑芯片。ChatGPT背后的算力支撑主要来自GPU或CPU+FPGA。由于具备并行计算能力,可兼容训练和推理,GPU目前被广泛应用。
大模型对于GPU的要求极高,一方面是对于GPU的数量有要求。根据Semianalysis的测算,ChatGPT每天在计算硬件成本方面的运营成本为69万美元。Open AI需要约3,617台HGX A100服务器(2.8万个GPU)来为ChatGPT提供服务。
另一方面,对于GPU自身的性能也有要求。NVIDIA公司创始人兼首席执行官黄仁勋在一次会议上表示:“当前唯一可以实际处理ChatGPT的GPU是英伟达HGX A100。”A100由540亿个晶体管组成,打包了第三代Tensor核心,并具有针对稀疏矩阵运算的加速功能,对于AI推理和训练来说特别有用。此后,英伟达还推出A100的替代者——H100,该芯片由台积电5nm定制版本制程(4N)打造,单块芯片包含800亿晶体管,一举成为最强。
一时间,GPU成为了各大企业走向AI时代的唯一“硬通货”。
除了前文提到的国内两家巨头企业在购买GPU外,4月14日,国内第四大云厂商腾讯宣布推出新一代的高性能计算集群,该集群采用腾讯云自研服务器,搭载了英伟达最新的H800,服务器间的连接带宽高达3.2Tbps。腾讯称,该服务器集群算力性能较前代提高了3倍,将腾讯自研的“混元NLP大模型”训练时间由11天缩短至4天。
随着国内大模型不断推出,GPU的数量还远远不够满足。据前人工智能NLP企业首席科学家、千芯科技董事长陈巍测算,国内如果想要直接训练出一个GPT-3级别的大模型,最少需要3000到5000枚A100级别的AI芯片。以保守情况估计,目前国内A100级别的AI芯片缺口在30万枚左右。
“疯狂”购买的不止是国内企业,海外巨头也在抢购。
2022年11月发布Chat GPT-3之后,Open AI背后的金主微软表示,已经购买了超过一万枚英伟达A100 GPU芯片,为ChatGPT构建AI计算集群。前不久,马斯克也为了推进推特内部的新AIGC项目,直接购买了约1万个GPU。
自研芯片能怎么玩
互联网公司自研芯片几乎和2016年开始的人工智能热潮同步。人工智能的崛起对于互联网的业务起了决定性的影响,在云端,人工智能技术大大提高了推荐系统和广告系统等互联网公司的核心业务,而在终端,人工智能也为诸多重要的计算机视觉和语音技术赋能。
为了人工智能相关业务而自研芯片的公司几乎囊括了所有的科技巨头,包括谷歌、微软、亚马逊、阿里巴巴、字节跳动、百度等等。从自研芯片的出发点来看,过去互联网科技公司自研芯片主要出于两方面的考虑,即成本和功能。
从成本角度来看,由于人工智能计算需要非常大的算力,因此成本也很高。供应链角度来看,NVIDIA是最主流的云端人工智能芯片供应商,而其GPU的售价一方面很高,另一方面对于科技巨头来说过分依赖单一供应商也存在供应链风险成本。而另一个角度是GPU的能效比在运行人工智能应用时并不完美,事实上在云端数据中心应用中,有很大一部电费成本是在为人工智能应用在买单。
因此,互联网科技巨头在云端人工智能芯片领域自研的主要目的是一方面减少对于NVIDIA的依赖,另一方面是希望能实现比NVIDIA更好的能效比,这样在大规模部署的时候,从综合成本的角度来看可以比直接购买NVIDIA的GPU成本更低。在这方面,谷歌的TPU是一个著名的例子,在迭代了几代之后,我们看到目前谷歌TPU的性能和NVIDIA的GPU通常相类似,但是在能效比等影响成本的角度,可以实现比NVIDIA更好。
另一个互联网科技公司自研芯片的主要目的是为了实现更强的功能,即目前市面上并不存在能满足公司需求的芯片,因此需要能自研芯片来满足设计需求,同时相较于使用第三方通用芯片的其他公司创造了更高的产品竞争力。这里的典型例子就是微软在HoloLens中使用的自研HPU芯片来加速人工智能机器视觉相关的应用,从而为HoloLens的核心功能模块(例如室内SLAM定位等)提供足够的算力同时不会消耗太多电池。而谷歌用在Pixel手机上的Tensor处理器也是另一个相关的例子。
互联网公司之前的自研芯片往往强调“自主”这个方向。自主意味着自研芯片的最关键模块(IP)以及系统架构是由互联网公司自己设计。在实际操作层面,由于互联网科技巨头毕竟在芯片行业积累不多,因此通常会构建一支数百人的团队,该团队主要负责芯片架构定义和核心IP的设计验证;而另一方面,通用IP(例如DDR等)通常使用购买的方式,同时在后端设计等可以可以外包的职责则交由外部设计服务公司完成。
总而言之,互联网公司造芯的通常模式是由自己的核心团队完成芯片架构定义和核心模块设计,然后和中立的第三方IP公司和设计服务公司合作以购买其他的通用IP并完成整个芯片设计流程。
从未来来看,科技巨头造芯的格局将会在某种程度上延续目前的格局,但是我们预计也会看到更多的和传统芯片大厂的深度合作。在下一代人工智能这样的应用中,我们可望会看到越来越多微软和AMD这样的合作来共同挑战这样的复杂系统;另一方面,由于经济形势的影响,我们预计会看到互联网科技巨头造芯的时候越来越多地移向上游,即定义芯片架构,以及交付核心IP,而这些IP在SoC里面的整合可以交由合作伙伴完成,甚至我们可能会看到更多特制版SoC,例如在公版SoC的设计基础上集成了互联网科技巨头提供的核心IP这样的方式,从而最大程度降低设计成本开销。从这个角度来看,互联网科技巨头需要的不仅仅是一个设计服务伙伴,而更需要该芯片合作公司已经有相关的SoC设计和量产经验。
AMD、三星、MTK等都会是这类业务的受益者,因为他们有很强的设计服务/半定制芯片部门,同时也有尖端SoC设计量产的经验。
同时,从技术角度来看,高级封装和芯片粒技术可望将在这类芯片合作中起到核心赋能作用,因为如果能使用芯片粒,那么就可以把科技巨头的核心IP做到芯片粒中去和其他SoC集成,而无需在专门设计一个专用的SoC光罩掩膜,这样就可以大大降低设计成本,另一方面也大大增加设计的灵活性。
而造芯片也如下围棋,“世无妙手,只有一步步的本手积累才是妙手”。
资料整理:李清