大模子玩家抢购算力,国产GPU还差了一个软件生态-香港期货
行业资讯 发布时间:2023-03-28 16:21:00 来源:https://ii-iv.com 阅读次数:
摘要: 人工智能已然掀起新一次产业浪潮。 近半月以来,人工智能领域大模子的新闻层出不穷地传出。 OpenAI出乎意料地推出大型多模态模子GPT-4;百度“文心一言”如约上线,在展示中出现了

人工智能已然掀起新一次产业浪潮。

近半月以来,人工智能领域大模子的新闻层出不穷地传出。

OpenAI出乎意料地推出大型多模态模子GPT-4;百度“文心一言”如约上线,在展示中出现了文心一言在文学创作、数理逻辑推算、多模态生产等多元能力。

腾讯总裁刘炽平示意会延续优化混元AI大模子;字节则传出了前达摩院大模子 M6 带头人入职,并介入语言天生大模子研发的新闻。

大模子被以为有着带来产业革命的气力,能为行业带来切实的生产力转变。

谷歌率先宣布开放PaLM大模子的API,并将天生式AI功效用于种种应用程序;微软紧跟厥后,宣布推出 Copilot AI产物,注释GPT-4等模子已具备被引入生产工具的稳固性。Adobe也宣布将与英伟达相助 ,探索将大模子能力引入产物中。

一小我私人工智能的新时代即将睁开。人工智能领域的创业热情被点燃,多位大佬官宣入局大模子赛道。

创新工厂CEO李开复、前搜狗CEO王小川、前京东AI掌门人周伯文、出门问问首创人李志飞,阿里手艺副总裁贾扬清,这些声名赫赫的大佬,正一齐踏入大模子赛道的创业河流。

然而,大模子的生长有算法、算力、数据三大主要因素,算力是大模子训练的主要能量引擎,也是现在海内生长大模子产业的一大壁垒。

芯片能力直接影响着高算力训练效果和速率,这背后都是钱。芯片拥有数目的若干,也成为行业人士判断企业大模子能力的主要指标。

在刚刚竣事的GTC大会时代,英伟达不负众望,推出了适用于ChatGPT的专用GPU,可以将推理速率提升10倍。

此外,针对中国用户,英伟达还根据A800操作模式(A100芯片的降维版本),推出了完全相符出口划定的H100的降维版本芯片,详细参数并未宣布。

然后,无论是此前针对中国的A800,照样H100中国版本,都和外洋市场可使用的原版芯片存在差距。

外洋芯片是否能够撑起大模子的算力需求,成为行业内备受关注的问题。

01、寻找A100

OpenAI ChatGPT大模子能有今日风景,英伟达的A100功不能没。大模子的训练需要重大的算力资源,GPU是大模子的*算力发念头。

为了支持OpenAI训练出ChatGPT,微软专门为OpenAI打造了一台由数万个A100 GPU组成的AI超级盘算机,此外,尚有60多个数据中央、几十万张GPU可以支持ChatGPT的推理事情。

海内云盘算相关专家以为,做好AI大模子的算力*门槛是1万枚英伟达A100芯片。TrendForce研究则显示,以A100的算力为基础,GPT-3.5大模子需要高达2万枚GPU,未来商业化后可能需要跨越3万枚。

据台湾电子时报报道,微软等客户对英伟达的A100/H100芯片芯片需求强烈,现在英伟达订单能见度已至2024年,高端芯片异常紧缺。

而海内拥有的超高算力芯片并不多。

据《财经十一人》报道,海内云厂商主要接纳的是英伟达的中低端性能产物,拥有跨越1万枚GPU的企业不跨越5家,其中,拥有1万枚英伟达A100芯片的最多只有一家。

作为大模子的主要入局者,海内互联网大厂拥有自然的数据优势,自然不希望因算力被卡在大模子能带来的广漠天下和商机之外。

多位行业人士向36氪示意,自2022年9月,美国制止向海内客户售卖英伟达A100、H100和AMD的MI250人工智能芯片后,海内大厂就最先大肆囤芯片。

一位为企业采购算力的从业者告诉36氪,有厂家自去年下半年起就延续在市场中寻觅能拆出A100的种种整机产物,目的仅是获得GPU芯片。“机子太多,存放的地方都不够用。”

有靠近百度的人士告诉36氪,百度拥有部门A100芯片,同时部署了少量昆仑芯。

而另一家较早推出大模子的企业,在市面上抢芯的动作颇为激进,“险些到达人尽皆知的水平”。

英伟达曾申请在2023年3月1日前,为A100的美国客户提供所需的出口支持。

现在限期已过, A100芯片的获取通道被锁死。英伟达特意为中国客户提供的降维版本GPU A800成为最叫卖的产物。此外,在3月的GTC大会上,英伟达谈话人证实,将面向中国市场,推出相符管制要求的降维H100产物。

与A100相比,A800的盘算性能没有发生改变,然则它的数据传输速率被限制了,功耗增添了。换句话说,A800获得数据的速率变慢了,且使用起来更费电了,但,它的盘算速率仍然优异。

现在,A800 80GB的显卡在京东上的售价到达了89999元,部门店肆甚至卖到了93999元,甚至跨越了A100之前的价钱。

超算中央建设成本极高,除百度、华为等少少数公司会自行建设超算力中央,更多的企业通过租用超算中央算力的方式入局。

在ChatGPT引领AI热潮后,数据中央的A100算力租用价钱迅速上涨。

零星的算力资源已到达一张卡每小时10元,哪怕相对廉价的批量化算力资源,也涨价近20%到达一卡每小时6-7元。就连A800的算力资源也变得紧缺起来,需要提前预定。

一位数据标注从业者告诉36氪:“在飞天平台,现在想预定1000块A100,一定是没有的,若是想预定100块A100的算力,那可以排队试试。”

若是,连A800都等不到,那使用英伟达高端GPU系列中,性能更差的V100举行训练,也不失为一种可能。

在GTC大会上,面临强劲的算力需求,英伟达还新推出了云算力平台,企业可以租用算力,谷歌、微软AZURE等云算力平台会为其提供算力支持。黄仁勋示意中国也可以接纳这个平台,但需要由阿里、腾讯等企业的云平台相助提供。

一切又回到了原点。

02、推理侧是时机

虽然英伟达的产物可以降维使用,但海内大模子企业在训练和推理时会受到底层算力的影响。

祥峰投资治理合资人夏志进告诉36氪:“动态来看,外洋企业会推出更大的模子,下一代需要的算力资源会更大,算力未来会是一个很大的挑战。”

国产GPU芯片是否可以支持大模子的算力需求?

大模子对于算力的需求分为两个阶段,一是训练出ChatGPT一样平常大模子的历程;二是将这个模子商业化的推理历程。

国产GPU可以做对信息颗粒度要求没有那么高的云端推理事情,但大多现在无法处置超高算力需求的云端训练。

燧原科技、壁仞科技、天数智芯、寒武纪等公司都推出了自己的云端GPU产物,且理论性能指标不弱。

3月17日,李彦宏也在亚布力中国企业家论坛上分享,昆仑芯片现在很适合做大模子的推理,未来会适合做训练。

登临科技团结首创人王平告诉36氪:“从现实角度来看,海内GPU新创公司的短期时机在推理侧,推理侧服务器需要接纳一机多卡。登临的创新通用GPU产物Goldwasser具有更高的效率和能效比,能‍‍实现很好助力客户实现降本增效,固然降本增效,也是现在以及未来云厂商需要解决的问题。”

互联网变天:ChatGPT长出「操控」的手和脚,但这只是开始

摩尔线程全功效GPU显卡可以完成AI模子的训练、推理、精调全流程,现在可以举行ChatGLM和GLM系列模子的推理,而且支持超大大模子的漫衍式推理和offload推理。

大模子训练需要处置高颗粒度的信息,对云端训练芯片的芯片处置信息的精致度和算力速率要求更高,现阶段国产GPU大多还不具备支持大模子训练所需的能力。

差异于多媒体和图形处置的单精度浮点盘算(FP32)盘算需求,在超算领域,双精度浮点盘算能力FP64是举行高算力盘算的硬性指标。

英伟达的A100同时具备上述两类能力,而海内GPU芯片的云端训练公司,大多只能处置单精度浮点盘算,如壁仞科技(通用GPU芯片BR100)、天数智芯(“智铠100”)、寒武纪(云端推理思元270)的产物在FP32的理论指标上做得不错,但没有处置FP64的能力。

凭证果然新闻,现在海内*支持FP64双精度浮点运算的只有海光推出的DCU(协处置器),然则它的性能只有A100的60%左右。

王平以为,“海内通用GPU产物简直在知足大模子训练上与国际旗舰产物存在差距,但并非不能填补,只是此前行业在产物界说里未朝着大模子偏向做设计。”

摩尔学院院长李丰告诉36氪,公司现阶段已经可以支持3亿参数目模子的训练,2022年底就提前结构了自然语言模子预训练,自研了MusaBert模子。

现在,行业从业者在做相关的探索和起劲,如思索能否通过Chiplet(将芯片堆叠或者并列摆放)、先进封装的方式提高算力。

一位Chiplet领域的从业者告诉36氪,某GPU明星大厂就曾询问能否通过Chiplet的方式到达大模子所需算力。

王平也示意,“针对大模子训练市场,行业可以选择做出有特征、在某些维度性能上跨越英伟达的产物。”

现在国产GPU公司都在朝着大模子领域去做结构。

昆仑芯回复36氪:“昆仑芯2代芯片相较*代产物大幅优化了算力、互联和高性能,公司正在不停研发新的产物和手艺,为ChatGPT等大模子的应用提供更佳的性能体验。”

据王平先容,登临科技*产物Goldwasser已规模化运用在多家行业着名企业的主营营业中,新一代Goldwasser产物针对基于Transformer的网络和天生式AI类大模子的应用在性能有大幅提升,对标国际大厂的产物有显著的能效比和性价比的优势。

燧原科技宣布对公司品牌做战略升级,要打造AIGC时代的基础设施;摩尔线程则示意将推出基于公司全功效GPU的AIGC算力平台。

03、软件是更高的壁垒

比起硬件性能上可接受的差异,软件适配与兼容让客户接受更难。

当大模子和应用层面的竞争拉响,从商业角度思索,接纳国产AI芯片参战并不是好的选择。

从硬件性能上,使用国产AI芯片盘算会比接纳英伟达A100慢,在争分夺秒的当下,“慢”是企业最不愿意看到的场景。

此外,哪怕能通过堆芯片的方式堆出一个算力相当的产物,从服务器运营的角度,它的主板开销、电费、运营费,以及需要思量的功耗、散热等问题,都市大大增添数据中央的运营成本。

由于算力资源常需要以池化的形式出现,数据中央通常更愿意接纳统一种芯片,或者统一公司的差异芯片,来降低算力池化难度。

对客户而言,把国产AI芯片用起来并不容易。

算力的释放需要庞大的软硬件配合,才气将芯片的理论算力变为有用算力。国产AI芯片想要替换英伟达的GPU,需要突破CUDA生态和整个产业生态的壁垒。

摩尔线程有着自己的全功效GPU芯片,且推出了AIGC平台,李丰告诉36氪:“最难的是生态的确立,我们要兼顾许多的生态兼容性。”

先说CUDA,为了把GPU的算力能力进一步施展,英伟达花了10年时间,投入3000多人打造了一个CUDA框架。这套框架里集成了许多挪用GPU算力所需的代码,工程师可以直接使用这些代码,无须逐一编写。

若是没有这套编码语言,软件工程师施展硬件价值的难度会变得极大。一位关注基础软件的投资人告诉36氪:“没有CUDA ,挪用GPU的代码会写到地老天荒,不能能所有的器械都自己写。”

尚处于创业阶段的芯片设计公司,很难在生态上投入云云大的人力财力。大多会选择兼容CUDA架构,来降低客户使用门槛。

也有部门公司会选择自研加速器,如寒武纪就构建了自己的加速平台;昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈,希望打造自己的生态,也能脱节硬件需受CUDA更新的困扰。

纵然有了这个编程框架,整个产业生态上的人也很难把这个芯片用起来。

现在天下上主流的深度学习框架都有基于CUDA举行加速的,整个产业中下游软件、驱动厂家等都基于此举行适配。这组成了一个极壮大的生态壁垒,就像苹果系统内部的闭环生态,和windows操作系统 上层应用软件一样。

对于企业来说,替换云端 AI 芯片要肩负一定的迁徙成本和风险,除非新产物存在性能优势,或者能在某个维度上提供其他人解决不了的问题,否客户替换的意愿很低。

祥峰投资治理合资人夏志进也告诉36氪:“软件生态是好用欠好用的问题,没有CUDA会提高门槛,不是不能以用,只是需要花许多分外的功夫。”

芯片需要适配硬件系统、工具链、编译器等多个层级,需要很强的适配性,否则会泛起这款芯片在某个场景能跑出90%的算力,在另一场景只能跑出80%效能的情景。

纵然英伟达,为了更好施展硬件的功效,对于大客户也会提供一些人力,协助做软件适配调试,软硬两方仍需要针对客户做部署、调试。

对性能要求较高的大厂,还会设置专门的软件部署师对硬件举行适配,来施展硬件的*性能。这也是许多手机厂商会自研芯片来更好适配产物的缘故原由。

04、共建生态,追求解法

现在,海内从业者已经在构建生态上做起劲。

在一个AI生态中,支持大模子训练需求,需要底层硬件、中央深度学习平台、上层应用软件的整体适配,相互支持。

硬件对上层软件的支持情形,必须代码写出后,有人一步步躺坑,才气知道问题所在,改善硬件对软件的支持效果。

一家C轮应用型软件公司告诉36氪,自己需要对差异类型、差异版本的基础软硬件举行适配,每年花在适配上的支出超出万万元。

百度飞桨已在推动和海内芯片适配。

2022年4月时,百度飞桨已完成和包罗百度昆仑芯、华为升腾在内的22家海内外硬件厂商,31种芯片的适配和优化,基本笼罩海内主流芯片。

现在,昆仑芯和飞桨完成3级兼容性适配,登临科技和飞桨也完成2级适配,沐曦集成电路和飞桨完成1级兼容性测试。

近期,华为的MindSpore被报道和爱可生向量数据库兼容。有信息显示,沐曦之前也已加入升思MindSpore社区。

另一个大模子领域主要玩家,智源研究院,其九鼎智算平台也在和多家海内AI芯片公司相助。

未来,大模子训练对算力的需求会越来越大。好比,科研场景或训练视频类信息,都需要更大的算力支持。

英伟达等厂商也会不停追求研发更高性能的芯片,外洋企业可以购置英伟达算力更高的芯片,推动大模子训练。好比,微软已经和宣布增强和英伟达和相助,将GPU 今后前的 A100 升级到 H100。

参战大模子竞赛,算法、算力、数据环环相扣。在最卡脖子的环节,若何缩小GAP,成为一个求共解的命题。

标签: