虽然现阶段我们已经多次讨论过RISC-V试图侵入高性能计算市场的可能性,但至少现在说到RISC-V,大多数人的第一反应仍然是嵌入式应用。
其实RISC-V在高性能市场的探索,可以举的例子还蛮多的,不仅仅是前段时间这个市场比较热的Veteran。 这次我们来看看另一家准备在RISC-V高性能计算领域大展拳脚、含着金汤匙诞生的公司Tenstorrent。
这家公司的现任首席执行官是著名的吉姆·凯勒(Jim Keller); 其他很多人应该都知道,Raja Koduri 前段时间离开英特尔后就打算创办自己的初创公司,但同时他也是 Tenstorrent 的董事会成员; 是不是感觉这家公司很有人才呢? 借助Tenstorrent的芯片路线图和技术规划,我们可以进一步了解RISC-V未来在HPC市场的可能性,以及AI芯片的发展趋势。
01
适用于 RISC-V 内核的超宽微架构
第一次听说Tenstorrent,我们一般都会说它是一家做AI芯片的公司,但在去年的RISC-V峰会上,Tenstorrent的首席CPU架构师连伟瀚专门谈到了他正在做的CPU产品。 核心代码是 Ascalon 。 这是一款基于RISC-V指令集和乱序执行的超标量CPU,专注于AI和服务器的高性能市场。
事实上,看到这家公司出现Wei-han Lien和Jim Keller的名字,应该很容易想象CPU甚至是Tenstorrent的亮点。 除了 Jim Keller 之外,连伟瀚也曾在 AMD、PA-Semi 和 Apple 的芯片设计中发挥过重要作用。 Tom's Hardware 在报道文章中称,此人参与了苹果的 A6、A7,甚至 M1 CPU 微架构设计工作。
有兴趣的同学可以去YouTube看Wei-han Lien去年在RISC-V峰会上的主题演讲。 他提到了两点给我们留下了深刻的印象。 一是推出CPU的起点应该是辅助AI芯片(所谓的配套CPU)。 因此,Tenstorrent自研架构CPU最重要的功能就是“AI计算的CPU”。
原因也很简单。 “很多人可能没有意识到,在AI计算中,CPU扮演着非常非常重要的角色,尤其是在训练方面。” Lien说,“有人知道,数据中心的AI训练过程中,CPU的功耗是多少?不是10%,不是20%,时间和功耗都在50%以上,包括CPU对数据进行预处理和后处理。” 后面会提到,Tenstorrent 将 Ascalon CPU 核心集成到了芯片上的 AI Scheme 中。
第二个是Lien谈到为什么在指令集上选择RISC-V而不是Arm。 他表示,2021 年加入公司时,他正在评估 ML 处理器的配套 CPU。 他去Arm询问是否可以支持特定的数据类型。 阿姆的回答是否定的。 据说,Arm对这个级别的支持需要两年的内部讨论以及与合作伙伴的协商。 于是RISC-V很快成为了新的选择——Tenstorrent的AI芯片选型的配套CPU IP来自SiFive。
后续的Tenstorrent需要更高性能的CPU,所以决定自行设计,Ascalon应运而生。 HWcooling不久前发表的一篇评测文章认为,Ascalon的超宽架构设计与苹果芯片非常相似。 让我们看一下阿斯卡隆的一些总体设计方向。
Tenstorrent 的 Ascalon 核心具体是 64 位 RV64ACDHFMV 指令集架构,这意味着它支持向量指令集扩展——这在 RISC-V 世界中是相对较晚的。
整体微架构前端为8-wide解码(之前讲Veteran的RISC-V超宽微架构时提到过,其RISC-V核心前端配备了8-wide索引取指),并且每个周期可以处理8个RISC -V命令 – 这个宽度与Apple Firestorm的设计类似。
另外,Ascalon架构有6个整数ALU和2个分支执行单元; 并且load/store三个管道仍然比苹果目前的解决方案少1个(load/store分布未知),并且load/store队列深度比较深,但具体多少未知;
核心内有2条FPU流水线,用于浮点运算,同时用作SIMD向量单元——位宽256bit。 事实上,从这个数字来看,SIMD的吞吐量在x86服务器平台上还没有达到竞品的水平——尽管只看纸面的位宽和流水线数字并不可靠。
外媒还提到Tenstorrent使用了“先进的TAGE分支预测器”; 缓存容量未知,但“L1 显然类似于 Apple 的 128KB、8 路关联性”; “从指令缓存中获取指令应为 32 字节/周期”; 还有一些关键信息未知,比如ROB深度,有一定概率与苹果芯片的思路类似,即无序度比较高。 那么核心IPC理论上是比较理想的,不需要太高的频率。
Lien在演讲中提到,工程师已经在进行RTL和物理设计,右下角的图片是die照片。 下面两张图展示了核心设计的难点、模块化方案、如何做性能建模等……本文不再展开,有兴趣的可以观看演讲视频。
02
128核集群组成一个chiplet
事实上,根据解码宽度,Tenstorrent为不同的应用准备了5种不同的CPU IP:它们是同一解决方案的不同规模实现。 根据解码宽度和性能,进行如下分割:
从2-wide解码到8-wide解码,实现不同的PPA目标,也面向不同的应用:覆盖边缘设备、客户端PC、HPC高性能计算等,似乎还有一些更基础的应用。 事实上,在核心层面做这么多设计,或多或少有点像一个IP公司——授权IP确实是公司的盈利模式之一,这个稍后会讲到。
当Ascalon核心组成集群(cluster)时,多核解决方案如上图所示——一个集群可配备8个Ascalon核心(即最大8宽的核心); 集群内12MB共享集群缓存; 另外,去集群外的fabric CHI一致性总线的带宽为230GB/s; 还有一个非一致性总线,230GB/s,用于加速单元。
Lien特别提到,与共享集群缓存和暂存器内存相关的存储一致性方案“不仅使得Ascalon核心非常适合传统服务器的高性能核心,也非常适合AI计算”。
基于128核设计(AEGIS Chiplet系统架构),核心集群可作为AI的配套CPU集群。 整个系统分为4个部分,每个部分都是cc-NUMA(缓存一致性非均匀内存访问)结构。 连战的原话是“完全连贯的系统”。
整个chiplet本身配备了die-to-die接口,ppt中只提到“足够的带宽”以实现可扩展性。 后来Lien在介绍Black Hole系统时,似乎提到了双芯片的2TB/s die-to-die带宽。
上述方案均以IP的形式提供外部授权(包括RTL、硬宏,甚至GDS(Graphic Data Stream)); 此外,据外媒报道ip形象,Tenstorrent还销售chiplet、机器学习加速卡,或者包括CPU和ML加速单元解决方案,同时也销售服务器系统。
换句话说,这个商业模式确实是多元化的。 作为 IP 供应商芯片ip授权是什么意思,它还销售小芯片、芯片和系统。 与不同层次的客户建立了竞争关系。 但这不是我们讨论的重点。
事实上,就Tenstorrent销售的芯片和系统而言,上述CPU核心主要是针对AI的。
03
配套CPU用作AI芯片
那么接下来我们就来说说Tenstorrent的AI芯片。 近两年这家公司分别推出了Grayskull和Wormhole,详细配置如下图所示。 这两款AI处理器自然需要与主CPU进行搭配,系统层面的产品形态是作为板卡插入到Tenstorrent自家的服务器中。 在这一代Wormhole产品中,4U Nebula服务器中有32块Wormhole板卡,6KW功率达到了Int8的12 PFLOP算力。
不过,这两款芯片并不是我们关注的重点。 上图中的Black Hole是该公司第一个“CPU+ML解决方案”。 注意,图中除了标有“T”的加速单元(名为 Tensix)之外,右侧还有一个标有绿色“C”的 CPU 核心——这部分就是配套 CPU。
不过,Black Hole 使用的 14 个 CPU 核心使用 SiFive 的 X280——外围 8 通道 GDDR6、1200Gb/s 以太网连接和 32 通道 PCIe Gen 5 将不再讨论。 今年Tenstorrent的最新PPT似乎更新了时间线,即上述所有产品都推迟了一年ip形象,所以Black Hole对应的是2023年,Grendel对应的是2024年。
规划中的Grendel将采用上文提到的来自Tenstorrent的Ascalon核心,即自研的RISC-V CPU,以及前端8宽解码。 该芯片的AI和CPU小芯片都将选择3nm工艺——这可能是已知最早采用尖端制造工艺的RISC-V芯片。
这张示意图很有趣。 AI加速单元基于2D环面NoC互连,连接DDR内存(不支持HBM),连接RISC-V CPU,以太网进行扩展,当然还有PCIe连接。 值得一提的是,由于Tenstorrent的角色定位,最终产品可能会灵活选择不同的IP,例如DRAM控制器、PHY等。据说未来Tenstorrent将开发自己的内存控制器,而现在采用的仍然是三方方案。
从Tenstorrent今年发布的框图来看,多chiplet解决方案确实让Grendel看起来像一个大型芯片。 Tom’s Hardware在文章中表示,基于业务需求和经济考虑,这款芯片的AI Chiplet部分(也就是Tensix单元这堆)可以采用3nm技术,或者是Black Hole Chiplet,甚至CPU有的会继续使用 SiFive X280。 如上所述,chiplet之间的通信可以实现2TB/s的带宽。
最后,我们来谈谈此类AI芯片中使用了哪些Ascalon或其他RISC-V CPU。 事实上,Tenstorrent的CPU并不是纯粹用于AI流程控制,而是可以替代x86的主CPU。 其功能涵盖虚拟化、安全、系统管理、计算内核调度设置等。
作为辅助AI计算时,价值自然就包含了数据预处理,防止训练数据过量等问题; 而当CPU的向量单元比较强大的时候,对于整个处理器适应未来的算法将会非常有价值,或者说CPU是体现整个芯片灵活性的方式之一。 此外,两者之间的协同还体现在包括互连通信和存储在内的CPU微架构设计上,因此编译器将很容易在加速器和CPU之间进行计算迁移。 这就是为什么Tenstorrent要自己做CPU,并且是基于RISC-V的。
这里将不讨论软件堆栈和将系统构建为服务器产品的部分。 毕竟我们这篇文章其实就是想看看当RISC-V指令集用于HPC时CPU架构会是什么样子。 但实际上芯片ip授权是什么意思,在系统层面,Tenstorrent也考虑了大规模集群计算,这就需要使用DPU进行数据迁移——毕竟这已经是共识; Tenstorrent表示,RISC-V在这里也成为了一个非常好的选择。 ..
整体来看,看Tenstorrent的RISC-V CPU设计,还是有一种感觉,对于具体的应用,技术层面选择哪种“指令集”并不是重点,而是设计和实现的感觉。 阻止x86和Arm成为其选择的原因并不是指令集本身,而是RISC-V开源的灵活性。 这可能让像吉姆·凯勒这样的人更容易用拳头去工作。 虽然在外围存储和互连堆叠材料方面,它可能无法与Nvidia直接竞争,但灵活性和成本可能是重要的优势。
当然,Grendel的3nm AI芯片还没有量产,目前还不清楚CPU的IP授权业务进展如何。 事实上,如上所述,Tenstorrent 的商业模式相当奇特。 他们的上游供应商和下游客户也是竞争对手。 例如,SiFive不仅为其CPU提供IP,还直接与其后代产品形成竞争关系。 因此,该业务的发展如何还有待观察。
然而,随着如此多的大牌入局,Tenstorrent公司一开始就成为了人们关注的焦点。 至少毫无疑问,RISC-V将成为未来市场竞争的主要参与者之一,而且绝对不仅仅是低功耗和嵌入式市场。
- 本文固定链接: https://wen.nuanque.com/shouquan/7581.html
- 转载请注明: nuanquewen 于 吉祥物设计/卡通ip设计/卡通人物设计/卡通形象设计/表情包设计 发表
- 文章或作品为作者独立观点不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。本文之内容为用户主动投稿和用户分享产生,如发现内容涉嫌抄袭侵权,请联系在线客服举报,一经查实,本站将立刻删除。本站转载之内容为资源共享、学习交流之目的,请勿使用于商业用途。