Quadric®推出了Chimera™ QC系列GPNPU家族
Chimera QC系列GPNPU增加了更多的可配置性,将单个核心扩展到超过100 TOPs新的多核集群QC-M系列扩展到864 TOPs计算密度增加到比前一代高达2.7倍添加了浮点和4位权重支持安全增强版本针对汽车设计提供了符合ASIL-B/D标准的版本
Quadric®今天推出了Chimera™ QC系列通用神经处理器(GPNPU)的家族,这是一种将神经处理加速器的机器学习(ML)性能特征与现代数字信号处理器(DSP)的完整C++可编程性相结合的半导体知识产权(IP)产品。{ width=60% }
作为Chimera架构的第三代实现,QC家族包括单核和多核集群型号以及两者的安全增强版本。
在2022年底推出的成功Chimera QB系列GPNPU的基础上,QC系列增加了更多的可配置性,以便根据特定SoC设计预期的ML推理工作负载来调整性能特征的匹配。QC系列包括三种可配置的单核处理器选项:Chimera QC Nano处理器提供高达7 TOPs的ML性能,Chimera QC Perform处理器搭载高达28 TOPs的性能,以及能够产生108 TOPs的Chimera QC Ultra处理器。
对于需要更高性能的系统,新的多核GPNPU家族QC-M提供了预集成的两个、四个或八个QC Nano、QC Perform或QC Ultra基本核心的集群。因此,QC-M系列从并行运行小工作负载(Nano核心)一直扩展到高计算应用(八个QC Ultra核心)。这种性能为中央ADAS应用提供了864 TOPs,用于并行处理多个大输入格式摄像头流。QC-M集群包括核间通信电路以及流式权重共享功能,用于向集群内的两个或更多核心广播常见的机器学习模型权重。
“QC系列GPNPU核心的卓越计算密度对汽车市场来说是一个重大突破,” Quadric的联合创始人兼首席执行官Veerbhan Kheterpal表示。“汽车市场的零部件供应商构建3纳米芯片,可以为价格低于10美元的硅片交付超过400 TOPs的完全C++可编程ML + DSP计算,” Kheterpal接着说。“将这种价格性能与利用现有解决方案相比较,后者重新利用价值10000美元的数据中心GPGPU或性能有限的手机芯片组用于汽车市场。”
更大的可配置性以匹配工作负载的计算
QC系列处理器包含一系列配置选项,旨在允许SoC开发人员将GPNPU功能匹配到目标应用。Chimera架构将高性能的乘-累加(MAC)单元与每个处理单元(PE)中的完全C++可编程32位定点ALU相融合。PE的阵列从64个扩展到1024个PE,以构建Nano、Performance和Ultra核。每个配置的GPNPU核心可以具有8、16或32 INT8 MAC用于每个PE的比率。针对具有大型、权重受限工作负载的系统,如大语言模型(LLMs)的设计团队将选择具有宽AXI接口的8 MAC配置。构建在更多MAC密集型工作负载上运行的系统,如高分辨率图像处理,将选择32 MAC每个ALU的更高比率选项。每个处理器的可配选项中还包含一个半倍于INT8 MAC吞吐率的16位浮点多重积累单元。
配套Quadric Chimera GPNPU的精确循环Chimera指令集模拟器使设计团队能够完全模拟目标工作负载,以便智能地选择MAC比例、AXI宽度、紧密耦合的第二级RAM大小以及其他用户可选硬件选项。与以前的Chimera处理器提供相比,Chimera QC核的新配置选项可以提供高达2.7倍的TOPS/mm2更高的计算密度。
用于生成AI的优化
许多设计团队今天正在努力寻找如何最高效地实现用于运行当今和未来的生成AI模型的机器学习计算引擎。特别是LLMs具有大量的系数(权重),必须将这些系数流式传输到所选的计算引擎,以每个生成的令牌进行处理,这使得这些模型在许多情况下限制了I/O。Quadric的Chimera QC系列增加了使用在最先进的训练工具中训练的4位权重的选项,减少了数据带宽要求,以比标准8位整数权重更有效。结合额外宽的AXI互连接口,最多达1024位/周期,新的QC系列核心直接满足那些寻求在大量消费者设备中实现低功耗、高性能LLM模型的公司需求。
用于汽车应用的安全增强版本
QC处理器系列和多核QC-M处理器家族均提供安全增强版本,这些版本结合了硬件增强功能,以确保更大的故障容忍性。每个SE版本核心都配备有FMEA分析报告和协作DIA报告生成,均由Chimera软件开发工具包支持,该工具包正在进行ISO 26262工具信心级别认证。
可扩展的性能:1 TOP到864 TOP
Chimera GPNPU家族QC系列包括三个独立核心和两个、四个或八个核心的多核集群:
Chimera QC Nano - 从每秒1万亿次操作(TOPS)的机器学习,配备64亿次每秒(GOPs)的DSP能力,在成熟工艺节点(16nm或12nm)中实现到在先进的3纳米工艺中实施时的最高达7 ML TOPs。Chimera QC Perform - 将中等性能与紧凑尺寸相结合,范围从4 TOPS到28 TOPS,以及256到超过400 GOPs的DSP性能。Chimera QC Ultra - 在最先进的3纳米节点中提供高达108 TOPs。Chimera QC-M多核解决方案 - 结合任何配置的Nano、Perform或Ultra核心的两个、四个或八个核心,QC-M集群可配置为为最苛刻的应用提供达864 TOPs的处理能力。
Chimera核心可以针对任何硅晶厂和任何工艺技术进行定位。QB系列的整个GPNPU家族可以在3纳米工艺中达到最高1.7 GHz的运行速度,使用传统的标准单端口SRAM流程和通用可用的标准单端口SRAM。
已在硅中验证,可供评估使用
Chimera处理器架构已在硅中成功验证。Quadric已准备好与希望开始IP评估的芯片设计团队进行即时客户互动。有关Chimera架构和GPNPU QC系列的更多信息,请访问Quadric.io网站。
探索AITechPark,获取人工智能、物联网、网络安全、AITech新闻最新进展以及行业专家的深入更新!
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
Quadric®推出了Chimera™ QC系列GPNPU家族