鲲云数据流AI芯片CAISA
2023/5/22 15:34:00      关键字:      浏览量:
人工智能领域的应用目前处于技术和需求融合的高速发展阶段,市场对AI算力的需求正处于高速增长,成本考量和物理学特性等因素将会压制传统AI硬件性能的上升势头。传统的指令集架构是目前国内外研发AI芯片的主流框架,
企业名称:深圳鲲云信息科技有限公司

产品概况:

鲲云科技基于核心团队在人工智能定制数据流架构三十余年的研发积累,聚焦于未来更加广泛的AI推断算力需求,开展AI推断芯片及相应开发工具链的研发,提出新的AI计算平台的架构实现方式——“定制数据流架构”CAISA3.0并发布全球首款可商用数据流AI芯片CAISA,已实现量产,有效填补了该领域AI推断芯片领域的技术空白。较脱胎于斯坦福大学及前谷歌TPU团队,CAISA芯片率先实现了数据流AI计算平台的商业价值。相对于传统指令集架构下的AI芯片,CAISA芯片底层架构不存在指令依赖,依托数据流的流动次序控制计算执行次序,数据计算与数据流动重叠,实现芯片实测算力上的技术突破。经工信部下属中国信息通信研究院AIIA第三方评测,CAISA芯片利用效率可达95.43%,并参与由中国信通院牵头编制的全球首个AI 芯片基准测试国际标准ITU-T F.748.11 “Metrics and evaluation methods for a deep neural network processor benchmark(深度学习处理器基准测试评测指标与方法);相比于国际巨头等更高成本工艺的30TOPS和130TOPS旗舰芯片,在芯片成本为1/3的情况下,可提供最高3倍以上的实测性能,芯片算力性价比大幅领先国际主流AI芯片。

关键技术指标:

CAISA芯片为鲲云科技自主研发的全球首款数据流人工智能芯片,采用28nm工艺制造,可达到10.9 TOPS的峰值性能,最优架构效率最高达到95.43%,该芯片已完成全面验证并处于量产状态。CAISA芯片单个芯片中放置了4个CAISA引擎,具有超过1.6万个MAC(乘累加)单元以及所有辅助逻辑。为了支持较高的硬件资源利用率,设计了分布式数据流缓存,为每个CAISA引擎提供超过340Gbps的带宽,且CAISA引擎本身基于对常用神经网络模型的计算量统计进行优化,为常见的神经网络计算(如Pooling,ReLU等)实现了专用的硬件计算模块,从而在常用AI算法中实现最佳性能。在CAISA引擎之外,全局数据流网络将输入数据和网络参数分发给引擎并获得结果,以纳秒级精度设计和实现,以匹配引擎间的同步控制。在芯片级别,通过具有AMBA总线的NoC(片上网络),将4个CAISA引擎、 2个独立的DMA控制器、PCIe控制器和2个DDR控制器连接,并设计了专用的DMA和NoC,进一步优化性能和效率,典型模型性能:≥1300fps@ResNet-50,≥460fps@ResNet-152,≥120fps@YOLO V3。CAISA芯片通过PCIe Gen3接口与主处理器通信,通过PCIe通道,处理器可以以32Gbps的吞吐量将数据传输到芯片中。该芯片还具有双DDR4通道,支持大容量设备侧本地存储器,以执行所需的深度学习网络计算。同时,CAISA 芯片支持几乎所有的常用AI算子,通过对数据流网络中算子的不同组合,CAISA 芯片可以支持决大多数的AI算法,所有算子支持和算子组合都可以通过软件配置来实现,鲲云的RainBuilder 3.0工具链完全支持该芯片,该工具链为客户提供了端到端的推理模型部署解决方案。基于CAISA芯片推出数据流AI计算平台“星空X3加速卡”、“星空X6A边缘小站”和“星空X9加速卡”,较同类产品在芯片利用率上提升10倍以上,实现同类产品最高4.12倍的实测性能,为支持深度学习的云端及边缘端场景提供高性能、低延时、高算力性价比的计算加速方案。

产品创新点:

本项目采用与基于指令集架构产品完全不同的方式——定制数据流架构,属于国际首创的芯片架构技术,基于此自主研发的定制数据流架构成功量产国产自控的AI推断芯片CAISA,实现90%以上的芯片利用效率,在芯片峰值算力和芯片利用效率两方面做出突破,相较于国际领先水平提供数倍领先的人工智能算力性价比,在人工智能领域的底层芯片领域实现技术领先。

国内外市场推广情况:

在整个数据流技术领域,全球研发数据流AI芯片的企业屈指可数,除鲲云科技外,还有脱胎于斯坦福大学的SambaNova、前谷歌TPU核心团队创办的Groq。目前,只有CAISA芯片率先实现商用落地,作为全球首个量产的数据流AI芯片产品,CAISA在整个行业内极具代表性意义。

微信扫描二维码,关注公众号。