文章详情

存算一体AI芯片——AI算力紧缺的破局点,人工智能的新赛道

02-09     浏览量:97

芯片架构:AI算力不足的核心原因

架构就像是芯片的基因,它直接决定了芯片的提升空间。这也是后摩尔定律时代,“新物种”芯片崛起的根本原因。

大量的数据、有效的算法以及足够的算力结合,推动了人工智能的高速发展。但我们也不得不看清一个严峻的现实:数据量越来越大,数据类型越来越多;各种算法日新月异,高速发展;与此同时,算力的提升却显得赶不上趟,甚至落后于数据和算法的需求,特别是在计算场景对高带宽、低功耗需求持续走高的趋势下。此外,加之芯片工艺趋近极限,可大规模商用的新型材料暂时还没实现,在芯片架构上的探索成为提高芯片性能最重要的手段之一。


存算一体AI芯片:AI算力不足的破局点

在传统的冯·诺依曼架构中,由于计算与存储分离,计算过程中需要不断通过总线交换数据,将数据从内存读进CPU,计算完成后再写回存储。

随着深度学习的发展和应用,计算单元和存储单元之间的数据移动尤为频繁,数据搬运慢、搬运能耗大等问题成为了算力效能进一步提升的关键瓶颈。从处理单元外的存储器提取数据,搬运时间往往是运算时间的成百上千倍,公开数据显示,整个过程的无用能耗约在60%-90%之间。

特别是大算力场景下,存算分离带来的计算带宽问题成为主要瓶颈。以智能驾驶等边缘端高并发计算场景来看,它们除了对算力需求高之外,对芯片的功耗和散热也有很高的要求。而常规架构的芯片设计中,内存系统的性能提升速度已经大幅落后于处理器的性能提升速度,有限的内存带宽无法保证数据高速传输,无法满足高级别的计算需求。

国内现状:AI算力不足的解决方案

近年来,国内企业对于存算一体芯片的投入进入高峰期。 

 


上市公司

罗普特——联手倪光南院士团队,国内首次、国际领先

公司研发了基于人工智能芯片的人员监测技术,构建面向新型存算一体 AI 芯片的小模型、低浮点运算深度网络,并开发了针对管廊、河湖、公安监控等场景下的智能终端产品,大幅减少云端的计算压力,以数据传输代价,有效提升决策效率。

公司与工程院院士、计算机学会终身成就奖获得者倪光南院士共建省级院士专家工作站,开展计算机视觉存算一体化 AI 芯片开发。公司牵头负责的"存算一体化 AI芯片研制”相关课题项目获批厦门市重大科技项目,目前正在顺利研发中。


 

 

恒烁股份——研发基于 65nm NOR Flash制程的存算一体AI芯片

公司研发的存算一体 AI 芯片基于 65nm NOR Flash 制程,该芯片适合于终端器件及 IoT 领域,即在终端上进行 AI 的推理。

 总体来说,CiNOR 存算一体 AI 技术,将训练后模型中的权重值存储在 NOR Flash 存储单元中,当外部信号(图像、语音或曲线)的特征值进入存算一体芯片的阵列时,就可直接与存在里面的权重值进行乘加运算,一次性得出矩阵运算结果,无需借助外部存储器。

公司 CiNOR 芯片整体架构:对现有 NOR Flash 阵列进行改造后, 2019 年底公司第一款 CiNOR V1 版在武汉新芯 65nm NOR Flash 制程上已经完成芯片设计并流片,成功验证了 CiNOR 芯片原理和可行性,并实现了包括手写识别、ECG 检测和人脸检测等几项应用。公司目前已获得 7 项相关技术的专利授权。

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。

相关推荐