0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存算一体:内核架构创新,打破算力能效极限

sakobpqhz ? 来源:算力基建 ? 2023-06-25 14:23 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

01.核心判断及观点

1.存算一体属于芯片的底层架构创新,阶段非常早期,其产业链空白度及机遇挑战不亚于20年前从头开始发展GPU

2.相对于量子计算、光子芯片、非硅基芯片等前沿算力方案,受益于介质等技术成熟,存算一体芯片更有希望在3-5年内广泛落地。

3.存算一体领域属于少有的国内外同时起步的芯片领域,中国更有希望做出引领世界的产品。

4.当前产业界及投资方认为产业链上下游仍不完善,仍需5-10年才能投入使用,但这也意味着更为全面的创新机遇。

5.当前行业玩家竞争主要集中在不同的存储介质,长期来看存储介质路线并无差别,在设计方法论、测试、量产、软件、场景选择等方面全方位竞争是长期关键。

6.第一款、第二款芯片场景的选择非常重要,率先取得商业化验证,打造爆款是未来三年胜出关键。

7.作为新兴技术,产业人才主要集中于学界而非企业界,因此院校技术、人才转化资源非常关键。

8.除创业公司外,大学院校及巨头也在同步做研发,长期来看,真正强劲的竞争对手可能是观望中的巨头。

9.存算一体芯片相对于CPU/GPU等主流算力并非是取代关系,未来将会成为主流算力的重要补充,更侧重于高能效的算力。02.存算一体技术的背景及原理

0da3ebaa-1315-11ee-962d-dac502259ad0.png

在全球数据量呈指数级暴涨,算力相对于AI运算供不应求的现状下,存算一体技术主要解决了高算力带来的高能耗成本矛盾问题,有望实现降低一个数量级的单位算力能耗,在功耗敏感的百亿级AIoT设备上、高能耗的数据中心自动驾驶等领域有望发挥其低功耗、低时延、高算力密度等优势。 在现有的成熟架构及工艺下,当前依靠制程技术进步,增加晶体管密度提升算力、降低功耗已逐步趋于物理极限,且成本逐步提高;

0dc995da-1315-11ee-962d-dac502259ad0.png

在冯诺依曼架构下,由于数据存储与运算单元分离,算力提升受限,功耗增加:

0ddbdd9e-1315-11ee-962d-dac502259ad0.png

应对存储单元与计算单元分离的现状,存算一体技术思路应运而生,在器件单元上存储与计算单元融合,通过底层的架构创新解决冯诺依曼架构的固有瓶颈:

0e07774c-1315-11ee-962d-dac502259ad0.png

由于存储介质技术在近年来不断突破,此外AIoT时代对于设备的智能化、低功耗、体积小、低时延等特性提出了天然要求(而现有的技术路线未能很好的满足需求),在技术突破叠加市场需求的双重作用力下,存算一体技术当前已到达产业化爆发拐点:

0e1c7eda-1315-11ee-962d-dac502259ad0.png

相对于五十多年前CPU的诞生以及二十多年前GPU的诞生,当前存算一体技术仍处于早期阶段,未来依靠其更好的并行度、更好的能效比等特性,有望成为智能化时代的主流算力平台之一,与现有的算力解决方案互为补充。

伴随架构创新的巨大机遇和算力需求的变化,在存算一体领域有希望孕育下一个千亿美元级的芯片巨头,当前我国存算一体技术研发与国外处于齐头并进的阶段,我国存算一体技术及产业有望引领世界。

0e336d0c-1315-11ee-962d-dac502259ad0.png

存算一体当前有一些相似的称呼(如近存计算),其内在结构差别如下:近存计算:不改变计算单元和存储单元本身设计功能,通过采用先进的封装方式及合理的硬件布局和结构优化,增强二者间通信宽带,增大传输速率;本质上属于冯诺依曼架构,通过拉近存储单元和计算单元的距离,对“存储墙”进行优化。 内存储计算:存储单元与计算单元完全融合,无独立计算单元,通过存储器颗粒上嵌入算法,由存储器芯片内部的存储单元完成计算操作;其设计难度更高,未来可提升的空间也更大,但需要获得代工厂许可支持。本文所探讨是存算一体/存内计算企业主要集中于这类。

0e59745c-1315-11ee-962d-dac502259ad0.png

0e67c46c-1315-11ee-962d-dac502259ad0.png

03.存储介质技术路线的选择分析存算一体,当前存算一体芯片研发企业/机构在成熟介质上的切入点集中在SRAM、Nor-Flash和DRAM等;部分学术机构选择切入RRAM等新型介质研发。 从存储介质的分类来讲,分为易失性存储器和非易失性存储器。

0e840636-1315-11ee-962d-dac502259ad0.png

上图引自方正证券研报 当前不同的存储介质在计算机架构中均承担着必要的工作任务,其中SRAM距离CPU最近,响应时间最快,存储容量较小;

其次分别是DRAM、NAND-Flash等介质,在传输速率、存储容量上各有其特点:

1.易失性存储器:即在正常关闭系统或者突然性、意外性关闭系统的时候,数据会丢失,成本高。
DRAM:内存条(一个存储单元仅需一个晶体管和一个小电容),占据58%的半导体存储市场份额,当前已突破20nm,往10nm过渡。
SRAM:CPU缓存(一个存储单元需要4-6个晶体管),特点是速度最快(纳秒级),不需要一直充电。

2.非易失性存储器:在上述断电情况下数据不会丢失,成本低。

NAND Flash:如固态硬盘、U盘和内存;容量大,但读写速度极低。

NOR Flash:代码型内存,主要存一些指令;如机顶盒、网关、路由器中嵌入代码的存储;容量较小且写入数据极低,但读速较快。

0ea0c672-1315-11ee-962d-dac502259ad0.png

长期来看,存算一体芯片产品化的快速发展离不开新型存储介质成熟度提升的助推,以下为不同新型存储介质的原理比较:

0eb38c80-1315-11ee-962d-dac502259ad0.png

长期来看,RRAM(忆阻器)是除了电阻器电容器电感器之外的一大新发现;其与生物神经突触有着非常类似的特性,因此也被成为电子突触器件。

0eca235a-1315-11ee-962d-dac502259ad0.png


以下为新型存储介质的性能比较:

0f035f58-1315-11ee-962d-dac502259ad0.png

以下为不同存储介质的存储原理及客观性能比较;其中成熟的存储介质如SRAM、DRAM、Flash基于电荷的移动完成数据存储;新型存储介质与RRAM、MRAM等基于电阻大小的变化完成数据存储功能。

0f1ea862-1315-11ee-962d-dac502259ad0.png

0f55ea34-1315-11ee-962d-dac502259ad0.png

0f6d6a42-1315-11ee-962d-dac502259ad0.png

除介质以外,选择数字计算与模拟计算也是影响存算一体芯片性能的因素之一;其中数字计算精度更高。

0fa0593e-1315-11ee-962d-dac502259ad0.png

04.存算一体应用场景1.存算一体架构与深度学习网络运算模型高度重合。
通用性计算芯片在服务特定AI算法方面并不具备性价比优势,为AI定制的芯片将成为人工智能产业链条上的底层核心技术。 存内计算作为创新芯片架构形式,突破了存储墙问题,且其本质是乘积累加运算(Multiply Accumulate, MAC)操作加快的体现,与深度学习网络运算模型中的基本算子高度契合,使得基于存内计算架构的芯片相比于市场已有的AI加速芯片,在计算效率(TOPS/W)方面有数量级上的提升。 智能时代里,从可穿戴到自动驾驶,功耗约束下场景里的计算效率都是永恒的主题,存内计算是解放算力、提升能效比最强有力的武器之一。

0fbe31a2-1315-11ee-962d-dac502259ad0.png

资料来源:《先进存算一体芯片设计》、知乎陈巍探芯 2.存算一体芯片适用的行业/场景(1)小算力场景:边缘侧对成本、功耗、时延、开发难度非常敏感

中早期的存算一体芯片算力较小,从小算力1TOPS开始往上走,解决的是音频类、健康类及低功耗视觉终端侧应用场景,AI落地的芯片性能及功耗问题。

我们预测从边缘端接入的智能设备的市场体量将快速增长,智能产品覆盖面积越来越大,产品形态的多样性将迎来爆发式的增长。可以预见,由于传输延迟或数据安全考虑,很多数据处理及推理运算将在端侧发生。

(2)大算力场景:GPU在算力和能效上都无法同时与专用加速芯片竞争

目前云计算算力市场,GPU的单一架构已经不能适应不同AI计算场景的算法离散化特点,如在图像、推荐、NLP领域有各自的主流算法架构。

随着存算一体芯片算力不断提升,使用范围逐渐扩展到大算力应用领域。针对大算力场景>100TOPS,在无人车、泛机器人、智能驾驶,云计算领域提供高性能大算力和高性价比的产品。

存算技术可支持成熟制程下匹配传统结构+高级节点才能提供的计算能力,节约制造成本,绕过工艺封锁等问题。

自动驾驶要求很高,算力、可靠性、稳定性需要同时达标,需要数年,目前仍有工艺挑战和迭代,现在也还做不到数据中心的水平。

0fdcfa42-1315-11ee-962d-dac502259ad0.png

3.存算一体的其他延伸应用:感存算一体、类脑计算

存算一体作为基础原理,同样也衍生了如感存算一体、类脑计算等创新技术方向:

(1)感存算一体:

传统芯片,需要先利用传感器芯片收集信息、存储芯片进行存储、利用计算芯片来处理数据。感存算一体集传感、储存和运算为一体,在存算一体的基础上增加了传感,三位合一提高整体效率。

在传感器自身包含的AI存算一体芯片上运算,来实现零延时和超低功耗的智能处理。

研究成果来看,包括压力、光学、气体三大类;从当前应用方向来看,包括实现更高效的机器视觉和类脑计算。

(2)类脑计算:

类脑计算又被称为神经形态计算,是借鉴生物神经系统信息处理模式和结构的计算理论、体系结构、芯片设计以及应用模型与算法的总称。

试图借鉴人脑的物理结构和工作特点,让计算机完成特定计算任务,从而高速处理信息,属于大算力高能效领域。

存算一体天然是将存储和计算结合在一起的技术,天然适合应用在类脑计算领域,并成为类脑计算的关键技术基石。05.产业现状与未来趋势1.存算一体技术当前面临的挑战:

存算一体技术是一门非常复杂的综合性创新,产业还算不上成熟,在产业链方面仍旧存在上游支撑不足,下游应用不匹配的诸多挑战,但诸多的挑战同时也构成了当前存算一体创新未来可构筑的综合性壁垒。

0ffb6982-1315-11ee-962d-dac502259ad0.png

2.存算一体技术发展趋势:更高精度、更高算力、更高能效。

1010b1d4-1315-11ee-962d-dac502259ad0.png

3.当前产业面临的人才及生态问题:

(1)作为一个新领域,存算一体芯片复合型人才稀缺,人才更多在学术界。

完成存算一体芯片的产品化开发,需同时具备较强的学术原创能力(存算一体的架构和编译器设计、存算相关的量化算法开发等)及工程实践能力(场景理解能力、芯片落地能力)。

(2)从上游到下游的生态不完整,既是挑战也是机遇。

存算一体芯片的大规模落地需与芯片厂商、软件工具厂商以及应用集成厂商等产业生态合作伙伴的大力协同研发和推广应用。

需有一套方便、可用的工具链和软件,让采购方迁移成本低。

兼容现有的软件生态,让采购方用起来“无感”,如可直接利用现有GPU训练软件框架。

引导采购方逐步切入专用工具链进行模型适配、压缩等,更好利用存算一体的优势,逐步建立生态。06.行业相关企业分析 当前我国存算一体芯片创新企业与海外创新企业属于齐头并进阶段,共同探索存算一体技术产业化落地及应用场景,在AIoT时代巨大的应用场景下,未来我国存算一体领域有望产生引领世界的创新企业。 国内存算一体芯片企业有:苹芯科技、后摩智能、知存科技、亿铸科技、智芯科、千芯科技、九天睿芯等创新企业;国外有如Mythic、Syntiant等公司。

以下为国内外部分存算一体企业简介:

102087d0-1315-11ee-962d-dac502259ad0.png

10404c96-1315-11ee-962d-dac502259ad0.png

10672960-1315-11ee-962d-dac502259ad0.png

109d0468-1315-11ee-962d-dac502259ad0.png

10b55540-1315-11ee-962d-dac502259ad0.png

10c77572-1315-11ee-962d-dac502259ad0.png

10dec510-1315-11ee-962d-dac502259ad0.png

10f5c0f8-1315-11ee-962d-dac502259ad0.png

110c5070-1315-11ee-962d-dac502259ad0.png

附录:赛道内主要玩家的部分产品进展及性能

1139a28c-1315-11ee-962d-dac502259ad0.png


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    36252

    浏览量

    284614
  • 产业链
    +关注

    关注

    3

    文章

    1358

    浏览量

    26630
  • 算力
    +关注

    关注

    2

    文章

    1260

    浏览量

    15941

原文标题:存算一体:内核架构创新,打破算力能效极限

文章出处:【微信号:算力基建,微信公众号:算力基建】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一体力AI芯片将逐渐走向落地应用

    电子发烧友网报道(文/李弯弯)前不久,后摩智能宣布,其自主研发的业内首款一体力AI芯片成功点亮,并成功跑通智能驾驶算法模型。 ? 这是
    的头像 发表于 05-31 00:03 ?5675次阅读

    一体更进步,“感一体化”前景如何?

    一体芯片是为了打破冯诺依曼存储计算分离的计算架构所造成的“内存墙”的系统限制,而“感
    的头像 发表于 06-08 00:01 ?6560次阅读

    SRAM一体芯片的研究现状和发展趋势

    人工智能时代对计算芯片的力和能都提出了极高要求。一体芯片技术被认为是有望解决处理器芯片“存储墙”瓶颈,大幅提升人工智能
    的头像 发表于 01-02 11:02 ?4135次阅读
    SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片的研究现状和发展趋势

    一体技术路线如何选

    电子发烧友网报道(文/李弯弯)过去几年,越来越多企业加入到一体技术的研究中,如今,一体
    的头像 发表于 06-21 09:27 ?5176次阅读

    一体技术发展现状和未来趋势

    一体
    电子发烧友网官方
    发布于 :2023年04月25日 17:21:41

    一体芯片在可穿戴设备市场有哪些机会

    2022年,TWS耳机厂商在种新型计算架构中找到突破口——一体。与传统冯诺依曼架构相比,基
    发表于 10-14 09:38 ?1530次阅读

    国产一体超速前进 一体架构有机会解决很多AI面临的问题

    下,半导体愈来愈蹒跚的力提升已经追不上狂奔的AI。 一体架构有机会让AI面临的问题迎刃而解。时代的浪潮下,
    的头像 发表于 11-25 15:26 ?2567次阅读

    基于3DIC架构一体芯片仿真解决方案

    数字经济已成为继农业经济、工业经济之后的主要经济形态。力作为数字经济的核心生产力,将直接影响数字经济发展的速度,决定社会智能的发展高度。一体作为
    的头像 发表于 02-24 09:34 ?6694次阅读

    ChatGPT开启大模型“军备赛”,一体开启力新篇章

    一体需求旺盛,有望推动下阶段的人工智能发展,原因是我们认为现在
    发表于 07-06 10:20 ?634次阅读
    ChatGPT开启大模型“军备赛”,<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>开启<b class='flag-5'>算</b>力新篇章

    一体芯片的技术壁垒

    ,从学术到商用,一体的技术壁垒体现在哪里,后摩智能又是如何从IP、电路设计、架构设计等层面突破技术难题,形成自己独有的技术壁垒。
    的头像 发表于 09-22 14:16 ?1546次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片的技术壁垒

    浅谈为AI大力而生的-芯片

    大模型爆火之后,一体获得了更多的关注与机会,其原因之是因为
    发表于 12-06 15:00 ?669次阅读
    浅谈为AI大<b class='flag-5'>算</b>力而生的<b class='flag-5'>存</b><b class='flag-5'>算</b>-<b class='flag-5'>体</b>芯片

    一体架构创新助力国产大力AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《一体架构创新助力国产大
    的头像 发表于 10-23 14:48 ?1037次阅读

    苹芯科技 N300 一体 NPU,开启端侧 AI 新征程

    随着端侧人工智能技术的爆发式增长,智能设备对本地力与能的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为制约端侧AI性能突破的关键掣肘。在这背景下,
    的头像 发表于 05-06 17:01 ?654次阅读
    苹芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b> NPU,开启端侧 AI 新征程

    缓解高性能一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的一体(Processing-In-Memory, PIM)架构因兼具计算密度、能和精度优势成
    的头像 发表于 07-11 15:11 ?403次阅读
    缓解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片IR-drop问题的软硬件协同设计

    文看懂“一体

    今天这篇文章,我们来聊个最近几年很火的概念——一体。为什么会提出“
    的头像 发表于 08-18 12:15 ?273次阅读
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>”