0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新思科技UCIe IP解决方案实现片上网络互连

新思科技 ? 来源:新思科技 ? 2025-08-04 15:17 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

通用芯粒互连技术(UCIe)为半导体行业带来了诸多可能性,在Multi-Die设计中实现了高带宽、低功耗和低延迟的Die-to-Die连接。它支持定制HBM(cHBM)等创新应用,满足了I/O裸片与HBM DRAM堆叠裸片之间对高带宽连接的需求。本文将深入探讨UCIe支持的不同接口,以实现片上网络(NoC)互连。

UCIe标准层

UCIe定义了一套全面的协议层,用于标准化裸片(也称为芯粒)之间的通信。该标准确保数据能够高速传输,同时将延迟和功耗降至最低。如图1所示,UCIe包括三层:

物理(PHY)层:管理UCIe链路的物理特性。该层由模拟前端构成,负责主链路训练与初始化、边带初始化和训练,以及通道修复、重新校准、时钟转发等功能。

Die-to-Die适配层:实现较低的链路层功能。它负责循环冗余校验(CRC)的嵌入和检查、FLIT重传,以及与PHY层的链路状态管理和参数协商。该层还包含用于连接到上层接口的协议仲裁逻辑。

协议层:通过可连接SoC片上网络(NoC)的不同协议和接口(包括AXI、CXS、CHI C2C接口以及PCIe和CXL协议),与SoC应用进行通信。UCIe标准定义了用于连接SoC NoC的串流原生和串流FLIT接口。

970a2194-6df3-11f0-a18e-92fbcf53809c.png

▲图1:UCIe规范层

串流FLIT是指通过Die-to-Die接口发送的数据被打包成FLIT,这些FLIT由PCIe和CXL协议定义。UCIe标准定义了六种FLIT格式:

格式1:64B原始数据,无CRC或重传字节

格式2:68B FLIT,包含64B有效载荷、2B CRC,以及由Die-to-Die适配器填充的2B标头数据

格式3:256B FLIT,包含240B数据有效载荷、16B CRC,以及由Die-to-Die适配器填充的标头

格式4:256B FLIT,包含240B数据有效载荷、16B CRC,以及由Die-to-Die适配器填充的起始标头

格式5:延迟优化的256B FLIT,无可选字节,包含236B有效载荷、20B CRC,以及由Die-to-Die适配器填充的标头数据

格式6:延迟优化的256B FLIT,含可选字节,包含250B有效载荷、6B CRC,以及由Die-to-Die适配器填充的标头数据

格式2到6允许为CRC重传和标头分配字节,Die-to-Die适配器利用这些字节实现近乎无错的链路。

在串流原生模式下,Die-to-Die适配器不会将应用数据转换为FLIT。此模式在逻辑上将PHY RDI接口连接到应用层,提供了Die-to-Die互连的最低延迟路径。

新思科技UCIe控制器IP在协议层中支持多种与SoC应用层的接口,例如CXS、AXI和CHI C2C。这些接口基于Die-to-Die适配器的串流FLIT模式实现,这意味着它们采用UCIe标准中定义的FLIT格式之一。

封闭式与非封闭式Multi-Die设计

根据具体的应用,系统可以采用上述任何一种Die-to-Die接口类型。

开发者必须明确Multi-Die设计是否为封闭式。封闭式Multi-Die设计是指来自同一供应商的裸片通过Die-to-Die IP进行互操作。在这种情况下,由同一供应商负责裸片之间的数据连接。这种应用场景在业界较为常见,许多公司在设计系统时会在自家的其他裸片中添加功能或进行扩展。

封闭式应用的例子包括将大型服务器裸片一分为二,使其作为单个处理单元运行。这类应用属于功能分割,在裸片间建立透明的数据隧道,要求Die-to-Die接口具备每秒数太比特的超高带宽。

另一个封闭式系统的例子是I/O芯粒连接到处理单元芯粒,或主计算裸片连接到AI加速器芯粒。在这种情况下,根据Die-to-Die适配器是否需要CRC或重传功能,可以使用串流FLIT或串流原生协议。串流原生和FLIT接口允许通过Die-to-Die接口连接供应商专有NoC,为系统连接提供了便捷路径,且无需在裸片间进行数据转换,实现了低延迟。串流FLIT模式将数据打包成上述6种FLIT格式之一,然后Die-to-Die适配器会添加CRC和标头字节,这实现了一种重传机制:数据在传输到Die-to-Die链路之前,先存储在缓冲区中。如果Die-to-Die通信检测到任何错误,则通过链路重新发送缓冲区中存储的数据,以实现无错通信。出于这些原因,系统可在不修改专有NoC的情况下利用Die-to-Die通信。

在非封闭式系统中,来自两个不同供应商的裸片可以进行互操作。使用不同来源的现成芯粒的开放生态系统方法是UCIe标准的最终目标。非封闭式系统中的每个裸片实现特定功能,以优化特定任务,通常需要低至中等的带宽。

由于在非封闭式应用中,两个裸片之间必须具备互操作性,因此使用PCIe和CXL等行业标准协议具有优势。这些标准协议具有软件和生态系统支持,便于不同代产品间的使用。需要时,CXL等协议还可实现两个裸片间的缓存一致性。例如,一个供应商的计算裸片可与另一个供应商的加速器裸片进行互操作。

还有其他一些应用也需要Die-to-Die连接。

图2所示的第一种应用是服务器或计算裸片,Die-to-Die互连两侧均为同构裸片。这些芯粒需要低延迟的NoC到NoC接口。如果需要一致性,可使用CXS;如果不需要一致性,则可使用AXI。CXS接口以CXS信号格式(可以是CCIX 2.0或来自SoC应用的CHI)接收数据,并将其转换为FLIT格式。例如,新思科技UCIe控制器的CXS接口使用68B FLIT格式2处理CCIX 2.0数据,使用256B延迟优化的FLIT格式6处理CHI数据。类似地,AXI接口可以接收AXI4/AXI3接口信号,并将其转换为FLIT。这些接口直接连接到SoC NoC,实现两个裸片间的流量传输。该接口可以是用户定义或专有的,此时开发者可以使用UCIe Die-to-Die适配器的串流原生或串流FLIT接口。

972e8246-6df3-11f0-a18e-92fbcf53809c.png

▲图2:两侧具有同构裸片的服务器芯片示例

如图3所示,第二种应用是将计算裸片连接到加速器芯粒。接口协议通常要求低延迟和一致性,有时还面向开放的芯粒市场。在此类应用中,开发者可以依赖CXL或PCIe等协议实现互操作性,若两侧裸片来自同一供应商,也可以利用UCIe串流接口。

97419c14-6df3-11f0-a18e-92fbcf53809c.png

▲图3:两侧分别为服务器和加速器芯粒且利用CXL协议

图4展示了裸片分割的应用场景,其中带有以太网或PCIe的IO芯粒连接到计算芯粒。这些应用主要为封闭式,可使用串流原生或串流FLIT接口。如果服务器裸片上的NoC也使用AXI,还可以使用AXI接口。

975cae3c-6df3-11f0-a18e-92fbcf53809c.png

▲图4:IO芯粒与计算裸片通过串流接口进行互操作

如今,大多数Multi-Die设计采用封闭式裸片,高性能计算(HPC)和人工智能(AI)是此类Multi-Die设计的主要应用领域。

如图5所示,AXI是当今大多数Multi-Die设计中主要的SoC NoC接口之一。CXS接口广泛用于Arm NoC,可支持缓存一致性。新思科技UCIe控制器支持CXS接口,有助于通过互连传输CHI C2C数据。新思科技的控制器经过优化,可与Arm NoC和Arteris IP NoC进行互操作。市场上的其他设计主要根据具体应用采用串流原生或FLIT接口,从而在裸片间提供最低延迟接口。在需要标准化的应用中,也会采用PCIe和CXL协议。

9773ded6-6df3-11f0-a18e-92fbcf53809c.png

▲图5:NoC接口的使用情况细分

AXI在主设备和从设备之间提供单一接口。如图6所示,每个AXI通道仅能单向传输信息。该架构不要求通道之间存在固定关系,因此各通道可视为相互独立。

97903806-6df3-11f0-a18e-92fbcf53809c.png

▲图6:AXI接口通道概述UCIe规范层

UCIe Die-to-Die适配器的接口只是一个隧道接口,可将数据从一个裸片中的AXI接口(主设备或从设备)传输到另一个裸片中的另一个AXI接口(从设备或主设备),而不会对数据进行任何形式的处理。实现AXI接口的UCIe串流FLIT采用UCIe标准定义的重传机制。启用重传机制时,UCIe可提供点对点的无损数据通信通道。开发者可选择使用任何一种已定义的FLIT格式来实现。

例如,新思科技的AXI实现使用FLIT格式2或6。如果需要较低延迟,可以使用串流FLIT格式2传输AXI信息,但与串流FLIT格式6相比,UCIe引入的带宽开销更高。如果需要更高带宽,可以使用串流FLIT格式6来传输AXI信息(此时延迟更高)。将AXI数据打包成FLIT是一种专有实现方式,要求Die-to-Die互连两侧都具备该实现,以便以与初始打包相同的方式检索另一裸片上的AXI数据。这导致在使用AXI接口进行Die-to-Die连接时存在局限性,不同供应商在基于UCIe的Die-to-Die互连上实现AXI时无法进行互操作。这一局限性在行业内所有基于UCIe实现AXI的供应商中普遍存在。

图7展示了新思科技AXI实现的一个示例,来自不同地址的连续单独读写(无突发)映射到FLIT格式6。不同的读写请求通过读地址、写地址和写数据通道从AXI主设备发送到从设备,并被打包成FLIT。图7的下半部分展示了从设备对主设备读写请求的响应。

97a62094-6df3-11f0-a18e-92fbcf53809c.png

▲图7:新思科技AXI实现的一个示例,来自不同地址的连续单独读写映射到FLIT格式6

在有效载荷、标头和CRC数据字节方面,对于68B串流FLIT格式2和256B串流FLIT格式6,UCIeFLIT打包效率分别为94.11%和97.65%。在AXI的每个通道中,写数据通道包含多个信令数据。存在写数据通道、写有效信号、带写有效和写就绪的写结束信号等。总体而言,在AXI事务中,由于来自不同AXI通道的FLIT中包含额外数据,实际数据有效载荷的效率较低。

结语

新思科技提供包括PHY、控制器和验证IP的完整UCIe IP解决方案。作为Multi-Die设计领域的领导者,新思科技推动合作以促进创新。新思科技UCIe PHY IP支持在最先进的工艺和封装技术上实现16G、32G、40G和64G的数据速率。新思科技UCIe控制器支持串流原生、串流FLIT,以及AXI、CXS、CHI C2C等接口和PCIe、CXL等协议。新思科技与Arm和ArterisIP等行业标准NoC供应商合作,确保系统的互操作性和高性能,简化了客户的实现过程。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体
    +关注

    关注

    335

    文章

    29036

    浏览量

    240238
  • 接口
    +关注

    关注

    33

    文章

    9033

    浏览量

    154008
  • soc
    soc
    +关注

    关注

    38

    文章

    4408

    浏览量

    223218
  • UCIe
    +关注

    关注

    0

    文章

    50

    浏览量

    1861

原文标题:如何通过UCIe IP实现行业NoC互连?

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    关于上网络优化问题

    求关于上网络各个ip核之间的热阻和功耗对io核温度的影响,最好具体到公式表达
    发表于 04-30 00:16

    请问使用上网络互连DSP48A会降低性能吗?

    与FPGA中的普通路由相比,使用上网络互连DSP48A会降低性能吗?以上来自于谷歌翻译以下为原文Will the use of network on chip to interconnect
    发表于 06-28 09:39

    什么是思科CleanAir解决方案

    功能,比如它可以自动侦测、识别并调整干扰源等。着眼于整体部署无线网络的企业,Cisco公司为此作出了前所未有的积极对策:CleanAir解决方案。那么有谁知道,究竟什么是思科CleanAir
    发表于 08-07 07:35

    基于FPGA的多时钟上网络该怎么设计?

    平台。该平台支持同一时间内32 个时钟运行,也就是说每个上网络的内核可以在一个独立的时钟下运行, 从而使每个路由器和IP 核都运行在最佳频率上。因此适用于设计多时钟
    发表于 08-21 06:47

    上网络有什么优缺点?

    上网络的研究才刚刚起步,还没有在商业产品中广泛应用。上网络的标准化可以增加组件的互连性,但会造成性能的损失,而对特定的
    发表于 09-19 09:10

    上网络系统网络层设计与研究

    本文参照传统的OSI(Open Systems Interconnection)模型与TCP/IP 模型对上网络系统模型层次结构进行了按照片上网络特点进行的划分。文中还对
    发表于 12-14 09:54 ?8次下载

    分级环上网络互连

    本内容介绍了分级环上网络互连
    发表于 05-19 15:37 ?21次下载
    分级环<b class='flag-5'>片</b><b class='flag-5'>上网络</b><b class='flag-5'>互连</b>

    多核密码处理器中的上网络互连结构研究

    多核密码处理器中的上网络互连结构研究_杜怡然
    发表于 01-03 18:00 ?0次下载

    芯动科技宣布推出兼容UCIe国际标准的IP解决方案

      消息报道,中国一站式IP和芯片厂商芯动科技宣布率先推出国产自主研发的物理层兼容UCIe国际标准的IP解决方案,是国内首套跨工艺、跨封装的Chiplet连接
    的头像 发表于 04-18 11:28 ?1630次阅读

    思科技设计、验证和IP解决方案助力Arm全面计算战略

      新思科技设计、验证和IP解决方案助力全新Arm Cortex CPU和新一代Arm GPU实现业内领先的性能和能效比。
    的头像 发表于 07-13 11:06 ?1562次阅读

    思科技正式推出业界首个1.6T以太网IP整体解决方案

    思科技1.6T以太网IP整体解决方案现已上市并被多家客户用,与现有实现方案相比,其互连功耗最多
    的头像 发表于 03-19 10:23 ?853次阅读

    思科技与英特尔在UCIe互操作性测试进展

    英特尔的测试芯片Pike Creek由基于Intel 3技术制造的英特尔UCIe IP小芯片组成。它与采用台积电公司N3工艺制造的新思科UCIe
    的头像 发表于 04-18 14:22 ?1365次阅读

    思科技发布全球领先的40G UCIe IP,助力多芯片系统设计全面提速

    思科技40G UCIe IP 全面解决方案为高性能人工智能数据中心芯片中的芯片到芯片连接提供全球领先的带宽 摘要: 业界首个完整的 40G UCI
    发表于 09-10 13:45 ?601次阅读

    思科技与英特尔携手完成UCIe互操作性测试

    IP(知识产权)的40G UCIe解决方案。这一成果标志着新思科技在Multi-Die(多芯片组件)解决方案领域取得了重大进展,进一步巩固了
    的头像 发表于 02-18 14:18 ?504次阅读

    Cadence UCIe IP在Samsung Foundry的5nm汽车工艺上实现成功

    我们很高兴能在此宣布,Cadence 基于 UCIe 标准封装 IP 已在 Samsung Foundry 的 5nm 汽车工艺上实现首次流成功。这一里程碑彰显了我们持续提供高性能车
    的头像 发表于 04-16 10:17 ?341次阅读
    Cadence <b class='flag-5'>UCIe</b> <b class='flag-5'>IP</b>在Samsung Foundry的5nm汽车工艺上<b class='flag-5'>实现</b>流<b class='flag-5'>片</b>成功