yaboPP电子
新闻

FPGA综述:新的竞争者在内存、大小、电源,甚至AI上都有改进

7月02日,2020年经过史蒂夫asrar

三个新发布的FPGA可以告诉我们这些设备在行业中的方向。

过去的一个月见证了FPGA市场的繁荣。在本文中,我们将简要研究Xilinx、Intel和Lattice Semiconductors最近发布的三种fpga。

这些设备中的每一个都集中在改善性能的不同方面:Xilinx Vu57P试图在苛刻的应用中避免内存带宽挑战。英特尔Stratix 10 NX FPGA包含AI优化的DSP块,以帮助实现低延迟的大型AI模型。而且,格子Nexus FPGA尝试重新定义低功耗,小型FPGA。

这些设备中的每一个可以告诉我们FPGA的方向吗?

Xilinx VU57P FPGA高带宽存储器

在过去的十年中,许多应用领域的计算带宽呈指数级增长。例如,Xilinx FPGA为机器学习应用程序提供的DSP片的数量在现代Virtex UltraScale +设备中,最大的Virtex 6 FPGA中大约12,000片从大约2,000个切片增加到大约2,000个切片。类似的趋势也出现在其他应用领域,如网络技术和视频应用,如下图所示。

内存带宽的要求

内存带宽的要求。使用的图像礼貌Xilinx.

上图表明,DDR技术的内存带宽仅在过去十年中仅略微增加 - 从DDR3到DDR4的倍数约为2。(值得注意的是DDR4到DDR5的飞跃可能会更有影响。)

图中描绘的带宽间隙意味着FPGA和存储器之间的有限数据传输速率是这些应用中的瓶颈。要解决此问题,设计人员通常并行采用多个DDR芯片,以增加内存带宽 - 不一定是内存容量。然而,由于大量的功耗,外形和成本问题以及PCB设计挑战,这种方法在高于大约85 GB / s的内存带宽中变得令人满意。

或者,对存储器带宽问题的有效解决方案是一种基于DRAM的存储器类型,称为高带宽存储器(用于短的HBM)。在这种情况下,利用硅堆叠技术在与下面所示的相同包装中彼此旁边的DRAM存储器和FPGA。

硅堆叠帮助实现DRAM存储器和FPGA并排

硅堆叠有助于实施DRAM内存和FPGA并排。使用的图像礼貌Xilinx.

HBM技术允许我们消除将DDR芯片连接到FPGA的相对长的PCB迹线。采用具有大量引脚的集成HBM接口导致大幅提高的内存带宽,其延迟类似于基于DDR的技术的延迟。

Xilinx有最近发布了VU57P FPGA(来自Virtex UltraScale +系列)它包含16 G HBM,存储带宽高达460 Gb / s。该设备采用集成的AXI端口交换机,可让我们从任何内存端口访问任何HBM内存位置。

除了节能的计算能力和上面讨论的大内存带宽之外,VU57P还提供高速接口,如带有RS-FEC的100G以太网、150G Interlaken和PCIe Gen4。新设备的58G PAM4光模块支持最新光标准的连通性。这在不同的应用中是有帮助的,例如下一代防火墙、交换机和具有QoS的路由器。

Intel Stratix 10 NX fpga - ai优化DSP块

数字信号处理(DSP)的许多传统应用需要高精度算术。这就是为什么FPGA通常具有高精度乘法器和加法器的DSP块。例如,XC7A50T(Xilinx)和5CGXC4(英特尔)分别具有120和140,为18×18倍增器。

事实证明,更低的比特数可以用于实现许多深度学习应用程序,而不会显著牺牲精度。较低精度的近似会减少计算资源的数量以及所需的内存带宽。

降低钻头宽度的另一个优点是从较低精度计算和需要为每个存储器交易传送的较少数量的比特的省电。事实上,有许多深入学习的应用,INT8或更低精度的计算根据UC戴维斯研究人员的说法,可以导致可接受的结果。

英特尔Stratix 10 NX FPGA是英特尔首款人工智能优化的fpga。这些设备包含被称为AI张量块的算术块,这些块包含一个低精度乘子的密集数组。这些块的基本精度是INT8和INT4,尽管它们通过支持共享指数的硬件支持FP16和FP12数字格式。

与标准的Intel Stratix 10 FPGA的DSP块相比,AI张量块(在Stratix 10 NX FPGA中使用)可以将INT8吞吐量提高15倍。AI张量块的高级方框图如下所示。

AI张量块的框图

AI张量块的框图。使用的图像礼貌英特尔

Intel Stratix 10 NX FPGA最显著的特点是其由ai优化的计算块提供的高计算密度。然而,新设备包含了两个其他的特性,进一步帮助设计者在低延迟下实现它的大型AI模型:它支持丰富的近计算内存(集成HBM)和高带宽网络(高达57.8 G PAM4收发器)。

格子Nexus-Low-Power,小型FPGA

Lattice Semiconductor最近发布了它的Certus-NX FPGA的家庭采用28纳米完全耗尽的绝缘体上硅(FD-SOI)工艺技术。FD-SOI最初是由三星开发的,有点类似于传统的CMOS工艺;然而,它使可编程偏压的大部分晶体管的概念说明如下。

Lattice Nexus平台的电路结构

Lattice Nexus平台的电路结构。图片(修改)使用courtesy of格子半导体(PDF)

可编程批量电压能够显着降低芯片区域和功耗。与具有相似数量的逻辑单元的FPGA相比,CERTUS-NX的功耗最多减少了四次。

由于采用了FD-SOI技术,新设备可以安装小至6毫米× 6毫米的封装,每毫米可提供高达2倍以上的I/ o2与类似的FPGA相比。下表将Certus-NX-40与英特尔和Xilinx的类似产品进行比较。

用于PCIe设计的三种常用fpga的比较

用于PCIe设计的三种常用fpga的比较。使用的图像礼貌格子半导体(PDF)

请注意,新设备支持批量加密和椭圆曲线(ECDSA)的AES进行身份验证。因此,它可以为互联网连接设备提供更高的安全性。此外,它对软误差表现出更高的免疫力,这使得新装置适用于航空航天应用。

fpga是如何优化的

通过研究Xilinx、Intel和Lattice Semiconductors最近发布的这些fpga,我们可以更清楚地看到fpga的发展趋势——集中在更高的内存带宽、AI优化、低功耗和小尺寸因素上。


你直接使用fpga工作吗?你如何看待这些年来这项技术的发展?请在下面的评论中分享你的想法。