

# 内存计算研究进展

毛海宇<sup>1</sup>, 舒继武<sup>1\*</sup>, 李飞<sup>1</sup>, 刘喆<sup>1</sup>

1. 清华大学, 北京100084

\* 通信作者. E-mail: shujw@tsinghua.edu.cn

国家重点研发计划重点专项(批准号: 2018YFB1003301), 自然科学基金(批准号: 61832011)资助项目

**摘要** 随着应用数据处理需求的激增, 在传统冯诺依曼体系结构中, 处理器到主存之间的总线数据传输逐渐成为瓶颈。不仅如此, 近年来兴起的数据密集型应用, 如神经网络和图计算等, 呈现出较差的数据局部性, 缓存命中率低。在这些新兴数据密集型应用的处理过程中, 中央处理器到主存间的数据传输量大, 导致系统的性能不佳且能耗变高。针对传统冯诺依曼体系结构的局限性, 内存计算通过赋予主存端一定的计算能力, 以缓解因数据量大以及数据局部性差带来的总线拥堵和传输能耗高的问题。内存计算有两大形式, 一种是以高带宽的连接方式将计算资源集成到主存单元中(近数据计算), 另一种是直接利用存储单元来做计算(存内计算)。这两种形式有各自的优缺点和适用场景。本文首先介绍并分析了内存计算的提出和兴起原因, 然后从硬件和微体系结构方面介绍内存计算技术, 接着分析和总结了内存计算所面临的挑战, 最后介绍了内存计算给目前流行的应用带来的机遇。

**关键词** 内存计算, 近数据计算, 存内计算, 神经网络, 图计算

## 1 引言

近年来, 应用数据呈现爆炸式增长, 处理器和主存之间的带宽限制成为数据密集型应用的瓶颈。此外, 目前流行的一些数据密集型应用, 如神经网络应用和图计算应用, 数据的局部性差。这会导致处理器片上缓存命中率降低, 进而导致处理器和主存之间频繁地传输数据。这样的大量数据传输除了使得总线拥堵并影响性能, 还会造成大量的能耗开销<sup>[1~5]</sup>。研究表明, 两个浮点数在CPU(Central Processing Unit)和主存之间传输所需的能耗要比一次浮点数运算大两个数量级<sup>[9, 10]</sup>。在大数据系统中, 能耗开销大会使得基于传统冯诺依曼结构的系统扩展性差, 甚至无法支持大型的数据密集型应用<sup>[6~8]</sup>。

内存计算(Processing In Memory, PIM)给总线上数据传输量过大的问题提供了一个根源性的解决方案。它通过赋予内存一部分计算能力, 使其能直接处理一些形式单一且数据量大的计算(例如向量乘矩阵)。内存计算有两种形式, 一种是将计算资源以高带宽的连接方式集成到主存单元中(一般称之为近数据计算, Near Data Computing, NDC)<sup>[20]</sup>, 另一种是直接利用存储单元来做计算(一般称之为存内

引用格式: 毛海宇, 舒继武, 李飞, 刘喆. 内存计算研究进展. 中国科学: 信息科学, 在审文章

Mao H Y, Shu J W, Li F, Liu Z. The Development of Processing In Memory (in Chinese). Sci Sin Inform, for review

计算, Compute In Memory, CIM) [41]. 这两种形式都很大程度减少了中央处理器和主存之间的数据移动, 从而达到提升系统性能并降低能耗的目的. 数据表明, 近年来提出的内存计算架构相比于传统冯诺依曼架构有着几十, 上百, 甚至上千倍的性能提升<sup>[9, 10, 41]</sup>. 尽管在性能和能耗方面优势明显, 目前内存计算的应用仍面临着诸多挑战.

在近数据计算方面, 由于内存中用于数据处理的逻辑芯片计算能力较弱, 架构设计者需要分析和提取出程序中适合放到内存中做计算的部分, 其余留给中央处理器处理<sup>[25]</sup>. 其次, 架构设计者还需要针对上层应用的特点, 对近数据计算中的逻辑芯片进行精心设计以取得大幅性能提升<sup>[31]</sup>. 不仅如此, 近数据计算还缺乏高效透明的系统级支持. 虽然一些面向特定应用设计的近数据计算微体系结构提供了上层软件接口, 但是程序员需要对底层充分了解才能够使用该近数据计算系统<sup>[22]</sup>. 也有研究者设计了对上层透明的内存计算系统接口, 但仅能适应特定的内存计算结构, 缺乏通用性<sup>[32]</sup>.

在存内计算方面, 由于用来直接做计算的内存单元能够支持的算子类型有限, 存内计算较难高效支撑复杂多样的计算模式<sup>[41]</sup>. 因此, 研究者们常针对算子类型少且简单的数据密集型应用设计专用的计算体系结构和系统<sup>[41]</sup>. 除此之外, 存内计算模块集成到现有系统结构中的形式尚不明确<sup>[9, 41]</sup>. 虽然存内计算模块既可以作为存储模块也可作为计算模块, 但其作为内存的一部分和现有存储系统合作的方式仍有待研究. 另外, 存内计算模块硬件本身存在性能和可靠性的问题, 例如基于非易失存储的存内计算单元中非易失模块的可靠性问题<sup>[58]</sup>.

由此可见, 内存计算技术虽然潜力大, 但是其结构复杂, 与上层应用关系紧密, 应用到现有系统中仍面临着诸多挑战. 因此, 我们对现有的内存计算研究进行综述, 阐述内存计算从硬件架构到软件系统支持的相关技术方法和研究进展. 本文首先详细分析和介绍了内存计算的兴起原因, 然后介绍了内存计算的形式以及目前已有的内存计算微体系结构, 接着分析和总结内存计算所面临的挑战, 最后介绍内存计算给现在流行的应用带来的机遇.

## 2 内存计算的提出和兴起

### 2.1 内存计算的提出

20世纪70年代, 超级计算机中单指令多数据流的性能不佳<sup>[11]</sup>. 这是因为存在数据依赖的问题, 导致单指令多数据流无法进行高效的数据并行. 因此, 研究者们提出内存计算技术, 希望在存储端加上处理单元, 提前执行好部分计算以减少数据的依赖.

图1是20世纪提出的内存计算微体系结构. 该结构通过在存储阵列旁加了一些计算单元(例如ALU), 用于支持存储阵列内部的数据处理. 这种做法直观但并不实用. 一方面, 当时的技术能力还无法使计算单元和存储单元紧密地结合, 所加的硬件资源占用了较大的存储片上面积, 不能达到与其相匹配的计算资源利用率. 另一方面, 当时的应用所处理的数据量不大, 不能使所加的计算单元满载. 在当时的技术环境下, 这种直接在存储内部加计算单元的方式不仅难以获得较高的资源利用率, 而且不能达到占用面积小且能耗低的目的. 故而, 内存计算在20世纪并没有兴起.

### 2.2 内存计算的兴起

内存计算真正兴起是在2010年后, 数据呈现指数级暴增. 该阶段数据驱动的应用发展迅猛, 例如近年来流行的人工智能应用, 需要大量的数据进行模型训练, 推理时也需要处理大量的数据<sup>[15, 16]</sup>. 以谷歌翻译为例, 近年来处理数据量不断增长, 目前一分钟需要翻译六千九百五十万个词<sup>[17, 18]</sup>. 现代计算机中片上存储空间有限, 对于大规模的数据处理需求, 中央处理器将频繁地到主存取数据并把处理好



图1 1995年提出的内存计算微体系结构<sup>[11]</sup>.  
Figure 1 Micro-architecture of PIM proposed in 1995<sup>[11]</sup>.

HMC 1.1(Gen2):4GB size



图2 3D堆叠的存储结构<sup>[21]</sup>.  
Figure 2 3D-stacked memory<sup>[21]</sup>.



图3 非易失性存储<sup>[41]</sup>.  
Figure 3 Non-volatile memory<sup>[41]</sup>.

的数据存回主存。数据显示,传输两个浮点数的能耗要比一次浮点运算大两个数量级<sup>[9, 10]</sup>。现在全球能源紧缺,降低能耗是设计现代计算机的一大要点<sup>[6~8, 12~14]</sup>。因此,研究者们重新考虑赋予内存一定的计算能力,从而减少数据移动,降低计算机系统运行能耗。

与此同时,新型存储器件迅猛发展,包括3D堆叠的存储器件,如HMC(Hybrid Memory Cube) / HBM(High Bandwidth Memory)和3D XPoint; 以及交叉栅栏式(crossbar)结构的非易失性存储器件,如ReRAM和PCM。图2展示了一种3D堆叠的存储结构。其中,最底层为逻辑层,包含控制器和其他处理单元。逻辑层上面堆叠有DRAM存储层,他们通过高速的穿过硅片的通道(TSV, Through Silicon Via)相连接。图2中的一个立方体(cube)包含了16个拱(vault),每个拱的一层包含了两个阵列(bank)。与传统的二维结构不同的是,该3D结构最底层的逻辑层可以放置计算单元,且可以通过超高速的TSV与上层的存储单元进行数据交互,从而使得计算和存储结合的更加紧密。图3展示了ReRAM的结构。其中,图3(a)是一个ReRAM cell的物理结构图,以三明治模式将金属氧化物层夹在两个电极中间。图3(b)展示了SET操作和RESET操作的电流和电压关系图。图3(c)展示了ReRAM的crossbar的结构: 每个cell放置于字节线和比特线的交叉处。这样的NVM(Non-Volatile Memory)结构和传统的DRAM结构相比,具有存储密度高和静态功耗低的优点,同时其特殊的物理结构为存储和计算相结合提供了支持。

综上所述,数据驱动的应用迅猛发展以及数据量指数级暴增驱动了内存计算的发展,并且新型存储器件的快速发展为内存计算提供了技术保障。因此,内存计算在2010年后兴起。



图 4 近数据计算和存内计算的关系.  
Figure 4 Relationship between CIM and NDC.

### 3 内存计算架构与技术

内存计算技术(Processing In Memory, PIM)是一个宏观的概念, 是将计算能力集成到内存中的技术的统称。集成了内存计算技术的计算机系统不仅能直接在内存中执行部分计算, 还能支持传统以CPU为核心的应用程序的执行<sup>[22, 32, 41]</sup>。区别于内存计算, 存算一体芯片将存储与计算相结合, 是一种ASIC(Application-Specific Integrated Circuit)芯片, 常用于嵌入式设备中, 针对一类特定的应用设计, 不能处理其他应用程序<sup>[19]</sup>。内存计算包括两大类: 近数据计算(Near Data Computing, NDC; 或称为Near Data Processing, NDP)和存内计算(Compute In Memory, CIM)<sup>1)</sup>。两者的关系如图4所示, 它们在形式上不同, 但是在特定场景下可以进融合设计。近数据计算和存内计算的最大区别就是: 近数据计算的计算单元和存储单元依然分离, 而存内计算直接利用存储单元来做计算, 计算和存储紧耦合。下面将从硬件结构和所支持的计算操作两个方面具体介绍近数据计算和存内计算相关技术。

#### 3.1 近数据计算

为缓解传统冯诺依曼架构中总线上的数据传输问题, 近数据计算在存储周边放置计算单元, 这就需要高速通道进行连接。因此, 近数据计算通常依赖于3D堆叠的内存结构, 如图2所示。近数据计算系统中通常有一个或多个NDC cube, 它们与CPU或者GPU相连接(如图5所示<sup>[22]</sup>), 多个NDC cube之间可能也会存在连接。目前基于3D堆叠的近数据计算的研究主要集中在: (1) NDC cube模块与现有系统的集成方式; (2) NDC cube和CPU/GPU之间, NDC cube之间的连接方式, 通信方式以及一致性协议; (3) NDC cube中逻辑层的设计; (4) NDC数据映射方式; (5) NDC的软硬件接口及上层系统软件支持。除了基于3D堆叠内存结构的NDC, 还有基于2D NVM的NDC结构, 主要思想是对NVM中现有外围电路进行改造, 以支持特定类型的计算。

##### 3.1.1 通用的近数据计算架构

通用的近数据计算架构方面代表性工作有: AMD Research的TOP-PIM<sup>[22]</sup>, Carnegie Mellon University的TOM<sup>[32]</sup>, University of Wisconsin-Madison 的DRAM<sup>[23]</sup>和NDA<sup>[10]</sup>, Seoul National University的PEI<sup>[25]</sup>, IBM Research的AMC(Active Memory Cube)<sup>[29]</sup>和基于多核CPU的近数据计算系统<sup>[30]</sup>, Stanford University的HRL<sup>[31]</sup>, Brown University为近数据计算设计的并发数据结构<sup>[34]</sup>, Georgia Institute of Technology 的AxRAM<sup>[36]</sup>, 以及Chinese Academy of Sciences的proPRAM<sup>[24]</sup>, 具体如下。

TOP-PIM<sup>[22]</sup>提出了一种近数据计算的架构, 如图5所示, 存储单元不直接堆叠在中央处理器上, 而是堆叠在内存处理器上, 与中央处理器进行交互。TOP-PIM在选择内存处理器时, 考虑了能耗和热量的限制, 充分分析大量应用在性能和能耗的方面的特征。TOP-PIM认为面向吞吐量的GPU核更适用于高带宽高数据并行的场景。实验表明, 在22纳米的工艺下, TOP-PIM可以减少76%的能耗, 且仅带来27%的性能损失。TOP-PIM测试的不是某种特定类型的应用, 无法对特定类型应用加速; 另外, 它将

1) 本文将近数据计算用NDC简称, 将存内计算用CIM简称。



图 5 一个NDC系统的例子<sup>[22]</sup>.  
Figure 5 An example of NDC system<sup>[22]</sup>.



图 6 TOM的结构<sup>[32]</sup>.  
Figure 6 The architecture of TOM<sup>[32]</sup>.

整个应用都放到内存计算中执行, 而内存计算中的计算资源更适用于单指令多数据流的计算, 难以支持复杂的多样的计算. 因此, TOP-PIM在性能上不如传统冯诺依曼系统.

TOM<sup>[32]</sup>将代码分成多个块, 通过编译器的静态分析, 判断出适合放到内存计算中执行的块代码, 避免了把整个代码都放到内存计算模块中执行. TOM结构如图6所示, 其大致结构与TOP-PIM相似, 不同的是TOM支持各个NDC cube之间的通信. TOM的提出是为了解决大数据时代GPU与主存之间带宽小的问题, 除了通过编译器静态分析代码块并选择合适的代码块放到内存计算中执行之外, TOM还分析预测了哪些数据会被放到内存计算中的代码块访问, 并将这些数据放在相应代码块执行的NDC cube中, 以此来减少各个NDC cube之间的通信. TOM中的代码分析和数据映射都对上层透明, 程序员可非常方便地使用内存计算. 实验显示, TOM平均能提高GPU的主流应用30%的性能.

DRAMA<sup>[23]</sup>和NDA<sup>[10]</sup>与其他近数据计算架构不同, 它们建立在商用的DRAM设备上, 力求对现有商用3D堆叠的DRAM硬件(HMC和HBM)改动最小, 并且对现在的存储系统架构改动最小. 图7展示了DRAMA和NDA的结构, 二者整体结构还是中央处理器通过总线和DRAM DIMM相连. 不同的是, 其中一部分DRAM DIMM使用了堆叠在DRAM上面的CGRA(Coarse-Grained Reconfigurable Array)加速器, 能够将数据密集型的操作放到此类近数据结构中进行处理. 实验显示, 这样的近数据处理结构能够带来3倍到60倍的性能提升, 减少了63%-96%的系统能耗.

PEI<sup>[25]</sup>提出了一套内存计算和现有系统结合的软硬件接口. 如图8所示, PEI将内存计算指令计算单元(PCU)放在每个主处理器核以及每个内存计算核上, 使得指令可在主处理器端或内存计算端执行; 同时还加入了内存计算管理单元(PMU), 与LLC(Last Level Cache)以及主存控制器相互合作. 它的主旨是使用能够计算的存储指令和特殊指令来实现简单的内存计算指令, 供上层应用所用. 在现有的顺序编程模型基础上, PEI加入硬件单元来监测数据的局部性, 根据数据的局部性自动决定哪些操作在内存计算单元里执行. 因此, 内存计算系统能和现有的编程模型, 缓存冲突处理机制, 以及虚拟内存管

图 7 DRAMA 和 NDA 的结构<sup>[23]</sup> [10].Figure 7 The architecture of DRAMA and NDA<sup>[23]</sup> [10].图 8 支持近数据计算的软硬件接口系统结构<sup>[25]</sup>.Figure 8 The architecture of NDC-enabled instructions<sup>[25]</sup>.图 9 主机端支持近数据计算的指令执行<sup>[25]</sup>.Figure 9 Host-side PEI execution<sup>[25]</sup>.图 10 存储端支持近数据计算的指令执行<sup>[25]</sup>.Figure 10 Memory-side PEI execution<sup>[25]</sup>.

理很好地协作。图9和图10分别给出了主处理器端和存储端内存计算指令的执行步骤，从中可以看出，PEI能和现有的系统结构很好地协作。

AMC(Active Memory Cube)<sup>[29]</sup>是一个面向百亿兆级超级计算机(一秒钟执行 $10^{18}$ 运算)设计的内存计算系统，图11是其系统结构以及详细参数配置。AMC在设计NDC cube的逻辑层时，全方面考虑了常用科学应用的计算需求和百亿兆级计算机系统的低功耗需求，力求最大化有限面积的利用率和能效比。同时，AMC通过软硬件接口将硬件微结构暴露给上层软件，允许软件针对性能需求调整应用参数，支持软件根据操作系统特点配置和调度AMC中的资源。AMC使用OpenMP 4.0<sup>[29]</sup>作为内存计算中节点粒度的编程接口，相应编译器编译好程序供AMC执行。实验显示，AMC的内部带宽比传统中央处理



图 11 Active-memory-cube 的系统结构<sup>[29]</sup>.  
Figure 11 The architecture of Active-memory-cube<sup>[29]</sup>.

器到主存的带宽大一个数量级; 此外, AMC比传统处理器计算效率高一个数量级, 能以很高并行度执行负载的重要部分, 其能耗比传统系统一半还少. AMC验证了内存计算比将存储移动到中央处理器端的模式效率更高.

Erik Vermij等人提出了一个基于多核CPU的近数据计算系统<sup>[30]</sup>, 以支持近数据计算和现有系统的结合, 其结构如图12所示. 他们重新考虑了内存计算中的关键问题, 如数据冲突, 数据排布, 通信, 地址映射, 和编程模型等, 并实现了一个基于软件和硬件的模拟器. 实验表明, 他们所提出的系统在Graph500测试中与CPU系统相比, 有1.5倍的性能提升.

HRL<sup>[31]</sup>针对NDC cube逻辑层设计时, 片上功耗和面积限制与高带宽和充足计算量的矛盾, 提出了可重构的逻辑阵列, 能够灵活适用于大量的数据密集型应用. HRL发现, ASIC的设计性能好但缺少灵活性, 无法支持大量应用. FPGA和CGRA通过可编程性提供了充足的灵活性. 但是FPGA是比特粒度的计算单元和互联单元可编程, 片上面积开销大; CGRA能支持复杂数据流的强大互联, 能耗比FPGA更高, 在特殊计算和不规则数据上灵活度低, 性能不佳. 因此, HRL提出了混合可重构的逻辑阵列, 用作NDC cube的逻辑层, 包含了FPGA块和CGRA块. 图13呈现了HRL阵列结构, 其中, FU(Function Unit)是用类CGRA块实现, 保证面积和能效比, 能够支持数学运算和逻辑操作, 包括加法, 减法, 乘法, 和比较操作; CLB(Configurable Logic Block)是用类FPGA块实现, 用来实现一些不规则的控制逻辑和特殊函数(比如神经网络中的激活函数); OMB(Output Multiplexer Block)是由多个多工器组成, 放置在靠近输出的位置, 用来支持计算分支, 例如树形, 瀑布型, 和并行型计算, 是一种能同时节省片上面积和能耗开销的分支实现方式. 另外, HRL没有配置类似FPGA的BRAM缓存, 因为内存计算应用通常数据局部性差, 大缓存是额外负担, 不能提高系统的效率. 如上所述, HRL综合了FPGA能耗低和CGRA面积利用率高的优点, 比基于FPGA的NDC系统性能高2.2倍, 比基于CGRA的NDC系统性能高1.7倍.

Zhiyu等人提出了适应于近数据计算的并发数据结构<sup>[34]</sup>. 他们发现, 现在的服务器集群中通常有



图 12 基于多核CPU的近数据计算<sup>[30]</sup>.  
**Figure 12** Multi-core CPU based near data computing<sup>[30]</sup>.



几百个核, 并发数据结构在吞吐和扩展性方面优于传统的顺序数据结构. 因此, 近数据计算系统如何支持并发数据结构, 以及并发数据结构如何利用近数据计算的优势, 成为研究重点. Zhiyu等人发现, 并发数据结构性能优于普通的近数据计算的数据结构; 另外, 利用如数据融合, 数据分块, 流水线等技术面向近数据计算设计的并发数据结构, 性能优于传统CPU中的并发数据结构. 图14展示了他们设计的跳表结构实例, 以及该结构在近数据计算系统中的映射. 在这个例子中, 跳表被分成三部分存储到三个拱中, 每个部分都以哨兵点开头, 且哨兵点在CPU端有一份拷贝. 除此之外, 他们还实现了针对近数据计算设计的链表, 先进先出队列, 和管道, 在性能上优于现有的面向传统CPU系统的相关数据结构.

Amir等人<sup>[36]</sup>认为将加速器集成到NDC cube中极具挑战, 需要加速器低能耗, 占用面积小, 还要支撑多样化的应用. 他们提出AxRAM, 利用GPU应用的可近似性, 将不同区域代码中的计算转化成乘加(MAC)等近似算子. AxRAM用单一的算子来近似应用中的操作, 从而使NDC cube中逻辑层设计简单, 能耗低, 占面积小. 图15展示了AxRAM的执行流程. 为了保持GPU的单指令多数据流的执行特性, 近数据计算端用多个MAC近似单元绕GPU翻译并执行命令, 这样做不需要改变DRAM的内部结构且不产生额外的内存开销. 实验结果显示, 与传统GPU系统相比, AxRAM平均取得了2.6倍的性能提升以

图 15 GPU 代码在近数据计算加速器中执行的流程<sup>[36]</sup>.

Figure 15 Execution flow of the GPU code on the NDC accelerator [36].

图 16 proPRAM 的结构和 DCW 单元<sup>[24]</sup>.

Figure 16 The architecture of proPRAM and DCW unit [24].

及13.3倍的能耗节约,而只带来了2.1%的面积开销.

proPRAM<sup>[24]</sup>是少数不基于3D堆叠结构的近数据计算架构. 它充分利用了NVM中的基础逻辑单元来实现近数据计算,例如数据比较写(DCW)单元, 翻转写(Flip-n-Write)单元等对SET/RESET操作非常关键的单元(如图16所示, 左边是proPRAM中的硬件结构, 右边是DCW单元). proPRAM对硬件结构改动微小, 且改动对上层应用不可见, 能很好地支持数据密集型操作, 与CPU系统相比, 在数据密集型应用上能取得15倍的能耗节约.

### 3.1.2 针对机器学习的近数据计算架构

针对机器学习的近数据计算架构代表性工作有: Georgia Institute of Technology 的BSSync(Bounded Staled Sync)<sup>[26]</sup>和Neurocube<sup>[33]</sup>, Advanced Micro Devices的Co-ML<sup>[38]</sup>. 具体如下.

BSSync(Bounded Staled Sync)<sup>[26]</sup>指出, 在并行实现的机器学习应用中, 原子操作用来保障无锁状态下算法的收敛, 但带来很大的同步开销, 且同步产生的通信延迟不与占比大的计算延迟重叠. BSSync发现, 在机器学习应用迭代收敛过程中, 可以用未更新的中间数据进行计算, 从而提出利用基于近数据计算的有边界一致性模型来减少原子操作带来的延迟开销. 图17是BSSync系统结构, CPU核里面增加了原子请求队列, 控制寄存器以及区域表来实现边界一致性模型. 实验显示, BSSync比机器学习应用在传统冯诺依曼系统中的异步并行的实现快1.33倍.



图 17 BSSync 的系统结构<sup>[26]</sup>.  
Figure 17 The architecture of BSSync<sup>[26]</sup>.



图 18 Neurocube 的微结构和它的逻辑层中处理单元的微结构<sup>[33]</sup>.  
Figure 18 The micro-architecture of Neurocube and its processing element in the logic layer<sup>[33]</sup>.

图 19 Neurocube 的执行流程<sup>[33]</sup>.  
Figure 19 The execution flow of Neurocube<sup>[33]</sup>.

Neurocube<sup>[33]</sup>是一个针对神经网络计算设计的可编程、可扩展且节能的近数据计算系统架构。图18是Neurocube架构，左边是普遍使用的NDC cube结构，右边是逻辑层设计。逻辑层采用了细粒度可编程的设计模型，以灵活支持神经网络计算。其中，每个PE有多个MAC单元支持神经网络中最常用的乘加操作，同时还有存储权值的寄存器和缓存以及相应的计数器。图19是Neurocube的执行流程。它首先将神经网络存储到NDC cube的存储单元中，包括每层数据、神经元状态、连接权值。当一个层处理好之后，与中央处理器交互一次，然后执行下一层。Neurocube通过对逻辑层硬件、数据映射方式、片上互联，以及编程方式的精心设计，使得神经网络计算在NDC cube中能够高效执行。实验显示，相比于GPU系统，Neurocube有4倍的每瓦计算效率提升，与ASIC系统相比，灵活性更好，扩展能力更强。

不同于针对机器学习设计的注重优化乘加(MAC)操作的近数据计算系统，Co-ML<sup>[38]</sup>提出，虽然包含MAC操作的卷积层等计算占整个机器学习过程的比例大，但这些计算是计算密集型的，数据复用性

图 20 机器学习中计算/字节比率不高的部分<sup>[38]</sup>.Figure 20 The low compute-to-byte ratio components in machine learning<sup>[38]</sup>.图 21 Tesseract 的系统结构<sup>[28]</sup>.Figure 21 The architecture of Tesseract<sup>[28]</sup>.

好, 计算/字节比率高(即一个字节从内存中读出来之后用来计算的次数多); 事实上, 机器学习过程中, 约32%的时间用于数据密集型计算, 这些计算的计算/字节比率低. 图20展示了神经网络中低计算/字节比率的计算部分. Co-ML 将这些低计算/字节比率的计算部分放在近数据计算端, 把MAC等操作放在主处理器上做. 实验显示, Co-ML在机器学习的数据密集型计算上的加速达到了20倍, 总体有14%的性能提升.

### 3.1.3 针对图计算的近数据计算架构

针对图计算的近数据计算架构的代表性工作有: Seoul National University 的Tesseract<sup>[28]</sup>和Georgia Institute of Technology 的GraphPIM<sup>[35]</sup>, 具体如下.

Tesseract<sup>[28]</sup>是一个针对图计算的可编程的内存计算系统架构, 它综合了图计算的特点, 重新考虑了逻辑单元和存储单元的集成方式. 图21是Tesseract的系统结构, 左边是一个图计算在互联的NDC cube中执行的实例, 中间是一个NDC cube内部的连接结构, 右边是一个拱内部的逻辑层结构. Tesseract逻辑层使用了顺序执行的计算核. Tesseract还使用了可以隐藏远程访问延迟的消息传递机制, 以及为图计算定制的预取硬件, 和一系列支持这些操作的上层接口. 实验显示, 与传统的系统相比, Tesseract能取得87%的能耗节约.

GraphPIM<sup>[35]</sup>是一个针对图计算的, 基于商用HMC2.0的近数据计算完整解决方案. GraphPIM主要解决利用近数据计算运行图计算的两大挑战: (1) 应该把图计算应用的哪些部分放到NDC cube中执行; (2) 如何把部分计算放到NDC cube中执行, 即如何提供中央处理器和近数据计算处理器的接口. GraphPIM发现, 在图计算中, 原子操作是损害性能的主要原因, 因此应该把原子操作放到内存端, 避免不规则的数据访问带来的大通信开销. GraphPIM使用现有的中央处理器指令, 把中央处理器端的原子操作指令映射到近数据处理端, 并使用无缓存的配置. 在GraphPIM架构下, 上层应用程



图 22 GraphPIM 的系统结构<sup>[35]</sup>.  
Figure 22 The architecture of GraphPIM [35].



图 23 Charon 的系统结构<sup>[37]</sup>.  
Figure 23 The architecture of Charon [37].

程序员无需额外的工作, 现有的指令集结构也不需要改动, 就可以在图计算的负载中使用近数据计算。图22是GraphPIM的系统结构, GraphPIM在图数据管理和硬件支持方面做了改动。在虚拟地址空间中, GraphPIM使用传统系统的指令绕过缓存来分配图数据; 在硬件端, GraphPIM在中央处理器上加了一个POU(PIM Offloading Unit)用来决定哪些操作放到NDC cube中执行。此外, GraphPIM充分分析了图计算应用特征, 判断出哪些部分放到近数据处理端做会有性能提升。实验显示, GraphPIM与传统用HMC2.0当做主存的冯诺依曼系统结构相比, 有2.4倍的性能提升和37%的能耗节约。

### 3.1.4 针对垃圾回收的近数据计算架构

Sungkyunkwan University的Charon<sup>[37]</sup>是一个针对垃圾回收提出的近数据计算系统。Charon发现了在大数据系统中垃圾回收的开销尤为严重: 在存储密集型的应用里, 垃圾回收几乎占了一半的执行时间。通过分析垃圾回收算法, Charon发现, 主要占MinorGC执行时间的操作是Search, Copy, 和ScanPush; 主要占MajorGC执行时间的操作是ScanPush, BitMap Count, 和Copy。不仅如此, 这些操作需要通过多线程并行来提高吞吐量, 而且这些操作的空间局部性和时间局部性很差。传统冯诺依曼系统结构在执行这些操作时效率低下, 而近数据计算则非常适合。因此, Charon把这些操作放到近数据计算端处理。图23是Charon的系统结构, 其中加了Copy/Search, BitMap Count, 和ScanPush三个处理单元, 用来处理垃圾回收中对应的操作。这些单元直接与主存交互, 避免了主处理器通过串行的低带宽读取数据, 从而减少了数据传输的时间和能耗开销。实验显示, Charon能取得3.3倍的性能提升和60.7%的能耗节约。

图 24 基于基尔霍夫定律的向量乘矩阵存内计算实现<sup>[39]</sup>.Figure 24 PIM realization of vector matrix multiplication based on Kirchoff's Law<sup>[39]</sup>.

### 3.1.5 近数据计算小结

近数据计算中逻辑层的设计较为灵活,可以针对不同系统的需求设计通用的处理器或者专用的加速器。在设计针对通用应用的近数据计算系统时,由于放到内存端的通用处理器一般性能较弱,需要考虑自动化地分割应用程序的计算部分,把能从近数据计算中获益的部分放到内存中处理。在设计针对特定类型应用的近数据计算系统时,需要仔细分析应用特点,抽取算子,设计对应的数据流。除了逻辑层的设计,近数据计算系统结构设计还需要考虑:各个内存块之间的连接方式,包括通信方式和数据一致性协议;数据映射策略;与现有系统集成方式;软硬件接口设计。

## 3.2 存内计算

和近数据计算不同,存内计算直接使用内存单元做计算,主要利用电阻和电流电压的物理关系表达运算过程。存内计算依赖于新型的非易失性存储器,如ReRAM和PCM等。

在所有存内计算操作中,最普遍的是利用基尔霍夫定律(Kirchoff's Law)来做向量乘矩阵操作<sup>[39]</sup>。原因在于:(1)它能够高效地将计算和存储紧密结合;(2)它的计算效率高(i.e.,在一个读操作延迟内能完成一次向量乘矩阵);(3)目前流行的数据密集型应用中,如机器学习应用和图计算应用,向量乘矩阵的计算占了总计算量的90%以上<sup>[76]</sup>。

除了向量乘矩阵操作,存内计算还能利用电阻、电流及电压的物理关系实现查询,按比特与/或/非等操作。本节首先综述基于向量乘矩阵的存内计算研究,然后综述其他存内计算技术。

### 3.2.1 基于向量乘矩阵的存内计算

图24是存内计算支持向量乘矩阵的最基本单元,展示了存内计算使用基尔霍夫定律,在将近一个读操作延迟内完成一次向量乘矩阵操作的过程。左图中计算的是一个 $2 \times 1$ 的向量 $(V_1, V_2)$ 乘以一个 $1 \times 2$ 的向量 $(G_1, G_2)^T$ ,其中, $(G_1, G_2)^T$ 用ReRAM阻值表示,事先存在ReRAM中, $(V_1, V_2)$ 用电压表示,加到对应的字节线上。根据基尔霍夫定律,比特线上最后输出的电流值就代表了 $(V_1, V_2) \times (G_1, G_2)^T$ 的计算值。同理,扩展到右图的向量乘矩阵操作,ReRAM阵列中存储着要做计算的矩阵,将向量转化成电压加在字节线上,通过比特线得到的输出就是相应的结果向量。由于向量乘矩阵操作是神经网络和图计算中的主要操作,这种内存计算结构得到了高效利用。



图 25 DPE 的工作流程<sup>[40]</sup>.  
Figure 25 The work flow of DPE<sup>[40]</sup>.

基于向量乘矩阵的存内计算代表性工作有: Hewlett Packard Laboratories的DPE<sup>[40]</sup>, University of Utah的ISAAC<sup>[39]</sup>, University of Santa Barbara的PRIME<sup>[41]</sup>, University of Pittsburgh的PipeLayer<sup>[9]</sup>, Tsinghua University的TIME<sup>[42]</sup>, Tsinghua University的LeGAN<sup>[43]</sup>, IBM Research的PCM+CMOS存内计算<sup>[46]</sup>, University of Rochester的SC<sup>[44]</sup>, Duke University的GraphR<sup>[45]</sup>. 下文将综述这些工作如何支持神经网络应用或图计算应用,以及其他包含向量乘矩阵的应用.

DPE<sup>[40]</sup>是一个专门针对向量乘矩阵操作设计的存内计算加速器. 它提供了一个转化算法, 可将实际的全精度矩阵存储到精度有限的ReRAM存内计算阵列中, 减少器件问题以及外围电路问题对计算结果的影响. 图25是DPE的工作流程, 分为三个部分: 转换, 写入, 计算. 首先将矩阵映射到合适的ReRAM阵列中. 这个过程利用了对输入的预先了解以及ReRAM阵列参数, 共同优化来决定最后写入ReRAM阵列的数据. 而后通过写入阶段, 再进入计算阶段. 计算阶段将预先准备好的输入数据转成信号, 再传入ReRAM阵列中并读取输出数据. 如果还有其它计算操作, 则将临时输出传送到下一个ReRAM阵列中; 如果没有, 则结束计算. DPE测试结果显示, 只用4bit的DAC/ADC(电信号转模拟信号单元/模拟信号转电信号单元)就能保证计算结果没有精度损失, 相比于数字的ASIC向量乘矩阵加速器, 能取得1000到10000倍的性能提升.

ISAAC<sup>[39]</sup>是一个针对神经网络推理设计的存内计算架构, 图26是其整体架构. 一个芯片上包含多个存内计算阵列(tile), 它们通过C-mesh的片上网络连接, 可以互相通信. 存内计算阵列里有用于做池化层计算的最大池化单元(MP, Max Pooling), 用于做激活层计算的Sigmoid单元, 用于做数据缓存的eDRAM buffer, 用于做中间数据移位加操作的S+A单元, 用于存放临时输出的输出数据寄存器, 以

图 26 ISAAC 的系统结构<sup>[39]</sup>.Figure 26 The architecture of ISAAC<sup>[39]</sup>.

及支持原地向量乘矩阵操作的基础单元(IMA, In-situ Multiply Accumulate). 每个IMA中包含四个基于ReRAM阵列的向量乘矩阵单元, 电模互转单元(DAC, ADC), 以及输入寄存器, 移位加操作单元, 和输出寄存器. ReRAM阵列的个数和其他电路单元的设计考虑了向量乘矩阵的计算延迟以及片上网络的带宽, 充分利用了片上资源. 该结构在做推理时, 采用了pipeline的方式将硬件时分复用, 以加快整个推理的过程. 然而, 推理过程中会有很多由归一化操作产生的气泡, 当推理任务松散时, ISAAC的pipeline效果并不理想. 相比于针对神经网络的加速器DaDianNao, ISAAC有14.8倍的性能提升和5.5倍的能耗节约.

PRIME<sup>[41]</sup>也是一个针对神经网络推理设计的存内计算架构, 图27是其系统结构. 在一般的加速器结构中, 计算加速单元作为CPU的协处理器放在CPU旁边, 通过总线与主存相连(如图27(a)所示). 在基于3D堆叠的近数据计算架构中, 加速单元靠近主存堆叠, 并通过总线与CPU相连(如图27(b)所示). 在PRIME中, 直接使用ReRAM单元做计算. 其中, 一个ReRAM bank分为三部分: 用做存储的Mem subarrays, 用做计算的FF subarrays, 以及用做缓存的Buffer subarray. 计算阵列和缓存阵列进行数据交互, 缓存阵列和存储阵列进行数据交互. 与ISAAC不同的是, PRIME不用片上eDRAM作为缓存, 也不使用输入输出寄存器, 而是直接使用ReRAM阵列来作为缓存和存储. 与基于CPU的神经网络处理器相比, PRIME能够取得2360倍的性能提升和895倍的能耗节约.

PipeLayer<sup>[9]</sup>是一个针对神经网络训练设计的存内计算系统架构, 图28展示了其训练一个三层神经网络的数据流情况. 其中, 圆形圈出的数据存在普通ReRAM中, 方块中的数据存在基于ReRAM的存内计算阵列中. PipeLayer通过合理地复制多份权重数据(图中的A1, A2, A3, A11, A21, A31, A22, A32)来实现少气泡的pipeline结构, 同时使得反向传播阶段的误差传递和权值计算并行, 来提高使用存内计算训练神经网络的计算效率. 实验显示, 与GPU系统训练神经网络相比, PipeLayer有42倍的性能提升和7倍的能耗节约.

TIME<sup>[42]</sup>也是一个针对神经网络训练的存内计算系统架构, 与PipeLayer不同的是, 为了减少训练时权重矩阵更新带来的高延迟和高能耗的问题, 它采取权重矩阵复用的方法, 而不是将权重矩阵复制多份来保证训练过程的高度并行. 同时, TIME还支持增强学习的训练. 图29是增强学习网络的推理和训练过程. 它拥有两个网络, 训练过程会产生一个将A网络的权值拷贝到B网络, 而后更新B网络的操作(A网络的 $W_m$ 替换B网络的 $W_0$ ). TIME通过重用ReRAM阵列网络的方式, 提出了一个特殊的数据映

图 27 PRIME 的系统结构<sup>[41]</sup>.Figure 27 The architecture of PRIME<sup>[41]</sup>.

图 28 PipeLayer训练一个神经网络时的数据流<sup>[9]</sup>.Figure 28 The data flow in PipeLayer when training a neural network<sup>[9]</sup>.图 29 深度强化学习的推理和训练过程<sup>[42]</sup>.Figure 29 The inference and training process of reinforcement learning<sup>[42]</sup>.

射操作来消除拷贝操作带来的写操作开销。实验结果显示,与ASIC加速器相比,针对有监督的神经网络,TIME能取得5.3倍的能耗节约;针对强化学习网络,TIME能取得126倍的能耗节约。

LerGAN<sup>[43]</sup>是一个针对训练对抗生成网络(GAN)设计的存内计算系统架构。与传统CNN/DNN不同,对抗生成网络有两个网络,并且使用跨步卷积代替原来的池化层。上述存内计算系统架构直接用于对抗生成网络加速难度很大,很多零相关的操作占据了大量的存内计算空间,并且复杂的数据流使得存内计算的片上互联成为瓶颈。基于此,LerGAN首先提出了去除零相关的操作,通过重构卷积核以及相应的数据映射,能够去除因跨步卷积和外圈补零带来的零相关操作。另外,基于GAN训练时的数据流结构,LerGAN还提出了一种三层堆叠的存内计算阵列结构,分别映射前向传播层,误差传播层,以及权值计算层,使得GAN训练的数据传输路径变短,且路由变少。为了融合这两项技术,LerGAN使用内存控制器控制数据的映射以及相应的片上互联重配,以使得数据传输尽可能少且各部分计算速度尽可能一致。实验显示,和针对CNN的存内计算系统相比,LerGAN能取得7.46倍的性能提升和7.68倍



图 30 PCM+CMOS存内计算阵列<sup>[46]</sup>.  
Figure 30 The PIM array based on PCM+CMOS<sup>[46]</sup>.

的能耗节约.

IBM的研究人员提出了一种用PCM+CMOS的存储单元来做存内计算的方法<sup>[46]</sup>, 能在同一个阵列中实现全连接神经网络的前向传播, 反向传播和权值计算. 图30是PCM+CMOS的存内计算结构. 图30(a)部分是一个存内计算阵列, 包含了多个行. 图30(b)是其中一个行的结构, 包含多个存储单元(图30(c))和一个共享电容单元. 该结构的特殊之处在于图30(c)中的存储单元, 该单元由两个PCM cell( $G^+$  和  $G^-$ )和一个电容器( $g$ )组成. 其中, PCM单元用来存储权值的高位, 正值存在 $G^+$ 中, 负值存绝对值在 $G^-$ 中; 电容器单元用来存储权值的低位. 在训练时, 权值的高位改变少, 所以使用寿命短且非易失的PCM单元来存; 相反, 频繁变化的低位就用电容器单元来存. 图31展示了使用该结构训练一个全连接神经网络的过程. M层作为输入首先进入存内计算的阵列中(图31(b)左侧两个阵列), 输出进入下一层权值所存放的阵列中, 依此类推(所有实线箭头表示前向的数据流). 前向传播完成后, 在原地进行反向传播(图中虚线部分标出), 不需要转置权值矩阵. 该结构能支持原地的前向反向传播, 但不适用于卷积神经网络的训练, 而现在大多数流行的神经网络都有卷积层的计算, 这是此工作的一个局限. 实验结果显示, 相比较于GPU, 该结构对全连接的网络能有两个数量级的性能提升, 仅伴随不到1%的精度损失.

SC<sup>[44]</sup>是一个针对科学计算提出的存内计算系统架构. 线性代数在科学计算和工程中普遍存在, 用专门的硬件加速线性代数计算, 有助于提高相关应用的运行速度, 减少能耗. 向量乘矩阵就是线性代数中的一个重要算子. 前述存内计算用于加速向量乘矩阵的系统结构有很大的局限性: 只支持定点的低精度计算, 而科学计算需要全精度的浮点运算支持. SC通过探索指数分布的局部性, 提供基于定点计算的浮点计算支持, 提出了支持快速低功耗的全精度浮点数向量乘矩阵的存内计算硬件架构. 图32是SC的硬件系统结构, 由多个ReRAM阵列组成. 每个阵列包含多个集群和一个通用处理器, 可处理ReRAM阵列不支持的计算. 每个集群中有大小不同的计算阵列来支持高效的稀疏矩阵计算. SC结合了现有的GPU系统来处理数据, 可广泛应用, 相比于纯GPU, 能够取得10.3倍的性能提升和10.9倍的能耗节约.

GraphR<sup>[45]</sup>是一个针对图计算提出的存内计算系统架构. GraphR把一个图分成多个子图, 探索子图之间的并行性, 以提高性能, 并减少因矩阵稀疏性带来的资源浪费. 图33展示了一个子图在ReRAM阵列中做计算的实例. 该例中, 有一个通过四个点和V4点连接的程序, 这四个点的值用于更新V4的

图 31 全连接网络放到PCM+CMOS存内计算阵列中执行的示例<sup>[46]</sup>.

Figure 31 The example of training a fully-connected NN on PCM+CMOS-based PIM [46].

图 32 SC的系统结构<sup>[44]</sup>.

Figure 32 The architecture of SC [44].

值(图33(a)). GraphR先把这个计算转化成图33(b)所示的向量乘矩阵操作, 其中矩阵是V4的邻接矩阵, 向量是其他点的值, 最终计算得到V4的更新值. 最简单的方法就是把此图直接转化为矩阵, 映射到ReRAM阵列中做计算, 但是会造成很大的资源浪费. 因此, GraphR用小ReRAM阵列, 例如4×4或8×8(之前的工作中通常用64×64或128×128), 来组成图处理引擎(GE), 处理和扫描每一个子图. 实验表明, 相比于CPU, GraphR能取得16倍的性能提升和34倍的能耗节约; 相比于GPU, 有1.69到2.19倍的性能提升和4.11到8.91倍的能耗节约; 相比于近数据计算, 有1.16到4.12倍的性能提升和3.67到10.96倍的能耗节约.

图 33 图计算在GraphR上执行的一个示例<sup>[45]</sup>.Figure 33 An example of graph computing application executed on GraphR <sup>[45]</sup>.图 34 Pinatubo和冯诺依曼系统结构比较<sup>[48]</sup>.Figure 34 The comparison between Pinatubo and Von Neumann architecture <sup>[48]</sup>.图 35 Pinatubo的读出放大器<sup>[48]</sup>.Figure 35 The sense amplifier of Pinatubo <sup>[48]</sup>.

### 3.2.2 基于逻辑操作的存内计算

基于逻辑操作的存内计算代表工作有: University of California, Santa Barbara的Pinatubo<sup>[48]</sup>, Delft University of Technology 的Scouting Logic<sup>[47]</sup>和XOR/XNOR存内计算系统<sup>[50]</sup>, University of California, San Diego的MPIM<sup>[49]</sup>和MAPIM<sup>[51]</sup>, 具体如下.

Pinatubo<sup>[48]</sup>是一个针对大量比特位操作的存内计算系统架构. 图34对比了传统冯诺依曼系统结构和Pinatubo的系统结构在执行批量比特位操作的过程. 左图中, CPU先通过有限的总线资源把内存数据读取到cache中, 再用CPU中的ALU单元对数据做计算, 得到结果后将数据通过总线存入到内存中. 右图展示的是Pinatubo的存内计算操作, CPU只发送指令和行地址给内存, 内存直接通过读操作将两个参与计算的行读取到修改了的读放大器中, 读放大器可以直接计算出两行操作数的与, 或, 以及异或的值, 然后存放到新的行中. 在这个计算操作中, 只有命令和行地址从总线上传输, 避免了传统结构中的大量操作数的传输. 图35展示了修改后的能支持数据读取, 与, 或, 以及异或计算的读放大器. NVM中数据读取的本质是让给定的电流值经过要读取的电阻后, 和读放大器中的已知的阻值作比较来确定是0还是1. 基于此原理, Pinatubo同时读取两行或者多行操作数, 在读放大器端加上异或, 或, 与的参照电路, 通过简单的读操作来完成比特位逻辑运算. 每个参照电路都有一个开关, 当指定操作类型后, 相应的参照电路将接入放大器中, 获得最终的结果. 实验结果显示, 对于大量的比特位逻辑运算, Pinatubo能取得500倍的性能提升和28000倍的能耗节约; 在普通应用中, 能取得1.12倍的性能提升和1.11倍的能耗节约.

图 36 带有NVALT块的GPU体系结构<sup>[52]</sup>.

Figure 36 The architecture of GPU with NVALT block <sup>[52]</sup>.

Scouting Logic<sup>[47]</sup>指出存内计算受限于NVM有限的寿命; 所有的计算更新都在NVM中, 缺乏传统计算机中寿命很长的片上缓存来辅助减少对NVM的写操作. 因此, Scouting Logic提出只通过读操作来执行这些逻辑单元, 而不改动NVM存储的数据值. 其核心思想与Pinatubo一致, 主要是改动了读出放大器的设计, 从而占用面积更小, 性能更高. MPIM<sup>[49]</sup>为同时支持逻辑运算和搜索操作运算(将在章节3.2.3中介绍)的存内计算架构, 其中的逻辑运算操作原理与Pinatubo相同. 实验显示, 相比于GPU, MPIM能取得19倍的性能提升和5.5倍的能耗节约. Muath等人提出了一个针对XOR和XNOR操作设计的存内计算系统<sup>[50]</sup>, 该系统基于两个输入的混合ReRAM阵列和XNOR门设计, 不需要额外的ReRAM阵列和计算, 能够取得54%的时间节约和56%的能耗节约. MAPIM<sup>[51]</sup>指出之前针对批量位逻辑运算的存内计算架构没有考虑并行, 使得存内计算未取得潜在的高性能. 因此, MAPIM提出基于阵列并行的高性能存内计算系统架构, 能够支持多个比特线的请求, 并且共享支持位逻辑运算的读放大器, 使得占面积大的读放大器利用率高, 从而提升整体系统结构的性能. 与之前的存内计算系统相比, MAPIM能够取得16倍的性能提升和1.8倍的能耗节约.

### 3.2.3 基于搜索操作的存内计算

基于搜索操作的存内计算代表工作有: University of California, San Diego的NVALT<sup>[52]</sup>和NVQuery<sup>[55]</sup>, University of California, Irvine的MAP<sup>[53]</sup>, Tsinghua University的SQL-PIM<sup>[54]</sup>, 具体如下.

NVALT<sup>[52]</sup>是一个基于存内计算设计的近似查找表, 专门用于加速GPU. GPU的应用展现出了非常高的数据相似性和局部性, 如FFT(Fast Fourier Transform)和图像处理, 由重复的包含很多乘加操作的块构成. NVALT通过探寻这些应用的数据局部性, 对这些基础应用建立高效的近似功能单元, 来加速GPU的计算. 图36是集成有NVALT的GPU架构. NVALT块放置在每一个SIMD(单指令多数据流)处理通道的旁边. 当应用在GPU上执行时, 首先经过精度核查, 精度允许的条件下, 调度器会把指令放到NVALT块上执行. NVALT 块使用线下预处理的方式, 识别并存储每个程序常用的数据输入模式和对应的数据输出模式. 运行时, NVALT搜索存储在CAM里的输入数据, 然后返回和输入模式最相似的条目所对应的输出结果. 系统可根据用户的不同精度需求调度近似的NVALT核和精确的GPU核. 实验显示, 在精度损失控制在10%之内的情况下, NVALT平均能取得4.5倍的能耗节约和5.7倍的性能提升.

MAP<sup>[53]</sup>是一个基于存内计算的近似计算协处理器. 图37是MAP的系统结构, 配备有RCAM(基于忆阻器的内容寻址存储), 控制器, 指令缓存器, 和一些专用寄存器(例如键值寄存器, 掩码寄存器, 和标志寄存器). 指令所需要的数据全部存储在RCAM中. RCAM用两个忆阻器cell来存储一比特位的正负

图 37 MAP的体系结构<sup>[53]</sup>.

Figure 37 The architecture of MAP [53].

图 38 一个限制查询语句在SQL-PIM中实现的例子<sup>[54]</sup>.

Figure 38 An example of restriction operation in SQL-PIM [54].

部分。系统运行时，指令寄存器先把指令发送到控制器，控制器生成相应的掩码和键放到寄存器中。键寄存器用来存放被写或者被比较的键值，而掩码寄存器用来显示哪些比特位在被写或被比较时激活。当执行比较操作时，比较电路找出和给出的键以及掩码相吻合的行，然后做标记并存储到内存中。由于高度并行，查找一个512行的表只需大约2纳秒。实验显示，和传统的冯诺依曼架构相比，MAP能取得80倍的能耗节约和20倍的性能提升。

Sun等人提出了一个针对关系型数据库的存内计算系统结构(简称SQL-PIM)<sup>[54]</sup>。在数据库应用里，该结构的存储部分既支持从表中直接读行的操作，又可以支持直接读取列的操作，减少了传统计算机中片上缓存不命中带来的时间和能耗的开销。SQL-PIM实现了限制查询语句，规划查询语句，和聚合查询语句。限制查询语句是找出表中符合给出规定的一系列数据，这些规定可以是数值逻辑或者是非逻辑的条件语句，通常用WHERE语法来操作；规划查询语句是找出表里含有特定参数的条目或者特定的列，通常用SELECT语法进行操作；聚合查询语句是对一些给定条件的条目做加操作，通常用类似SUM语法来求一系列值的和。

图38展示了一个SQL-PIM实现的限制查询语句的实例：*select \* from Table where \$(a + 3 \times b) - (c + 2 \times d) > 10*。其中，{\$a, b, c, d\$}是表中四列数，存储在ReRAM阵列中。{\$a, b, c, d\$}前面的系数{1, 3, -1, 4}以电流方式加到比特线上。最后，结果电流通过包含存有10的比较电路，输出0/1。结果为1的，就是符合限制查询语句的条目。

图39是SQL-PIM的结构，分为用于存放表格条目的PIM部分和用于支持比较等操作的外围电路部

图 39 基于ReRAM的SQL存内查询结构<sup>[54]</sup>.

Figure 39 The structure of ReRAM-based PIM for SQL query<sup>[54]</sup>.

分。指令通过控制器后, 将相应的参数发送到这两个模块上, 然后两个模块通过共享的缓存进行中间结果的传输。最后, 结果写回到ReRAM中。除此之外, SQL-PIM还能在不改变结构化存储的前提下支持增, 删, 改, 查操作。针对大的数据库表, SQL-PIM提出了一个特殊关联分割的方法, 将大表存储在多个存内计算阵列中, 同时减少每个计算阵列之间的相互通信。实验显示, 与传统的内存数据库相比, SQL-PIM能节约4-6个数量级的能耗。

NVQuery<sup>[55]</sup>也是利用RCAM支持多种查询语句的存内计算加速器, 其系统结构和MAP<sup>[53]</sup>相像。NVQuery能够支持聚合, 预测, 按位操作, 以及精确的最近距离查找。为了支持最近距离查找, NVQuery提出了比特线驱动的策略, 将权重加到相应的比特位上。实验显示, 与传统的冯诺依曼系统结构相比, NVQuery带来49.3倍的性能提升和32.9倍的能耗节约。

### 3.2.4 存内计算小结

存内计算支持的算子较少, 设计灵活度不如近数据计算的逻辑层, 但是存内计算用于支持特定算子(目前主要是向量乘矩阵算子)的性能很高且能耗低。存内计算的核心思路是利用新型存储的物理结构和特性来支持应用程序中频繁出现的算子。同时, 存内计算相关研究还关注: 存内计算模块互联和数据流的设计; 数据映射策略; 外围电路的优化和复用; 与现有存储系统的融合。

## 3.3 内存计算架构与技术小结

内存计算面向的应用有如下特点: 1. 数据密集, 在普通冯诺依曼结构中有大量的内存访问; 2. 数据局部性差, 片上缓存命中率低; 3. 计算密集且计算形式简单, 易于并行。内存计算包含两大类: 近数据计算和存内计算。近数据计算通常使用3D堆叠的内存结构, 在内存中集成计算逻辑芯片, 并用高速通道将计算单元和内存单元相连接, 存算依然分离。存内计算直接使用内存单元做计算, 利用电流, 电压, 电阻等物理量之间的关系表示某类计算。近数据计算相比于存内计算灵活度更高, 能支持较多算子; 存内计算虽然能支持的算子较为单一, 目前能支持向量乘矩阵算子, 按位逻辑操作, 或者搜索操作, 但是其计算速度快且能耗低。设计内存计算架构时, 设计者需要根据应用场景的需求(应用中算子的类型, 延迟和能耗的限制等)进行选择, 必要时也可结合使用近数据计算和存内计算两种技术, 充分利用两者优点。



图 40 内存计算设计中各层级示意图.

Figure 40 The description of various levels in the PIM design.

## 4 内存计算面临的挑战

内存计算设计时需要考虑计算机中多个层级, 如图40所示. 内存计算本身存在一些问题, 与现有的系统相结合也会带来新的问题, 每个具体问题都涉及图40中的某些层级. 解决这些问题是在内存计算可以在计算机系统中发挥作用, 提升系统性能和降低能耗的关键. 本章将分析并总结近数据计算和内存计算本身及其与现有系统集成会带来的挑战.

### 4.1 近数据计算面临的挑战

#### 4.1.1 高能耗问题

在近数据计算系统中, 对程序模块的分割不当或者过度使用近数据计算来处理数据反而会增加系统能耗. 该问题的产生通常与编译器的设计和内存控制器的设计相关. Hyojong Kim等人分析了集成有传统处理器和NDC cube的系统的能耗特征<sup>[27]</sup>, 发现LLC MPKI (Misses Per Kilo Instructions) 是一个决定应用是否能在近数据系统中高效执行的关键特征: 通常高MPKI表示可从近数据计算系统中获得高的能耗节约. 因此, 他们认为应将高MPKI的计算放到DNC cube中做, 把其余部分留在传统系统中做.

#### 4.1.2 硬件配置问题

因为近数据计算的NDC cube中逻辑芯片通常使用FPGA, CGRA, 和ASIC处理器等非通用处理器, 所以硬件配置与应用需求的匹配成为一个挑战. 该问题通常与电路设计和器件选择强相关. Gao等人<sup>[31]</sup>提出了一种异构且可重构的逻辑阵列, 同时利用FGPA和CGRA. 通过分析适合近数据计算处理的大量应用, 结合两者长处, 设计FPGA和CGRA以及逻辑层的多路选择器的个数, 以满足近数据计算应用的高性能低能耗的需求. 针对特定应用场景或者特定应用, 如何配置近数据计算中的逻辑芯片部件仍有待探索和研究.

#### 4.1.3 计算资源利用率问题

近数据计算的计算资源基本均匀分布在整个内存中, 直接使用传统的数据存储方式会导致计算资源分配不均匀, 计算核与其所需的数据相距远等问题, 进而导致内存计算的计算资源利用率低. 该问题

的产生通常与编译器设计和内存控制器设计相关。内存中数据的存储需要考虑到计算资源的利用率，尽量使所有计算资源能够时分复用，管道串行，要避免因计算资源集中在某一块使用而导致长时间的数据等待。

对于特定的存内计算架构，通常采取设计合适的数据映射策略来提高计算资源的利用率的思路。而数据映射策略取决于不同的内存计算系统架构和运行在其上的应用<sup>[25]</sup>。因此，在设计上层系统时，需要同时考虑两者来设计合适的数据和计算核的排布。

#### 4.1.4 缺少灵活的系统支持

运行在近数据计算系统中的应用需要在中央处理器和近数据计算端来回切换，因此，相应的系统应支持这样的灵活切换。目前的近数据计算都是针对特定的硬件结构或特定应用提供的上层软件支持<sup>[25]</sup>，灵活性不够。

近数据计算运用到系统中时，还需要考虑近数据计算中的多任务调度以及近数据计算任务和传统访存任务的调度问题。首先，由于近数据计算的计算资源均匀分布在内存中，一个好的多任务调度策略能使计算资源利用率高，同时减少系统中的冲突和中断。其次，在不处理内存计算任务时，近数据计算模块也可以用做普通存储模块，因此，需要一个内存计算任务和传统任务的调度策略，来优化内存计算和传统存储混合的系统结构性能。

另外，近数据计算中有多个计算模块，各计算模块之间可能会共享数据，包括并发地对数据进行增删改查的操作。因此，近数据计算需要一个解决冲突问题的方案，以保证其数据的一致性。

以上问题都属于近数据计算的系统问题，通常与系统级的设计强相关，也与编译器和内存控制器相关。

## 4.2 存内计算面临的挑战

### 4.2.1 硬件寿命问题

NVM的寿命有限，例如PCM的SLC(Single Level Cell，一个cell只能存0或1，即一个比特位)的寿命只有 $10^7 - 10^8$ ，ReRAM的SLC的寿命只有 $10^7 - 10^9$ <sup>[56~58]</sup>。MLC(Multi-Level Cell，一个cell能存多个比特位)的寿命问题更加严重，通常只有 $10^4 - 10^5$ 次写，甚至更低。对于传统NVM存储，磨损均衡是延长寿命的有效方法。磨损均衡算法通过每隔一段时间改变逻辑地址到物理地址的映射，使得写操作在整个NVM中均衡。然而这种方法在基于NVM的存内计算中并不适用，因为存储于NVM中的数据还直接用做计算。如果直接使用传统的磨损均衡算法交换数据所存储的位置，计算结果将是错误。该问题由器件相关问题引起，除了选择和配置合适的器件外，还可以通过上层设计来缓解，例如应用中算法的设计和内存控制器的设计等。

ISAAC<sup>[39]</sup>通过在片上加eDRAM来减少对NVM的写。IBM的研究人员<sup>[46]</sup>通过用CMOS+PCM做一个cell的方式，使寿命的CMOS单元来承受频繁的更新操作。Long-live-time<sup>[59]</sup>提出了一种针对神经网络训练的CIM硬件寿命延长方法，通过改变神经网络权值更新方法(每次选误差最大的行更新而不是全部更新)，再结合行粒度的磨损均衡算法，来延长基于NVM的存内计算硬件的寿命。我们正在进行的工作将神经网络和NVM的特点综合考虑，来延长基于NVM的存内计算硬件寿命。针对其余应用的NVM存内计算硬件寿命的延长方法仍待探究。

#### 4.2.2 可靠性问题

NVM写出错问题以及外围电路对输出模拟域电流转成电信号产生误差的问题使基于NVM的存内计算可靠性不佳。NVM的cell会因为写电流过高或寿命已到而产生stuck-at fault(阻值停留在某个固定值不可改变)。传统存储中,可以将发生错误的cell值存到别的物理位置,然后改变原逻辑地址到物理地址的映射来容这种错误。而这种方式在基于NVM的存内计算中并不适用,存储在存内计算的NVM中的数据还要直接用做计算,数据之间的相对物理位置不能被改变,否则计算结果会出错。与寿命问题相似,可靠性问题也是由器件相关问题引起,除了选择合适的器件外,还可以通过上层设计来缓解。

Xia等人<sup>[60]</sup>利用神经网络中权值的稀疏性(一些位置的权值为0)来容存内计算NVM上stuck-at-0的硬件错误。Xia等人<sup>[61]</sup>还通过利用存正负值的一对存内计算NVM阵列来互相容错。Liu等人<sup>[62]</sup>提出分析识别出神经网络中重要的部分,把此部分放到可靠性高的存内计算硬件上去做。我们正在进行的工作将采取更加灵活的方式,综合利用神经网络和NVM本身的特点来容更多类型的stuck-at错误。由于外围电路的误差而造成的可靠性降低问题仍待解决。

#### 4.2.3 数据精度问题

每个NVM的MLC能存的比特位有限(目前最高可存7比特位)<sup>[41]</sup>,这样的数据精度在神经网络中通常不够使用。因此,很多基于NVM的存内计算用多个MLC或者SLC来存一个数据<sup>[9,39]</sup>,但这样会产生较大的支持中间数据计算的外围电路开销。不仅如此,基于NVM的存内计算目前不支持浮点数计算,所有计算数据都先要转换成定点数后再做计算。这样会带来结果精确度损失甚至结果不正确的问题。而一些应用,例如大规模的神经网络训练,需要高精度的数据来保证网络的高准确度。因此,可以通过软硬件层协同设计,来支持高精度浮点数的运算。

#### 4.2.4 高能耗问题

由于NVM的写能耗比DRAM高,而基于NVM的存内计算有大量的原地更新,在没有缓存的帮助下会产生大量的NVM写操作,这使得基于NVM的存内计算系统能耗过高。同时,用于支持电模转换(ADC, DAC)的外围电路能耗过大,也会使得存内计算系统能耗高。该问题与器件层强相关,可以选择写能耗较低的器件,还可以通过上层的设计减少器件的写能耗开销。

Mao等人<sup>[43]</sup>探索神经网络中数据的结构化稀疏性,在算法和编译器层面,通过重构数据块的方式去掉与零操作相关的数据,从而减少NVM的写能耗。在应用算法和电路层面,Ni等人<sup>[67]</sup>通过二值化的ReRAM存内计算阵列来减少电模信号相互转换的能耗。Wang等人<sup>[66]</sup>使用脉冲神经网络(Spiking Neural Network, SNN),在应用算法和电路层面,减少电模信号的相互转换能耗,还改变了SNN训练的算法来减少取样的能耗。Narayanan等人<sup>[65]</sup>在使用SNN降低能耗的同时,在内存控制器层面,探索神经网络中计算的并行性来提高针对SNN的存内计算的吞吐。Ankit等人<sup>[64]</sup>在电路设计层面,利用低能耗的SNN实现了一个可重构的连接,为SNN中计算的数据流服务,从而降低基于NVM的存内计算的能耗。Xia等人<sup>[63]</sup>通过分析数据的分布,在应用算法层面,提出新的数据量化方法,将中间数据转化成1比特位的数据从而取消DAC,另外选择必要的输入信号来减少输出的个数,来减少ADC的能耗。

#### 4.2.5 外围电路占用面积过大问题

基于NVM的存内计算中,外围电路的ADC和DAC不仅能耗占比大,还占用了很大的片上面积<sup>[39,43]</sup>。此外,用于中间数据处理的外围电路也占了存内计算的较大一部分面积。尽管NVM有很高的存储密度,当用作存内计算的计算核时,还需要大面积的外围电路支撑,这使得整个结构占用面积大。该问题主

要与电路的设计相关.

Mao等人<sup>[68]</sup>通过3D堆叠的方式, 将外围电路放到最下层做成一个外围电路资源共享池, 由堆叠在其上的NVM存内计算阵列共享. 基于此, 通过时分复用的方式, 极大地减少了外围电路的使用, 从而减小了基于NVM的存内计算架构的面积.

#### 4.2.6 硬件配置问题

存内计算中存储单元只用于支持某些特定的算子, 其余的计算需要外围电路的支撑. 这给外围电路的设计带来了很大的压力: 如果能支持的运算多, 就会带来外围电路面积过大, 利用率不高的问题; 如果能支持的运算少, 就会使得该存内计算芯片适用范围小. 如针对神经网络的存内计算架构PRIME, 外围电路只支持Sigmoid激活函数<sup>[41]</sup>, 需要其他激活函数的神经网络在该架构中无法执行. 这很大程度限制了存内计算的使用. 该问题也与电路的设计强相关.

Ji等人<sup>[69]</sup>提出了一种可重构的基于ReRAM的存内计算阵列FSPA. 他们提供了脉冲神经阵列和可重构的逻辑阵列, 使得神经网络计算核到存内计算硬件的映射变得灵活, 并以可重构的连接来灵活支持计算时数据流. 用于其他应用的存内计算硬件配置问题仍待研究.

#### 4.2.7 计算资源利用率问题

和近数据计算一样, 存内计算的计算资源也分布在整个内存中. 因此数据存储需要考虑计算资源的利用率, 在编译器层面和内存控制器层面, 针对具体的存内计算系统架构和运行在其上的应用, 设计对应的数据映射策略<sup>[43]</sup>.

#### 4.2.8 缺少灵活的系统支持

存内计算模块作为有一定计算能力的存储模块, 在集成到现有的混合存储系统时, 需要考虑不同的集成方式. 例如基于非易失性存储的内存计算模块可以和传统的DRAM并列接到总线上, 也可以和纯NVM存储以及DRAM存储并列连接到总线上, 而后通过内存控制器来管理. 除与传统混合存储相结合外, 内存计算模块还可作为CPU的协处理器. 对于这些架构, 存内计算模块亟需一套相对应的软硬件接口支持, 以保证其高效且灵活的应用<sup>[41, 43]</sup>.

除此之外, 和近数据计算一样, 存内计算运用到系统中时, 也需要考虑多任务调度以及存内计算任务和传统任务的调度问题, 同时要保证存内计算中数据的一致性. 该挑战主要涉及系统级的设计和内存控制器的设计.

#### 4.2.9 缺少与现有存储系统适配的能力

内存计算模块不仅用做存储, 还用做计算<sup>[41]</sup>. 存储于内存计算中的数据需要以某种特定的排布来配合其中配置好的数据流, 从而达到高性能计算的目的<sup>[43]</sup>. 传统面向内存的虚拟地址空间管理会破坏内存计算中的特定数据排布, 并不适用于内存计算模块. 因此, 内存计算亟需相应的虚拟地址空间的支持, 同时还需要和传统存储相配合的访存模式, 以保证上层应用使用内存计算模块的安全性. 该挑战主要与系统级的设计和内存控制器的设计相关.

### 5 内存计算所提供的机遇

内存计算技术在处理存储密集型, 数据局部性差, 且计算形式较为单一, 易于并行的应用上优势明显. 目前流行的三类应用: 机器学习, 图计算, 和基因工程, 在传统系统中因总线带宽有限和片上片

下数据移动太频繁而性能低且能耗高。内存计算技术恰好弥补了传统计算机体系结构在这三种流行应用上的缺陷。本章主要介绍内存计算给这三种应用带来的机遇。

### 5.1 机器学习

机器学习的核心是神经网络<sup>[70]</sup>。神经网络类型很多，包括：卷积神经网络<sup>[71]</sup>，主要用于图像处理；循环神经网络<sup>[72]</sup>，主要用于自然语言处理；深度神经网络是卷积网络或者循环神经网络的强化版<sup>[73]</sup>，有更多的网络层；生成对抗网络<sup>[74]</sup>是无监督学习中的最受关注的网络类型；还有深度强化学习<sup>[75]</sup>，是一种在线学习方式，基于环境的改变而调整自身的行为。这些网络各具特点，大的网络会对存储造成很大的压力，连接多的网络会给计算和传输造成很大的压力。他们的共同点在于都有很多向量乘矩阵操作，占到所有计算的90%以上<sup>[76]</sup>。因此基于NVM的存内计算适合用于支持神经网络计算。

### 5.2 图计算

随着互联网数据爆炸式的增长以及人们对数据单元之间关系的关注，图计算在新型应用中占有较大地位<sup>[77~81]</sup>。图计算的应用包括：网络安全<sup>[82]</sup>，社交媒体<sup>[83]</sup>，网页评分和引用排序<sup>[84]</sup>，自然语言处理<sup>[85]</sup>，系统生物学<sup>[86]</sup>，推荐系统<sup>[87]</sup>等等。由于图计算应用的数据局部性差且数据量很大，目前用来处理图计算的系统面临性能不佳且能耗过高的难题。

图计算中大量操作都可以转换成矩阵乘的形式，因此可以用基于NVM的存内计算来处理。综合考虑图数据的预处理，稀疏矩阵的分隔和映射，以及硬件控制和数据流设计，能够高效且低能耗地支持图计算应用。图计算也可以用基于HMC的NDC来处理，通过分析现在图计算中哪些操作适合放到HMC中处理，然后有针对性地设计逻辑层和上层的指令集，能取得较高的性能提升和能耗节约。所以内存计算给图计算的发展提供了很好的机遇。

### 5.3 基因工程

近年来，随着基因工程的发展，生物学信息数据呈指数级增长<sup>[88,89]</sup>。这种生物数据的暴增给现在诸如基因序列匹配的应用带来了很大的挑战<sup>[90,91]</sup>。目前有一些针对基因序列查找的软件方面的加速方法<sup>[92,93]</sup>，也有利用基因处理的高并行性的硬件加速方法<sup>[94,95]</sup>。但是由于生物数据的量太过庞大，传统计算机系统片上片下数移动量太大，系统能耗是一个很大的问题<sup>[94,95]</sup>。基于RCAM的存内计算能利用CAM的极速查找能力，提供很高的硬件并行度，同时在存内处理能降低数据移动的能耗，适用于大规模生物数据处理。因此，存内计算给基因工程的发展提供了机遇。

## 6 总结

在数据爆炸时代，内存计算技术为解决传统冯诺依曼架构中总线拥堵问题以及片上片下数据传输能耗过高问题提供了解决方案。内存计算技术得益于新型3D堆叠技术和非易失存储技术的发展。内存计算主要有两种形式：近数据计算和存内计算。近数据计算技术通常依赖于3D堆叠的内存结构，存算依然分离，但计算部分到存储部分带宽较大，计算部分灵活性较高。存内计算技术通常依赖于新型的非易失存储，直接利用存储来做计算，存算紧耦合，能够为特定算子（例如向量乘矩阵）提供极高性能的计算，但缺乏一定的灵活性。内存计算技术总体还处于发展初期，有一些硬件和软件支持上的问题。但是内存计算的潜力很大，能够给目前流行的机器学习应用，图计算应用，和基因工程提供高效低能耗的系统结构支持。

## 参考文献

---

- 1 Mutlu O, Ghose S, Gómez-Luna J, et al. Processing data where it makes sense: Enabling in-memory computation. *Microprocessors and Microsystems*, 2019, 67: 28-41
- 2 Mutlu O, Ghose S, Gómez-Luna J, et al. Enabling practical processing in and near memory for data-intensive computing. In Proceedings of the 56th Annual Design Automation Conference 2019. Las Vegas: IEEE, 2019. 1-4
- 3 Singh G, Gómez-Luna J, Mariani G, et al. NAPEL: Near-memory computing application performance prediction via ensemble learning. In 2019 56th ACM/IEEE Design Automation Conference (DAC). Las Vegas: IEEE, 2019. 1-6
- 4 Boroumand A, Ghose S, Patel M, et al. CoNDA: efficient cache coherence support for near-data accelerators. In Proceedings of the 46th International Symposium on Computer Architecture. Phoenix Arizona: IEEE, 2019. 629-642
- 5 Ghose S, Boroumand A, Kim J S, et al. Processing-in-memory: A workload-driven perspective. *IBM Journal of Research and Development*, 2019, 63(6): 1-3
- 6 Springer R, Lowenthal K D, Rountree B, et al. Minimizing execution time in MPI programs on an energy-constrained, power-scalable cluster. In Proceedings of the eleventh ACM SIGPLAN symposium on Principles and practice of parallel programming. New York: ACM, 2006. 230-238
- 7 Xiao P, Han N. A novel power-conscious scheduling algorithm for data-intensive precedence-constrained applications in cloud environments. *International Journal of High Performance Computing and Networking*, 2014, 7(4): 299-306
- 8 Patki T, Lowenthal K D, Rountree B, et al. Exploring hardware overprovisioning in power-constrained, high performance computing. In Proceedings of the 27th international ACM conference on International conference on supercomputing. Eugene Oregon: ACM, 2013. 173-182
- 9 Song L, Qian X, Li H, et al. Pipelayer: A pipelined reram-based accelerator for deep learning. In 2017 IEEE International Symposium on High Performance Computer Architecture (HPCA). Austin: IEEE, 2017. 541-552
- 10 Farmahini-Farahani A, Ahn J H, Morrow K, et al. NDA: Near-DRAM acceleration architecture leveraging commodity DRAM devices and standard memory modules. In 2015 IEEE 21st International Symposium on High Performance Computer Architecture (HPCA). Burlingame: IEEE, 2015. 283-295
- 11 Gokhale M, Holmes B, Iobst K. Processing in memory: The Terasys massively parallel PIM array. *Computer*, 1995, 28(4): 23-31
- 12 Li C, Qouneh A, Li T. iSwitch: coordinating and optimizing renewable energy powered server clusters. *ACM SIGARCH Computer Architecture News*, 2012, 40(3): 512-523
- 13 Li C, Zhou R, Li T. Enabling distributed generation powered sustainable high-performance data center. In 2013 IEEE 19th International Symposium on High Performance Computer Architecture (HPCA). Shenzhen: IEEE, 2013. 35-46
- 14 Li C, Zhang W, Cho C, et al. SolarCore: Solar energy driven multi-core architecture power management. In 2011 IEEE 17th International Symposium on High Performance Computer Architecture. San Antonio: IEEE, 2011. 205-216
- 15 LeCun Y, Bengio Y, Hinton G. Deep learning. *nature*, 2015, 521(7553): 436-444
- 16 Goodfellow I, Bengio Y, Courville A. Deep learning. MIT press, 2016.
- 17 Soomro T R. Google Translation service issues: Religious text perspective. *Journal of Global Research in Computer Science*, 2013, 4(8): 40-43
- 18 Vazquez-Calvo B, Zhang L T, Pascual M, et al. Fan translation of games, anime, and fanfiction. 2019, 49-71
- 19 Jing P, Deng L, Song S, et al. Towards artificial general intelligence with hybrid Tianjic chip architecture. *Nature*, 2019, 572(7767): 106-111.
- 20 Pugsley S H, Jestes J, Balasubramonian R, et al. Comparing implementations of near-data computing with in-memory mapreduce workloads. *IEEE Micro*, 2014, 34(4): 44-52
- 21 Hadidi R, Asgari B, Mudassar B A, et al. Demystifying the characteristics of 3D-stacked memories: A case study for Hybrid Memory Cube. In 2017 IEEE International Symposium on Workload Characterization (IISWC). Seattle: IEEE, 2017. 66-75
- 22 Zhang D, Jayasena N, Lyashevsky A, et al. TOP-PIM: throughput-oriented programmable processing in memory. In Proceedings of the 23rd international symposium on High-performance parallel and distributed computing. Vancouver BC : ACM, 2014. 85-98
- 23 Farmahini-Farahani A, Ahn J H, Morrow K, et al. DRAMA: An architecture for accelerated processing near memory. *IEEE Computer Architecture Letters*, 2014, 14(1): 26-29
- 24 Wang Y, Han Y, Zhang L, et al. ProPRAM: exploiting the transparent logic resources in non-volatile memory for near

- data computing. In Proceedings of the 52nd Annual Design Automation Conference. San Francisco: ACM, 2015. 47
- 25 Ahn J, Yoo S, Mutlu O, et al. PIM-enabled instructions: a low-overhead, locality-aware processing-in-memory architecture. In 2015 ACM/IEEE 42nd Annual International Symposium on Computer Architecture (ISCA). Portland: IEEE, 2015. 336-348
- 26 Lee J H, Sim J, Kim H. SSync: Processing near memory for machine learning workloads with bounded staleness consistency models. In 2015 International Conference on Parallel Architecture and Compilation (PACT), San Francisco: IEEE, 2015. 241-252
- 27 Kim H, Kim H, Yalamanchili S, et al. Understanding energy aspects of processing-near-memory for HPC workloads. In Proceedings of the 2015 International Symposium on Memory Systems. Washington DC: ACM, 2015. 276-282
- 28 Ahn J, Hong S, Yoo S, et al. A scalable processing-in-memory accelerator for parallel graph processing. ACM SIGARCH Computer Architecture News, 2016, 43(3): 105-117
- 29 Nair R, Antao S F, Bertolli C, et al. Active memory cube: A processing-in-memory architecture for exascale systems. IBM Journal of Research and Development, 2015, 59(2/3): 17-1
- 30 Vermij E, Hagleitner C, Fiorin L, et al. An architecture for near-data processing systems. In Proceedings of the ACM International Conference on Computing Frontiers. Como: ACM, 2016. 357-360
- 31 Gao M, Kozyrakis C. HRL: Efficient and flexible reconfigurable logic for near-data processing. In 2016 IEEE International Symposium on High Performance Computer Architecture (HPCA). Barcelona: IEEE, 2016. 126-137
- 32 Hsieh K, Ebrahimi E, Kim G, et al. Transparent offloading and mapping (TOM): Enabling programmer-transparent near-data processing in GPU systems. In ACM SIGARCH Computer Architecture News, 2016, 44(3): 204-216
- 33 Kim D, Kung J, Chai S, et al. Neurocube: A programmable digital neuromorphic architecture with high-density 3D memory. In 2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture (ISCA), Seoul: IEEE, 2016. 380-392
- 34 Liu Z, Calciu I, Herlihy M, et al. Concurrent data structures for near-memory computing. In Proceedings of the 29th ACM Symposium on Parallelism in Algorithms and Architectures. Washington DC: ACM, 2017. 235-245
- 35 Nai L, Hadidi R, Sim J, et al. Graphpim: Enabling instruction-level pim offloading in graph computing frameworks. In 2017 IEEE International symposium on high performance computer architecture (HPCA). Austin: IEEE, 2017. 457-468
- 36 Yazdanbakhsh A, Song C, Sacks J, et al. In-DRAM near-data approximate acceleration for GPUs. In Proceedings of the 27th International Conference on Parallel Architectures and Compilation Techniques. Limassol Cyprus: ACM, 2018. 34
- 37 Jang J, Heo J, Lee Y, et al. Charon: Specialized Near-Memory Processing Architecture for Clearing Dead Objects in Memory. In Proceedings of the 52nd Annual IEEE/ACM International Symposium on Microarchitecture. Columbus: ACM, 2019. 726-739
- 38 Aga S, Jayasena N, Ignatowski M. Co-ML: a case for collaborative ML acceleration using near-data processing. In Proceedings of the International Symposium on Memory Systems. Alexandria: ACM, 2019. 506-517
- 39 Shafiee A, Nag A, Muralimanohar N, et al. ISAAC: A convolutional neural network accelerator with in-situ analog arithmetic in crossbars. ACM SIGARCH Computer Architecture News, 2016, 44(3): 14-26
- 40 Hu M, Strachan J P, Li Z, et al. Dot-product engine for neuromorphic computing: Programming 1T1M crossbar to accelerate matrix-vector multiplication. In Proceedings of the 53rd annual design automation conference. Austin: ACM, 2016. 19
- 41 Chi P, Li S, Xu C, et al. Prime: A novel processing-in-memory architecture for neural network computation in reram-based main memory. In ACM SIGARCH Computer Architecture News, 2016, 44(3): 27-39
- 42 Cheng M, Xia L, Zhu Z, et al. Time: A training-in-memory architecture for memristor-based deep neural networks. In Proceedings of the 54th Annual Design Automation Conference. Austin: ACM, 2017. 26.
- 43 Mao H, Song M, Li T, et al. LerGAN: A Zero-Free, Low Data Movement and PIM-Based GAN Architecture. In 2018 51st Annual IEEE/ACM International Symposium on Microarchitecture (MICRO). Fukuoka: IEEE, 2018. 669-681
- 44 Feinberg B, Vengalam U K R, Whitehair N, et al. Enabling scientific computing on memristive accelerators. In 2018 ACM/IEEE 45th Annual International Symposium on Computer Architecture (ISCA). Los Angeles: IEEE, 2018. 367-382
- 45 Song L, Zhuo Y, Qian X, et al. GraphR: Accelerating graph processing using ReRAM. In 2018 IEEE International

- Symposium on High Performance Computer Architecture (HPCA). Vienna: IEEE, 2018. 531-543
- 46 Ambrogio S, Narayanan P, Tsai H, et al. Equivalent-accuracy accelerated neural-network training using analogue memory. *Nature*, 2018, 558(7708): 60
- 47 Xie L, Nguyen H A D, Yu J, et al. Scouting logic: A novel memristor-based logic design for resistive computing. In 2017 IEEE Computer Society Annual Symposium on VLSI (ISVLSI). Bochum: IEEE, 2017. 176-181
- 48 Li S, Xu C, Zou Q, et al. Pinatubo: A processing-in-memory architecture for bulk bitwise operations in emerging non-volatile memories. In Proceedings of the 53rd Annual Design Automation Conference. Austin: ACM, 2016. 173
- 49 Imani M, Kim Y, Rosing T. Mpim: Multi-purpose in-memory processing using configurable resistive memory. In 2017 22nd Asia and South Pacific Design Automation Conference (ASP-DAC). Makuhari Messe: IEEE, 2017. 757-763
- 50 Lebdeh M A, Abunahla H, Mohammad B, et al. An efficient heterogeneous memristive xnor for in-memory computing. *IEEE Transactions on Circuits and Systems I: Regular Papers*, 2017, 64(9): 2427-2437
- 51 Sim J, Kim M, Kim Y, et al. MAPIM: Mat Parallelism for High Performance Processing in Non-volatile Memory Architecture. In 20th International Symposium on Quality Electronic Design (ISQED). Santa Clara: IEEE, 2019. 145-150.
- 52 Imani M, Peroni D, Rosing T. Nvalt: Nonvolatile approximate lookup table for GPU acceleration. *IEEE Embedded Systems Letters*, 2017, 10(1): 14-17
- 53 Yantir H E, Eltawil A M, Kerdahi F J. Approximate memristive in-memory computing. *ACM Transactions on Embedded Computing Systems (TECS)*, 2017, 16(5s): 129
- 54 Sun Y, Wang Y, Yang H. Energy-efficient SQL query exploiting RRAM-based process-in-memory structure. In 2017 IEEE 6th Non-Volatile Memory Systems and Applications Symposium (NVMSA). Hsinchu: IEEE, 2017. 1-6
- 55 Imani M, Gupta S, Arredondo A, et al. Efficient query processing in crossbar memory. In 2017 IEEE/ACM International Symposium on Low Power Electronics and Design (ISLPED). Taipei: IEEE, 2017. 1-6
- 56 Mao H, Zhang X, Sun G, et al. Protect non-volatile memory from wear-out attack based on timing difference of row buffer hit/miss. In Design, Automation & Test in Europe Conference & Exhibition (DATE). Lausanne: IEEE, 2017. 1623-1626
- 57 Qureshi M K, Karidis J, Franceschini M, et al. Enhancing lifetime and security of PCM-based main memory with start-gap wear leveling. In 2009 42nd Annual IEEE/ACM international symposium on microarchitecture (MICRO). New York: IEEE, 2009. 14-23
- 58 Xu C, Niu D, Muralimanohar N, et al. Understanding the trade-offs in multi-level cell ReRAM memory design. In 2013 50th ACM/EDAC/IEEE Design Automation Conference (DAC). Ausin: IEEE, 2013. 1-6
- 59 Cai Y, Lin Y, Xia L, et al. Long live time: improving lifetime for training-in-memory engines by structured gradient sparsification. In 2018 55th ACM/ESDA/IEEE Design Automation Conference (DAC). San Francisco: IEEE, 2018. 1-6
- 60 Xia L, Huangfu W, Tang T, et al. Stuck-at fault tolerance in RRAM computing systems. *IEEE Journal on Emerging and Selected Topics in Circuits and Systems*, 2017, 8(1): 102-115
- 61 Xia L, Liu M, Ning X, et al. Fault-tolerant training with on-line fault detection for RRAM-based neural computing systems. In Proceedings of the 54th Annual Design Automation Conference 2017. Austin: ACM, 2017. 1-6
- 62 Liu C, Hu M, Strachan J P, et al. Rescuing memristor-based neuromorphic design with high defects. In 2017 54th ACM/EDAC/IEEE Design Automation Conference (DAC). Austin: IEEE, 2017. 1-6
- 63 Xia L, Tang T, Huangfu W, et al. Switched by input: Power efficient structure for RRAM-based convolutional neural network. In Proceedings of the 53rd Annual Design Automation Conference. Austin: ACM, 2016. 1-6
- 64 Ankit A, Sengupta A, Panda P, et al. Respac: A reconfigurable and energy-efficient architecture with memristive crossbars for deep spiking neural networks. In Proceedings of the 54th Annual Design Automation Conference 2017. Austin: ACM, 2017. 1-6
- 65 Narayanan S, Shafee A, Balasubramonian R. INXS: Bridging the throughput and energy gap for spiking neural networks. In 2017 International Joint Conference on Neural Networks (IJCNN), Anchorage: IEEE, 2017. 2451-2459
- 66 Wang Y, Tang T, Xia L, et al. Energy efficient RRAM spiking neural network for real time classification. In Proceedings of the 25th edition on Great Lakes Symposium on VLSI. Pittsburgh: IEEE, 2015. 189-194
- 67 Ni L, Wang Y, Yu H, et al. An energy-efficient matrix multiplication accelerator by distributed in-memory computing on binary RRAM crossbar. In 2016 21st Asia and South Pacific Design Automation Conference (ASP-DAC). Macao:

- IEEE, 2016. 280-285
- 68 Mao H, Shu J. 3D Memristor Array Based Neural Network Processing in Memory Architecture. *Journal of Computer Research and Development*, 2019, 56(6): 1149-1160
- 69 Ji Y, Zhang Y, Xie X, et al. Fpsa: A full system stack solution for reconfigurable reram-based nn accelerator architecture. In Proceedings of the Twenty-Fourth International Conference on Architectural Support for Programming Languages and Operating Systems. Providence, 2019. 733-747
- 70 Witten I H., Frank E. Data mining: practical machine learning tools and techniques with Java implementations. *Acm Sigmod Record*, 2002, 31(1): 76-77
- 71 Sharif Razavian A, Azizpour H, Sullivan J, et al. CNN features off-the-shelf: an astounding baseline for recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops. Columbus: IEEE, 2014. 806-813
- 72 Manning C D., Surdeanu M, Bauer J, et al. The Stanford CoreNLP natural language processing toolkit. In Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations. Baltimore, 2014. 55-66
- 73 Schmidhuber J. Deep learning in neural networks: An overview. *Neural networks*, 2015, 61: 85-117
- 74 Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets. In Advances in neural information processing systems, 2014, 2672-2680
- 75 Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A survey. *Journal of artificial intelligence research*, 1996, 4: 237-285
- 76 Chen Y, Krishna T, Emer J S, et al. Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks. *IEEE journal of solid-state circuits*, 2016, 52(1): 127-138
- 77 Low Y, Gonzalez J E, et al. Graphlab: A new framework for parallel machine learning. *arXiv preprint arXiv: 1408.2041*, 2014
- 78 Low Y, Gonzalez J, Kyrola A, et al. Distributed graphlab: A framework for machine learning in the cloud. *arXiv preprint arXiv:1204.6078*, 2012.
- 79 LeBeane M, Song S, Panda R, et al. Data partitioning strategies for graph workloads on heterogeneous clusters. In SC'15: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. Austin: IEEE, 2015. 1-12
- 80 Gonzalez J E, Low Y, Gu H, et al. Powergraph: Distributed graph-parallel computation on natural graphs. In Presented as part of the 10th USENIX Symposium on Operating Systems Design and Implementation (OSDI 12). Hollywood, 2012. 17-30
- 81 Chen R, Shi J, Chen Y, et al. Powerlyra: Differentiated graph computation and partitioning on skewed graphs. *ACM Transactions on Parallel Computing (TOPC)*, 2019, 5(3): 1-39
- 82 Vigna G, Kemmerer R A. NetSTAT: A network-based intrusion detection approach. In Proceedings 14th Annual Computer Security Applications Conference (Cat. No. 98EX217). Scottsdale: IEEE, 1998. 25-34
- 83 Agichtein E, Castillo C, Donato D, et al. Finding high-quality content in social media. In Proceedings of the 2008 international conference on web search and data mining. Palo Alto: ACM, 2008. 183-194
- 84 Page L, Brin S, Motwani R, et al. The pagerank citation ranking: Bringing order to the web. Stanford InfoLab, 1999.
- 85 Biemann C. Chinese whispers: an efficient graph clustering algorithm and its application to natural language processing problems. In Proceedings of the first workshop on graph based methods for natural language processing. Association for Computational Linguistics, 2006. 73-80
- 86 Chesler E J, Lu L, Shou S, et al. Complex trait analysis of gene expression uncovers polygenic and pleiotropic networks that modulate nervous system function. *Nature genetics*, 2005, 37(3): 233-242
- 87 Linden G, Smith B, York J. Amazon.com recommendations: Item-to-item collaborative filtering. *IEEE Internet computing*, 2003, 7(1): 76-80
- 88 Shendure J, Ji H. Next-generation DNA sequencing. *Nature biotechnology*, 2008, 26(10): 1135
- 89 Shendure J, Balasubramanian S, Church G M, et al. DNA sequencing at 40: past, present and future. *Nature*, 2017, 550(7676): 345-353
- 90 Altschul S F, Madden T L, Schaffer A A, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. *Nucleic acids research*, 1997, 25(17): 3389-3402
- 91 Jha M, Malhotra R, Acharya R. A generalized lattice based probabilistic approach for metagenomic clustering.

- IEEE/ACM transactions on computational biology and bioinformatics, 2016, 14(4): 749-761  
92 Altschul S F, Gish W, Miller W, et al. Basic local alignment search tool. Journal of molecular biology, 1990, 215(3): 403-410  
93 Ning Z, Cox A J, Mullikin J C. SSAHA: a fast search method for large DNA databases." Genome research, 2001, 11(10): 1725-1729  
94 Lancaster J, Buhler J, Chamberlain R D. Acceleration of ungapped extension in Mercury BLAST. Microprocessors and Microsystems, 2009, 33(4): 281-289  
95 Ling C, Benkrid K. Design and implementation of a CUDA-compatible GPU-based core for gapped BLAST algorithm. Procedia Computer Science, 2010, 1(1): 495-504

## The Development of Processing In Memory

Haiyu MAO<sup>1</sup>, Jiwu SHU<sup>1\*</sup>, Fei LI<sup>1</sup> & Zhe LIU<sup>1</sup>

1. Tsinghua, Beijing 100084, China

\* Corresponding author. E-mail: shujw@tsinghua.edu.cn

**Abstract** With the explosive increase of processed data, data transmission through the bus between CPU and main memory becomes a bottleneck in traditional Von Neumann architecture. What's worse, popular data-intensive workloads, such as neural network and graph computing applications, have poor data locality, which increases cache miss greatly. Processing such popular data-intensive workloads hinders the entire system since the great deal of data transmission causes long latency and high energy consumption. Processing in memory greatly reduces this data transmission by equipping the main memory with computation ability, alleviating the problem of poor performance and high energy consumption caused by a large amount of data and poor data locality. Processing in memory has two forms. One is integrating computation-resource into the main memory with high-bandwidth interconnects (i.e., near data computing). The other is employing memory arrays to compute directly (i.e., compute in memory). These two forms have their own advantages and disadvantages, as well as suitable scenarios. This survey first introduces and analyses the birth and blossom of processing in memory, then introduces its techniques from hardware and micro-architecture. The survey further analyses and concludes the challenges of processing in memory. Finally, this paper introduces the opportunities that processing in memory provides for popular applications.

**Keywords** Processing In Memory, Near Data Computing, Compute In Memory, Neural Network, Graph Computing



**Haiyu MAO** was born in 1993. She received her B.S. degree in software engineering from Northeastern University in 2015. She is currently a Ph.D. candidate in the Department of Computer Science and Technology, Tsinghua University. Her research interests include non-volatile memory, processing in memory, memory security and machine learning accelerator.



**Jiwu SHU** was born in 1968. He received the Ph.D. degree in computer science from Nanjing University, Nanjing, in 1998. Currently, he is a professor in Department of Computer Science and Technology at Tsinghua University. His research interests include storage security and reliability, non-volatile memory based storage systems, and parallel and distributed computing.



**Fei LI** was born in 1993. He received his B.S. degree from Tsinghua University in Computer Science and Technology in 2015. Currently, he is a Master student in the Department of Computer Science and Technology at Tsinghua University. His research interests include non-volatile memory, flash-based storage system, system software and security.



**Zhe LIU** was born in 1991. He received his B.S. degree in information security from Shanghai Jiao Tong University in 2012. He is currently a post-graduate student in the Department of Computer Science and Technology, Tsinghua University. His research interests include non-volatile memory and open-channel SSD.