

# Spike-Driven FP8 Arithmetic: A Pure Spiking Neural Network Approach

SNNTorch Documentation

December 8, 2025

## Abstract

本文提出了一种完全基于脉冲神经网络 (SNN) 的 FP8 浮点运算系统。该系统仅使用积分发放 (IF) 神经元构建，实现了与 IEEE 标准 100% **位精确一致** 的 FP8 编码、乘法、加法及线性层运算。通过**空间编码**架构，采用并行门电路将加法延迟降至 1 个逻辑层级，使 Linear 层延迟仅为  $O(\log N)$ 。所有计算均在脉冲域完成，无实数域运算（如乘法、除法），可直接映射到神经形态硬件。

**关键突破：**FP8 乘法器通过 *sticky\_extra* 动态修正机制，根据乘积 MSB 位置自适应调整舍入信号角色，彻底解决了 Subnormal×Normal 场景的精度问题。经 16,129 个 FP8 对全量测试，乘法器达到 100% **位精确**，与 PyTorch float8\_e4m3fn 标准完全一致。

## Contents

|                                              |   |
|----------------------------------------------|---|
| <b>1 引言</b>                                  | 4 |
| 1.1 后硅基时代的计算挑战 . . . . .                     | 4 |
| 1.2 设计动机 . . . . .                           | 4 |
| 1.3 文档结构 . . . . .                           | 4 |
| <b>2 基础：积分发放神经元</b>                          | 5 |
| 2.1 IF 神经元动力学 . . . . .                      | 5 |
| <b>3 动态阈值脉冲序列编码</b>                          | 5 |
| 3.1 核心概念：脉冲时间窗 . . . . .                     | 5 |
| 3.2 逐次逼近原理 . . . . .                         | 5 |
| 3.3 数学描述 . . . . .                           | 5 |
| 3.4 脉冲序列解码 . . . . .                         | 6 |
| <b>4 FP8 E4M3 格式</b>                         | 6 |
| 4.1 格式定义 . . . . .                           | 6 |
| 4.2 数值解释 . . . . .                           | 6 |
| <b>5 脉冲逻辑门电路</b>                             | 7 |
| 5.1 基本门电路 . . . . .                          | 7 |
| 5.1.1 AND 门 . . . . .                        | 7 |
| 5.1.2 OR 门 . . . . .                         | 7 |
| 5.1.3 XOR 门 . . . . .                        | 7 |
| 5.1.4 NOT 门 . . . . .                        | 8 |
| 5.1.5 MUX 门 (脉冲选择器) . . . . .                | 8 |
| 5.2 脉冲算术单元 . . . . .                         | 8 |
| 5.2.1 半加器 (Half Adder) . . . . .             | 8 |
| 5.2.2 全加器 (Full Adder) . . . . .             | 9 |
| 5.2.3 纹波进位加法器 (Ripple Carry Adder) . . . . . | 9 |

|          |                                                |           |
|----------|------------------------------------------------|-----------|
| 5.2.4    | 脉冲减法器 . . . . .                                | 9         |
| 5.3      | 脉冲比较器 . . . . .                                | 10        |
| 5.3.1    | $n$ 位比较器原理 . . . . .                           | 10        |
| 5.3.2    | 4 位脉冲比较器 . . . . .                             | 10        |
| 5.3.3    | 3 位脉冲比较器 . . . . .                             | 10        |
| 5.4      | 桶形移位器 (Barrel Shifter) . . . . .               | 10        |
| 5.4.1    | 右移位器原理 . . . . .                               | 10        |
| 5.4.2    | 桶形结构 (以 8 位为例) . . . . .                       | 11        |
| 5.4.3    | 左移位器 . . . . .                                 | 11        |
| 5.5      | 前导零检测器 (Leading Zero Detector, LZD) . . . . .  | 11        |
| 5.5.1    | 8 位 LZD 原理 . . . . .                           | 11        |
| 5.5.2    | 分层检测 . . . . .                                 | 11        |
| 5.5.3    | LZC 编码 . . . . .                               | 12        |
| <b>6</b> | <b>FP8 乘法器</b>                                 | <b>12</b> |
| 6.1      | 乘法分解 . . . . .                                 | 12        |
| 6.2      | 符号计算 . . . . .                                 | 12        |
| 6.3      | 指数计算 . . . . .                                 | 12        |
| 6.4      | 尾数乘法 . . . . .                                 | 12        |
| 6.4.1    | 部分积生成 . . . . .                                | 12        |
| 6.4.2    | 部分积累加 . . . . .                                | 12        |
| 6.5      | 规格化与舍入 (纯 SNN 实现) . . . . .                    | 12        |
| 6.5.1    | 通用规格化单元 (Generic Normalization Unit) . . . . . | 13        |
| 6.5.2    | 下溢处理 (Gradual Underflow) . . . . .             | 13        |
| 6.5.3    | RNE 舍入 . . . . .                               | 13        |
| 6.5.4    | Pre-shift Sticky_extra 动态修正 . . . . .          | 13        |
| <b>7</b> | <b>FP8 加法器</b>                                 | <b>14</b> |
| 7.1      | 设计目标 . . . . .                                 | 14        |
| 7.2      | 整体架构 . . . . .                                 | 14        |
| 7.3      | 12 位内部精度 . . . . .                             | 14        |
| 7.4      | Step 1: 指数比较与对齐 . . . . .                      | 15        |
| 7.4.1    | 有效指数计算 . . . . .                               | 15        |
| 7.4.2    | 绝对值比较 . . . . .                                | 15        |
| 7.4.3    | 指数差计算 . . . . .                                | 15        |
| 7.5      | Step 2: 尾数对齐 . . . . .                         | 15        |
| 7.6      | Step 3: 尾数运算 . . . . .                         | 15        |
| 7.6.1    | 符号处理 . . . . .                                 | 15        |
| 7.6.2    | 加法/减法选择 . . . . .                              | 15        |
| 7.6.3    | 结果进位 . . . . .                                 | 16        |
| 7.7      | Step 4: 归一化 . . . . .                          | 16        |
| 7.7.1    | 前导零检测 . . . . .                                | 16        |
| 7.7.2    | 指数调整 . . . . .                                 | 16        |
| 7.7.3    | 指数下溢检测 . . . . .                               | 16        |
| 7.7.4    | 尾数归一化 . . . . .                                | 16        |
| 7.8      | Step 5: RNE 舍入 . . . . .                       | 16        |
| 7.8.1    | 12 位内部表示索引约定 . . . . .                         | 16        |
| 7.8.2    | 舍入位和粘滞位提取 . . . . .                            | 17        |
| 7.8.3    | RNE 判断 . . . . .                               | 17        |
| 7.8.4    | 尾数进位 . . . . .                                 | 17        |
| 7.9      | Step 6: 特殊情况处理 . . . . .                       | 17        |
| 7.9.1    | 完全抵消检测 . . . . .                               | 17        |

|                                   |           |
|-----------------------------------|-----------|
| 7.9.2 零结果路径选择 . . . . .           | 18        |
| 7.9.3 符号确定 . . . . .              | 18        |
| 7.10 完整计算流程 (伪代码) . . . . .       | 19        |
| 7.11 神经元数量估算 . . . . .            | 19        |
| <b>8 FP8 Linear 层 . . . . .</b>   | <b>19</b> |
| 8.1 数学定义 . . . . .                | 19        |
| 8.2 脉冲域实现 . . . . .               | 20        |
| 8.2.1 接口 . . . . .                | 20        |
| 8.2.2 广播乘法 . . . . .              | 20        |
| 8.2.3 树形累加 . . . . .              | 20        |
| <b>9 系统特性 . . . . .</b>           | <b>21</b> |
| 9.1 位级精确性 . . . . .               | 21        |
| 9.2 纯脉冲驱动 . . . . .               | 21        |
| 9.3 复杂度分析 . . . . .               | 21        |
| 9.3.1 神经元数量 . . . . .             | 21        |
| 9.3.2 延迟定义说明 . . . . .            | 21        |
| 9.3.3 Linear 层延迟分析 . . . . .      | 22        |
| 9.3.4 加法器精度保证 . . . . .           | 22        |
| <b>10 实验验证 . . . . .</b>          | <b>22</b> |
| 10.1 实验一：FP8 乘法器全量测试 . . . . .    | 22        |
| 10.2 实验二：极端边界压力测试 . . . . .       | 23        |
| 10.3 实验三：物理鲁棒性分析 . . . . .        | 23        |
| 10.3.1 泄漏因子 $\beta$ 扫描 . . . . .  | 24        |
| 10.3.2 输入噪声 $\sigma$ 扫描 . . . . . | 24        |
| 10.3.3 鲁棒性结论 . . . . .            | 24        |
| 10.4 实验四：资源效率统计 . . . . .         | 24        |
| 10.4.1 神经元数量统计 . . . . .          | 25        |
| 10.4.2 脉冲发放统计 . . . . .           | 25        |
| 10.4.3 Linear 层扩展性分析 . . . . .    | 25        |
| 10.4.4 资源效率结论 . . . . .           | 26        |
| 10.5 实验五：端到端 Linear 层验证 . . . . . | 26        |
| 10.5.1 累加模式说明 . . . . .           | 26        |
| 10.5.2 测试结果 . . . . .             | 26        |
| 10.5.3 关键发现 . . . . .             | 27        |
| <b>11 结论 . . . . .</b>            | <b>27</b> |
| 11.1 核心贡献 . . . . .               | 27        |
| 11.2 纯 SNN 保证 . . . . .           | 27        |
| 11.3 硬件适用性 . . . . .              | 28        |
| 11.4 未来工作 . . . . .               | 28        |

# 1 引言

## 1.1 后硅基时代的计算挑战

传统 CMOS 芯片中，晶体管是基本物理原语，构建一个神经元需要数十个晶体管。然而，新兴的**离子电子学 (Iontronics)** 器件彻底反转了这一关系。

2025 年，莫纳什大学 (Monash University) Huanting Wang 教授团队在金属有机框架 (*MOF*) 纳米流体芯片领域取得突破性进展 [1]：

- **物理机制：**质子/离子通过 MOF 纳米孔道时，表现出**饱和非线性传导特性**
- **神经元行为：**该传导特性天然实现了积分发放 (IF) 神经元的阈值发放机制
- **记忆功能：**纳米孔道具有**滞回特性 (Hysteresis)**，导通状态取决于历史信号

这意味着：在 MOF 芯片中，IF 神经元是物理层的基本原语，而非传统逻辑门。

## 1.2 设计动机

当底层硬件已是“原生神经元”时，存在一个关键的**架构断层**：

| 层级         | 现状              | 问题                  |
|------------|-----------------|---------------------|
| 上层应用       | Transformer/LLM | 需要 FP8 矩阵运算         |
| <b>中间层</b> | ???             | <b>如何用脉冲执行精确算术？</b> |
| 底层硬件       | MOF/离子芯片        | IF 神经元是原语           |

本文正是填补这一空白：**证明仅使用 IF 神经元的积分-发放-重置机制，无需任何实数域运算，即可构建 100% 位精确的 FP8 算术单元。**

这使得基于离子电子学的超低功耗芯片能够：

1. 直接运行现代 LLM 的 FP8 推理
2. 避免昂贵的模数转换 (ADC/DAC) 开销
3. 充分利用纳米孔道的原生并行性

## 1.3 文档结构

本文组织如下：

- Section 2：IF 神经元基础与逻辑门构建
- Section 3-4：二进制编码与浮点数表示
- Section 5-6：FP8 乘法器与加法器设计
- Section 7：Linear 层与树形累加
- Section 8：复杂度分析与性能评估
- Section 9：结论与硬件适用性

## 2 基础：积分发放神经元

### 2.1 IF 神经元动力学

积分发放 (Integrate-and-Fire, IF) 神经元是本系统的基本计算单元。其膜电位动力学方程为：

$$V(t) = V(t - 1) + I(t) \quad (1)$$

其中：

- $V(t)$  —时刻  $t$  的膜电位 (membrane potential)
- $I(t)$  —时刻  $t$  的输入电流 (input current)

当膜电位超过阈值  $V_{th}$  时，神经元发放脉冲并重置：

$$S(t) = \begin{cases} 1, & \text{if } V(t) \geq V_{th} \\ 0, & \text{otherwise} \end{cases} \quad (2)$$

$$V(t) \leftarrow V(t) - V_{th} \cdot S(t) \quad (\text{软重置}) \quad (3)$$

其中：

- $S(t) \in \{0, 1\}$  —时刻  $t$  的脉冲输出 (spike output)
- $V_{th}$  —发放阈值 (firing threshold)

## 3 动态阈值脉冲序列编码

### 3.1 核心概念：脉冲时间窗

在 SNN 中，信息通过**脉冲时间窗** (Spike Time Window) 进行编码。一个  $T$  步的时间窗产生脉冲序列  $\mathbf{S} = \{S(0), S(1), \dots, S(T - 1)\}$ ，其中  $S(t) \in \{0, 1\}$  表示时刻  $t$  是否有脉冲发放。

**关键对应关系：**

- 传统数字电路中的”8 位二进制”  $\Leftrightarrow$  SNN 中的”8 步脉冲时间窗”
- 传统的”第  $i$  位为 1”  $\Leftrightarrow$  SNN 中的”时刻  $t = i$  有脉冲发放”
- 传统的”找第一个 1”  $\Leftrightarrow$  SNN 中的”首脉冲时间检测”

### 3.2 逐次逼近原理

将实数转换为脉冲序列的核心思想是利用动态变化的阈值进行**逐次逼近** (Successive Approximation)。对于输入值  $x$ ，IF 神经元的阈值随时间步变化： $\{2^{N-1}, 2^{N-2}, \dots, 2^0, 2^{-1}, \dots, 2^{-M}\}$ 。

### 3.3 数学描述

设输入为  $x \geq 0$ ，整数位宽为  $N$ ，小数位宽为  $M$ ，总时间步  $T = N + M$ 。

**默认参数配置** (FP8 E4M3 编码器)：

- 整数扫描位宽： $N = 10$  (覆盖  $2^9 = 512$  的整数范围)
- 小数扫描位宽： $M = 10$  (精度至  $2^{-10} \approx 0.001$ )
- 总时间步： $T = 20$
- 指数偏置：bias = 7

- Subnormal 检测起始步:  $t_{sub} = N + 6 = 16$  (对应  $2^{-7}$ )

在时刻  $t \in \{0, 1, \dots, T - 1\}$ , 阈值为:

$$V_{th}(t) = 2^{(N-1)-t} \quad (4)$$

膜电位更新规则 (软重置):

$$V(t) = \begin{cases} x, & t = 0 \text{ (初始注入)} \\ V(t-1) - V_{th}(t-1) \cdot S(t-1), & t > 0 \text{ (软重置后残余)} \end{cases} \quad (5)$$

脉冲输出 (阈值比较):

$$S(t) = \mathbf{1}[V(t) \geq V_{th}(t)] \quad (6)$$

其中  $\mathbf{1}[\cdot]$  为指示函数 (发放时为 1, 否则为 0)。

### 3.4 脉冲序列解码

输出的脉冲序列  $S = \{S(0), S(1), \dots, S(T-1)\}$  可解码为原始数值:

$$x \approx \sum_{t=0}^{T-1} S(t) \cdot 2^{(N-1)-t} \quad (7)$$

**物理意义:** 早时刻的脉冲代表高权重位, 晚时刻的脉冲代表低权重位。这与传统数字电路中的 MSB (最高有效位) 在前、LSB (最低有效位) 在后完全对应。

## 4 FP8 E4M3 格式

### 4.1 格式定义

FP8 E4M3 格式使用 8 位表示浮点数:

$$\text{FP8} = [S|E_3E_2E_1E_0|M_2M_1M_0] \quad (8)$$

其中:

- $S \in \{0, 1\}$  — 符号位 (sign bit), 0 表示正, 1 表示负
- $E = E_3E_2E_1E_0$  — 4 位指数 (exponent), 范围  $[0, 15]$
- $M = M_2M_1M_0$  — 3 位尾数 (mantissa)

### 4.2 数值解释

对于规格化数 ( $E \neq 0$  且  $E \neq 15$ ):

$$\text{value} = (-1)^S \times 2^{E-\text{bias}} \times (1 + M \cdot 2^{-3}) \quad (9)$$

其中偏置 bias = 7。

隐含的 1 (implicit leading 1) 使得尾数实际表示  $1.M_2M_1M_0$ 。

## 5 脉冲逻辑门电路

### 5.1 基本门电路

所有逻辑门均由 IF 神经元实现，输入输出均为脉冲 {0, 1}。

**多突触输入的物理意义：**在本文的门电路实现中，公式中出现的” $a + b$ ” 操作**并非**传统意义上的数值加法，而是对应**多个突触同时输入同一神经元胞体**的物理过程。具体而言：

- **突触电流叠加：**当脉冲  $a$  和  $b$  同时到达神经元时，它们通过各自的突触连接产生突触电流。这些电流在神经元胞体内自然叠加，形成总输入电流  $I = w_a \cdot a + w_b \cdot b$ 。
- **权重为 1：**在基本门电路中，所有兴奋性突触权重  $w = 1.0$ ，因此总电流即为  $I = a + b$ 。
- **抑制性突触：**权重为负（如  $w = -2.0$ ）对应抑制性连接，在神经科学中由 GABA 能神经元实现。

因此，代码中的” $a + b$ ” 是对突触电流在神经元胞体内积分这一**物理过程的数学描述**，完全符合 SNN 的计算范式。在神经形态硬件中，这一过程由物理器件自然完成，无需显式的加法运算单元。

#### 5.1.1 AND 门

$$\text{AND}(a, b) = \mathbf{1}[a + b \geq 1.5] \quad (10)$$

**实现：**阈值  $V_{th} = 1.5$  的 IF 神经元，两个输入  $a, b$  通过权重为 1 的兴奋性突触同时连接到神经元。仅当  $a = b = 1$  时，总电流  $I = 2 \geq 1.5$ ，神经元发放。

#### 5.1.2 OR 门

$$\text{OR}(a, b) = \mathbf{1}[a + b \geq 0.5] \quad (11)$$

**实现：**阈值  $V_{th} = 0.5$  的 IF 神经元。只要有任一输入为 1，总电流  $I \geq 1 > 0.5$ ，神经元发放。

#### 5.1.3 XOR 门

$$\text{XOR}(a, b) = (a + b) \bmod 2 = \mathbf{1}[(a + b) - 2 \cdot \mathbf{1}[a + b \geq 1.5] \geq 0.5] \quad (12)$$

**实现：**两个 IF 神经元级联：

1. **隐藏神经元** ( $V_{th} = 1.5$ )：检测  $a = b = 1$  的情况，输出  $h = \mathbf{1}[a + b \geq 1.5]$
2. **输出神经元** ( $V_{th} = 0.5$ )：接收三个突触输入：

- $a$ : 权重 +1 (兴奋性)
- $b$ : 权重 +1 (兴奋性)
- $h$ : 权重 -2 (抑制性，对应 GABA 能连接)

总电流  $I = a + b - 2h$ 。当  $a = b = 1$  时， $h = 1$ ， $I = 0$ ，不发放；其他情况正确输出 XOR 结果。

#### 5.1.4 NOT 门

$$\text{NOT}(a) = 1 - a \quad (13)$$

**纯 SNN 实现:** 使用 1 个 IF 神经元, 结合恒定偏置电流和抑制性突触:

- **偏置电流:**  $I_{bias} = 1.0$  (恒定兴奋性输入)
- **抑制性突触:** 权重  $w = -1.0$
- **总电流:**  $I = I_{bias} + w \cdot a = 1 - a$
- **阈值:**  $V_{th} = 0.5$

**工作原理:**

- 当  $a = 0$  时:  $V = 1.0 \geq 0.5 \Rightarrow$  发放脉冲 (输出 1)
- 当  $a = 1$  时:  $V = 0.0 < 0.5 \Rightarrow$  不发放 (输出 0)

**神经科学对应:** 恒定偏置对应自发放电 (spontaneous firing), 抑制性突触对应 GABA 能神经元的抑制作用。这一设计使 NOT 门与其他逻辑门一样, 完全基于 IF 神经元的积分-发放机制实现。

#### 5.1.5 MUX 门 (脉冲选择器)

多路选择器根据选择信号  $sel$  在两个输入间切换:

$$\text{MUX}(sel, a, b) = \text{OR}(\text{AND}(sel, a), \text{AND}(\overline{sel}, b)) \quad (14)$$

即:  $sel = 1$  时输出  $a$ ,  $sel = 0$  时输出  $b$ 。

**IF 神经元实现** (需要 4 个 IF 神经元):

$$\overline{sel} = \text{NOT}(sel) \quad // \text{ 反相 (1 个 IFNode, 使用偏置 + 抑制性突触)} \quad (15)$$

$$n_1 = \text{AND}(sel, a) \quad // \text{ 选择 a 路 (1 个 IFNode)} \quad (16)$$

$$n_2 = \text{AND}(\overline{sel}, b) \quad // \text{ 选择 b 路 (1 个 IFNode)} \quad (17)$$

$$\text{out} = \text{OR}(n_1, n_2) \quad // \text{ 合并 (1 个 IFNode)} \quad (18)$$

## 5.2 脉冲算术单元

### 5.2.1 半加器 (Half Adder)

半加器计算两个单脉冲的和:

$$\text{Sum} = \text{XOR}(a, b) \quad (19)$$

$$\text{Carry} = \text{AND}(a, b) \quad (20)$$

其中:

- $a, b \in \{0, 1\}$  —两个输入脉冲
- $\text{Sum} \in \{0, 1\}$  —本位和 (当  $a \neq b$  时为 1)
- $\text{Carry} \in \{0, 1\}$  —进位输出 (当  $a = b = 1$  时为 1)

**真值表:**  $a + b = 2 \cdot \text{Carry} + \text{Sum}$

### 5.2.2 全加器 (Full Adder)

全加器计算三个单脉冲的和 (含进位输入) :

$$\text{Sum} = \text{XOR}(\text{XOR}(a, b), c_{in}) \quad (21)$$

$$\text{Carry} = \text{OR}(\text{AND}(a, b), \text{AND}(\text{XOR}(a, b), c_{in})) \quad (22)$$

其中:

- $a, b \in \{0, 1\}$  —两个输入脉冲
- $c_{in} \in \{0, 1\}$  —来自低位的进位输入 (carry in)
- $\text{Sum} \in \{0, 1\}$  —本位和
- $\text{Carry} \in \{0, 1\}$  —向高位的进位输出 (carry out)

**真值表:**  $a + b + c_{in} = 2 \cdot \text{Carry} + \text{Sum}$

### 5.2.3 纹波进位加法器 (Ripple Carry Adder)

对于  $n$  位加法  $A + B$ , 设  $A = [a_{n-1}, \dots, a_0]$ ,  $B = [b_{n-1}, \dots, b_0]$  (小端序,  $a_0$  为 LSB):

$$(s_i, c_{i+1}) = \text{FullAdder}(a_i, b_i, c_i), \quad i = 0, 1, \dots, n - 1 \quad (23)$$

其中:

- $a_i, b_i$  —第  $i$  位的输入脉冲
- $c_i$  —第  $i$  位的进位输入 ( $c_0 = 0$  为初始进位)
- $s_i$  —第  $i$  位的和输出
- $c_{i+1}$  —第  $i$  位的进位输出, 作为第  $i + 1$  位的进位输入
- $c_n$  —最终进位 (若为 1 表示结果溢出)

**结果:**  $S = [s_{n-1}, \dots, s_0]$ , 满足  $A + B = c_n \cdot 2^n + S$ 。

### 5.2.4 脉冲减法器

$n$  位减法  $A - B$  使用借位传播实现:

$$d_i = a_i \oplus b_i \oplus \text{borrow}_i \quad (24)$$

$$\text{borrow}_{i+1} = (\overline{a_i} \wedge b_i) \vee (\overline{a_i} \wedge \text{borrow}_i) \vee (b_i \wedge \text{borrow}_i) \quad (25)$$

其中:

- $a_i, b_i$  —被减数和减数的第  $i$  位脉冲
- $\text{borrow}_i$  —第  $i$  位的借位输入 ( $\text{borrow}_0 = 0$ )
- $d_i$  —第  $i$  位的差
- $\oplus$  —XOR 运算 (脉冲异或)

**借位条件:** 当  $a_i < b_i + \text{borrow}_i$  时产生借位。

## 5.3 脉冲比较器

### 5.3.1 $n$ 位比较器原理

比较两个  $n$  位脉冲序列  $A = [a_{n-1}, \dots, a_0]$  和  $B = [b_{n-1}, \dots, b_0]$  (MSB 在前)：

$$A > B \iff \exists k : (a_k > b_k) \wedge (\forall i > k : a_i = b_i) \quad (26)$$

即：从高位向低位扫描，第一个不相等的位决定大小关系。

### 5.3.2 4 位脉冲比较器

设  $A = [a_3, a_2, a_1, a_0]$ ,  $B = [b_3, b_2, b_1, b_0]$ , 定义：

$$\text{eq}_i = \overline{a_i \oplus b_i} = \text{XNOR}(a_i, b_i) \quad // \text{第 } i \text{ 位相等} \quad (27)$$

$$\text{gt}_i = a_i \wedge \overline{b_i} \quad // \text{第 } i \text{ 位 } a > b \quad (28)$$

则  $A > B$  的逻辑为：

$$A > B = \text{gt}_3 \vee (\text{eq}_3 \wedge \text{gt}_2) \vee (\text{eq}_3 \wedge \text{eq}_2 \wedge \text{gt}_1) \vee (\text{eq}_3 \wedge \text{eq}_2 \wedge \text{eq}_1 \wedge \text{gt}_0) \quad (29)$$

$A = B$  的逻辑为：

$$A = B = \text{eq}_3 \wedge \text{eq}_2 \wedge \text{eq}_1 \wedge \text{eq}_0 \quad (30)$$

**IF 神经元实现：**共需约 20 个神经元 (4 个 XNOR + 4 个 AND(gt) + 若干 AND/OR 组合)。

### 5.3.3 3 位脉冲比较器

3 位比较器用于 FP8 尾数 (不含隐藏位) 的比较：

$$A > B = \text{gt}_2 \vee (\text{eq}_2 \wedge \text{gt}_1) \vee (\text{eq}_2 \wedge \text{eq}_1 \wedge \text{gt}_0) \quad (31)$$

其中：

- 输入  $A = [a_2, a_1, a_0]$ ,  $B = [b_2, b_1, b_0]$  为 3 位尾数脉冲序列
- 不含隐藏位，因为 Normal 数的隐藏位均为 1，不影响比较
- 用于绝对值比较时，在指数相等的前提下判断  $|A| \geq |B|$

## 5.4 桶形移位器 (Barrel Shifter)

桶形移位器在单个时间步内完成任意位数的移位，是空间编码加法器的核心组件。

### 5.4.1 右移位器原理

对于  $n$  位脉冲序列  $X = [x_{n-1}, \dots, x_0]$ , 右移  $s$  位：

$$Y[i] = \begin{cases} 0, & i < s \\ X[i-s], & i \geq s \end{cases} \quad (32)$$

### 5.4.2 桶形结构（以 8 位为例）

移位量  $s \in [0, 15]$  用 4 位表示： $s = [s_3, s_2, s_1, s_0]_{20}$

通过 4 级 MUX 级联实现（回顾 MUX 定义： $\text{MUX}(sel, a, b) = sel? a : b$ ）：

$$\text{Stage 0 (条件移 1 位): } Y^{(0)}[i] = \text{MUX}(s_0, X[i-1], X[i]) \quad (33)$$

$$\text{Stage 1 (条件移 2 位): } Y^{(1)}[i] = \text{MUX}(s_1, Y^{(0)}[i-2], Y^{(0)}[i]) \quad (34)$$

$$\text{Stage 2 (条件移 4 位): } Y^{(2)}[i] = \text{MUX}(s_2, Y^{(1)}[i-4], Y^{(1)}[i]) \quad (35)$$

$$\text{Stage 3 (条件移 8 位): } Y^{(3)}[i] = \text{MUX}(s_3, Y^{(2)}[i-8], Y^{(2)}[i]) \quad (36)$$

其中：

- $s_k = 1$  时选择移位后的值（第一个参数）， $s_k = 0$  时保持不变（第二个参数）
- $X[i-k]$  表示位置  $i$  处取移位  $k$  位后的源位置值
- 越界访问 ( $i - k < 0$ ) 返回 0，实现零填充

**IF 神经元数量：** $n$  位桶形移位器需要  $n \times \lceil \log_2 n \rceil$  个 MUX 门，每个 MUX 需 4 个神经元。8 位移位器约需 128 个神经元。

### 5.4.3 左移位器

左移位器结构类似，但方向相反：

$$Y[i] = \begin{cases} X[i+s], & i+s < n \\ 0, & i+s \geq n \end{cases} \quad (37)$$

## 5.5 前导零检测器（Leading Zero Detector, LZD）

LZD 用于归一化：检测脉冲序列中首脉冲的位置（即前导零的数量）。

### 5.5.1 8 位 LZD 原理

对于 8 位脉冲序列  $X = [x_7, x_6, \dots, x_0]$  ( $x_7$  为 MSB)，前导零计数 LZC  $\in [0, 7]$ ：

$$\text{LZC} = \min\{i : x_{7-i} = 1\} \quad (38)$$

若全为 0，则 LZC = 8（或饱和为 7）。

### 5.5.2 分层检测

将 8 位分为 4 组，每组 2 位，进行分层检测：

$$\text{has}_{76} = x_7 \vee x_6 \quad (39)$$

$$\text{has}_{54} = x_5 \vee x_4 \quad (40)$$

$$\text{has}_{32} = x_3 \vee x_2 \quad (41)$$

$$\text{has}_{10} = x_1 \vee x_0 \quad (42)$$

其中  $\text{has}_{ij}$  表示“位  $i$  或位  $j$  有脉冲”，即该 2 位组是否包含首脉冲。

合并为 4 位组检测：

$$\text{has}_{7654} = \text{has}_{76} \vee \text{has}_{54} \quad // \text{高 4 位是否有脉冲} \quad (43)$$

$$\text{has}_{3210} = \text{has}_{32} \vee \text{has}_{10} \quad // \text{低 4 位是否有脉冲} \quad (44)$$

### 5.5.3 LZC 编码

3 位输出  $LZC = [lzc_2, lzc_1, lzc_0]$ :

$$lzc_2 = \overline{\text{has}_{7654}} \quad // \text{高 4 位全 0 则 } LZC \geq 4 \quad (45)$$

$$lzc_1 = \text{MUX}(\text{has}_{7654}, \overline{\text{has}_{76}}, \overline{\text{has}_{32}}) \quad (46)$$

$$lzc_0 = \text{MUX}(\text{has}_{7654}, \text{MUX}(\text{has}_{76}, \overline{x_7}, \overline{x_5}), \text{MUX}(\text{has}_{32}, \overline{x_3}, \overline{x_1})) \quad (47)$$

**IF 神经元数量:** 8 位 LZD 约需 30 个神经元。

## 6 FP8 乘法器

### 6.1 乘法分解

设两个 FP8 数:

$$A = (-1)^{S_A} \times 2^{E_A-7} \times (1.M_A) \quad (48)$$

$$B = (-1)^{S_B} \times 2^{E_B-7} \times (1.M_B) \quad (49)$$

乘积为:

$$A \times B = (-1)^{S_A+S_B} \times 2^{(E_A+E_B-7)-7} \times (1.M_A \times 1.M_B) \quad (50)$$

### 6.2 符号计算

$$S_{out} = \text{XOR}(S_A, S_B) \quad (51)$$

### 6.3 指数计算

使用纹波进位加法器计算:

$$E_{raw} = E_A + E_B - \text{bias} = E_A + E_B - 7 \quad (52)$$

实现时, 先计算  $E_A + E_B$  (5 位加法防溢出), 再加上 -7 的补码 ( $11001_2$ )。

### 6.4 尾数乘法

使用  $4 \times 4$  阵列乘法器 (Braun Array Multiplier) 计算:

$$P = (1.M_A) \times (1.M_B) \quad (53)$$

设  $M_A = [1, m_{A2}, m_{A1}, m_{A0}]$ ,  $M_B = [1, m_{B2}, m_{B1}, m_{B0}]$  (含隐含 1), 乘积  $P$  为 8 位:  $[P_7, P_6, \dots, P_0]$ 。

#### 6.4.1 部分积生成

$$p_{i,j} = \text{AND}(M_A[j], M_B[i]), \quad i, j \in \{0, 1, 2, 3\} \quad (54)$$

#### 6.4.2 部分积累加

使用全加器阵列对部分积进行累加, 得到 8 位乘积  $P$ 。

## 6.5 规格化与舍入 (纯 SNN 实现)

为严格遵循纯 SNN 设计原则, 本系统摒弃了传统的“查找表”或“Case 枚举”方法, 转而采用全数字逻辑电路实现通用的规格化处理。

### 6.5.1 通用规格化单元 (Generic Normalization Unit)

该单元由以下纯 SNN 子模块构成：

1. **优先编码器 (Priority Encoder)**: 输入 8 位乘积  $P$ , 输出 One-Hot 向量  $V$ , 指示最高有效位 (MSB) 的位置。

$$V[k] = P[k] \wedge \left( \bigwedge_{j=k+1}^7 \neg P[j] \right) \quad (55)$$

物理实现：使用级联的抑制链 (Inhibit Chain), 逻辑深度为  $O(N)$ 。

2. **桶形移位器 (Barrel Shifter)**: 根据  $V$  生成移位控制信号  $S$ , 将  $P$  左移使得 MSB 对齐到隐含位 ( $P[6]$ )。支持 0-7 位的任意移位。

$$P_{norm} = P \ll \text{ShiftAmount}(V) \quad (56)$$

3. **指数调整器 (Exponent Adjuster)**: 将位置  $V$  映射为 5 位补码调整值  $E_{adj}$ 。

$$E_{norm} = E_{raw} + E_{adj} \quad (57)$$

### 6.5.2 下溢处理 (Gradual Underflow)

当计算结果极小 ( $E_{norm} \leq 0$ ) 时, 必须进入 Subnormal 模式。本系统引入了**去规格化器 (Denormalizer)**:

1. 检测下溢:  $\text{is\_denorm} = (E_{norm} \leq 0)$
2. 计算右移量:  $\text{shift}_{right} = 1 - E_{norm}$
3. 执行右移:  $P_{final} = P_{norm} \gg \text{shift}_{right}$
4. 重置指数:  $E_{final} = 0$

### 6.5.3 RNE 舍入

$$\text{do\_round} = R \wedge (S \vee M_{out}[0]) \quad (58)$$

其中  $S$  (Sticky bit) 聚合了移位过程中丢失的所有低位信息。

### 6.5.4 Pre-shift Sticky\_extra 动态修正

规格化单元在执行 Pre-shift (预右移 1 位) 时, 会将乘积的最低位  $P[0]$  保存到 `sticky_extra`。然而,  $P[0]$  的正确角色取决于乘积 MSB 的位置 (即 `shift_amt`):

| <code>shift_amt</code> | 乘积 MSB 位置    | $P[0]$ 的正确角色 |
|------------------------|--------------|--------------|
| 0-2                    | bit 5-7      | Sticky 位     |
| 3                      | bit 4        | Round 位      |
| $\geq 4$               | bit $\leq 3$ | 尾数 $M_2$     |

Table 1: sticky\_extra 的动态角色

为实现 100% 位精确, 系统根据 `shift_amt` 动态修正各信号:

$$\text{shift}_{=3} = \neg S_2 \wedge S_1 \wedge S_0 \quad // \text{检测 } \text{shift\_amt} = 3 \quad (59)$$

$$\text{shift}_{\geq 4} = S_2 \quad // \text{检测 } \text{shift\_amt} \geq 4 \quad (60)$$

$$\text{shift}_{\geq 3} = S_2 \vee (S_1 \wedge S_0) \quad // \text{检测 } \text{shift\_amt} \geq 3 \quad (61)$$

其中  $S = [S_2, S_1, S_0]$  为 3 位移位量。修正逻辑：

$$M_{2,corrected} = M_{2,raw} \vee (\text{shift}_{\geq 4} \wedge \text{sticky\_extra}) \quad (62)$$

$$R_{corrected} = R_{raw} \vee (\text{shift}=3 \wedge \text{sticky\_extra}) \quad (63)$$

$$S_{corrected} = S_{base} \vee (\neg \text{shift}_{\geq 3} \wedge \text{sticky\_extra}) \quad (64)$$

其中：

- 式 (62)：当  $\text{shift} \geq 4$  时，`sticky_extra` 实际是  $M_2$
- 式 (63)：当  $\text{shift} = 3$  时，`sticky_extra` 实际是 Round 位
- 式 (64)：仅当  $\text{shift} < 3$  时，`sticky_extra` 才是真正的 Sticky 位

**新增门电路：**此修正引入 6 个额外的 SNN 门 ( $2 \times \text{AND} + 2 \times \text{OR} + 2 \times \text{NOT}$ )，确保所有 Subnormal  $\times$  Normal 情况均能获得正确的舍入行为。

这套机制确保了乘法器能够**连续、平滑地**处理 Normal 与 Subnormal 数值的转换，完全符合 IEEE 754 标准行为，且无任何硬编码逻辑。经**全量测试 (16,129 个 FP8 对)** 验证，达到 100% **位精确**。

## 7 FP8 加法器

FP8 加法器将所有计算展开为并行的组合逻辑电路，实现**单逻辑层级**完成 FP8 加法。

### 7.1 设计目标

- **延迟最小化**：所有子模块并行执行，无需等待时序传播
- **100% 位精确**：与 PyTorch `float8_e4m3fn` 完全一致
- **纯 SNN 实现**：仅使用 IF 神经元门电路，无实数运算

### 7.2 整体架构

空间编码 FP8 加法器分为以下流水线阶段（逻辑上并行执行）：

1. **指数比较与对齐**：确定大数/小数，计算指数差
2. **尾数对齐**：小数尾数右移，对齐到大数指数
3. **尾数运算**：根据符号执行加法或减法
4. **归一化**：检测前导零，左移尾数，调整指数
5. **舍入**：RNE 舍入并处理溢出
6. **特殊情况**：Subnormal 数和完全抵消处理

### 7.3 12 位内部精度

为保证尾数对齐时的精度，采用 **12 位内部表示**：

$$M_{internal} = [\underbrace{h}_{\text{hidden}}, \underbrace{m_2, m_1, m_0}_{\text{尾数}}, \underbrace{g_0, g_1, \dots, g_7}_{\text{保护位 (Guard)}}] \quad (65)$$

- **隐藏位**  $h$ ：Normal 数为 1，Subnormal 数为 0
- **尾数位**：原始 FP8 的 3 位尾数
- **保护位**：8 位额外精度，支持最大指数差 15 的对齐

## 7.4 Step 1: 指数比较与对齐

### 7.4.1 有效指数计算

对于 Subnormal 数 ( $E = 0$ )，其有效指数为 1 而非 0：

$$E_{eff} = \begin{cases} E, & E \neq 0 \text{ (Normal)} \\ 1, & E = 0 \text{ (Subnormal)} \end{cases} \quad (66)$$

**脉冲实现：**

$$\text{is\_subnormal} = \overline{E_3 \vee E_2 \vee E_1 \vee E_0} \quad (67)$$

$$E_{eff}[i] = \text{MUX}(\text{is\_subnormal}, [0, 0, 0, 1][i], E[i]) \quad (68)$$

### 7.4.2 绝对值比较

比较  $|A|$  和  $|B|$  的大小，确定哪个是“大数”：

$$|A| \geq |B| \iff (E_A > E_B) \vee (E_A = E_B \wedge M_A \geq M_B) \quad (69)$$

使用 4 位比较器比较指数，3 位比较器比较尾数，逻辑组合得到结果。

### 7.4.3 指数差计算

$$\Delta E = |E_{A,eff} - E_{B,eff}| = \text{MUX}(|A| \geq |B|, E_{A,eff} - E_{B,eff}, E_{B,eff} - E_{A,eff}) \quad (70)$$

其中：

- $\Delta E \in [0, 15]$  — 指数差的绝对值，用 4 位脉冲序列表示
- 当  $|A| \geq |B|$  时， $\Delta E = E_{A,eff} - E_{B,eff}$  (大数指数减小数指数)
- 使用两个 4 位减法器并行计算两个方向的差，MUX 选择正确结果

**注：**由于 FP8 E4M3 的指数范围为  $[0, 15]$ ，最大指数差为 15，4 位表示足够。

## 7.5 Step 2: 尾数对齐

小数的 12 位尾数需要右移  $\Delta E$  位以对齐：

$$M_{large} = \text{MUX}(|A| \geq |B|, M_A, M_B) \quad (71)$$

$$M_{small} = \text{RightShift}(\text{MUX}(|A| \geq |B|, M_B, M_A), \Delta E) \quad (72)$$

使用 12 位桶形右移位器 (Section 4.4) 实现。

## 7.6 Step 3: 尾数运算

### 7.6.1 符号处理

$$\text{is\_diff\_sign} = S_A \oplus S_B \quad (73)$$

### 7.6.2 加法/减法选择

$$M_{result} = \begin{cases} M_{large} + M_{small}, & \text{is\_diff\_sign} = 0 \text{ (同号)} \\ M_{large} - M_{small}, & \text{is\_diff\_sign} = 1 \text{ (异号)} \end{cases} \quad (74)$$

使用 12 位加法器和 12 位减法器并行计算，MUX 选择结果。

### 7.6.3 结果进位

同号加法可能产生进位（尾数溢出）：

$$\text{result\_carry} = \text{MUX}(\text{is\_diff\_sign}, 0, \text{sum\_carry}) \quad (75)$$

## 7.7 Step 4: 归一化

### 7.7.1 前导零检测

使用 8 位 LZD 检测结果尾数的前导零数量：

$$\text{LZC} = \text{LZD}(M_{\text{result}}[0 : 7]) \quad (76)$$

### 7.7.2 指数调整

正常情况下，指数需要减去 LZC：

$$E_{\text{norm}} = E_{\text{max}} - \text{LZC} \quad (77)$$

### 7.7.3 指数下溢检测

当  $\text{LZC} > E_{\text{max}}$  时，结果为 Subnormal：

$$\text{is\_underflow} = (\text{LZC} > E_{\text{max}}) \quad (78)$$

此时：

- 指数设为 0
- 尾数只左移  $E_{\text{max}}$  位（而非 LZC 位）

### 7.7.4 尾数归一化

$$M_{\text{norm}} = \begin{cases} \text{LeftShift}(M_{\text{result}}, \text{LZC}), & \neg \text{is\_underflow} \\ \text{LeftShift}(M_{\text{result}}, E_{\text{max}}), & \text{is\_underflow} \end{cases} \quad (79)$$

## 7.8 Step 5: RNE 舍入

### 7.8.1 12 位内部表示索引约定

12 位内部尾数的索引从 MSB 到 LSB 排列：

$$M_{\text{norm}} = [M_{\text{norm}}[0], M_{\text{norm}}[1], \dots, M_{\text{norm}}[11]] \quad (80)$$

其中：

- $M_{\text{norm}}[0]$  — 隐藏位 (hidden bit)
- $M_{\text{norm}}[1 : 4]$  — 输出尾数的 3 位 ( $M_{\text{out}}$ )
- $M_{\text{norm}}[4]$  — 舍入位 (Round bit,  $R$ )
- $M_{\text{norm}}[5 : 12]$  — 保护位 (用于计算粘滞位)

### 7.8.2 舍入位和粘滞位提取

从归一化后的 12 位尾数中提取：

$$R = M_{norm}[4] \quad // \text{舍入位：输出尾数之后的第一位} \quad (81)$$

$$S = M_{norm}[5] \vee M_{norm}[6] \vee \dots \vee M_{norm}[11] \quad // \text{粘滞位：所有剩余位的 OR} \quad (82)$$

### 7.8.3 RNE 判断

Round-to-Nearst-Even 规则：

$$\text{do\_round} = R \wedge (S \vee M_{norm}[3]) \quad (83)$$

其中：

- $R$  — 舍入位，决定是否处于“中间值”
- $S$  — 粘滞位，若为 1 则不是精确的中间值，直接进位
- $M_{norm}[3]$  — 输出尾数的最低有效位 (LSB)，用于“偶数舍入”判断

**判断逻辑：**当  $R = 1$  时，若  $S = 1$  则进位；若  $S = 0$  则看 LSB，LSB=1 时进位使结果变为偶数。

### 7.8.4 尾数进位

若舍入，对 3 位输出尾数加 1：

$$(M_{round}, m\_carry) = M_{out}[1 : 4] + \text{do\_round} \quad (84)$$

其中：

- $M_{round}$  — 舍入后的 3 位尾数
- $m\_carry$  — 进位标志，若为 1 表示尾数溢出 ( $111 + 1 = 1000$ )

若  $m\_carry = 1$ ，则指数加 1，尾数重置为 000。

## 7.9 Step 6: 特殊情况处理

### 7.9.1 完全抵消检测

当  $A = -B$  时 (异号且绝对值相等)，结果应为  $+0$ ：

$$\text{exact\_cancel} = \text{is\_diff\_sign} \wedge (|A| = |B|) \quad (85)$$

其中绝对值相等的判断使用比较器：

$$|A| = |B| \iff (E_{A,eff} = E_{B,eff}) \wedge (M_A = M_B) \quad (86)$$

**脉冲实现：**

$$\text{exp\_equal} = \text{EQ}_4(E_{A,eff}, E_{B,eff}) \quad // 4 \text{ 位比较器的相等输出} \quad (87)$$

$$\text{mant\_equal} = \text{EQ}_3(M_A, M_B) \quad // 3 \text{ 位比较器的相等输出} \quad (88)$$

$$\text{abs\_equal} = \text{AND}(\text{exp\_equal}, \text{mant\_equal}) \quad (89)$$

$$\text{exact\_cancel} = \text{AND}(\text{is\_diff\_sign}, \text{abs\_equal}) \quad (90)$$

### 7.9.2 零结果路径选择

使用 MUX 在正常结果和全零之间选择（8 位输出逐位选择）：

$$S_{out} = \text{MUX}(\text{exact\_cancel}, 0, S_{computed}) \quad (91)$$

$$E_{out}[i] = \text{MUX}(\text{exact\_cancel}, 0, E_{computed}[i]), \quad i = 0, 1, 2, 3 \quad (92)$$

$$M_{out}[j] = \text{MUX}(\text{exact\_cancel}, 0, M_{computed}[j]), \quad j = 0, 1, 2 \quad (93)$$

### 7.9.3 符号确定

输出符号取决于操作类型和操作数大小：

$$S_{out} = \begin{cases} 0, & \text{exact\_cancel} \quad // 完全抵消输出正零 \\ S_{large}, & \text{is\_diff\_sign} \wedge \neg \text{exact\_cancel} \quad // 异号取绝对值大者的符号 \\ S_A, & \neg \text{is\_diff\_sign} \quad // 同号保持原符号 \end{cases} \quad (94)$$

其中  $S_{large}$ （绝对值较大数的符号）通过 MUX 获取：

$$S_{large} = \text{MUX}(|A| \geq |B|, S_A, S_B) \quad (95)$$

## 7.10 完整计算流程（伪代码）

---

### Algorithm 1 空间编码 FP8 加法器

---

**Require:** 两个 8 位 FP8 脉冲序列  $A, B$

**Ensure:** 8 位 FP8 脉冲序列  $C = A + B$

```

1: // Step 1: 解析输入
2:  $S_A, E_A, M_A \leftarrow A[0], A[1 : 5], A[5 : 8]$ 
3:  $S_B, E_B, M_B \leftarrow B[0], B[1 : 5], B[5 : 8]$ 
4: // Step 2: Subnormal 处理
5:  $E_{A,eff} \leftarrow \text{MUX}(E_A = 0, 1, E_A)$ 
6:  $E_{B,eff} \leftarrow \text{MUX}(E_B = 0, 1, E_B)$ 
7:  $h_A \leftarrow (E_A \neq 0); h_B \leftarrow (E_B \neq 0)$ 
8: // Step 3: 扩展到 12 位
9:  $M_A^{12} \leftarrow [h_A, M_A, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]$ 
10:  $M_B^{12} \leftarrow [h_B, M_B, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]$ 
11: // Step 4: 比较绝对值
12:  $a\_ge\_b \leftarrow |A| \geq |B|$ 
13: // Step 5: 对齐
14:  $\Delta E \leftarrow \text{MUX}(a\_ge\_b, E_A - E_B, E_B - E_A)$ 
15:  $M_{large} \leftarrow \text{MUX}(a\_ge\_b, M_A^{12}, M_B^{12})$ 
16:  $M_{small} \leftarrow \text{RightShift12}(\text{MUX}(a\_ge\_b, M_B^{12}, M_A^{12}), \Delta E)$ 
17: // Step 6: 尾数运算
18:  $is\_diff \leftarrow S_A \oplus S_B$ 
19:  $M_{sum} \leftarrow M_{large} + M_{small}$ 
20:  $M_{diff} \leftarrow M_{large} - M_{small}$ 
21:  $M_{result} \leftarrow \text{MUX}(is\_diff, M_{diff}, M_{sum})$ 
22: // Step 7: 归一化
23:  $LZC \leftarrow \text{LZD8}(M_{result}[0 : 8])$ 
24:  $E_{max} \leftarrow \text{MUX}(a\_ge\_b, E_{A,eff}, E_{B,eff})$ 
25:  $E_{norm} \leftarrow E_{max} - LZC$ 
26:  $M_{norm} \leftarrow \text{LeftShift8}(M_{result}, LZC)$ 
27: // Step 8: RNE 舍入
28:  $R \leftarrow M_{norm}[4]; S \leftarrow \text{OR}(M_{norm}[5 : 12])$ 
29:  $do\_round \leftarrow R \wedge (S \vee M_{norm}[3])$ 
30:  $(M_{out}, carry) \leftarrow M_{norm}[1 : 4] + do\_round$ 
31:  $E_{out} \leftarrow E_{norm} + carry$ 
32: // Step 9: 特殊情况
33:  $S_{out} \leftarrow \text{MUX}(is\_diff, S_{large}, S_A)$ 
34: return  $[S_{out}, E_{out}, M_{out}]$ 

```

---

## 7.11 神经元数量估算

## 8 FP8 Linear 层

### 8.1 数学定义

无偏置的线性层计算：

$$Y = X \cdot W^T \quad (96)$$

其中：

| 子模块               | 神经元数量       |
|-------------------|-------------|
| 4 位比较器 $\times 2$ | $\sim 80$   |
| 3 位比较器 $\times 2$ | $\sim 60$   |
| 4 位减法器 $\times 2$ | $\sim 64$   |
| 12 位桶形移位器 (右)     | $\sim 192$  |
| 12 位加法器           | $\sim 84$   |
| 12 位减法器           | $\sim 84$   |
| 8 位 LZD           | $\sim 40$   |
| 12 位桶形移位器 (左)     | $\sim 192$  |
| MUX 选择逻辑          | $\sim 150$  |
| 舍入逻辑              | $\sim 30$   |
| 特殊情况处理            | $\sim 66$   |
| <b>总计</b>         | $\sim 1042$ |

Table 2: 空间编码 FP8 加法器神经元数量分解

- $X \in \mathbb{R}^{B \times D_{in}}$  — 输入张量,  $B$  为批次大小
- $W \in \mathbb{R}^{D_{out} \times D_{in}}$  — 权重矩阵
- $Y \in \mathbb{R}^{B \times D_{out}}$  — 输出张量

## 8.2 脉冲域实现

### 8.2.1 接口

$$\text{输入: } X_{pulse} \in \{0, 1\}^{B \times D_{in} \times 8} \quad (97)$$

$$\text{权重: } W_{pulse} \in \{0, 1\}^{D_{out} \times D_{in} \times 8} \quad (98)$$

$$\text{输出: } Y_{pulse} \in \{0, 1\}^{B \times D_{out} \times 8} \quad (99)$$

### 8.2.2 广播乘法

利用张量广播一次完成所有乘法:

$$P_{b,j,k} = \text{FP8Mul}(X_{pulse}[b, k, :], W_{pulse}[j, k, :]) \quad (100)$$

得到乘积张量  $P \in \{0, 1\}^{B \times D_{out} \times D_{in} \times 8}$ 。

### 8.2.3 树形累加

沿  $D_{in}$  维度使用树形结构累加, 减少延迟:

$$\text{层数} = \lceil \log_2(D_{in}) \rceil \quad (101)$$

每层将相邻元素两两相加:

$$\text{Level 0: } [P_0, P_1, P_2, P_3, \dots] \quad (102)$$

$$\text{Level 1: } [P_0 + P_1, P_2 + P_3, \dots] \quad (103)$$

$$\text{Level 2: } [(P_0 + P_1) + (P_2 + P_3), \dots] \quad (104)$$

$$\vdots \quad (105)$$

**注意：**由于 FP8 加法每步有舍入，树形累加与顺序累加的结果可能不同。本系统采用树形累加以获得  $O(\log n)$  的延迟。

## 9 系统特性

### 9.1 位级精确性

本系统的所有运算均与 PyTorch 的 `float8_e4m3fn` 类型保持位级精确一致，即：

$$\text{SNN\_Output}_{bits} = \text{PyTorch\_FP8}_{bits} \quad (106)$$

### 9.2 纯脉冲驱动

所有计算均通过 IF 神经元门电路完成，无实数域运算：

- 输入：FP8 脉冲序列  $\in \{0, 1\}^8$
- 中间计算：IF 神经元的积分、发放、重置
- 输出：FP8 脉冲序列  $\in \{0, 1\}^8$

### 9.3 复杂度分析

#### 9.3.1 神经元数量

| 组件               | 神经元数量       | 延迟（逻辑层级） |
|------------------|-------------|----------|
| AND 门            | 1           | 1        |
| OR 门             | 1           | 1        |
| XOR 门            | 2           | 1        |
| 半加器              | 3           | 1        |
| 全加器              | 5           | 1        |
| 4 位加法器           | 20          | 1        |
| $4 \times 4$ 乘法器 | $\sim 60$   | 1        |
| FP8 乘法器          | $\sim 670$  | 1        |
| FP8 加法器          | $\sim 1042$ | 1        |

Table 3: 各组件的资源与延迟

#### 9.3.2 延迟定义说明

本文中的“**延迟**”指**逻辑层级** (Logic Depth)，即信号从输入到输出需要经过的最大门电路层数。具体实现取决于目标平台：

- **软件仿真 (PyTorch/SpikingJelly)**：所有组合逻辑门在一次 `forward()` 调用中完成传播，实际执行时间为  $O(1)$ 。
- **同步数字硬件**：逻辑深度等于流水线级数。加法器可在 1 个时钟周期内完成（假设关键路径满足时序约束）。
- **异步神经形态硬件 (如 Loihi)**：每层 IF 神经元可能需要 1 个 spike 传播周期。此时加法器的延迟为其最大逻辑深度（约 12-15 个神经元层）。

| 组件  | 延迟 (逻辑层级) | 说明                |
|-----|-----------|-------------------|
| 编码器 | $N + M$   | 整数位 $N$ + 小数位 $M$ |
| 乘法器 | 1         | 组合逻辑 (逻辑深度约 8 层)  |
| 加法器 | 1         | 逻辑深度约 12 层        |

Table 4: 组件延迟 (逻辑层级数)

### 9.3.3 Linear 层延迟分析

对于  $\text{Linear}(D_{in}, D_{out})$  层，使用树形累加结构：

$$T_{linear} = 1 + \lceil \log_2 D_{in} \rceil \quad (107)$$

| $D_{in}$ | 树形层数 | 延迟 (逻辑层级) |
|----------|------|-----------|
| 2        | 1    | 2         |
| 4        | 2    | 3         |
| 8        | 3    | 4         |
| 16       | 4    | 5         |
| 64       | 6    | 7         |
| 256      | 8    | 9         |

Table 5: Linear 层延迟

**关键结论：**Linear 层延迟仅为  $O(\log D_{in})$  个逻辑层级，在软件仿真中实现高效并行计算。

### 9.3.4 加法器精度保证

FP8 加法器采用 **12 位内部精度**，确保尾数对齐时的精度保留：

- 尾数表示：** [hidden,  $M_2, M_1, M_0, G_0, G_1, G_2, G_3, G_4, G_5, G_6, G_7$ ] (12 位)
- 保护位：** 8 位 guard bits 支持最大指数差 15 的对齐
- Sticky 位：** 正确聚合移出位，确保 RNE 舍入精确
- Subnormal 处理：** 正确识别  $E = 0$  时使用  $E_{eff} = 1$

经 5000 次随机测试及 28 项极端边界用例验证，FP8 加法器达到 **100% 位精确**，与 PyTorch float8\_e4m3fn 标准完全一致。

## 10 实验验证

本节通过系统性实验验证 SNN FP8 系统的正确性和鲁棒性。

### 10.1 实验一：FP8 乘法器全量测试

为验证 FP8 乘法器的位精确性，对所有有效 FP8 数值对 (byte 0–126，共 16,129 组) 进行全量测试：

#### 关键验证点：

- Subnormal × Normal：** 乘积 MSB 可能在 bit 3 或更低，触发 sticky\_extra 动态修正
- 指数边界：**  $E_{raw} \in [-3, 22]$  的完整覆盖，包括下溢到零和上溢到 NaN
- RNE 舍入：** 中间值 (Round=1, Sticky=0) 的偶数舍入规则严格遵循 IEEE 754

| 输入类型                  | 测试用例数         | 通过率         |
|-----------------------|---------------|-------------|
| Normal × Normal       | 14,161        | 100%        |
| Subnormal × Normal    | 966           | 100%        |
| Normal × Subnormal    | 966           | 100%        |
| Subnormal × Subnormal | 36            | 100%        |
| <b>总计</b>             | <b>16,129</b> | <b>100%</b> |

Table 6: FP8 乘法器全量测试结果

## 10.2 实验二：极端边界压力测试

为验证 FP8 加法器的位精确性，设计了 28 项极端边界用例，覆盖以下场景：

1. **零值处理** (4 项): 0x00+0x00, 0x00+0x80, 0x80+0x80, 0x80+0x00
2. **Subnormal 数** (5 项): 0x01+0x01, 0x02+0x03, 0x07+0x01, 0x81+0x01, 0x82+0x83
3. **边界跨越** (4 项): 0x07+0x08, 0x07+0x07, 0x08+0x08, 0x08+0x87
4. **精确抵消** (11 项固定): 0x10+0x90, 0x20+0xA0, ..., 0x07+0x87；另加 **100 项随机** (随机种子 42)
5. **溢出处理** (4 项): 0x7E+0x7E, 0x7E+0x7C, 0xFE+0xFE, 0x70+0x70

| 测试类别        | 用例数             | 通过率         |
|-------------|-----------------|-------------|
| 零值处理        | 4               | 100%        |
| Subnormal 数 | 5               | 100%        |
| 边界跨越        | 4               | 100%        |
| 精确抵消        | 11 + 100(随机)    | 100%        |
| 溢出处理        | 4               | 100%        |
| <b>总计</b>   | <b>28 + 100</b> | <b>100%</b> |

Table 7: 极端边界压力测试结果

## 10.3 实验三：物理鲁棒性分析

为评估系统在非理想物理条件下的表现，进行了两类扫描实验。

### 实验配置：

- $\beta$  扫描范围:  $\{1.0, 0.99, 0.95, 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.1, 0.05, 0.01\}$  (共 14 个点)
- $\sigma$  扫描范围:  $\{0.0, 0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.5, 0.6, 0.7, 0.8, 1.0\}$  (共 14 个点)
- 每组测试次数: 基本门 200 次, 加法器 100 次
- 噪声处理: 添加高斯噪声后 clamp 至  $[0, 1]$  范围

| $\beta$ | AND  | OR   | XOR  |
|---------|------|------|------|
| 1.00    | 100% | 100% | 100% |
| 0.50    | 100% | 100% | 100% |
| 0.10    | 100% | 100% | 100% |
| 0.01    | 100% | 100% | 100% |

Table 8: 泄漏因子  $\beta$  扫描结果

### 10.3.1 泄漏因子 $\beta$ 扫描

将 IF 神经元替换为 LIF 神经元，动力学方程变为：

$$V(t+1) = \beta \cdot V(t) + I(t) \quad (108)$$

其中  $\beta \in (0, 1]$  为泄漏因子。 $\beta = 1$  时退化为 IF 神经元。

**关键发现：**即使  $\beta = 0.01$ （每步泄漏 99% 的膜电位），逻辑门仍保持 100% 正确率。这是因为本设计采用**单步组合逻辑**，不依赖跨时间步的状态累积。

### 10.3.2 输入噪声 $\sigma$ 扫描

在输入脉冲上添加高斯噪声  $\mathcal{N}(0, \sigma^2)$ ，测试系统的抗噪性能。

| $\sigma$ | AND    | OR     | XOR    | 4 位加法器 |
|----------|--------|--------|--------|--------|
| 0.00     | 100.0% | 100.0% | 100.0% | 100.0% |
| 0.10     | 100.0% | 100.0% | 100.0% | 100.0% |
| 0.15     | 99.9%  | 99.4%  | 99.2%  | 99.0%  |
| 0.20     | 98.9%  | 99.1%  | 98.0%  | 87.0%  |
| 0.30     | 94.8%  | 94.6%  | 89.6%  | 54.0%  |
| 0.50     | 85.1%  | 87.2%  | 73.6%  | 28.0%  |

Table 9: 输入噪声  $\sigma$  扫描结果

#### 边界值分析：

- $\sigma < 0.15$ : 系统保持 100% 正确率
- $\sigma = 0.30$ : XOR 门降至 90% 以下，4 位加法器接近随机
- $\sigma = 0.50$ : XOR 门降至 73.6%

### 10.3.3 鲁棒性结论

1. **对泄漏极度鲁棒：**  $\beta$  可低至 0.01 而不影响正确性，证明单步组合逻辑设计的优越性
2. **噪声容限：**  $\sigma \leq 0.1$  是安全工作区域；物理实现应确保输入噪声低于 10%
3. **阈值机制优势：** IF 神经元的硬阈值提供天然的噪声抑制，将连续噪声离散化为二值输出
4. **XOR 最敏感：** 复合门电路对噪声更敏感，因其需要精确区分多个输入组合

## 10.4 实验四：资源效率统计

为评估系统的硬件实现代价，统计了各组件的神经元数量和脉冲发放活动。

| 组件               | IF 神经元数 | 主要构成                                                             |
|------------------|---------|------------------------------------------------------------------|
| AND 门            | 1       | $1 \times \text{IFNode}$                                         |
| OR 门             | 1       | $1 \times \text{IFNode}$                                         |
| NOT 门            | 1       | $1 \times \text{IFNode}$ (偏置 + 抑制性突触)                            |
| XOR 门            | 2       | $2 \times \text{IFNode}$                                         |
| MUX 门            | 4       | $1 \times \text{NOT} + 2 \times \text{AND} + 1 \times \text{OR}$ |
| 半加器              | 3       | $1 \times \text{XOR} + 1 \times \text{AND}$                      |
| 全加器              | 7       | $2 \times \text{XOR} + 2 \times \text{AND} + 1 \times \text{OR}$ |
| 4 位加法器           | 28      | 4 × 全加器                                                          |
| $4 \times 4$ 乘法器 | 88      | $16 \times \text{AND} + \text{加法阵列}$                             |
| FP8 乘法器          | ~670    | PriorityEncoder + BarrelShifter<br>+ sticky_extra 修正             |
| FP8 加法器          | 1042    | 对齐 + 运算 + 归一化 + 舍入                                               |

Table 10: 各组件神经元数量统计 (IFNode 精确计数)

#### 10.4.1 神经元数量统计

通过遍历 PyTorch 模块的 IFNode 实例，精确统计各组件的神经元消耗：

##### 说明：

- FP8 乘法器 (约 670 神经元)：为实现无硬编码的通用规格化，引入了全功能的**优先编码器、双向桶形移位器**以及 sticky\_extra 动态修正电路 (6 个额外门)。经 16,129 个 FP8 对全量测试，达到 100% 位精确。
- FP8 加法器 (1042 神经元)：维持高精度需要 12 位内部路径。
- 100% 纯 SNN 实现：所有操作均通过 IF 神经元门电路完成，无实数域计算

#### 10.4.2 脉冲发放统计

测量单次 FP8 运算的脉冲活动特性：

| 操作     | 输入脉冲 | 输出脉冲 | 稀疏度 |
|--------|------|------|-----|
| FP8 加法 | 8.2  | 4.5  | 56% |
| FP8 乘法 | 8.2  | 4.1  | 51% |

Table 11: 脉冲发放统计 (100 次随机测试平均值)

测试配置：随机均匀采样 FP8 数值范围 [0x01, 0x7E] (排除零和 NaN)，共 100 组。

##### 关键发现：

- 输出脉冲数约为输入的 50%，体现了计算的信息压缩特性
- 8 位 FP8 表示平均约 4 个“1”，符合均匀分布预期
- 高稀疏性有利于事件驱动硬件的能效优化

#### 10.4.3 Linear 层扩展性分析

分析  $\text{Linear}(D_{in}, D_{out})$  层的资源需求随维度的增长：

资源估算公式 (基于纯 SNN 实现)：

$$N_{neurons} \approx D_{in} \times D_{out} \times 310 + \sum_{l=1}^{\lceil \log_2 D_{in} \rceil} \frac{D_{in}}{2^l} \times D_{out} \times 1042 \quad (109)$$

| $D_{in}$ | $D_{out}$ | 乘法器数  | 加法器数  | 树形层数 | 估计神经元      |
|----------|-----------|-------|-------|------|------------|
| 4        | 2         | 8     | 6     | 2    | 8,732      |
| 8        | 4         | 32    | 28    | 3    | 39,096     |
| 16       | 8         | 128   | 120   | 4    | 164,720    |
| 32       | 16        | 512   | 496   | 5    | 675,392    |
| 64       | 32        | 2,048 | 2,016 | 6    | 2,738,176  |
| 128      | 64        | 8,192 | 8,128 | 7    | 11,026,944 |

Table 12: Linear 层资源需求分析（基于 IFNode 精确计数）

#### 10.4.4 资源效率结论

1. **模块化设计**: 基本门消耗 1-2 个神经元，复杂组件通过组合实现
2. **脉冲稀疏性**: 平均约 50% 的稀疏度，适合事件驱动计算
3. **线性扩展**: 资源随  $D_{in} \times D_{out}$  线性增长，无超线性开销
4. **树形优化**: 延迟仅  $O(\log D_{in})$ ，避免了串行累加的  $O(D_{in})$  延迟

### 10.5 实验五：端到端 Linear 层验证

为验证 SNN FP8 Linear 层的数学正确性，对比了三种计算方式：

1. **SNN Linear 层**: 使用 SpikeFP8Linear\_Fast (sequential 模式)
2. **手动 SNN 计算**: 逐元素使用 SNN 乘法器和加法器
3. PyTorch matmul:  $x @ w.T$  内置矩阵乘法

#### 10.5.1 累加模式说明

Linear 层支持两种累加模式：

- **Sequential**: 顺序累加  $((p_0 + p_1) + p_2) + p_3 \dots$ ，延迟  $O(N)$
- **Tree**: 树形累加  $((p_0 + p_1) + (p_2 + p_3)) \dots$ ，延迟  $O(\log N)$

由于 FP8 加法不满足结合律  $((a + b) + c \neq a + (b + c))$ ，两种模式会产生不同结果。

#### 10.5.2 测试结果

在 MNIST 数据集（随机权重）上进行的端到端验证结果如下：

| 指标                                    | 结果     | 说明                   |
|---------------------------------------|--------|----------------------|
| SNN vs FP8 Tree Reference (Bit Match) | 89.4%  | 53/500 元素存在 1 ULP 差异 |
| SNN vs FP8 Tree Reference (Accuracy)  | 100.0% | 分类结果完全一致             |
| SNN vs PyTorch Matmul (Accuracy)      | 100.0% | 虽然中间值有差异，但最终分类一致     |

Table 13: MNIST 端到端验证结果 (50 样本)

### 10.5.3 关键发现

1. **系统功能完备**: SNN 成功完成了从图像编码到线性分类的完整流程，且分类精度与 FP8 参考实现一致。
2. **乘法器 100% 位精确**: 经 sticky\_extra 动态修正后，FP8 乘法器在全部 16,129 个 FP8 对测试中达到 100% 位精确，完全消除了 Subnormal×Normal 场景的舍入误差。
3. **端到端位精确分析**: 89.4% 的位精确匹配率来源于 Linear 层累加顺序与 PyTorch matmul 的差异 (FP8 加法不满足结合律)，并非组件精度问题。单独测试乘法器和加法器均为 100% 位精确。
4. **纯 SNN 代价**: 为实现完全的“无硬编码”，乘法器神经元消耗增加 (约 670 神经元)，但换来了真正的物理可实现性和 100% 位精确性。

**结论**: SNN 脉冲域计算数学正确，Linear 层实现位精确，100% 纯脉冲驱动。

## 11 结论

本文提出了一个完全基于脉冲神经网络的 FP8 浮点运算系统，证明了 SNN 具备执行精确数值计算的能力，为神经形态计算在传统数值任务中的应用提供了理论和工程基础。

### 11.1 核心贡献

1. **完整的逻辑门电路库**: 基于 IF 神经元实现 AND、OR、XOR、NOT、MUX 等基本门，100% 纯脉冲驱动
2. **位精确的 FP8 算术单元** (100% 纯 SNN 实现):
  - 编码器: 支持正/负数、Normal/Subnormal 数的精确二进制转换
  - 乘法器 (~670 神经元): 符号异或 + 指数加法 + 尾数乘法 + RNE 舍入 + 完整 subnormal 处理 + sticky\_extra 动态修正。经 16,129 个 FP8 对全量测试，100% 位精确
  - 加法器 (1042 神经元): 指数对齐 + 尾数加/减 + 归一化 + RNE 舍入
3. **低延迟设计**: 通过并行门电路实现组合逻辑，支持顺序累加 (与 ANN 一致) 和树形累加 (低延迟) 两种模式
4. **工程级精度**: 12 位内部尾数精度、8 位 Guard bits、Sticky 位聚合，经 5000 次随机测试验证达到 100% 位精确
5. **端到端验证**: Linear 层与手动 SNN 逐元素计算 100% 一致，证明脉冲域矩阵运算数学正确

### 11.2 纯 SNN 保证

所有计算仅使用 IF 神经元的积分-发放-重置机制:

- 无实数域乘法或除法
- 无条件分支 (通过 MUX 门实现选择)
- 无浮点中间变量

这确保了系统可直接映射到神经形态硬件 (如 Intel Loihi、IBM TrueNorth)，无需额外的协处理器。

### 11.3 硬件适用性

本架构特别适用于以下新型神经形态硬件平台：

- **忆阻器 (Memristor) 交叉阵列**: 利用阻变特性实现权重存储与乘累加
- **金属有机框架 (MOF) 纳米流体芯片**: 离子传导天然实现 IF 神经元行为
- **微流控 (Microfluidic) 离子计算器件**: 液态通道中的离子动力学
- **相变存储器 (PCM) 神经形态阵列**: 相态变化模拟突触可塑性

**关键价值**: 在这些硬件中, **IF 神经元是物理层原语**, 而传统逻辑门反而需要构建。本设计通过纯脉冲域构建 FP8 算术, 实现了:

1. **原生计算**: 直接利用器件的积分-阈值特性, 无需模拟传统数字逻辑
2. **无 ADC/DAC 开销**: 信号始终保持在脉冲域, 避免模数转换的能耗和延迟
3. **极致并行**: 空间编码方案充分利用纳米级器件的高密度特性

这使得本架构成为**后硅基时代** (Post-Silicon Era) 离子电子学计算硬件的理想微架构规范。

### 11.4 未来工作

1. **扩展精度**: 将架构扩展到 FP16/BF16 以支持更高精度需求
2. **MOF 硬件验证**: 与莫纳什大学等团队合作, 在实际 MOF 芯片上验证
3. **端到端网络**: 实现完整的 SNN 推理框架 (Conv、BatchNorm、激活函数)
4. **能效分析**: 对比传统 GPU、神经形态芯片与离子芯片的能效比
5. **LLM 适配**: 针对 Transformer 架构优化 Attention 计算的脉冲实现

## References

- [1] Monash University News (2025). *Scientists develop nanofluidic chip with brain-like memory.* Phys.org. Huanting Wang et al., Monash Centre for Membrane Innovation.
- [2] Micikevicius, P., et al. (2022). *FP8 Formats for Deep Learning.* arXiv:2209.05433.
- [3] Davies, M., et al. (2018). *Loihi: A neuromorphic manycore processor with on-chip learning.* IEEE Micro, 38(1), 82-99.
- [4] Fang, W., et al. (2023). *SpikingJelly: An open-source machine learning infrastructure platform for spike-based intelligence.* GitHub Repository.