

# Week 9 9.10.11

9. 考虑一个顺序流水线，忽略前端的取指和译码，处理器从发射到执行完成不同指令所需  
要的总周期数如下表所示。

| 指令类型 | 总周期数 |
|------|------|
| 内存加载 | 4    |
| 内存存储 | 2    |
| 整型运算 | 1    |
| 分支   | 2    |
| 浮点加法 | 3    |
| 浮点乘法 | 5    |
| 浮点除法 | 11   |

考虑如下的指令序列：

```
Loop: fld f2,0(a0)
      fdiv.d f8,f0,f2
      fmul.d f2,f6,f2
      fld f4,0(a1)
      fadd.d f4,f0,f4
      fadd.d f10,f8,f2
      fsd f10,0(a0)
      fsd f4,0(a1)
      addi a0,a0,8
      addi a1,a1,8
      sub x20,x4,a0
      bnz x20,Loop
```

- 假设一条单发射顺序流水线，在没有数据冲突或分支指令时，每个周期均会新发射一条指令（假设运算单元是充足的）。检测到数据冲突或分支指令时则会暂停发射，直到冲突指令执行完毕才会发射新的指令。则上述代码段的一次迭代需要多少个周期执行完成？
- 假设一条双发射顺序流水线，取指和译码的带宽足够、运算单元充足，且数据在两条流水线之间的传递是无延迟的，因此只有真数据冲突才会导致流水线停顿。则上述代码段的一次迭代需要多少个周期执行完成？
- 调整指令的排列顺序，使得其在上述双发射流水线中完成一次迭代需要的周期数量减少。给出调整后的指令序列及一次迭代所需要的周期数。

考虑如下的指令序列：

(1)

```
Loop: fld f2,0(a0)
      fdiv.d f8,f0,f2
      fmul.d f2,f6,f2
      fld f4,0(a1)
      fadd.d f4,f0,f4
      fadd.d f10,f8,f2
      fsd f10,0(a0)
      fsd f4,0(a1)
      addi a0,a0,8
      addi a1,a1,8
      sub x20,x4,a0
      bnz x20,Loop
```



$$\Rightarrow \text{Total\_cycle} = 4 + 11 + 3 + 2 + 1 + 1 + 1 + 2 = 25$$

(2)

```
I1 xxxx I2 xxxxxxxx xxxx I6 xx I7 x I9 I11 I12 x
I3 xxxx I4 xxxx I5 xx I8 x I10
```

$$\text{Total} = 4 + 1 + 1 + 5 + 3 + 2 + 1 + 1 + 1 + 2 = 24$$

(3)  $\Rightarrow$  I1 xxxx I2 xxxxxxxx xxxx I6 xx I7 x I9 I11 I12 x

$\Rightarrow$  I4 xxxx I5 xx I8 x I10

指针：

考虑如下的指令序列：

```
Loop: 1 fld f2,0(a0)
      2 fdiv.d f8,f0,f2
      3 fmul.d f2,f6,f2
      4 fld f4,0(a1)
      5 fadd.d f4,f0,f4
      6 fadd.d f10,f8,f2
      7 fsd f10,0(a0)
      8 fsd f4,0(a1)
      9 addi a0,a0,8
     10 addi a1,a1,8
     11 sub x20,x4,a0
     12 bnz x20,Loop
```

Loop: fld f2,0(a0)

$$\text{Total} = 4 + 11 + 3 + 2 + 1 + 1 + 2$$

fld f4,0(a1)

$$= 29$$

fdiv.d f8,f0,f2

fmul.d f2,f6,f2

fadd.d f4,f0,f4

fsd f4,0(a1)

addi a1,a1,8

fadd.d f10,f8,f2

fsd f10,0(a0)

addi a0,a0,8

sub x20,x4,a0

bnz x20,Loop

10.  $f1d T9, 0(a0)$   
 $fmul.d T10, f0, f2$   
 $fdiv.d T11, f8, T10$   
 $f1d T12, 0(a1)$   
 $fadd.d T13, f0, T12$   
 $fsub.d T11, T11, T13$   
 $f1d T11, 0(a1)$

使  $T9, T12$  持原值  $f4$  区分开

11. 查阅资料，简述显式重命名和隐式重命名的区别、优缺点以及可能的实现方式。

**显式：**通过在编译时或程序员手动重名寄存器来消除数据冲突和 reg 依赖。实例如通过编译器对 code 静态分析和优化，识别出其中的数据依赖并重新分配寄存器来消除依赖。

优点是硬件复杂度低，可并行性高；缺点是对编译器要求较高，寄存器资源使用效率低，而且可能会在动态路径中造成无法优化。

**隐式：**在运行时通过处理器硬件来消除冲突依赖，如使用 RCT 和 RAT。

实例如：用硬件结构在 ID 阶段将逻辑 reg 映射到物理 reg 时根据表中信息动态调度和执行指令以消除冲突依赖。

优点是：编译器要求低，动态处理更彻底，提高并行性；缺点是：硬件设计复杂，增加功耗和面积。