

9. 考虑一个顺序流水线，忽略前端的取指和译码，处理器从发射到执行完成不同指令所需要的总周期数如下表所示。

| 指令类型 | 总周期数 |
|------|------|
| 内存加载 | 4    |
| 内存存储 | 2    |
| 整型运算 | 1    |
| 分支   | 2    |
| 浮点加法 | 3    |
| 浮点乘法 | 5    |
| 浮点除法 | 11   |

考虑如下的指令序列：

Loop:   
 1 f1d f2,0(a0)   
 2 fdiv.d f8,f0,f2   
 3 fmul.d f2,f0,f2   
 4 f1d f4,0(a1)   
 5 fadd.d f4,f0,f4   
 6 fadd.d f10,0,a2   
 7 fsd f10,0(a0)   
 8 fsd f4,0(a1)   
 9 addi a0,a0,8   
 10 addi a1,a1,8   
 11 sub x20,x4,a0   
 12 bnz x20,Loop

- 假设一条单发射顺序流水线，在没有数据冲突或分支指令时，每个周期均会新发射一条指令（假设运算单元是充足的）。检测到数据冲突或分支指令时则会暂停发射，直到冲突指令执行完毕才会发射新的指令。则上述代码段的一次迭代需要多少个周期执行完成？
- 假设一条双发射顺序流水线，取指和译码的带宽足够、运算单元充足，且数据在两条流水线之间的传递是无延迟的，因此只有真数据冲突才会导致流水线停顿。则上述代码段的一次迭代需要多少个周期执行完成？
- 调整指令的排列顺序，使得其在上述双发射流水线中完成一次迭代需要的周期数量减少。给出调整后的指令序列及一次迭代所需要的周期数。

调整后的指令序列为

f1d f2,0(a0)  
 fdiv.d f8,f0,f2  
 fmul.d f2,f0,f2  
 f1d f4,0(a1)  
 fadd.d f4,f0,f4  
 fsd f4,0(a1)  
 fadd.d f10,f8,f2  
 fsd f10,0(a0)  
 addi a0,a0,8  
 addi a1,a1,8  
 sub x20,x4,a0  
 bnz x20,Loop.

以下的方框代表每条指令的执行过程

和时序，执行先后的大致关系。

可以反映出总周期的变化。

$$\text{Ncycle} = 4 + 11 + 5 + 4 + 2 + 1 + 1 + 1 + 2 = 31$$



$$8 + 15 = 23 \text{ 个}$$



如图所示，周期数共为

$$4 + 11 + 3 + 2 + 2 = 22 \text{ 个}$$

10. T9 开始的寄存器可用于重命名则有：

Loop: f1d f4,0(a0)

fmul.d f2,f0,f2 解决 WAW, WAR 冲突。

fdiv.d f8,f4,f2 如左图所示进行寄存器

f1d T14,0(a1)

重命名

fadd.d f6,f0,T14.

fsub.d T18,f8,f6

fsd T18,0(a1)

11. 显式重命名和隐式重命名的区别、优缺点，以及可能的实现方式。

区别：显式重命名方案是将每条指令使用的逻辑寄存器映射到物理寄存器上，

需要维护一个映射表、一个空闲列表和一个忙碌表。隐式重命名方案是在 ROB 中记录指令的结果，不需要额外的物理寄存器。

优点：

优缺点：显式重命名可以实现更高的指令级并行度，缺点是需要更多的物理寄存器和更复杂的硬件逻辑。

隐式重命名方案的优点是简化了硬件结构，缺点是限制了指令的窗口大小和流水线的深度。

显式重命名可能实现方式有 Tomasulo 算法、分布式寄存器文件等。隐式重命名方案的可能的实现方式有 ROB、历史缓冲区