

# 第九周作业

9. 考虑一个顺序流水线，忽略前端的取指和译码，处理器从发射到执行完成不同指令所需的总周期数如下表所示。

| 指令类型 | 总周期数 |
|------|------|
| 内存加载 | 4    |
| 内存存储 | 2    |
| 整型运算 | 1    |
| 分支   | 2    |
| 浮点加法 | 3    |
| 浮点乘法 | 5    |
| 浮点除法 | 11   |

考虑如下的指令序列：

```

Loop:   fld    f2,0(a0)
        fdiv.d f8,f0,f2
        fmul.d f2,f6,f2
        fld    f4,0(a1)
        fadd.d f4,f0,f4
        fadd.d f10,f8,f2
        fsd    f10,0(a0)
        fsd    f4,0(a1)
        addi   a0,a0,8
        addi   a1,a1,8
        sub    x20,x4,a0
        bnz   x20,Loop
    
```

- 1) 假设一条单发射顺序流水线，在没有数据冲突或分支指令时，每个周期均会新发射一条指令（假设运算单元是充足的）。检测到数据冲突或分支指令时则会暂停发射，直到冲突指令执行完毕才会发射新的指令。则上述代码段的一次迭代需要多少个周期执行完成？
- 2) 假设一条双发射顺序流水线，取指和译码的带宽足够、运算单元充足，且数据在两条流水线之间的传递是无延迟的，因此只有真数据冲突才会导致流水线停顿。则上述代码段的一次迭代需要多少个周期执行完成？
- 3) 调整指令的排列顺序，使得其在上述双发射流水线中完成一次迭代需要的周期数量减少。给出调整后的指令序列及一次迭代所需要的周期数。

| 周期  |        |                   |
|-----|--------|-------------------|
| (1) | fld    | f2,0(a0) 1 ~ 4    |
|     | fdiv.d | f8,f0,f2 5 ~ 15   |
|     | fmul.d | f2,f6,f2 16 ~ 20  |
|     | fld    | f4,0(a1) 17 ~ 20  |
|     | fadd.d | f4,f0,f4 21 ~ 23  |
|     | fadd.d | f10,f8,f2 22 ~ 24 |
|     | fsd    | f10,0(a0) 25 ~ 26 |
|     | fsd    | f4,0(a1) 26 ~ 27  |
|     | addi   | a0,a0,8 27        |
|     | addi   | a1,a1,8 28        |
|     | sub    | x20,x4,a0 29      |
|     | bnz    | x20,Loop 30 ~ 31  |

故一次需要 31 个周期。

(2)

周期

|   |        |           |         |
|---|--------|-----------|---------|
| ① | fld    | f2,0(a0)  | 1 ~ 4   |
| ② | fdiv.d | f8,f0,f2  | 5 ~ 15  |
| ③ | fmul.d | f2,f6,f2  | 5 ~ 9   |
| ④ | fld    | f4,0(a1)  | 6 ~ 9   |
| ⑤ | fadd.d | f4,f0,f4  | 10 ~ 12 |
| ⑥ | fadd.d | f10,f8,f2 | 16 ~ 18 |
| ⑦ | fsd    | f10,0(a0) | 19 ~ 20 |
| ⑧ | fsd    | f4,0(a1)  | 19 ~ 20 |
| ⑨ | addi   | a0,a0,8   | 20      |
| ⑩ | addi   | a1,a1,8   | 20      |
| ⑪ | sub    | x20,x4,a0 | 21      |
| ⑫ | bnz    | x20,Loop  | 22 ~ 23 |

故一次需要 23 个周期。

(3) 将没有数据依赖的指令提前。

依赖关系：



一次需要 22 个周期。

指令顺序：①④②⑤③⑧⑩⑥⑦⑨  
⑪⑫。

10. 考虑如下的代码片段：

Loop:    fld        f4,0(a0)  
          fmul.d    f2,f0,f2  
          fdiv.d    f8,f4,f2  
          fld        f4,0(a1)  
          fadd.d    f6,f0,f4  
          fsub.d    f8,f8,f6  
          fsd        f8,0(a1)

现将其进行简单的寄存器重命名，假定有 T0~T63 的临时寄存器池，且 T9 开始的寄存器可用于重命名。写出重命名后的指令序列。

T9 ~ T63 可用于重命名。

fld T9, 0(a0)  
fmul.d T10, f0, f2  
fdiv.d T11, T9, T10  
fld T12, 0(a1)  
fadd.d T13, f0, T12  
fsub.d T14, T11, T13  
fsd T15, 0(a1)

11. 查阅资料，简述显式重命名和隐式重命名的区别、优缺点以及可能的实现方式。

① 显式重命名：使物理寄存器堆数量大于 ISA 定义的寄存器数量。使用一个空闲列表记录物理寄存器堆的状态信息，使用一个重命名列表记录物理寄存器堆与 ISA 寄存器间的映射关系。

指令译码时，为目前 ISA 寄存器分配一个空闲的物理寄存器，修改 RT 中相应映射关系。同时，源操作数在 RT 中寻找对应的物理寄存器读取。

② 隐式重命名：物理实现寄存器数目与LSA规定一致，其中存放最终写回结果，处于推测状态的指令值由一些其他结构保存，如重排序缓冲区。使用一个表项记录寄存器最新值已写回ARF还是暂存在重排序缓冲区中。

③ 优点：解决WAW和WAR冲突。隐式重命名使用寄存器少于显式，成本更低。

缺点：硬件电路逻辑复杂，面积较大。