

Chapter 3 Homework (2)

9 考虑一个顺序流水线，忽略前端的取指和译码，处理器从发射到执行完成不同指令所需要的总周期数如下表所示。

考虑如下的指令序列：

| 指令类型 | 总周期数 |                     |
|------|------|---------------------|
| 内存加载 | 4    | Loop: fld f2, 0(a0) |
| 内存存储 | 2    | fdiv.d f8, f0, f2   |
| 整型运算 | 1    | fmul.d f2, f0, f2   |
| 分支   | 2    | fld f4, 0(a1)       |
| 浮点加法 | 3    | fadd.d f4, f0, f4   |
| 浮点乘法 | 5    | fadd.d f10, f8, f2  |
| 浮点除法 | 11   | fsd f10, 0(a0)      |

  

|  |  |                 |
|--|--|-----------------|
|  |  | fsd f4, 0(a1)   |
|  |  | addi a0, a0, 8  |
|  |  | addi a1, a1, 8  |
|  |  | sub x20, x4, a0 |
|  |  | bnez x20, Loop  |

1) 假设一条单发射顺序流水线，在没有数据冲突或分支指令时，每个周期均会新发射一条指令（假设运算单元是充足的）。检测到数据冲突或分支指令时则会暂停发射，直到冲突指令执行完毕才会发射新的指令。则上述代码段的一次迭代需要多少个周期执行完成。

1 2 3 4 5 - 15 16 17 20 21 22 23  
 fld f2 fdiv.d f8 fmul.d f10 f2/f4 fadd.d f4  
 F F F F F F F F F F F F

24 25 26 27 28 29 30 31 32  
 f10 fsd f10/fsd f4 addi addi sub bnez  
 F F F F F F F F F F

共需32个周期执行完成。

2) 假设一条双发射顺序流水线，取指和译码的带宽足够，运算单元充足，且数据在两条流水线之间的传递是无延迟的。因此只有真数据冲突才会导致流水线停顿。则上述代码段的一次迭代需要多少个周期执行完成？

|     |     |     |         |     |      |    |     |    |        |    |        |
|-----|-----|-----|---------|-----|------|----|-----|----|--------|----|--------|
| 1   | 2   | 3   | 4       | 5   | 15   | 9  | 10  | 13 | 14     | 15 | 16     |
| fld |     | f2  | fdi.v.d |     | f8   |    |     |    |        | f8 | fadd.d |
|     |     |     | fmul.d  |     |      | f2 | fld | f4 | fadd.d |    | f4     |
| 18  | 19  | 20  | 21      | 22  | 23   | 24 |     |    |        |    |        |
| fld | fsd | fio | addi    | sub | bnez | F  |     |    |        |    |        |
| fsd | fsd | f4  | addi    |     |      |    |     |    |        |    |        |

需要24个周期。

3) 调整指令的排列顺序，使得其在上述双发射流水线中完成一次迭代需要的周期数减少。给出调整后的指令序列及一次迭代所需要的周期数。

|     |     |         |    |        |    |        |     |    |        |        |      |
|-----|-----|---------|----|--------|----|--------|-----|----|--------|--------|------|
| 1   | 4   | 5       | 9  | 10     | 12 | 13     | 15  | 14 | 15     | 16     | 17   |
| fld | f2  | fdi.v.d |    |        |    |        |     |    | f8     | fadd.i | addi |
| fld | f4  | fmul.d  | f2 | fadd.d | f4 | fadd.d | fsd | f4 | fadd.d |        | f10  |
| 18  | 19  | 20      | 21 |        |    |        |     |    |        |        |      |
| fsd | f10 | bnez    | F  |        |    |        |     |    |        |        |      |

addi(a1), sub addi(a2),  
共21个周期；顺序为：fld, f2, o(a0); fld, fu, o(a1); fdiv.d; fmul.d; fsd, fu, o(a1);  
fadd.d, f4, f8, fu; fadd.d f10, f8, f2; addi a1, a1, 8; fsd f10, o(a0); addi a2, a2, 8;  
sub x20, x14, a0; bnez x20, loop.

10. 考虑如下的代码片段：

```
loop: fild f4, 0(a0)
      fmul.d f2, f0, f2
      fdiv.d f8, f4, f2
      fild f4, 0(a1)
      fadd.d f6, f0, f4
      fsub.d f8, f8, f6
      fsd f8, 0(a1)
```

现将其进行简单的寄存器重命名，假定有T0~T13的临时寄存器池，且T9开始的寄存器可用于重命名。写出重命名后的指令序列。

```
fild T9, 0(a0)
```

```
fmul.d T10, T0, T2
```

```
fdiv.d T11, T9, T10
```

```
fild T12, 0(a1)
```

```
fadd.d T13, T0, T12
```

```
fsub.d T14, T11, T13
```

```
fsd T14, 0(a1)
```

11. 查阅资料，简述显式重命名和隐式重命名的区别、优缺点以及可能的实现方式。

区别在于：显式重命名，在指令中直接使用了物理寄存器的名称；

其可以提高指令的并行性，减少指令间的依赖关系，从而提高指令的执行速度和效率  
但需要相应的硬件支持。（重命名寄存器文件）

隐式重命名则仍使用逻辑寄存器的名称，寄存器的分配和重命名是由处理器硬件  
完成的。优点是提高编程的灵活性和可移植性，无需额外寄存器，但需寄存器重  
命名表及额外的存储开支。（重命名表）