

Date.

## 嵌入式第九周作业

9. 单发射顺序流水线，每个周期只能执行一条指令

① 检测到数据冲突或分支指令时会暂停发射，直到冲突指令执行完毕才会发射新指令。上述代码的一次迭代需要多少个周期执行完成？

解：① loop:

|                    |    |
|--------------------|----|
| fld f2, 0(a0)      | 4  |
| fdiv.d f8, f0, f2  | 11 |
| fmul.d f2, f0, f2  | 5  |
| fld f4, 0(a1)      | 4  |
| fadd.d f4, f0, f4  | 3  |
| fadd.d f10, f8, f2 | 3  |
| fstd f10, 0(a0)    | 2  |
| fstd f4, 0(a1)     | 2  |
| addi a0, a0, 8     | 1  |
| addi a1, a1, 8     | 1  |
| sub x20, x4, a0    | 1  |
| bnez x20, loop     | 2  |



4+11+5+3+2+1+1+1+2=31(个)周期。

② 双发射顺序流水线，只有真数据冲突时才会导致流水线停顿。（取指、译码的带宽足够、运算单元充足，且数据在两条流水线之间的传递是无延迟的）。

上述代码一次迭代需要多少个周期执行完成？

解：



共需要  $4+1+2+1 = 18$  个周期

3) Loop:  $f1d \quad f2, o(a_2)$

$fdiv.d \quad f8, f0, f2$

$fmul.d \quad f2, f6, f2$

$f1d \quad f4, f0, f4$

$fadd.d \quad f4, f0, f4$

$fadd.d \quad f10, f8, f2$

{  $f1d \quad f4, o(a_1)$

{  $f1d \quad f10, o(a_0)$

{ addi  $a_1, a_1, 8$

addi  $a_0, a_0, 8$

sub  $x_{20}, x_4, a_0$

bnez  $x_{20}, loop$

需 18 个周期。

10. 考虑如下代码片段：现将其进行简单的寄存器重命名，假定有T<sub>0</sub>~T<sub>63</sub>的临时寄存器池，且T<sub>0</sub>开始的寄存器可用于重命名。写出重命名后的指令序列。

解：原：

改后：

|       |        |          |
|-------|--------|----------|
| loop: | f1d    | f4,0(a0) |
|       | fmul.d | f2,f0,f2 |
|       | fdiv.d | f8,f4,f2 |
|       | f1d    | f4,0(a1) |
|       | fadd.d | f6,f0,f4 |
|       | fsub.d | f8,f8,f6 |
|       | fsd    | f8,0(a1) |

|       |        |             |
|-------|--------|-------------|
| loop: | f1d    | T24,0(T34)  |
|       | fmul.d | T22,T10,T12 |
|       | fdiv.d | T28,T24,T22 |
|       | f1d    | T54,0(T31)  |
|       | fadd.d | T26,T10,T34 |
|       | fsub.d | T38,T28,T26 |
|       | fsd    | T38,0(T31)  |

11. 区进攻式重命名和隐式重命名的区别、优缺点以及可能实现方式。

解：① 显式重命名是在编译期或者运行期明确地指定用于存储结果的物理寄存器，同时将逻辑寄存器重命名为物理寄存器，从而避免数据冲突问题。

优点是可利用物理寄存器，降低数据相关，提高指令级并行性。缺点是需要更多的硬件成本来支持物理寄存器的分配和重命名，会增加功耗和延迟。可能实现方式：  
① 基于寄存器；② 基于缓存；③ 基于延迟。

② 隐式重命名是在硬件中进行重命名，将逻辑寄存器直接映射到物理寄存器，而不需要在编译期或运行期进行明确的指定。具体实现方式包括超标量处理器、动态调度和乱序执行等。优点是：不需要编译器支持，可自适应地根据程序执行情况来分配物理寄存器，灵活性和适应性。缺点：在复杂的处理器中实现难度较大，并且需要额外的硬件来支持乱序执行等技术。实现方式：超标量处理器可通过动态调度和重排序，以便发射并行指令序列。