

3.9<sup>“”</sup>  $f1d\ 4; fdiv.d\ 110; fmul.d\ 25$  ( $f1d$  可跳行);  $fadd.d\ 1 \times 2;$   
后面写入无延时，故只需  $4+11+5+2+10 = 32$  个周期。

(2) 无双流水线时的数据局部冲突，改用指令并行，共需 24 个周期即可完成。

(3)  $f1d\ f_2, 0(a_0);$

$f1d\ f_4, 0_0(a_1);$

$fdiv.d\ f_8, f_0, f_2$  共需 21 周期

$fmul.d\ f_2, f_6, f_2$

~~$f1d$~~   $f_4, 0_1(a_1);$

~~$f1d$~~   $f_4, f_0, f_4;$

$fadd.d\ f_{10}, f_8, f_2;$

$addi\ a_1, a_1, 8;$

$fsd\ f_{10}, 0(a_0);$

$addi\ a_0, a_0, 8;$

$sub\ X_{20}, X_4, a_0;$

$bnez\ X_{20}, Loop.$

3.10 从 T9 开始循环。

Loop:  $f1d\ T_9, 0(a_0);$

$fmul.d\ T_{10}, T_9, T_2;$

$fdiv.d\ T_{11}, T_9, T_{10};$

$f1d\ T_{12}, 0(a_1);$

$fadd.d\ T_{13}, T_0, T_{12};$

$fsub.d\ T_{14}, T_{11}, T_{13};$

$fsd\ T_{14}, 0(a_1);$

3.11 { 是共享名：指令中使用物理寄存器名

| 路径名：使用逻辑寄存器名。

前者可提高指令并行性，减少指令间依赖关系，但操作不便。

后者可提高编译器移植性，但需要寄存器可动态分配名。