

| 9. 1) 指令        | 发射周期  | 执行完毕周期 | 全数               |
|-----------------|-------|--------|------------------|
| fld f2,0(a0)    | 1     | 4      | (00,0,4,15)      |
| fdiv.d f8,f0,f2 | 5     | 15     | (01,0,15,15)     |
| fmul.d f2,f6,f2 | 16    | 20     | (01,0,15,15)     |
| fld f4,0(a1)    | 17    | 20     | (01,0,15,15)     |
| fadd.d f4,f0,f4 | 21    | 23     | fadd.d f10,f8,f2 |
| fsd f10,0(a0)   | 22 25 | 23 26  | (01,0,15,15)     |
| fsd f4,0(a1)    | 23 26 | 24 27  | 22 24            |
| addi a0,a0,8    | 24 27 | 24 27  | (01,0,15,15)     |
| addi a1,a1,8    | 25 28 | 25 28  | (01,0,15,15)     |
| sub x20,x4,a0   | 26 29 | 26 29  | (01,0,15,15)     |
| bnez x20, Loop  | 27 30 | 28 31  | (01,0,15,15)     |
| 故一次迭代需 28 个周期   | 31    |        |                  |

| 2) 指令            | 发射周期  | 执行完毕周期 | 全数           |
|------------------|-------|--------|--------------|
| fld f2,0(a0)     | 1     | 4      | (00,0,4,15)  |
| fdiv.d f8,f0,f2  | 5     | 15     | (01,0,15,15) |
| fmul.d f2,f6,f2  | 5     | 9      | (01,0,15,15) |
| fld f4,0(a1)     | 6     | 9      | (01,0,15,15) |
| fadd.d f4,f0,f4  | 10    | 12     | (01,0,15,15) |
| fadd.d f10,f8,f2 | 16    | 18     | (01,0,15,15) |
| fsd f10,0(a0)    | 19 28 | 20     | 故            |
| fsd f4,0(a1)     | 19 29 | 20     | 一次迭代         |
| addi a0,a0,8     | 20    | 20     | 需 23 个周期     |
| addi a1,a1,8     | 20    | 20     |              |
| sub x20,x4,a0    | 21    | 21     |              |
| bnez x20, Loop   | 22    | 23     |              |

| 3) 指令            | 发射周期 | 执行完毕周期 | 全部          |
|------------------|------|--------|-------------|
| fld f2,0(a0)     | 1    | 4      | (00)0.3 bit |
| fdiv.d f8,f0,f2  | 5    | 15     | 0.87 bit    |
| fmul.d f2,f0,f2  | 5    | 9      | 0.4 bit     |
| fld f4,0(a1)     | 6    | 9      | (10)0.3 bit |
| fadd.d f4,f0,f4  | 10   | 12     | 0.87 bit    |
| fsd f4,0(a1)     | 13   | 14     | 0.0001 bit  |
| addi a1,a1,8     | 13   | 13     | (10)0.3 bit |
| fadd.d f10,f8,f2 | 16   | 18     | 0.87 bit    |
| fsd f10,0(a0)    | 19   | 20     | 0.1010 bit  |
| addi a0,a0,8     | 19   | 19     | 0.0001 bit  |
| sub x20,x4,a0    | 18   | 20     | 0.0010 bit  |
| bnez x20,Loop    | 21   | 22     | 0.0001 bit  |

一次迭代需 22 个周期.

| 10. Loop:                       | 使用半字操作 | 使用锁步 | 全部          |
|---------------------------------|--------|------|-------------|
| fld T9,0(a0)                    | 1      |      | (00)0.3 bit |
| fmul.d T10,f0,f2                | 2      |      | 0.87 bit    |
| fdiv.d T11,T9,T10               | 2      |      | 0.4 bit     |
| fld T12,0(a1)                   | 3      |      | (10)0.3 bit |
| fadd.d T13,f0,T12               | 4      |      | 0.87 bit    |
| fsub.d T14, <del>T10</del> ,T13 | 5      |      | 0.87 bit    |
| fsd T15,0(a1)                   | 6      |      | (10)0.3 bit |

11. 区别：显式重命名提供更多的物理寄存器，而隐式重命名把推测值暂存在重排序缓冲区中。

优缺点：显式重命名需要的物理寄存器比隐式更多

隐式重命名的操作数在其生命周期中需要保存在ROB和ARF两个位置，读取数据的复杂度高、功耗更高

可能的实现方式：

显式：map\_table 记录逻辑寄存器与物理寄存器间的映射关系

free-list 记录物理寄存器的空闲状态

busy-table 记录寄存器是否可读

隐式：ROB 保存正在执行、尚未提交的指令的结果

ARF 保存已提交的指令中即将写入寄存器的值。