

|                                              |           |
|----------------------------------------------|-----------|
| 9.(1) 忽略了前端的取指和译码 暂停发射时无法正常流水                | (2) 双发射周期 |
| fld f2,0(a0) (4) 1234                        | 暂停        |
| fdiv.d f8,f0,f2 (11) (RAW) 56789101112131415 | 暂停        |
| fmul.d f2,f6,f2 (5) (未冲突) 678910             | 暂停        |
| fld f4,0(a1) (4) 78910                       | 暂停        |
| fadd.d f4,f0,f4 (3) (RAW) 111213             | 暂停        |
| fadd.d f10,f8,f2 (3) (RAW) 161718            | 暂停        |
| fsd f10,0(a0) (2) (RAW) 1920                 | 暂停        |
| fsd f4,0(a1) (2)                             | 2021      |
| addi a0,a0,8 (1)                             | 21        |
| addi a1,a1,8 (1)                             | 22        |
| sub x20,x4,a0 (1)                            | 23        |
| bnez x20,Loop (2)                            | 2425      |
| 如上，共25个周期                                    |           |

|                                              |            |
|----------------------------------------------|------------|
| 9.(2) 双发射一个周期可发射两条指令且只有RAW冲突两条流水线            |            |
| fld f2,0(a0) (4) 1234                        |            |
| fdiv.d f8,f0,f2 (11) (RAW) 56789101112131415 |            |
| fmul.d f2,f6,f2 (5) (双发射) 56789              |            |
| fld f4,0(a1) (4) 6789                        |            |
| fadd.d f4,f0,f4 (3) (RAW) 101112             |            |
| fadd.d f10,f8,f2 (3) (RAW) 161718            |            |
| fsd f10,0(a0) (2) (RAW) 1920                 |            |
| fsd f4,0(a1) (2) (双发射) 1920                  |            |
| addi a0,a0,8 (1)                             | 20         |
| addi a1,a1,8 (1)                             | 20         |
| sub x20,x4,a0 (1)                            | 21         |
| bnez x20,Loop (2)                            | (RAW) 2223 |
| 如上，需要23个周期，因为数据冲突要割让太多导致双发射优势体现不明显           |            |

(3) 改变顺序：

fld f<sub>2</sub>, 0(a<sub>0</sub>) 1234

fld f<sub>4</sub>, 0(a<sub>1</sub>) 1234

fdiv.d f<sub>8</sub>, f<sub>0</sub>, f<sub>2</sub> 56789101112131415

fmul.d f<sub>2</sub>, f<sub>6</sub>, f<sub>2</sub> 56789

fadd.d f<sub>4</sub>, f<sub>0</sub>, f<sub>4</sub> 678

fsd f<sub>4</sub>, 0(a<sub>1</sub>) 910

addi a<sub>1</sub>, a<sub>1</sub>, 8 9

fadd.d f<sub>0</sub>, f<sub>8</sub>, f<sub>2</sub> 161718

fsd f<sub>0</sub>, 0(a<sub>0</sub>) 1920

addi a<sub>0</sub>, a<sub>0</sub>, 8 19

sub X<sub>20</sub>, X<sub>4</sub>, a<sub>0</sub> 20

bnez X<sub>20</sub>, Loop 21 22

如上，最少需 22 个周期（关键路径决定）

10. fld T<sub>9</sub>, 0(a<sub>0</sub>)

fmul.d T<sub>10</sub>, T<sub>0</sub>, T<sub>2</sub>

fdiv.d T<sub>11</sub>, T<sub>9</sub>, T<sub>10</sub>

fld T<sub>12</sub>, 0(a<sub>1</sub>)

fadd.d T<sub>13</sub>, T<sub>0</sub>, T<sub>12</sub>

fsub.d T<sub>14</sub>, T<sub>11</sub>, T<sub>13</sub>

fsd T<sub>15</sub>, 0(a<sub>1</sub>)

11. 区别：隐式重命名不需要 free-list 来记录物理寄存器状态，指令被写进 ROB 即完成重命名，其中 ARF 用于保存已经提交的指令值，而 ROB 保存处于推测状态的指令值；显式重命名中 ROB 不记录指令的值，即把提交的数据和处于推测的数据均保存在物理寄存器。优缺点：隐式重命名所需物理 register 与逻辑 register 数量相同，但其读取数据的复杂度和功耗更高；显式重命名需要增加物理寄存器，读取和硬件实现的逻辑简单。  
实现方式：显式重命名通过另外增加硬件实现，隐式重命名增加 ARF (ISA Register File)、映射表（记录操作数在 ROB 位置）来实现。