

2.

考虑以下指令序列：

I1: ld a1,0(s1)  
 I2: mul a2,a0,a2  
 I3: add a1,a2,a2  
 I4: ld a2,0(s2)  
 I5: add a3,a1,a2  
 I6: sd a3,0(s3)

不必考虑内存地址的相关性，在下表中列出所有的数据依赖。

|    | I1  | I2  | I3  | I4  | I5  | I6 |
|----|-----|-----|-----|-----|-----|----|
| I1 | -   |     |     |     |     |    |
| I2 | \   | -   |     |     |     |    |
| I3 | WAW | RAW | -   |     |     |    |
| I4 | \   | WAW | \   | -   |     |    |
| I5 | RAW | RAW | RAW | RAW | -   |    |
| I6 | \   | \   | \   | \   | WAW | -  |

4. 流水线级数的适度加深一方面能够提高频率，但同时也会使流水线冲突的停顿代价变大，最终的性能变化是两者综合作用的结果。考虑两个处理器：处理器 A 有 1ns 时钟周期的 5 级流水线，平均每 5 条指令经历一周期停顿。处理器 B 有 0.6ns 时钟周期的 12 级流水线，平均每 8 条指令经历三周期停顿。

- 1) 处理器 B 相比处理器 A 的加速比是多少？
- 2) 若分支指令占所有指令类型的 20%，处理器 A 的错误预测代价为 2 周期，处理器 B 的错误预测代价为 5 周期。两处理器的错误预测率均为 5%。计算两处理器的 CPI。

解： $CPI_A = \frac{6}{5} = 1.2$

$$CPI_B = \frac{8+3}{8} = 1.375$$

$$(1) 加速比 S = \frac{CPI_A \times T_A}{CPI_B \times T_B} = \frac{1.2}{0.6 \times 5} = 145\%$$

$$(2) CPI_A' = 80\% CPI_A + 20\% CPI_A \times 15\% + 20\% \times 5\% \times 3 \\ = 0.96 + 0.228 + 0.03 = 1.218$$

$$CPI_B' = 80\% CPI_B + 20\% CPI_B \times 95\% + 20\% \times 5\% \times 6 \\ = 1.42125$$

6.

考虑如下所示的代码片段，假设 a2 寄存器的初值为 0，a3 寄存器的初值为 100。回答以下问题：

```

Loop: ld a1,0(a2) — I1
      addi a1,a1,1 — I2
      sd a1,0(a2) — I3
      addi a2,a2,4 — I4
      sub a4,a3,a2 — I5
      bne a4,Loop — I6
  
```

- 1) 列举代码中的数据相关，说明它们有可能导致什么类型的数据冲突（不考虑流水线级数）。

| (1) | I1      | I2      | I3  | I4  | I5  | I6 |
|-----|---------|---------|-----|-----|-----|----|
| 11  | -       |         |     |     |     |    |
| 12  | RAW/WAW | -       |     |     |     |    |
| 13  | RAW     | WAW/WAR | -   |     |     |    |
| 14  | WAR     | \       | WAR | -   |     |    |
| 15  | \       | \       | \   | RAW | -   |    |
| 16  | \       | \       | \   | \   | RAW | -  |

- 2) 考虑一个 5 级 RISC 流水线，该流水线不使用任何前馈硬件。假设 MEM 阶段均可在单个周期内完成，分支指令在 WB 阶段完成后取新指令。按照下表的格式补充表格，写出该代码段在一次循环中的完整执行时序，并计算执行完成所有循环共需要多少个时钟周期。

|              | 1  | 2  | 3  | 4   | 5  | 6  | 7   | 8  | 9  | 10  | I1  | I2 | I3 | I4  | I5 | I6 | I7  | I8 |
|--------------|----|----|----|-----|----|----|-----|----|----|-----|-----|----|----|-----|----|----|-----|----|
| ld a1,0(a2)  | IF | ID | EX | MEM | WB |    |     |    |    |     |     |    |    |     |    |    |     |    |
| addi a1,a1,1 |    | IF | ID | S   | S  | EX | MEM | WB |    |     |     |    |    |     |    |    |     |    |
| sd a1,0(a2)  |    |    | IF | S   | S  | ID | S   | S  | EX | MEM | WB  |    |    |     |    |    |     |    |
| addi a2,a2,4 |    |    |    |     |    | IF | S   | S  | ID | EX  | MEM | WB |    |     |    |    |     |    |
| sub a4,a3,a2 |    |    |    |     |    |    |     |    | IF | ID  | S   | S  | EX | MEM | WB |    |     |    |
| bne a4,Loop  |    |    |    |     |    |    |     |    |    | IF  | S   | S  | ID | S   | S  | EX | MEM | WB |

7.

仍考虑题 6 中的代码片段，假设 a2 寄存器的初值为 0，a3 寄存器的初值为 100。回答以下问题：

- 1) 考虑一个 5 级 RISC 流水线，该流水线拥有完整的前馈硬件。假设 MEM 阶段均可在单个周期内完成，分支指令在 WB 阶段完成后取新指令，重新写出该代码段在一次循环中的完整执行时序，并计算执行完成所有循环共需要多少个时钟周期。
- 2) 若在前馈硬件的基础上，该流水线存在一个工作于 IF 级的固定预测发生跳转且能记录跳转目标位置的分支预测器，此时执行完所有的循环需要的时钟周期变为多少？

| (2)          | 1  | 2  | 3  | 4   | 5  | 6   | 7   | 8   | 9   | 10  | I1 |
|--------------|----|----|----|-----|----|-----|-----|-----|-----|-----|----|
| ld a1,0(a2)  | IF | ID | EX | MEM | WB |     |     |     |     |     |    |
| addi a1,a1,1 |    | IF | ID | S   | EX | MEM | WB  |     |     |     |    |
| sd a1,0(a2)  |    |    | IF | S   | ID | EX  | MEM | WB  |     |     |    |
| addi a2,a2,4 |    |    |    |     | IF | ID  | EX  | MEM | WB  |     |    |
| sub a4,a3,a2 |    |    |    |     |    | IF  | ID  | EX  | MEM | WB  |    |
| bne a4,Loop  |    |    |    |     |    |     | IF  | ID  | EX  | MEM | WB |

共需要  $25 \times 1 = 275$  个时钟周期。

(2) 由于存在分支预测器，则 EX 级会知道跳转位置，则共需要  $14 \times 9 + 11 = 227$  个时钟周期。

8 / 仍考虑题 6 中的代码片段，假设 a2 寄存器的初值为 0，a3 寄存器的初值为 100。现有一个 10 级的深流水线，它将原来的 5 级 RISC 流水线的每一级拆分为两个阶段：IF1/IF2、ID1/ID2、EX1/EX2、MEM1/MEM2、WB1/WB2。前馈仅能将数据从两个阶段的第二阶段转发给需要它的第一阶段。例如从 MEM2 前馈到 EX1。静态分支预测器固定预测发生跳转。回答以下问题：

- 1) 按照下表的格式补充表格，写出该代码段在一次循环中的完整执行时序，并计算执行完成所有循环共需要多少个时钟周期。

|              | 1   | 2   | 3   | 4   | 5   | 6   | 7  | 8  | 9   | 10  | 11  | 12  | 13  | 14  | 15  | 16  | 17  | 18  | 19 | 20  | 21  | 22 | 23 | 24 |
|--------------|-----|-----|-----|-----|-----|-----|----|----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|----|-----|-----|----|----|----|
| ld a1,0(a2)  | IF1 | IF2 | ID1 | ID2 | EX1 | EX2 | M1 | M2 | WB1 | WB2 |     |     |     |     |     |     |     |     |    |     |     |    |    |    |
| addi a1,a1,1 |     | IF1 | IF2 | ID1 | ID2 | s   | s  | s  | EX1 | EX2 | M1  | M2  | WB1 | WB2 |     |     |     |     |    |     |     |    |    |    |
| sd a1,0(a1)  |     |     | IF1 | IF2 | ID1 | s   | s  | s  |     |     | I1b | EX1 | EX2 | M1  | M2  | WB1 | WB2 |     |    |     |     |    |    |    |
| addi a2,a1,4 |     |     |     | IF1 | IF2 | s   | s  | s  |     |     | I1d | IV2 | EX1 | EX2 | M1  | M2  | WB1 | WB2 |    |     |     |    |    |    |
| sub a4,a3,d2 |     |     |     |     | IF1 | s   | s  | s  |     |     | I2b | ID1 | s   | s   | IV2 | EX1 | EX2 | M1  | M2 | WB1 | WB2 |    |    |    |
| bne a4,Loop  |     |     |     |     |     |     |    |    |     |     | IF1 | IF2 | s   | s   | I2d | EX1 | EX2 | M1  | M2 | WB1 | WB2 |    |    |    |

完成所有循环共需  $24 \times 20 + 24 = 500$  个时钟周期。

(2) 计算与 6 题各情况下处理器的 CPI：

$$\text{总指令数} = 6 \times 25 = 150 \text{ 条}$$

$$\text{题 6: } CPI_6 = \frac{450}{150} = 3$$

$$\text{题 7: } CPI_{7(1)} = \frac{275}{150} \approx 1.83$$

$$\text{有缓存预测: } CPI_{7(2)} = \frac{227}{150} \approx 1.51$$

$$\text{题 8: } CPI_8 = \frac{500}{150} \approx 3.33$$

19. 基础的 5 级 RISC 流水线能够单周期完成 ID 阶段的前提是寄存器堆拥有至少 2 个读端口以同时读出 2 个源操作数。假设某个系统仅能使用具有单个读端口的寄存器堆，这将导致流水线面临结构冲突。为此，拥有两个源操作数寄存器的指令的 ID 阶段需要被拆分为两周期完成。单个源操作数寄存器指令则不受影响。

1) 标记下表中的指令是否需要两周期完成 ID 阶段。

|            | add | addi | ld | sd | bne | jal | jalr |
|------------|-----|------|----|----|-----|-----|------|
| 是否需要 2 周期？ | 是   | 否    | 否  | 是  | 是   | 否   | 否    |

2) 考虑以下指令序列：

Loop:    lw        a4,0(a3)  
             addw     a1,a4,a1  
             addiw    a2,a2-1  
             addiw    a3,a3,4  
             bnez     a2,Loop

若 a1 初值为 0, a2 初值为 N, 流水线无前馈，则在上述单个读端口寄存器堆系统中，循环单次迭代需要的周期数是多少？画出执行时序表。

3) 为流水线引入前馈，如果两个源操作数寄存器中的任意一个可以通过前馈而不是读寄存器堆得到，则即使寄存器堆只有一个读端口，ID 阶段仍然可以单周期完成。此时上述代码段单次迭代需要的周期数是多少？画出执行时序表。

解：(2) 单次迭代需要 12 个周期。

| lw a4,0(a3)   | IF | ID | EX | MEM | WB |     |     |     |    |     |    |
|---------------|----|----|----|-----|----|-----|-----|-----|----|-----|----|
| addw a1,a4,a1 |    | IF | ID | S   | EX | MEM | WB  |     |    |     |    |
| addiw a2,a2-1 |    |    | IF | S   | ID | EX  | MEM | WB  |    |     |    |
| addiw a3,a3,4 |    |    |    |     | IF | ID  | EX  | MEM | WB |     |    |
| bne2 a2,Loop  |    |    |    |     |    | IF  | ID  | S   | EX | MEM | WB |
|               | 1  | 2  | 3  | 4   | 5  | 6   | 7   | 8   | 9  | 10  | 11 |

(3) 此时上述代码段单次迭代需要的周期数为 10。

| lw a4,0(a3)   | IF | ID | EX | MEM | WB |     |     |     |     |    |  |
|---------------|----|----|----|-----|----|-----|-----|-----|-----|----|--|
| addw a1,a4,a1 |    | IF | ID | S   | EX | MEM | WB  |     |     |    |  |
| addiw a2,a2-1 |    |    | IF | S   | ID | EX  | MEM | WB  |     |    |  |
| addiw a3,a3,4 |    |    |    |     | IF | ID  | EX  | MEM | WB  |    |  |
| bne2 a2,Loop  |    |    |    |     |    | IF  | ID  | EX  | MEM | WB |  |
|               | 1  | 2  | 3  | 4   | 5  | 6   | 7   | 8   | 9   | 10 |  |