

## 嵌入式第十周作业

3. 如果不同的虚拟地址页都映射到不同物理地址页，则下列存储一加载指令对是否可能产生数据依赖？而当不同的虚拟地址页可被映射到相同的物理地址页，页大小为4KB，呢？

- 解：①  $sd\ a_2, 0(a_0)$  当不同的虚拟地址页都映射到不同的物理地址页，  
 ②  $ld\ a_3, 0(a_1)$  ③  $ld\ a_3, 0(a_1)$  ④  $ld\ a_3, 4(a_1)$  小写③，均不可能发生数据依赖；当不同的虚拟地址页可被映射到相同的物理地址页时，小写④可能发生数据依赖，条件是  $a_0, a_1$  映射到同一物理地址页；②, ③ 都可能  
 ⑤  $sd\ a_2, 0(a_0)$  能发生数据依赖，条件同小写④。  
 ⑥  $ld\ a_3, 4096(a_1)$

5. 考虑一个深度流水线处理器，不分支指令时其基本CPI为1.方案A（对子分支指令）：分支目标缓存(BTB)，缓存缺失代价为额外3个周期。缓存命中但预测错误的代价是额外4个周期，缓存命中且预测正确则不分支代价。命中率、预测正确率均为90%。方案B：不使用分支预测，分支代价为固定额外2个周期。假设分支频率为所有指令的15%，则A比B快多少？

解：无分支指令时， $CPI = (N+k-1)/N = 1$ . ( $N \gg k$ )

$$CPI_A = [N+k-1 + 15\%N(1-90\%) \cdot 3 + 15\%N \cdot 90\% \cdot (1-90\%) \cdot 4] / N = 1.099$$

$$CPI_B = (N+k-1 + 15\%N \cdot 2) / N = 1.3$$

$$S = \frac{CPI_B}{CPI_A} = \frac{1.3}{1.099} = 1.18 \quad \text{即 A 比 B 快 } 1.18$$

13. 解：① 该代码段的PC范围为  $0x024 \sim 0x060$ .

$$(24)_{16} = (100100)_2, (c_0)_{16} = (11000000)_2$$

于是取  $\lceil \log_2 5 \rceil$  共5位， $k$  的最小值为5。

②  $B_1$  处： $N \geq 2$ .  $B_2$  处： $N \geq 1$  ,  $B_3$  处： $N \geq 1$

$\therefore N$  最小值为 2

③  $B_1 : 50\%$ ,  $B_2 : 80\%$ ,  $B_3 : 100\%$

14. 引入局部分支历史：假设  $\alpha$  值足够大，映射到不同位置。为了使三条 bne 指令都能在程序状态时被完全准确地预测， $M$  最小值是多少？

解： $B_1$ :  $M$  最小值为 1

执行序列

0101010...

$B_2$ :  $M$  最小值为 4

01110111...

$B_3$ :  $M$  最小值为 1。

111111...

$\therefore M$  最小值为 4。

15. 引入全局分支历史。为了使三条 bne 指令都能在程序状态时， $M$  最小值是多少？

解：执行序列为：00111011110111010111101111...

其中最长的单数字序列是 1111 为 5 位， $\therefore BHR$  最小位数实现完美预测的最小位数为 5，即  $M$  的最小值为 5。

16. 试分析当  $P$  和  $Q$  满足什么数值关系时，方案 A 预测准确率优于 B？

解：方案 A：  
 $\underbrace{TTT \dots TTN}_{Q^P} | \underbrace{TTT \dots T\bar{T}N}_{Q^P} | TT \dots$

预测器 0111...111 | 011...111; 01

$$\text{准确率为 } P \times (\frac{Q}{Q+1}) \div [P \times (Q+1)] = \frac{Q}{Q+1}$$

方案 B：  
 $\underbrace{TTT \dots TTN}_{Q^P} | \underbrace{TTT \dots T\bar{T}N}_{Q^P} | \bar{T}T$

BHR: 111...10 | 111...110; 11...

预测 XX...XX0 | 000...000 | 11...

$$\text{准确率为 } [1 + (P-2) \times (Q+1)] \div [(P-1) \times (Q+1) + 1]$$

$$\therefore \text{当 } \frac{Q}{Q+1} > \frac{1 + (P-2)(Q+1)}{1 + (P-1)(Q+1)} \Rightarrow \frac{Q}{Q+1} > \frac{1 + PQ + P - 2Q - 2}{1 + PQ + P - Q - 1}$$

$$\text{得 } Q^2 + 4Q - 2PQ - 2P + 1 > 0 \quad \text{近似于 } P > Q$$

17. 解：(1) B1处：N T N T N T N T

00 00 01 00 01 00 01 00

错误4次

B2处：T T T T T T T T N

00 01 10 11 11 11 11 11

错误3次

共错误7次

(2) 引入n位全局分支历史：

锅：N T T T N T T T N T T N

X 0 1 1 1 0 1 1 1 0 1 1 1 0 1 1

X 00 00 01 10 01 01 10 11 11 11 10 11

错误9次

(3) 2位全局分支历史：

锅：N T T T N T T T N T T

GHR X X 01 11 11 10 01 11 11 10 01 11 11 10 01

预测器 X X 00 00 01 00 01 00 01 01 10 00 01 10 11

共有7个错误

4) ① 该情况下，锅令分支历史表的位数越多，预测准确率越高，位数 $\geq 3$ 时达到完美预测。

② n非常大时，锅中的2位全局分支历史表配合2位饱和计数器的预测器表现最好。

③ 当数组PC的数据模式变为在0和1之间以均等概率随机取时：

结论④ 位数少更准确，且结论也变局部预测器表现更好。

18. 顺序 5 级 PISO 流水线中，指令异常也可能会乱序产生？为了支持精确的异常处理，流水线是如何做到对乱序产生的异常进行（按程序顺序）顺序处理的？

小 在同一时刻，多个指令可能同时在流水线中不同的阶段执行，因此指令的执行顺序是乱序的。当执行指令异常时，处理异常程序需立即执行，以确保正确性。

而为了支持精确的异常处理，处理程序对乱序生的顺序处理。即乱序执行指令“技术”，暂停处理流水线中指令。一旦异常指令被执行，停止顺序，执行异常。在处理完异常后，恢复正常状态。处理器会清空流水线中所有排队指令，重新开始。

## 20. 带有浮点单元的单发射乱序处理器：

- 解：(a) 处理器的浮点单元包含一个2运算周期的加法器，一个10运算周期的乘法器，和一个单执行周期的浮点加载/存储单元，加法器和乘法器是完全流水化的。
- (b) 当发生写回冲突时，更早的指令会获得优先写回权。
- (c) 浮点指令的结果只能在写回阶段完成后被其它指令使用，整数指令的结果则可以前读。
- (d) 处理器使用带有累加重命名，从T<sub>0</sub>、T<sub>1</sub>、T<sub>2</sub>起有不受限制的重命名寄存器可用。
- (e) 译码级每周期可以将当一条重命名指令添加到ROB中，指令通过ROB顺序提交且每周期提交1条指令。
- (f) 忽略前端取消，指令经过译码、发射、执行和写回即可完成执行并提交。

1) 如果 ROB 的深度是无限的，将下表补充完全。(部分结果已给出)

|    | 周期                      |       |    |           | 操作码    | 目标             | 源 1            | 源 2            |
|----|-------------------------|-------|----|-----------|--------|----------------|----------------|----------------|
|    | Decode<br>(ROB enqueue) | Issue | WB | Committed |        |                |                |                |
| I1 | 0                       | 1     | 2  | 3         | fld    | T <sub>0</sub> | a0             | —              |
| I2 | 1                       | 3     | 13 | 14        | fmul.d | T <sub>1</sub> | T <sub>0</sub> | f0             |
| I3 | 2                       | 14    | 16 | 17        | fadd.d | T <sub>2</sub> | T <sub>1</sub> | —              |
| I4 | 3                       | 4     | 5  | 18        | addi   | T <sub>3</sub> | a0             | —              |
| I5 | 4                       | 5     | 6  | 19        | fld    | T <sub>4</sub> | T <sub>3</sub> | —              |
| I6 | 5                       | 14    | 24 | 25        | fmul.d | T <sub>5</sub> | T <sub>4</sub> | T <sub>4</sub> |
| I7 | 6                       | 25    | 27 | 28        | fadd.d | T <sub>6</sub> | T <sub>5</sub> | T <sub>2</sub> |

2) 如果 ROB 仅容纳 2 条指令，当一条指令提交后的下一周期该条目可以被新指令占据。重新将下表补充完全。(部分结果已给出)

|    | 周期                      |       |    |           | 操作码    | 目标             | 源 1            | 源 2            |
|----|-------------------------|-------|----|-----------|--------|----------------|----------------|----------------|
|    | Decode<br>(ROB enqueue) | Issue | WB | Committed |        |                |                |                |
| I1 | 0                       | 1     | 2  | 3         | fld    | T <sub>0</sub> | a0             | —              |
| I2 | 1                       | 3     | 13 | 14        | fmul.d | T <sub>1</sub> | T <sub>0</sub> | f0             |
| I3 | 4                       | 14    | 16 | 17        | fadd.d | T <sub>2</sub> | T <sub>1</sub> | f0             |
| I4 | 5                       | 16    | 17 | 18        | addi   | T <sub>3</sub> | a0             | —              |
| I5 | 8                       | 19    | 20 | 21        | fld    | T <sub>4</sub> | T <sub>3</sub> | —              |
| I6 | 19                      | 21    | 31 | 32        | fmul.d | T <sub>5</sub> | T <sub>4</sub> | T <sub>4</sub> |
| I7 | 22                      | 32    | 34 | 35        | fadd.d | T <sub>6</sub> | T <sub>5</sub> | T <sub>2</sub> |