

A: 地址匹配控制，控制块配置寄存器匹配物理地址的模式和范围。 因为基址连续访问，则利用访问速度更快的优势，可大大提升处理器的访存性能。但若在大范围内反向跳跃访问，则因缓存缺失带来的额外开销反而会降低访存性能。因此在程序设计时需考虑

5. (1)  $\frac{2^{64}}{2^{12}} \times 8 = 2^{55} B$   
 $= 32 PB$

(2)  $\frac{2^{48}}{2^{12}} \times 8 = 2^{39} B$   
 $= 512 GB$

局部性原理以加快运行速度。

4) 设命中率 P。若要得收益，需：

$$P \cdot 1 + (1-P) \cdot 110 < 105$$

(3) 将地址不同位段拆入不同级的表项管理。  $P > 4.59\%$

减少了对高位地址映射信息的重复存储。

### 9. 偏移、组数量、索引位数、标签位数、偏移位数

|                                                              |   |     |   |    |   |
|--------------------------------------------------------------|---|-----|---|----|---|
| 6. 由于空间局部性，程序集中访问相邻地址。若用全连接方式，相邻地址空间位数一致，冲突的概率大大增加，缓存无法发挥作用。 | 1 | 32  | 5 | 21 | 6 |
|                                                              | 2 | 8   | 3 | 23 | 6 |
|                                                              | 3 | 1   | 0 | 26 | 6 |
|                                                              | 4 | 256 | 8 | 18 | 6 |

|                                                                |   |     |   |    |   |
|----------------------------------------------------------------|---|-----|---|----|---|
| 7. 程序通过虚拟地址访存，因而也需从虚拟地址出发来读取缓存。若两者位数相同，则虚拟地址至缓存地址的转换简便，提高访存速度。 | 5 | 64  | 6 | 19 | 7 |
|                                                                | 6 | 256 | 8 | 18 | 6 |
|                                                                | 7 | 64  | 6 | 20 | 6 |
|                                                                | 8 | 32  | 5 | 20 | 7 |

8. 1)  $1 \times 0.97 + 110 \times 0.03 = 4.27$

平均访问延时为 4.27 周期。

10. 1)  $0.22 + 100p_1 < 0.52 + 100p_2$

2) 命中率中半  $P = \frac{64 KB}{1 GB} = \frac{1}{16384}$

$$p_1 < p_2 + 0.003$$

$\therefore T = 1 \times \frac{1}{16384} + 110 \times \frac{16383}{16384} = 109.993$   $\therefore$  当  $p_1$  比  $p_2$  高 0.3% 以内时，A 优于 B。

平均访问延时为 109.993 周期

2)  $0.22(1+k_p) < 0.52(1+k_p)$

3) 若访存具有良好的空间局部性，集中在某一小范围。当  $p_1 < \frac{15}{11}k_p + \frac{26}{11}p_2$  时，A 优于 B。



11. 直接映射：16个组，以16进制最低位为索引。65~96位按直接映射原则，替换1~32位，缺失8次  
共请求2次0x1，5次0x5，且标签各不相同。此后遍历第二次，1~32位直接映射，替换65~96位，  
替换5次。但33~64位不被替换，全部命中。

2路组相联：8组，每组2路，以索引地址低3位 第2~100次遍历，缓存前8组依次被1~32位  
为索引。共请求2次001，5次101。前2次不 和65~96位占据，第9~16组固定被33~64位占  
替换，后续均需替换。  
替换3次。  
B缺失率为  $\frac{24 + 99 \times 16}{96 \times 100} = 16.75\%$

4路组相联：4组，每组4路，低2位为索引。

请求7次均为01，前4次不替换。

替换3次。

13. for (int j=0; j<128; ++j) {

for (int i=0; i<64; ++i), }  
将i在内层循环，使访问地址更连续。

8路组相联：2组，每组8路，最低位索引

请求7次均为1，共8路，均不替换。

替换0次。

对数组完整遍历， $A[j][i] = A[j][i] + 1;$

12. 顺序遍历，96位数组100次，均进行一次写操作。14. 假设数组为 $14 \times 128$ 位的二维数组，代码  
数组每位宽  $\frac{32}{8} = 4$ 字节 对数组完整遍历。

A：首次加载  $\frac{256}{32} = 64$  次后缓存满，缺失  $\frac{256}{32} = 16$  次。  
(1) int 为4字节，每块可存8位，整个缓存可存 1024 位。

剩余32次加载恰好替换完一路，按LRU规则，优化前：每读写一次，下次读写64位后的值。

替换1~32位，缺失8次。

前16次读写均位于不同块内，缺失16次。

第三次遍历，按LRU原则，第二路被替换为1~32位，此后偏移量相同，缓存均被替换。

此后第一路被替换为33~64位，第二路换为65~96位。

二、每读写一次均缺失一次。

交替进行至100次遍历完毕，每32次访存均缺失8次。

优化前缺失  $128 \times 64 = 8192$  次。

$\therefore A$  缺失率为  $\frac{8}{32} = 25\%$

优化后：顺序访问，每1024次读写缺失  $\frac{4 \times 8}{32 \times 8} = 128$  次。

B：首次加载64次后缓存满，缺失16次。

优化后缺失  $\frac{128 \times 64}{1024} \times 128 = 1024$  次。



(2) 优化前：缓存共 128 块，内层循环第一次刚好装满。此后依次读写每块内的第 2~8 位，无缺失，即可满足需求。全部缺失均为首次访问时的外部遍历完该块后，需整体替换。  
每读写 1024 次缺失 128 次，共缺失 1024 次。存储大小无法改善命中率。

优化后：顺序访问，每读写 1024 次缺失 128 次。

共缺失 1024 次。

(3) 优化前：内循环一次加载 128 块，均会被重

复访问 8 次。在直接映射下还需确保均被映射至不同位置，因此缓存容量应与数组容量相当。

共  $128 \times 64 \times 4B = 32KB$

优化后：连续访问，不重复读写同一块内的数据，故一块缓存即可。

需 32B。

| 15. | input |      |      |      | output |      |      |      |
|-----|-------|------|------|------|--------|------|------|------|
|     | 0     | 1    | 2    | 3    | 0      | 1    | 2    | 3    |
|     | miss  | miss | hit  | miss | miss   | miss | miss | miss |
|     | 1     | miss | hit  | miss | hit    | miss | miss | miss |
|     | 2     | miss | miss | hit  | miss   | miss | miss | miss |
|     | 3     | miss | hit  | miss | hit    | miss | miss | miss |

16. (1) 缓存共 16 组，每组 2 路

$input[i][i]$  地址比  $input[0][i]$  高  $128 \times 4$  字节。

因此每次存入同一组的不同路中。

此后各块顺序访问，完成后加载下两块。

每读存 4 次缺失 1 次。

命中率为 75%。

