

第13周 5.16

(第5题见上次练习)

6. 因为使用高位作索引位时，相邻地址的内存块会被映射到缓存的同一组。若按顺序访问内存中的块，则缓存将长时间只保一个块的大小，使用效率很低。

7. ①简化地址转换：由虚拟内存系统将地址空间分成了大小相同的页面，因此可以使用相同方式处理缓存地址，使得缓存地址的计算更加直观、简单。 ②减少地址冲突：~~将地址的组索引~~使地址空间的划分更加均匀，降低地址冲突的概率。 ③提高缓存的性能：使缓存的访问更加高效。实现缓存时，可以利用虚拟内存系统的页表来优化缓存的访问，从而提高缓存的性能。 ④简化硬件实现：可以共用相同的硬件模块来处理虚拟内存和缓存，从而降低了硬件实现的复杂度。

8.(1)  $T_1 = \frac{(1-R)t}{M} + M \times p = 4.27$  周期

(2)  $R = \frac{64}{1024 \times 1024} = 0.00006 \quad T_2 = Rt + (1-R) \times P \approx 110$  周期

(3) 由于局部性原理的存在，即~~处理器~~空间局部性和时间局部性，~~由于~~尽管缓存 L1 大小远小于内存，但其存储的内容命中率较高（(1)题结果）；但在处理完全~~数据~~随机访问性质的程序时，局部性原理失效，命中率从题(1)中的 97% 下降至不到 1%，缓存的作用也大幅下降。也就是说，当局部性原理生效时，缓存的命中率相应提高，处理器访存性能也提高。

(4)  $T(R) = Rt + (1-R)P = 110 - 109R < 105 \quad \therefore R > \frac{5}{109} \approx 0.04587$

∴ 当平均缓存命中率大于 4.587% 时，才有性能收益。



扫描全能王 创建

|   | Bit<br>地址位数 | KB<br>缓存大小 | Byte<br>块大小 | 相联度 | 组数              | Bit<br>组索引数 | Bit<br>快表索引 | Bit<br>快表组数 |
|---|-------------|------------|-------------|-----|-----------------|-------------|-------------|-------------|
| 1 | 32          | 4          | 64          | 2   | $(2^2)2048$     | 11          | 15          | 6           |
| 2 | 32          | 4          | 64          | 8   | $(2^9)512$      | 9           | 17          | 6           |
| 3 | 32          | 4          | 64          | 全   | 1               | 0           | 26          | 6           |
| 4 | 32          | 16         | 64          | 1   | $(2^{14})16384$ | 14          | 12          | 6           |
| 5 | 32          | 16         | 128         | 2   | $(2^{13})8192$  | 13          | 12          | 7           |
| 6 | 32          | 64         | 64          | 4   | $(2^{14})16384$ | 14          | 12          | 6           |
| 7 | 32          | 64         | 64          | 16  | $(2^{12})4096$  | 12          | 14          | 6           |
| 8 | 32          | 64         | 128         | 16  | $(2^{12})4096$  | 12          | 13          | 7           |

$$10. (1) T_A = t_A(1-P_1) + tP_1 = 0.22 + 99.78P_1$$

$$T_B = t_B(1-P_2) + tP_2 = 0.52 + 99.48P_2$$

$$\therefore T_A < T_B \quad \therefore 99.78P_1 < 0.3 + 99.48P_2 \quad \text{因为 } (P_1 - P_2) < 0.003$$

$$(2) T'_A = t_A(1-P_1) + k t_A P_1 = 0.22 [1 + (k-1)P_1]$$

$$T'_B = t_B(1-P_2) + k t_B P_2 = 0.52 [1 + (k-1)P_2]$$

$$\therefore T'_A < T'_B \quad \therefore 11[1 + (k-1)P_1] < 26[1 + (k-1)P_2]$$

11. 直接映射:  $N=7<16$   $\therefore$  替换0次

~~这7个数转换为10进制分别为 4097, 4101, 4129, 4165, 4869, 12005, 65285~~

~~转换为 1, 5, 33, 69, 773, 741, 773~~

2路组相联:  $\frac{16}{2}=8$  故该组相联模8的值为 1, 5, 1, 5, 5, 5, 5, 5

4路组相联:  $\frac{16}{4}=4$   $\therefore$  4路的为 1, 1, 1, 1, 1, 1, 1, 1

8路组相联:  $\frac{16}{8}=2$   $\therefore$  2路的为 1, 1, 1, 1, 1, 1, 1, 1

(5-2)

故替换3次

(7-4)

故替换3次

(7-8)

故替换0次



12. A. 共  $\frac{256}{16 \times 2} = 8$  组 每个块存储  $\frac{16}{4} = 4$  个整型  
∴ 共需  $\frac{96}{4} = 24$  个块  $24 \div 8 = 3 \dots 0$

∴ 分为前 32 中 32 后 32 考虑

对每个块 错失率为  $\frac{1}{4} = 25\%$

而每个块数据存储逻辑相同

∴ 错失率为 25%



B. 共  $\frac{256}{16} = 16$  组 每个块 4 个整型  
 $24 \div 16 = 1 \dots 8$

每一次 i 改变时缓存中哪个块能命中



$$\text{错失率} = \frac{2}{3} \times 25\% + \frac{1}{3} \times \frac{1024}{768} = 16.75\%$$

13. for (int j=0; j<128; ++j)  
for (int i=0; i<64; ++i)  
A[j][i] = A[j][i] + 1;

}

+

14. (1) 共  $\frac{4 \times 1024}{32} = 128$  组 优化前每次 i, j 改变均缺长 ∴ 错失  $64 \times 128 = 8192$  次

一个块存储  $\frac{32}{4} = 8$  个整型 优化后 i, j 改变时每块共 1 次命中 7 次 ∴ 错失  $\frac{64 \times 128}{8} = 1024$  次

(2) 共 1 组 128 块 共需  $\frac{64 \times 128}{8} = 1024$  块

对优化后无影响仍为 1024 次，优化前在缺失 64 次后命中  $64 \times 7$  次，故缺失  $\frac{8192}{8} = 1024$  次

(3) 优化后需  $8 \times 128$  个块 缓存大小为  $8 \times 128 \times 32 = 32$  KB

优化前需 优化后而节省 共 8MB



扫描全能王 创建

15.

|    | input 数组 |     |     |     | output 数组 |      |      |      |
|----|----------|-----|-----|-----|-----------|------|------|------|
|    | 列0       | 列1  | 列2  | 列3  | 列0        | 列1   | 列2   | 列3   |
| 行0 | miss     | hit | hit | hit | miss      | miss | miss | miss |
| 行1 | miss     | hit | hit | hit | miss      | miss | miss | miss |
| 行2 | miss     | hit | hit | hit | miss      | miss | miss | miss |
| 行3 | miss     | hit | hit | hit | miss      | miss | miss | miss |

16. (1) 一个块共  $\frac{16}{4} = 4$  个整型 共  $\frac{112}{16 \times 2} = 16$  个组 需  $\frac{2 \times 128}{4} = 64$  个块

二、命中率为  $1 - \frac{1}{4} = 75\%$

(2) 增加缓存的总大小 不可以改善命中率。因为每个块都存储着 4 个 int 变量的值，意味着在每次缓存缺失的下三次都将命中，而缓存总大小对此没有影响。

(3) 增加缓存的块大小可以改善命中率。因为增加块大小使每个块中的 int 变量增加，缓存缺失后的命中数增加，命中率增加。



扫描全能王 创建