

6. 解：<sup>两个</sup>对地址相差一个块大小或不是很大的时候，采用高地址位作索引就会导致映射到同一组中，如果刚好程序对这几个相邻数据来回访问，则造成抖动。但如果是采用中位作索引，就会映射到不同组中。

7. 解：CPU向缓存发出的是虚拟地址，因此到达缓存前需先翻译为物理地址，为了减少命中时间，可以采用索引是物理地址，标签是物理地址的缓存，所以在标签翻译为物理页号同时，索引位在缓存中索引组的位置；所以此时索引位和块内偏移应等于物理偏移位数，否则命中时间会增加。

8. 解 小  $1 \times 97\% + 110 \times 3\% = 4.27$  个周期

(3) 命中率为  $\frac{64KB}{1GB} = \frac{2^{16}}{2^{30}} = \frac{1}{2^{14}}$

延时为  $1 \times \frac{1}{2^{14}} + 110 \times (1 - \frac{1}{2^{14}}) = 109.99$  个周期

(3) 当程序完全随机时，这时缓存几乎每次访问都使缺失，命中率很低，无法利用局部性，而当程序有局部性后，可能很多访问的数据会被多次，

缓存保存这些数据，命中率提高，访问延时降低

(4) 设命中率为 A  $1 \times A + 110 \times (1-A) < 105$

$A \geq 4.59\%$  时，L1 有收益

9. 解 组数量 组索引位数 Bit 标签位数 Bit 偏移位数 Bit

|   |    |   |    |   |
|---|----|---|----|---|
| 1 | 32 | 5 | 21 | 6 |
|---|----|---|----|---|

|   |   |   |    |   |
|---|---|---|----|---|
| 2 | 8 | 3 | 23 | 6 |
|---|---|---|----|---|

|   |   |   |    |   |
|---|---|---|----|---|
| 3 | 1 | 0 | 26 | 6 |
|---|---|---|----|---|

|   |     |   |    |   |
|---|-----|---|----|---|
| 4 | 256 | 8 | 18 | 6 |
|---|-----|---|----|---|

|   |    |   |    |   |
|---|----|---|----|---|
| 5 | 64 | 6 | 19 | 7 |
|---|----|---|----|---|

|   |     |   |    |   |
|---|-----|---|----|---|
| 6 | 256 | 8 | 18 | 6 |
|---|-----|---|----|---|

|   |    |   |    |   |
|---|----|---|----|---|
| 7 | 64 | 6 | 20 | 6 |
|---|----|---|----|---|

|   |    |   |    |   |
|---|----|---|----|---|
| 8 | 32 | 5 | 20 | 7 |
|---|----|---|----|---|

10. 解:

$$0.22(1-P_1) + 100P_1 < 0.52(1-P_2) + 100P_2$$

$$99.78P_1 - 99.48P_2 - 0.3 < 0 \text{ 时}$$

A优于B

$$0.22(1-P_1) + 0.22kP_1 < 0.52(1-P_2) + 0.52kP_2$$

$$0.22(k-1)P_1 - 0.52(k-1)P_2 - 0.3 < 0 \text{ 时}$$

$$0.22P_1 - 0.52P_2 < \frac{0.3}{k-1} \text{ 时}$$

A优于B

11. 解:

| 地址     | 直接映射     | 直接果    | 2way      | 2way替  | 4way      | 4way替  | 8way      | 8way替  |
|--------|----------|--------|-----------|--------|-----------|--------|-----------|--------|
| 0x 100 | 0x-b     | mis/强刷 | 0x-b-b    | mis/强刷 | 0x-b-b    | mis/强刷 | 0x-b-b    | mis/强刷 |
| 1005   | 100-0101 | mis/强刷 | 100-0-101 | mis/强刷 | 100-01-01 | mis/强刷 | 100-010-1 | mis/强刷 |
| 1021   | 102-0001 | mis/冲突 | 102-0-001 | mis/强刷 | 102-00-01 | mis/强刷 | 102-000-1 | mis/强刷 |
| 1045   | 104-0101 | mis/冲突 | 104-0-101 | mis/强刷 | 104-01-01 | mis/强刷 | 104-010-1 | mis/强刷 |
| 1305   | 130-0101 | mis/冲突 | 130-0-101 | mis/冲突 | 130-01-01 | mis/冲突 | 130-010-1 | mis/强刷 |
| 2005   | 200-0101 | mis/冲突 | 200-0-101 | mis/冲突 | 200-01-01 | mis/冲突 | 200-010-1 | mis/强刷 |
| 4105   | 410-0101 | mis/冲突 | 410-0-101 | mis/冲突 | 410-01-01 | mis/冲突 | 410-010-1 | mis/强刷 |

..直接映射发生5次替换，2路3次，4路3次，8路0次

12. 解: 数组地址从0x0000 ~ 0xD17C

偏移位4位，A索引位3位，B索引位4位

对B: 第1次循环命中了  $96 \times \frac{3}{4} = 72$  次，第2-100次循环  $0x0000 - 0x0f$  全命中，命中率  $\frac{72+99 \times 80}{100 \times 100} = 83.2\%$

对A: 所有循环都命中了  $48 \times \frac{3}{4} = 72$  次，命中率  $\frac{72 \times 100}{100 \times 100} = 75\%$

A缺75%，A缺率25%，B缺率16.75%，

13. 题  
 $\text{for}(j=0; j < 128; ++j)$   
 $\quad \text{for}(int i=0; i < 64; ++i) \{$   
 $\quad \quad A[j][i] = A[j][i] + 1;$   
 $\}$

14. 解  
(1) 只有 128 个块，一个块中可存 8 个元素

未优化版本，地址空间不连续，全 miss，缺失次数  $128 \times 64 = 8142$  次

优化版本，丁每跑 16 次填满 cache，其中每两个 cacheline 命令命中 7 次，所以缺失  $128 \times 64 \times \frac{1}{8} = 1024$  次

(2) 全相联共有 128 路，空

优化前每次丁循环可填满 cache，丁跑 8 次 cache 更新，缺失次数  $128 \times 64 \times \frac{1}{8} = 1024$  次

优化后，缺失次数变为  $128 \times 64 \times \frac{1}{8} = 1024$  次

(3) 未优化版，相邻两个 j 相差 8 个 cacheline 地址，要突出现强制缺失，此时块数目应为  $128 \times 8 = 1024$   
总大小为  $1024 \times 32B = 32KB$

优化版，丁每跑 16 次填满 cache，所以需要  $128 \times 128 \div 16 = 1024$  块，总大小  $1024 \times 32B = 32KB$

| Input    |     |     |     | Output |      |      |      |
|----------|-----|-----|-----|--------|------|------|------|
| 列 0      | 列 1 | 列 2 | 列 3 | 列 0    | 列 1  | 列 2  | 列 3  |
| 行 0 miss | hit | hit | hit | miss   | miss | miss | miss |
| 行 1 miss | hit | hit | hit | miss   | miss | miss | miss |
| 行 2 miss | hit | hit | hit | miss   | miss | miss | miss |
| 行 3 miss | hit | hit | hit | miss   | miss | miss | miss |

16. 求  $\text{input}^{[0]}_{10}$  地址从  $0x0$  ~  ~~$0x1f$~~  <sup>$0x1fc$</sup> ,  $\text{input}^{[1]}_{10}$  地址从  $0x200$  ~  $0x3fc$

(1) 组数  $512 \div 16 \div 2 = 16$

i 每循环 64 次填满 cache, 其中每个 cacheline 命中 3 次

命中率为  $\frac{128 \times 2 \times \frac{3}{4}}{128 \times 2} = 75\%$

(2) 不能, 此时 miss 只会 ~~从写回冲突~~ 变为强制 miss, 但命中率不变

(3) 可以; 当块大小为 32 字节时, 每个 cacheline 可以命中 7 次, 命中率为  $\frac{7}{8} = 87.5\%$