

T6 ①高位当索引时相邻数据高位相同，会产生缓存冲突。  
②因为这种方法可以直接受利用地址，因为索引本身是地址的中位，比如：若每个Cache line 可存两个字节，地址从 0 开始，若 Cache 有 4 个 line，则内存 0110 的中间位“1”本身就代表了其映射到了第 3 个 line  
T7 这样的话，可以直接受利用地址去 Cache 中访存，能更高效地利用 Cache，从而加快数据的读取、写速度

T8

$$1) \bar{t} = 110 \times 0.03 + 1 \times 0.97 = 4.2$$

2) 缓存中有 64KB 的数据，而总数据为 1GB  
访存是完全随机的，则每次访存数据有  $\frac{64}{1048576}$   
 $= 0.06\%$  的概率在 Cache 中，因此

$$\bar{t} = 0.06\% \times 1 + 99.4\% \times 110 = 110$$

3) 局部性原理指的是 CPU 访存时，都趋于访问聚集在一个较小的连续区域内的数据。

若局部性原理成立，则将访问的数据附近的一些数据也放入缓存中，则后面访存时大概率会访问到缓存中的数据，例如命中率为 97% 的命中率，则访存周期会大大减少，而若没有局部性原理，则如 2). 缓存的利用率会大大降低，从而访存周期大大增加

$$4) \bar{P} + (1-\bar{P}) \cdot 110 < 105$$

32

T9

|      |      |      |       |      |
|------|------|------|-------|------|
| 编号1: | 32组  | 5Bit | 21Bit | 6Bit |
| 编号2: | 8组   | 3Bit | 23Bit | 6Bit |
| 编号3: | 1组   | 0Bit | 26Bit | 6Bit |
| 编号4: | 256组 | 8Bit | 18Bit | 6Bit |
| 编号5: | 64组  | 6Bit | 19Bit | 7Bit |
| 编号6: | 256组 | 8Bit | 18Bit | 6Bit |
| 编号7: | 64组  | 6Bit | 20Bit | 6Bit |
| 编号8: | 32组  | 5Bit | 20Bit | 7Bit |

T10

$$1) 0.22(1-P_1) + 100 \cdot P_1 < 0.5 \geq (1-P_2) + 600 \cdot P_2$$

$$2) 0.22(1-P_1) + 12 \cdot 0.22 \cdot P_1 < 0.5 \geq (1-P_2) + 12 \cdot 0.52 \cdot P_2.$$

T11

|      |      |      |      |                            |
|------|------|------|------|----------------------------|
| 0001 | 0000 | 0000 | 0001 | 该内编码为 $\log_2(64) = 6$ Bit |
| 0001 | 0000 | 0000 | 0101 | 直接映射: 4Bit, 替换3次           |
| 0001 | 0000 | 0001 | 0101 | 2包: 3Bit, 替换1次             |
| 0001 | 0000 | 0010 | 0101 | 4包: 2Bit, 替换1次             |
| 0001 | 0000 | 0100 | 0101 | 8包: 1Bit, 替换0次             |
| 0001 | 0000 | 0101 | 0101 |                            |
| 0010 | 1110 | 1110 | 0101 |                            |
| 1111 | 1111 | 0000 | 0101 |                            |

T12

2. 计算稳态:

直接映射时:一路, 16组, 一组 = 一块、每块中 16 字节, 4 个字, 4 个数组元素, 且稳态时, 整组的 32~63 个元素一直在 8~16 组中, 因此这些元素不会 miss, 而剩余的都是 4 个里面 miss 一个, 命中 3 个

$$\therefore \text{miss\_rate} = \frac{2}{3} \cdot \frac{1}{4} = \frac{1}{6}$$

2 路并联: LRU. 每每 4 个 miss 1 个, 命中 3 个, 行以

$$\text{miss\_rate} = \frac{1}{4}$$

T13  $\text{for}(\text{int } j=0; j < 128; ++j) \{$

```
    for(int i=0; i < 64; ++i)
        A[j][i]++;
```



T14 16 ~ 15  $A[j][i]$

1) 4KB, 块大小为 32B, 即 8 word, 能存放 8 个数组元素, 且共有  $(4 \times 1024)/32 = 128$  块, 且  $A[j][i]$  与  $A[j+1][i]$  之间相差 64, 那 8 块

① 未优化之前: 每次缺失时存入的 8 个数据, 除了立刻会使用的一个, 剩下的 7 个, 在被利用之前就被冲刷掉了, 因此缺失次数是  $128 \times 64 = 8192$  次

② 优化后: 每次 miss 后读入的剩下 7 个数据会立刻被利用,  $\therefore \text{miss\_rate} = \frac{1}{8} \therefore \text{miss} = 1024$  次

- 2) ① 未优化前：128个块， $j$ 有128行。正好每过一个 $j$ 的循环数组的每行读取8个数据过去，则后7个数据在下一次 $j$ 循环会利用，所以 $\text{miss\_rate} = \frac{1}{8} \therefore \text{miss} = 1024$
- ② 优化后：仍是  $\frac{1}{8}$  miss\_rate,  $\therefore \text{miss} = 1024$
- 3) ① 优化前：最好是读入块的8个元素，除了强制读取的一个，其余都能被汇报到，而对于优化前代码这等于要求，每次遍历一次 $j$ ，都不会有缓存冲突，而因为是直接映射，这等于要求缓存能放下整个数组，即： $64 \times 128 \times 4 = 32KB$
- ② 优化后：反正每次读入之后，强制缺失之外的7个马上 hit，所以一个块就行 - 32B 空间。

T15

| output | 0    | 1    | 2    | 3    | input  | 0    | 1    | 2    | 3    |
|--------|------|------|------|------|--------|------|------|------|------|
| 0 miss | miss | miss | miss | miss | 0 miss | miss | hit  | miss | miss |
| 1 miss | miss | miss | miss | miss | 1 hit  | miss | miss | hit  | hit  |
| 2 miss | miss | miss | miss | miss | 2 miss | miss | hit  | miss | miss |
| 3 miss | miss | miss | miss | miss | 3 hit  | miss | miss | hit  | hit  |

T16

- 1) 每次更新缓时, 将  $\text{input}[0][i:i+3]$  读入第一路的第一组, 再将  $\text{input}[1][i:i+3]$  读入第二路的某一组, 这样之后的  $i+1 \sim i+3$  数据会命中. 因此命中率为  $\frac{3}{4}$
- 2) 不会, 因为每个数据只会用一次, 而块大小不变, 因而都是  $\text{input}[n][i] | i=0, 3, 7 \dots$  的会 miss, 而其余的会命中, 因此命中率总是  $\frac{3}{4}$
- 3) 会. 若将块大小更新至大于 4 个字, 例如 8 个字, 则就会成为每 8 个数组元素中 miss 一个. 则命中率会变为  $\frac{7}{8}$

