

## 第四章. 计算机存储系统

1. 因为不同的存储层级对于容量、成本、速度的需求各不相同，为了达到各自所适合的最“平衡”而实施分级管理。

2. 页面过小可以充分利用内存，但页表会很长；<sup>占用内存</sup>反之页面过大对内存的利用率就很低。

3-1) DAGUXRWV，其中 D(dirty) 指该页是否被写过，A(access) 表示是否被访问，即读/写/执行过，G 表示是否为全局映射(global)，U 表示在用户模式下，该页是否可用，V 表示整个 PTE 页表项有效性 (V=0 时其它位信息全部无效)。RWX 分别指页的 read, write, execute 三种权限。

2) 有些进程执行的先后可能会影响对页表进行覆盖/改错，影响程序的功能。  
3) RWX 位全部为 0 表达了“指向下一级页表的物理页号”。

4-1) 所指范围不同，页表条目中的 XWR 针对该页，PMP 的 XWR 更精确指定了小块物理内存区的读写执行权限。

2) A 字段决定了 PMP entry 的控制范围，A=0 时不匹配地址；L 字段表示“lock”，即当 L=1 时，machine mode 也要遵从锁定的权限，这也是 PMP 中还要设定 RWX 的意义所在。

5-1) 物理偏移有  $\log_2(\frac{4KB}{B}) = 12$  位，还有  $2^{32}$  可用于表示页号，即 ~~一个页表最大需要~~  $2^{52} \times 8B = 2^{55}B$ ，那么 <sup>1B</sup> 存储页表需要  $2^{55}/2^{12} = 2^{43}$  个框， $2^{55}B$  的空间。

$$2^{48-12} \times 8B = 2^{39}B$$

3) 因为多级页表“多次分组”，让页表不必全都常驻于内存，相当于多取了几次  $\log_2$ 。

6. 因为高位作标签使获得连续的物理地址一般先变组索引，再改变标签的高位，即中间位在物理地址中改变的频率远高于高位，更好地区分了顺序存储的相邻数据，适配了“空间局部性”。

7. 块内偏移 + index = cache 地址，cache 地址与块内偏移同位，可以让缓存装配时的“映射算法”相对简单一点，在硬件上简化一些数据传递与运算的电路结构。

$$8. 1) 97\% \times 1 + 3\% \times 110 = 4.27 \text{ (个)周期}.$$

$$2) \frac{64}{(1024)^2} \times 1 + \left(1 - \frac{2^6}{2^{10}}\right) \times 110 \approx 110 \text{ (个)周期}$$

3) ~~重复访问同一位置（如循环算法）与访问相邻位置都利用预测，因此容易被命中，故好的局部性可以减少对内存的依赖~~ 4)  $\lceil \times 1 + (1-\lceil) \times 110 \rceil \approx 105; \lceil > \frac{5}{109} \approx 4.59\%.$

| 9. | 地址位    | 缓存大小 | 块大小  | 相联度 | 组数  | 组号位数 | tag 位 | 偏移位 |
|----|--------|------|------|-----|-----|------|-------|-----|
| 1  |        | 4KB  | 64B  | 2   | 32  | 5    | 21    | 6   |
| 2  |        | 4KB  | 64B  | 8   | 8   | 3    | 23    | 6   |
| 3  |        | 4KB  | 64B  | all | 1   | 0    | 25    | 6   |
| 4  | 32 bit | 16KB | 64B  | 1   | 256 | 8    | 18    | 6   |
| 5  |        | 16KB | 128B | 2   | 64  | 6    | 19    | 7   |
| 6  |        | 64KB | 64B  | 4   | 256 | 8    | 18    | 6   |
| 7  |        | 64KB | 64B  | 16  | 64  | 6    | 20    | 6   |
| 8  |        | 64KB | 128B | 16  | 32  | 5    | 20    | 7   |

$$10. 1) 0.22 + 100p_1 < 0.52 + 100p_2 \Rightarrow (p_1 - p_2) < 0.003$$

$$2) 0.22 + 0.22kp_1 < 0.52 + 0.52kp_2 \Rightarrow 0.22p_1 - 0.52p_2 < \frac{0.3}{k}$$

11. 16个块，①直接映射，16组，占1个16进制位  
 (4个2进制位)，7个字位占为

②2路，3个2进制位，每组；每个有2个位置进

替换3次

~~0001, 0101, 0001, 0101, 0101, 0101, 0101~~ ③4路，2位，7个全一样，每个有4个位置。

替换3次。

④8个位置，⑤0次替换。

8路，

12. 块大小 16 Byte, 一次装入 4 个整数、A 缓存的一个块有两种可能的位置；B 的一个缓存一个位置。

A 策略：[4 4 4 4 4 4 4] / 8 个缓存

缺失一次，装配命中三次（前 32 个数），中 32 个数也一样。

后 32 个数轮流简单地保留在前 32 个，故也是 75% 命中；再如此往复，命中率为 75%。

B 策略：

前 32 个和后 32 个交替存入

中 32 个装入后无竞争，之后一直命中

$$\text{命中率为 } \frac{2}{3} \times 75\% + \frac{1}{3} \times \left( \frac{99}{100} \times \frac{1}{100} \times 75\% \right)$$

$$= 50\% + 33.25\%$$

$$= 83.25\%$$

13. for (int j=0; j<128; ++j) {  
 for (int i=0; i<64; ++i) {  
 A[i][j]++;  
 }



14. 1) 一个块 32 个 Byte 有 8 个整数，4KB 共有 128 块，直接映射，数组大小为  $64 \times 128$  个数；

优化前在读数时均无法命中，hit rate 50%，优化后 8 个缺失，为  $\frac{87.5 + 100}{2 \times 100} \% = 93.75\%$ ；

而访问共  $2 \times 64 \times 128$  次，即，优化之前缺失  $64 \times 128 = 8192$  次；优化后缺失 1024 次；

2) 全相关映射不限制块的放置位置，优化后依旧缺失 1024 次；而优化前也能取到数。

所以都是缺失 1024 次

即缺失 64 次后命中了  $64 \times 7$  次。

3). 想要 ~~全相关~~，优化后的代码仅需 32B 的块装下即可；优化前要让二维装配生效，则要

不出现非必要

$8 \times 128 \times 32B = 32KB$  的缓存大小。

15. input | output  
 行 0 列 0 列 1 列 2 列 3 | 行 0 列 1 列 2 列 3

行 0 miss miss hit miss | miss miss miss miss

行 1 miss hit miss hit | miss miss miss miss

行 2 miss hit miss miss | miss miss miss miss

行 3 hit miss hit miss | miss miss miss miss

2 块，1 块可以有 4 个整数，input 大小为  $4 \times 4 = 64$  Byte；正好是 input 存放到 ~~同一~~ output。

由于它是 32 Byte 的缓存 & 直接映射，input[i][j] 和 output[i][j] 映射同一缓存位（差 64 Byte）。

16. 1) 512 Byte, 16 Byte/块  $\rightarrow$  4 个数/块，索引位 mod 256 (数的顺序 mod 64)。

一共 32 个块，128 个数，64 个为一组，那么：0~63 与 ~~64~127~~ 放在 0~64 (1) 与 cache 0~64 (2)。

即前半段命中 75%；64~127 个覆盖 0~63 个；192~255 个数覆盖 128~191 个，没有任何利用。  
 命中率为 75%。

2) 可以，至少它能大到不产生地址竞争 3) 可以，如果升到 32KB 一块，命中率到 87.5%。