

5. (1) 页大小 4KB → 12 位页内偏移，PTE 为 8B，则 64 位地址中虚拟页号占  $64 - 12 = 52$  位

则对单级页表为  $2^{52} \times 8B = 2^{55}B = 2^{15}TB$  太大

(2) 使用 48 位虚拟地址：页号： $48 - 12 = 36$  位  $\rightarrow 2^{36} \times 8B = 2^{39}B = 512GB$

(3) 多级页表可按照进程的虚拟大小去分配 ~~内存空间~~ 相应的页表，多级页表中后面的每级的叶子分块并不一定都会对应分配内存，支持稀疏的地址空间，最终使页表分而治之，内存与进程的实际   
 要看前一级对应的页表项是否有有效   
 内存使用量成正比

6. 缓存地址具体怎么分还要看它是什么与实际内存结合的：①缓存地址高位为块地址，低位为块内偏移。而在内存中若按一个块来看的话块地址是连续的，无论是采用直接相映射还是组相联，或是模 m 的形式，那么块地址的低位就会作为索引代表集 31，而高位才作为可分量，才能成为 tag ② 在缓存与页 TLB 结合使用时，采用 tag 高位，index 中间可实现 index 索引与 tag 的 TLB 转换并行执行，加快速度

7. 由于页内偏移直接是正确的，不需要再经 TLB 查表转换。所以在此时，将插入过来的虚拟地址中 tag 部分由于在页号位置，需要负责 TLB 转换。而 index 在页内偏移中，直接可读出并进入 cache 多路索引，这样 - 来 cache 多路索引与 tag 地址转换可并行加速。如果  $index + offset\_block > offset\_page$ ，那么 index 有一部分必须通过页表转换才能变为正确的物理地址，因为在 tag 转换时进 cache 的索引；如果  $index + offset\_block < offset\_page$ ，可能映射的块数没达到最高（浪费了一定 cache 的且相联路数）。

$$8. (1) \text{延时: } 1 \times 97\% + 110 \times 3\% = 4.27 \text{ 周期}$$

$$(2) 1GB = 2^{10} MB = 2^{20} KB = 2^{14} \cdot 64KB \quad \text{则命中率: } \frac{1}{2^{14}}$$

$$\text{周期} = 1 \times \frac{1}{2^{1/4}} + 110 \times \left(1 - \frac{1}{2^{1/4}}\right) = 110 \text{ 周期}$$

13) 当区间的程序具有较初始的空间、时间局部性时, cache 中的内容可以被有预判的放入,从而大大减少直接访问的次数,访存性能提升;而程序没有较初始局部性时 cache 命中率很低,访存性能很难有效提升。

$$(41 \cdot 1 \cdot 2 + 110 \cdot 11 \cdot 2) = 105 \Rightarrow 2 = 4.59\% \quad \text{平均保有命中率至少有} 4.59\%$$

9. 但数量 但系引位数Bit 标各位数Bit 偏移位数Bit

|   |     |   |    |   |
|---|-----|---|----|---|
| 1 | 32  | 5 | 21 | 6 |
| 2 | 8   | 3 | 23 | 6 |
| 3 | 1   | 0 | 26 | 6 |
| 4 | 256 | 8 | 18 | 6 |
| 5 | 64  | 6 | 19 | 7 |
| 6 | 256 | 8 | 18 | 6 |
| 7 | 64  | 6 | 20 | 6 |
| 8 | 32  | 5 | 20 | 7 |

(10.11) A: 8KB 直接映射 L1 cache  $\bar{t}_1 = 0.22 + p_1 \cdot 100$

$$B: 64KB 四路组相联 L_1 \text{ cache } \frac{T_2}{T_1} = 0.52 + p_2 \cdot 100$$

$$A(t_1) \neq B \Rightarrow \bar{t}_1 < \bar{t}_2 \Leftrightarrow 0.22 + p_1 \cdot 100 < 0.52 + p_2 \cdot 100 \Leftrightarrow p_1 - p_2 < \frac{0.3}{100} = 0.3\%$$

$$12) A: 0.22 + 0.22 \cdot k \cdot p_1 \quad B: 0.52 + 0.52 \cdot k \cdot p_2$$

$$T_1 < T_2 \Leftrightarrow 0.22 + 0.22kP_1 < 0.52 + 0.52kP_2 \Leftrightarrow 0.22P_1 - 0.52P_2 < \frac{0.3}{k}$$

11. 16块 每块: 64B 块地址: 0x1000. 0x1005. 0x1021. 0x1045. 0x1305. 0x2005. 0xff05

2路直相联：8且 居位 15 15 5 5 5 3且

4路但相联：4且 楼4尾位 1 1 1 1 1 1 3次

8路归相取：2且 模2尾数 111111 0次

12. 块大小: 16B 共 16 块 A: 2 路但相联 8 且 B: 直接映射 16 且 LRU

计算 cache 错失率 初始时为空 i,j: 寄存器 array 起始平地地

$N=100$  array 为  $16 \times 16$  一个元素为  $4B$  数组的总容量为  $4B \times 96$ , 17块  $16B$  可容纳  $47$  数

但元素 將數但元素每4個看成1組，共24組，每組存的元素標號為 $0, 1, 2, \dots, 9, 10, \dots, 95$

漫游 A4 情况：共 8 页，内存起始地址为  $\text{A4}_H$ ，所以 24 模 8 分配。共进行  $N=100$  次计算。 $96 \times 100$  次。



cycle 1 时: (缓存为空) 0~3 的 tag 进入缓存, ~~miss~~ 8 次  
然后 3~6 的 tag 进入路 2, ~~miss~~ 8 次  
64~95 进入时由 LRU 原则, 0~3 被替换 miss 8 次

从第1个cycle开始，路1的tag为64~95，路2tag为32~63，且路2为LRN

(进入 cycle 2: 0~3 | 进入 miss, 路2替换, 然后 32~63 进入时又 miss, 路1替换, 64~95 时 13 miss, 13 路2替换, 上一次替换掉的已经时不一次缓存的, 导致后面一直 miss, 缺失率:  $\frac{2}{4} \times \frac{100\%}{13} = 97.7\%$ )

24模16分两L则0~34.64~95均对应上半腹存 32~63对应下半腹存



? 初始内存为全空当作 miss 吗? → 强制缺失 ✓

13. 代码实现的功能: 对每个  $A[j][i]$  自加 1 但现在为固定; 改为变  $j$ , 每次  $j$  改变时  $A[j][i]$  与  $A[j+1][i]$  可能相隔甚远, 导致原有 miss。考虑充分利用空间局部性  $i, j$  互换。

```
for(int j=0; j<128; ++j){
```

```
    for(int i=0; i<64; ++i){
```

$$A[j][i] = A[j][i] + 1;$$

```
}
```

14. 1) 4KB 直接映射 块大小 32B 块数:  $\frac{4KB}{32B} = 128$

数组  $A[j][i]$ :  $j: 0 \sim 15, i: 0 \sim 63$  先  $i$  相邻后 认为是 int 型 17 元素占 4B, 17 块放 87 元素  
则数组特点:

直接映射情况下: 每块会映射到 87 内存区域被射到  $\frac{128}{64/8} = 2^4 = 16$

因此总  $j=0, j=16, j=32, \dots$  的对应  $i$  序号块会映射到同一个 cache 块中 1 块有初始为空。

优化前: 大块移动 →  $j$  固定, 变  $j$  cycle1:  $j=0, 1, 2, \dots, 15$  hit, 从  $j=16$  开始 miss, 之后均 miss

在 cycle=2 及以后一开始也 miss 缺失次数:  $63 + 16 + 16 = 64 \times 128 = 8192$  次。

(一开始时内存为空, 所以 tag 肯定比对不上, 也认为是原有 miss)

优化后:  $j$  固定, 变  $i$ ; cycle1: block 初始会 miss 1 次, 之后均 hit, 总 miss 8 次

到 cycle=17 时, 会出现原有冲突, 不过替换后仍是 miss 8 次, 缺失次数:  $8 \times 128 = 1024$  次

12. 4KB 全相关 数组特点没变 FIFO

优化前:  $j$  从 0 移至 128 4 块好占 1 块内存 下一次移动 7 次都 hit 缺失:  $8 \times 128 = 1024$  次。

优化后: 变  $i$  占满才替换 其实与直接映射相同:  $8 \times 128 = 1024$  次

3) 需求: 除了初始为空的强制缺失无其他

优化后:  $8 \times 128 \times 32B = 32KB$  优化前:  $4KB \times 8 = 32KB$  需要 32KB

15. int 4B input 起始于 0x0 output 起始于 0x40

L1 cache: 32B 块大小 16B 2 块 直接映射 需考虑: hit 和 miss 时需写入 Cache 当前以 input 数据:



17 块可存 47 元素

操作节存地, input 地址  $4 \times 4 \times 4 = 64$  B 字节 DIR 这里 input 与 output 地址上是相同的

分析: 此时 input 和 output 映射同一块缓存,

可能相互冲突: 初始: input[0], 310, miss, 1 1 1

input 1 2 3 310 1 2 3

到 input 和 output 130, 132 都映射到同一块缓存 130 miss miss hit miss miss miss miss

且为写分配兼容, 所以 output 130 又会 1 miss hit miss hit miss miss miss miss

把刚刚 load 进入的 input 130 覆盖

2 miss miss hit miss miss miss miss miss

3 miss hit miss hit miss miss miss miss

16-1) 512B 的 cache: 块大小 16B, 共  $\frac{512}{16} = 32$  块, 两路且相联  $\rightarrow$  共 16 且

17 块中可装 47 元素  $128 \div 4 = 32$  输入的 input 共  $2 \times 32$  且

所以 cache 每一路有 4 个段内存对应, 存入两路



这里 input[0][i] 与 input[1][i] 总是对应同一且

当 i=0 时, input[0][i] input[1][i] 均进入 cache 第 1 且, 在两路保存 总是第 1 次 miss, 后 3 次 hit

当 i 到 64~127 后半段, 出现内存冲突, 发生替换, 因此命中率仅为 75%.

(2) cache 大小增加: 不会改善命中率 因为单个 cache 大小增加, 可以使且相联的因素变多, 但 17 块中也就只能放 47 元素, 所以还是 hit 3 次 miss 1 次, 命中率最多 75%.

(3) cache 块大小增加, 可以改善命中率 在两路且相联情况下 1 次且的两个数据正好放入两路同一且对应的两路 cache 块中, 所以 cache 不会初次 miss 1 次, cache 块越大后面 hit 次数越多, 命中率提升