

Great ideas in CA: Abstraction; Make common case faster; Parallelism; Pipeline; Redundancy for accuracy; Performance Measurement; Amdahl's law:  $\text{加速比 } S(W) = \frac{1}{1-p+P_W}$ .  $P_W$ : 并行化比例

Noore's Law: chips  $\downarrow$  transistors 数量  $\uparrow$  两年翻一倍  $\Delta$ : prediction, not law

Memory Hierarchy: CPU  $\rightarrow$  CPU cache  $\rightarrow$  physical memory  $\rightarrow$  solid state memory  $\rightarrow$  virtual mem

reg:  $\#$  on-chip cache(L1,2,3), main mem: RAM, 地址映射; SSD, 内存  $\uparrow$  速度慢, 但

Info-representation: LSB: 最右; MSB: 最左:  $ob[0 \dots 1]$

表示负数: 2's complement: MSB  $\rightarrow$  sign bit; 其余位翻转后加1:  $(a_0, a_1, \dots, a_n)_2 = -$

\*: 不论 signed or unsigned, 操作 + - 结果 可能造成 overflow! underflow!( $\downarrow$  在 subnormal 时)

fP32:  $(-1)^S \times \text{Mantissa} \times 2^E$ , MLE 在不同 type 下算法不同: normal: bias  $\geq -127$

Exp Fraction Value

$M = (1.\text{Fraction})_2$ ,  $E = (\text{Exp})_{10} - 127$  Exp 不唯一!

Range: normal:  $\pm 1.00 \dots \times 2^{-126} \sim \pm 1.11 \dots \times 2^{127} \uparrow$

Subnormal:  $\pm 0.00 \dots \times 2^{-126} \sim \pm 0.11 \dots \times 2^{-126} \rightarrow E = 2^{-2} t^{-1}$

全0 非0 Null

Zero Subnormal:  $\pm 0.00 \dots \times 2^{-126} \sim \pm 0.11 \dots \times 2^{-126} \rightarrow E = 2^{-2} t^{-1}$

全0 非0 Null

Zero Subnormal:  $\pm 0.00 \dots \times 2^{-126} \sim \pm 0.11 \dots \times 2^{-126} \rightarrow E = 2^{-2} t^{-1}$

Core: ① Exp 全1 与 全0, 有特殊意义. **牢记**! ② bias:  $\nexists$  Exp 有 tbit,  $\exists$  bias  $= 2^{-t-1} \cdot \text{subt} \Rightarrow$

C: ① 宏的括号问题 ② True or False' in C: False  $\Leftrightarrow$  0<int; True  $\Leftrightarrow$  False.

③ Sizeof type: char short int long int unsigned int void\* size\_t float double

④ Little Endian:  $\boxed{\begin{array}{ccccccccc} 1 & 1 & 2 & 2 & 4 & 4 & 8 & 4 & 4 \end{array}} \sim \boxed{\begin{array}{ccccccccc} 3 & 2 & 1 & 0 & 7 & 8 & 7 & 6 & 5 \end{array}}$  地址从低到高, HLSB 至 MSB 为 bit! 如左, 该函数指: 0x12345678

⑤ structure: alignment  $\downarrow$  ⑥ function, 会修改共享 function, 使其指针

⑦ Mem management: stack: func 中局部变量 heap: malloc/calloc/realloc, free

⑧ 只有 Array 或 指向转化成 pointer, 反之不行! func 传递 arr, arr 转制退化为 pointer

RISC-V: R-type: RS1 RS2 间加减位运算(比较, 将 XRD 返回给 RD; 还可是 shift 操作

Shift: SLL, 左移, 必用 0 填; SRL, 右移前面必用 0 填, 后面用符号位填充!!

移动多少位? RS2 中低位所代表的十进制数 (unsigned); 除此之外, 操作如比较, + - 等, 都是进行 signed operation (除非指针声明是视作 unsigned 来操作)

I-type: instr rd, rs1, imm; instr rd, imm(rs1)  $\downarrow$  load 指令, 后者并非 load 指令

Warning **⚠️** RISC-V 中所有 imm 都是 signed。0.00 (2byte, 1byte)

指令操作 imm 时, 0.00 用 0 明示之为 unsigned imm (I-type 中只有 s(lt)(c); 1.00 时, 用 0 填充

5 halfword 的 MSB 填充至 32bit, 4 byte, 行 i rd, imm(hi, lo) 时, 用 0 填充

S-type: swl/sw/sh RS2, imm(rs1). 将 RS2 所指向的 bit/byte/半字/整数进 addr. 而

addr =  $\pi[RS2] + imm$ ;  $\Delta$ : sb, sh 不进行 sign-extension! 直接从 4, 8 位进过, 0 填充

B-type: instr RS1, RS2, L(cimm(label)), go to PC+offset if ...条件, else PC+4

offset = imm / offset = (label - current PC)

$\Delta$ : 为了保证跳转是 2-byte aligned, 6x offset 最后一位会强制为 0, 把 [12:1] 编码

这样, 跳转指令范围为:  $\pm 2^{10}$  条 offset 位, MSB 表示, 12 位  $\Rightarrow 2^{12}$  byte  $\Rightarrow 2^{10}$  条)

J-type: jal rd, rs1, label(imm), PC+4 给 rd, 然后 jump to RS1+offset;  $\pm 2^{18}$  条 range

offset = imm or (label - PC); 为保证 2-byte aligned, offset 最后一位为 0, [20:1] 编码  $\rightarrow$

jal rd, label PC+4 给 rd, jump to label, i.e., PC = PC+offset, offset = label - PC

$\Delta$ : 相当于 jal rd  $\uparrow$  译在 RS1 中地址上跳转, jal 只能在 PC 基础上 jump

Pseudo-jlabel  $\Rightarrow$  jal x0 label; jal label  $\Rightarrow$  jal ra label; jr rs1  $\Rightarrow$  jal x0 rs1 0

U-type: lui/lui/auipc rd, imm, lui: rd  $\leftarrow$  imm < 12; auipc, rd  $\leftarrow$  PC+imm < 12

$\Delta$ : li xi, imm  $\Rightarrow$  lui xi, imm[31:12] + addi xi, xi, imm[1:0] OK!

Misc: imm 范围: 可以看 greenland inst 组成中, imm 显示的最高位是多少, 便对应

Calling convention: 约定: ① 传参数 A 用 reg 系列 ② 返回值放在 A0/A1 reg

③ caller & callee: A func 调用 B func 中的运算值, 然后按照①, 把给 B 的参数放在 A 中

值存起来 (SP & SW), A func 中的运算值, 然后调用 B, -进 B 要把 callee-saved reg 中存起来 (SP & SW), 它们便供 B 自由

使用, 然后把返回值放入 A0, A1; 恢复 callee-saved reg (SP & SW) 返回至 A; A 恢复

caller-saved reg (SP & SW), 可使用之前 A0, A1 中的 B 返回值; 跳至 n 中的 PC

Prologue: 存 ra, 有 callee-saved reg, SPV; Epilogue: 恢复 ra, SP callee-saved reg, SPV,

imm 英国补: I-type: 除 SLL, SRL, SRA 为 signed/unsigned, 其余均 12 位 signed

$\Delta$ : 在转换为机器码时, 它们有类似于 function 的编码, 体现 imm[11:5]

S-type: 12 位 signed; SB/B-type: 13 位 signed; U: 20 位 unsigned; V: 21 位 signed

ISA: X86-32 (IA-32) X86-64 (AMD64). ARM (Advanced RISC Machine)

RISC; ISA 定义了特有 CPU 支持怎样的 operation, 以及如何 implement, 即: 特有 CPU 支持

什么汇编, 如 X86 汇编可在 X86 架构 CPU 跑, 但不能在 ARM CPU 跑。X86-arm.

指令集  $\Rightarrow$  CPU 架构 = ISA  $\Rightarrow$  Linux 支持 RISC-V ISA

$\Delta$ : Python 在不同 OS 不同 ISA 上运行, 只要有合适的 Python 解释器

$\Delta$ : 一个 OS 上的可执行文件一般不能在另一个 OS 上运行 2'signed [-1048576, 1048575]

Imm: 12 signed: [-2048, 2047] 3 unsigned: [0, 3] 13 signed [-4096, 4095] 2 unsigned [0, 1048575]





Pipeline: Time = program = Instr · Cycles · Time (PI)

S-stage: IF ID EX MEM WB, Timing取执行~~时延~~时最长

在stage间加一层 reg; 但有hazard: ① Structural: 如果 req-file 能在双读写, IF Dmem 需否同时双读写  $\Rightarrow$  破坏并行  
 ② Data: req-file write after read (未刷 updated), 一种是nop (不操作)等, 一种是 \_PREFETCH  
 type 2: l0后 1条指令就读 (load未通过update), 一种是等 Dmem load入的数直接给 ALU, 另一种是 inst reordering, load与 EX 使用 inst 中间至少隔一条 (rescheduling)

③ Control: 关闭 bex: 满足条件则跳转至..., 若满足, 则在 bex 指令后四条也不执行了? 一种是第4条nop; 另一种是若跳转到那两条, flush掉, RP restore state; 另一种是清 zero 缓存

作用的阶段没在EX的MEM(原: zero一直到WB处 CP: 仅 MEM)

Timing: R-type: IF + DEC + EX + WB (DEC = ID)

I-type: 其中 DEC = max { treg, timm, tmu, tmu+taul }

IF + DEC + EX + WB + tAU

S-type: IF + DEC + EX + MEM = max { treg, tmu, tmu+taul, tmu+taul+taud }

B-type: IF + DEC + EX + WB = max { treg, tmu, tmu+taul+taud }

\*: IF + WB  $\rightarrow$  tAU; B + WB: imm  $\rightarrow$  PC req WB = tmu+taud

MIS: C 中位运算, 与 & 或 | 异或 ^ 取反 ~ 左右移 >>>

STU 指令 add/subtract signed/unsigned 数域中是 overflow:  
 unsigned : { add x2, x1, x3  $\Delta$ :  $a = b \oplus c$ . (unsigned).  
 STU X4, X2, X1 or X3.  $\Delta$ :  $a = b \oplus c$ . (unsigned).  
 signal: { add to, t1, t2  $\Delta$ : signed:  $a = b \oplus c$ ; if  $c < 0$ ,  $a > b$  orc iff  $c > 0$ .  
 STI t3, t2, 0. if  $t3 \neq t2 \Rightarrow$  overflow  
 STI t4, to, tr bne t3, t4, overflow  
 or ( xor ts, t3, t4; ts = 1: overflow).

宏定义中一定要指号充分打上! 如  
`#define MIN(a,b) ((a)>(b)) ? (b):(a)`

NMOS Pmos

Multi-issue: 原来 single-issue, datapath 中最多只用一个 slot  
issue 1 指令，现在一次选多条。

CPI 可能 < 1!  
(两个分支有可跳)



If 红线: Arithmetic, logic and reg path  
蓝线: Memory access (L1) path.

爭戰中 to 上: build different data paths for different types of instruction; Ideally, issue two instructions with different type to ALU/mem datapaths. If so:

ALU/Branch IF ID EX WB  
Load/Store IF ID EX MEM WB  
A/B IF ID EX WB  
L/S IF ID EX MEM WB

依然, 可能有 Data 等的 Hazard, Forwarding etc

Multi-issue: Static: 主要编译时决定 instr 问题 slots 的顺序, 且检测 hazards. 硬件本身也 detect/solve hazards

Dynamic: 主要在硬件运行时安排 issue slots order 与 detect hazards. 当然 Compiler 也 help avoid hazard

Δ: Multi-issue 不是 multi-core 也非 SIMD。它只是 SIMD 或 Pipeline 技术 (多线程也互不结合)  
RAW/WAW/WAR Hazard: 由于分支为不同分支!!

Parallel!: Pipeline & multi-issue: instr-level SIMD: Data level Multi-thread: (MMIO): Thread-level

④: CALL 中 static vs. Dynamic Linking:  
Static + Address resolve, 若 symbol table 中没有, 则会搜 library files. 没错, 库被编译进了执行文件中, 若库更新, 要从头重来! 且 it includes entire

Dynamic: 库文件在程序运行时会动态加载, 而非被纳入 exe 文件中。占用更少空间, 内存更高效, 库可独立更新。但运行时产生额外开销以让程序查找与加载所需库文件。

Cache: 核心概念 - 缓存 Cache Blocking: Locality: Temporal: If a memory location is referenced, then it will tend to be referenced again soon.

Spatial: If .. referenced, addr nearby tend to be... soon.

- 一些数据结构如 linked list, tree, 与 locality 差!

Write Back: Write data in cache and

set a dirty bit to 1; when blocks get replaced and dirty bit is 1, write to mem, dirty bit → 0.

Write-around: Directly write to mem and memory at the same time (longer time)

Cache Blocking: Hardware Controller

⑤: With cache, datapath does not directly access from main mem.

Term: line/block: a single entry in cache size of block: #byte\* per block. Capacity: total #byte

Fully Associative cache: 有 tag & offset, 无 index

Cache size: C, block size  $C_B$ ; offset bits: b number of block: N, bit width of mem addr tag  $w$

$N \cdot 2^b = C_B$ ,  $N \cdot C_B = C$ ,  $w = t+b$

Cache Misses: 3Cs

Compulsory: cold start or process migration

First access to block, impossible to avoid!

Sol: Block Size ↑ (i.e., N), so fewer cold starts

Capacity: Cache can't contain all blocks accessed by program

Sol: Cache Size ↑ (but access time ↑)

Conflict (Collision): Multiple memory locations mapped to the same cache location, conflict even when the cache has not reached full capacity

Sol: Cache size ↑ Associativity (N) ↑

Other util in cache: valid bit, an indicator to tell if each entry is valid for program

LRU: (least recently used) 满员情况, 要找 victim 并成新元素 → 最不常用的 Victim

→ 0; - 该位置中未命中该 cache, LRU++.

写入 (Write-through): FIFO (oldest line first) (newest line never)

写入政策 (Write Policy): Write-through: write to cache

→ 0; - 该位置中未命中该 cache, LRU++.

直接映射 (Direct Mapping): 1-way !!

tag index offset



# Cache Performance & Metric:

Average Memory Accessing Time: AMAT:

$AMAT = \text{Time for a hit} + \text{Miss rate} \times \text{Miss penalty}$

在多级(如有 L1, L2, L3)中, AMAT: Miss/Miss Penalty

实例为  $AMAT_{i+1}$

Δ Local miss rate:  $\frac{\# L2 \text{ misses}}{\# L1 \text{ misses} + \# L2 \text{ misses}}$

Eq.  $L_2 \$ = \frac{\# L_2 \text{ misses}}{\# L_1 \text{ misses} + \# L_2 \text{ misses}}$

Global: all levels:  $\frac{\# L_i \text{ misses}}{\# L_1 \text{ misses} + \# L_2 \text{ misses} + \dots + \# L_i \text{ misses}}$

Parallelism: Strong scaling: 不随问题大小而变  
Speed ↑: Weak scaling: Speed ↑ 随问题大小, time ↓

SIMD: Single Instruction, Multiple Data

SIMD provide performance ↑ for data: Data → PU → Pool → PU

Level Parallel: Fetch One instr., do the work of multiple instructions

Intel SIMD Instr: MMX/SSE/AVX

有 Intrinsics, program 为直接调用, Post quick unop (no key)

江编指令(间接), SIMD 扩展指令集与 Intrinsic - 对应

Generalizing Loop Unrolling: A loop of  $n$  iterations, write k copies of the loop body,  $\Rightarrow$  copy  $n \bmod k$  times

k copy:  $L \frac{n}{k}$  times,  $A: A_{i,1} A_{i,2} \dots A_{i,k}$

$2 \times 2$  matrix multi:  $B_{i,1} B_{i,2} \dots B_{i,2}$

$A_{j,1} \vec{C}_1 = \vec{A}_{j,1} \cdot \vec{B}_{i,1} + \vec{A}_{j,2} \cdot \vec{B}_{i,2}$

Hazard Control: Control ON/OFF # pragma omp

② Dual-Port memory: ③ Dynamic Branch Prediction: ④ Reduce Delay barrier: All threads

⑤ OMP Code scheduling

The sections: - 一个线程一个线程完成由 user-level routines that rely on hardware instr.

TL P: Each Thread has: shared mem/heap/global var) with other threads, but has own register & PC

Each processor provides one (or more) hardware threads

OS 来安排 software 线程至 hardware 线程

Fork-Join model: 程序可 split into 多个线程 (可同时执行)

OS 决定哪个线程在哪个 CPU 跑; 现代 PC 线程数

→ 核心数。Context Switch: 将 software 线程移除,

要 save Register → mem; 将另一线程 Register 挂载至

hardware 线程中, 可以复执行 (Fork-Join)

OpenMP: Open multi-processing, a language extension

#include <omp.h> // 并行库

Easy to compile: # Use: #pragma omp parallel

#& compile BT: cc -fopenmp name.c

# Threads = # physical cores \* # threads / core

OpenMP Shared/Private variables: make a copy of it

Shared: 在并行区外声明的 / Heap/Stack/Static.

Private: 并行区内声明的 / #pragma ... private(var).

In 行区: no premature exit! (break, return, exit ...)

Data Race: 多线程访问同一块且其中一个

Generalizing Loop Unrolling: A loop of  $n$  iterations, write k copies of the loop body,  $\Rightarrow$  copy  $n \bmod k$  times

k copy:  $L \frac{n}{k}$  times,  $A: A_{i,1} A_{i,2} \dots A_{i,k}$

$2 \times 2$  matrix multi:  $B_{i,1} B_{i,2} \dots B_{i,2}$

$A_{j,1} \vec{C}_1 = \vec{A}_{j,1} \cdot \vec{B}_{i,1} + \vec{A}_{j,2} \cdot \vec{B}_{i,2}$

Hazard Control: Control ON/OFF # pragma omp

'Lock' 用于授权 - 一个线程进入 Critical Session. R 有锁的线程才能访问临界区

processors read lock and either wait (if locked) or set lock and go into critical session

critical (change) → set lock → session (start) → unset lock

但有问题: t1 未得 lock, 在 bne 前, t2 也

未得 lock. t1, t2 都可能认为 lock 是 0 了!

RISC-V L: two sols ! ① lr rd, rs: K1 stc

tl 中加载 word 至 rd, 并为硬件线程注册保留

未被修改时, sc 将 rs 值存至 rs1 所指向的内存

且返回 -1 status 至 rd (fault) if fail

try: lr t1, s1 → bne s1, to, xo, try

sc to, s1, s4 add s4, xo, t1 & sc

这其实是 thread unrelated? → try own lock since execute.

test & valid: thread → try own lock since → execute.

② Atomic Memory Operations (AMOs)

li to, // 用于 set lock

Try: amoswap.w.uq t1, to, (ao) // 将 to (ao) 内存值加到 t1

break t1, try

... critical session —→ t1

answap: u. r1 xo, xo(ao)

将 0 写回锁位置, 释放锁。

TL P 中有 'barrier', 要 fork 都干完了才 join

#pragma omp barrier: Forces all threads to wait until all threads have hit the barrier

# pragma omp critical: Creates a critical section within time.

# pragma omp parallel for: for-loop automatic work-sharing

# pragma omp parallel reduction(operation: var)

# pragma omp single: code block executed by one thread only. Other threads will wait. I/O操作中常见

# pragma omp master: 在线程执行，但其他线程不等它完成

# pragma omp parallel: 有多个 processor，它们执行独立的指令流。且不同

processor 连动方法：① Shared Var in memory (load/store instruction) 并行：有多个 processor，它们执行独立的指令流。且不同

# pragma omp parallel reduction(operation: var)

# pragma omp single: code block executed by one thread only. Other threads will wait. I/O操作中常见

# pragma omp master: 在线程执行，但其他线程不等它完成

# pragma omp parallel for: for-loop automatic work-sharing

# pragma omp parallel reduction(operation: var)

# pragma omp single: code block executed by one thread only. Other threads will wait. I/O操作中常见

# pragma omp master: 在线程执行，但其他线程不等它完成

# pragma omp parallel reduction(operation: var)

# pragma omp single: code block executed by one thread only. Other threads will wait. I/O操作中常见

# pragma omp master: 在线程执行，但其他线程不等它完成

# pragma omp parallel reduction(operation: var)

# pragma omp single: code block executed by one thread only. Other threads will wait. I/O操作中常见

# pragma omp master: 在线程执行，但其他线程不等它完成

# pragma omp parallel reduction(operation: var)

# pragma omp single: code block executed by one thread only. Other threads will wait. I/O操作中常见

# pragma omp master: 在线程执行，但其他线程不等它完成

# pragma omp parallel reduction(operation: var)

# pragma omp single: code block executed by one thread only. Other threads will wait. I/O操作中常见

# pragma omp master: 在线程执行，但其他线程不等它完成

# pragma omp parallel reduction(operation: var)

# pragma omp single: code block executed by one thread only. Other threads will wait. I/O操作中常见

# pragma omp master: 在线程执行，但其他线程不等它完成

# pragma omp parallel reduction(operation: var)

同理也有 Exclusive:  $L_n \cap L_m = \emptyset (n \neq m)$   
Inclusive  $\Rightarrow$  non-inclusive.  
OS 1.0: OS 内部：①开机后提供 service to file system  
from disk. VPN<sub>hi</sub>, addr 中还有 offset. 直接 copy, 与 PPN 结合为 Physical Addr. (PA)  
② I/O with the rest of computer

地址, CPU 从地址执行指令 (in flash RAM 中存的)  
Memory mapped I/O: certain addresses are not regular mem, but correspond to registers in I/O device. I/O 需通过读写字节流来进行操作。部分处理器有特定 I/O 指令。

挑战：处理器 I/O 周期与设备速率差 9 个数量级

解决方案：① Polling: CPU 循环读取控制寄存器，等待

ready bit (0 → 1), 然后读写 ② Interrupt: I/O 准备好时

Term: Interrupt: 外部事件 (如按键), 并步. 可能缓存处

需要阻塞执行，并 save registers to memory (含 PC)

△ Context Switching: 在单核心中同时跑多个线程，利用硬件余，在单核心中同时跑多个线程，以减少因内存延迟和上下文切换导致的资源闲置问题。Leveraging multi-issue Advanced cache: 处理器在同-memory 上操作，每个 processor 又有自己 cache。但可能发生 cache incoherence! (特别是 cache miss type!) P1 code 未接到 P2 缓冲地址值的信息！  
即: One's write invalidate other copies in other processor.  
Sol: Snoopy Protocol: 每个核心的缓存控制器监视总线上的读写请求；另核心写时，检查自己缓存状态 False sharing: 当 cache block 大时，对不同 offset 的多，会频繁导致不必要的缓存一致性开销 Optimized snoop: 若 invalid cache, always: 用 write back cache. A dirty bit, 选择一个处理器的多次写只被发一次 broadcast. Write Back Scenario: ① eviction ② it needs this addr, 我的 cache 中该addr dirty, 写回而被实中的 cache coherence protocols 更复杂，如 MOESI 4. 叫写回一个处理器 cache any memory location at a time. 否则高级缓存的快也都在线缓存中，则称低级缓存 inclusive. 每个页对应一个 VPN (Virtual Page Number), 若页应 t page.

则那个 VPN 地址 → PPN (Physical Page Number). 若还未对应用，会由 OS trigger page fault to load page from disk. VPN<sub>hi</sub>, addr 中还有 offset. 直接 copy, 与 PPN 结合为 Physical Addr. (PA)

△ Each User has a page table

A

Setup: ↑↑ page ↑, L<sub>1</sub> & L<sub>2</sub>. 则 offset: log<sub>2</sub> 16

若映射 N 层, Disk RAM 大于 N, 则 VPN: N-1g<sub>2</sub> × 16

PPN: (log<sub>2</sub> y - log<sub>2</sub> x) 位

More Detail in TB: TB 不是一个元素对应一个 VPN, 且含 status/protection bits. 同时: PT is not a cache

Demanding Page: Only load a page into memory if user requests it.

Status Bit: 访问时, 先检查 PT 该 entry 的 status bit

若 valid, 则往; 若 invalid, page fault exception. 且若 DRAM 容量不够, evict, victim status bit → 0, 且收回 disk; 然后, 磁盘响应 page 跳入 DRAM, 且 VPN 对应 PPN 更新, status bit 为 1 (valid).

\*. Page table & Disk copy 未将 Page t 仍在 mainmem 中 Dirty Bit: 与入 disk, 采取 write-back 策略. Page refresh 时, 若 Dirty Bit 为 1, 则把新内容写回 Disk 对应地址

每个进程都有独立的 PT, 限制其虚拟地址空间, PT 由 OS 管理。

Hierarchical (Multi-level) PT: L<sub>1</sub> index L<sub>2</sub> index

计算 DRAM 地址: L<sub>1</sub> 层: L<sub>1</sub> Base Addr + pix<sub>4</sub> (必定是 4 是因为 32 位中, L<sub>1</sub> entry 大小为 4 Byte)

TB, Cache some 地址都存在 TLB, 保存的是 VPN - PPN mapping. TLB is much closer to CPU

and caches. While TB 有 PPN+Flags!

普通 Page Table 中, 也是必要操作: DRAM

(物理大小: 2<sup>32</sup> × 4<sup>32</sup> entry, 每页 VPN 是 index+offset)

TLB 是 cached → 一个 VPN 先看 TLB 是否 Hit, 若 miss

则 Page-Table Walk, 并且策略写入 TLB (写入更新后).

TLB 有 Fully Associativity, 策略有 FIFO, random 等



TLB Reach: How many VA 被映射到物理地址? #TLB entry size  
Only one TLB per core, but page tables are per process  
VA management 先把程序 load 到物理 memory space.  
Single-core processor 需维持 cache-coherence.

Misc: More I/O: CPU与I/O设备同步方式  
Polling: CPU不断查询; Interrupt: 设备通知CPU但中断I/O↑  
程序I/O: CPU用I/O SW处理所有数据移动, 两部分①将数据从设备传输至DRAM②使用数据计算, 但CPU被占用

Map: 输入 Data 为 Key-Value Pairs, 并行处理中间  
Reduce: 中间键值对聚合->按 KV 分类，生成 KV  
Map & Reduce 中间有 shuffle: 按照中间键值分  
组，确保同 key pair 发送给同一个 Reduce 任务  
Homing FCC: 相信我的大脑已足够清醒

**直接内存访问(DMA)**: DMA(从I/O设备直接访问DRAM)。CPU负担。DMA引擎由CPU写入Register。传输过程:  
①CPU接受设备中断, 初始化DMA引擎 ②它处理数据传输  
CPU执行其它任务 ③传输完成后, 再次中断CPU  
**优势**: **解放CPU资源, 适合高数据量设备**

$$\text{RADF} = \frac{\text{N disks} \times 8760 \text{ hrs/year}}{\text{RAF}}$$

MTTR x Ndisks

**常见 I/O 设备: SSD 与 HDD (传统硬盘)**  
Redundancy for Accuracy: 依 Amahl: 系统可靠性取  
决于最薄弱环节。冗余方式: 空间、时间、信息冗余  
错译核验: 奇偶校验: 附加存储器为奇偶校验

**Availability** =  $\frac{MTTF}{(MTTF+MTTR)}$ .  
**Security** : Heartbleed : OpenSSL 漏洞，影响

強)或偶(偏極另立) $\Rightarrow$ 單化特錯誤  
*Harmattan* 風 $\rightarrow$ 是對外發音的風向

冲区、泄露密钥; Rawhammer: 針對 brewh 洞, 通过物理干扰引发位翻转; Side-channel 利用系统中物理理

磁盘冗余: 优势: 提高数据可用性, 防止硬件问题  
加额外校验冗余 $\Rightarrow$  1-bit纠错, 2-bit强纠错

**FPGA:** 现场可编程门阵列，通过硬件描述语言等并行计算：利用多种处理器或核心通过互连高速通信

现特定逻辑(从硬件电路下手!)

**★ 给足资源，FPGA向实现任意逻辑，包括ES-IV**  
**后三章核心：DMA：**除了上述之外：访问冲突解决方式

Burst: 从 Data Block 间 CPU 循环访问内存  
Cache Translation: 将物理地址转换为逻辑地址，与 CPU 交换读写

**Transparent Mode:** DMA 在 CPU 不使用总线时传输

**Software protocol:** Send : Application data. Is better OS 管理

強制定期器 Buffer Patter → 网络接口 ACK

Receive: 檢查 D 有無 OS Buffer。拿來核對，if OK send

**More Parallelism:** Request-level Web services have a high level of parallelism.

Data level: SIMD, on WSC, MapReduce, Scalable files  
Map Reduce: 用于large-scale data并行处理, 将 Data 处理分为 Map 与 Reduce 两个阶段