

所有: ① Abstraction ② Moore's Law ③ Make common case fast  
 No.  
 ④ Memory Hierarchy ⑤ Parallelism ⑥ Pipeline Date

CS110 Review: ① Dependability with redundancy ⑧ Performance Evaluation

Great ideas in CA:

Moore's Law: The number of transistors on microchips doubles every two years. It's a prediction, not Law!

Amdahl's Law: 加速比 可并行化部分占总任务比例 不可并行部分  
 优化后:  $S(N) = \frac{1}{(1-P) + \frac{P}{N}}$  处理器数量 =  $\frac{1}{\frac{1-x}{x} + \frac{1-x}{N}}$

Principle of Locality / Memory Hierarchy

右图从上至下: 存储速度变慢, 但容量逐渐增大

每一层更详细地: ① Register ② On-chip cache: L<sub>1</sub>, L<sub>2</sub> & L<sub>3</sub>  
 ③ Main memory; RAM; 内存条 ④ 固态内存; SSD; 闪存; NVM



Parallelism / Pipeline:



Dependability via Redundancy:

Increasing transistor density reduces the cost of redundancy & Redundancy so that a failing piece doesn't make the system fail

63 62 ... 2 1 0

0 0 1 0 1 ↓

Info\_Representation:

(LSB) least significant bit: 最右边一位 (0号) RISC-V double:

(MSB) most: 最左边一位 (63号) 64 bits long

若是 unsigned number, range 则为 [0, 2<sup>64</sup> - 1]

欲表示负数? 法一: sign & magnitude, abandoned

法二: One's complement: 正数不变, 负数所有位翻转, LSB 为 sign bit

但 range: 0 ~ 2<sup>n-1</sup> - 1; -0 ~ -(2<sup>n-1</sup> - 1); 0 两种表达! 不友好!

KOKUYO



扫描全能王 创建

法三: Two's Complement 正数不变, 负数首位反转并加1

在2补码下的表示数  $(a_n a_{n-1} \dots a_1 a_0)_2$ , 它表示:

$$-a_n \cdot 2^n + a_{n-1} \cdot 2^{n-1} + \dots + a_1 \cdot 2^1 + a_0 \cdot 2^0$$

Arithmetically Friendly! But remind to check overflow!

$$\begin{array}{r} +5 \\ -3 \\ \hline \end{array} \quad \begin{array}{r} ,0\ 1\ 0\ 1 \\ A\ B\ | 0,1 \\ \hline 1\ 0\ 0\ 1\ 0 = 2, \checkmark \end{array}$$

$$\begin{array}{r} -7 \\ -2 \\ \hline \end{array} \quad \begin{array}{r} 1\ 0\ 0\ 1 \\ A\ B\ | 1\ 0 \\ \hline 1\ 1\ 0\ 1\ 1 = 7, ? \end{array}$$

\*: 若 A, B 这两个进位不同, 则 overflow!

Fractional : Floating Point!

normalized.

A number in scientific notation that has no leading 0 is called:

$$\text{Eg: } 3.14 \times 10^{-9} \checkmark, 0.314 \times 10^{-8} \text{ or } 31.4 \times 10^{-10} X$$

用二进制角度: 则能不能也:  $1.xxxx \dots x_{two} \times 2^{yy}$  呢?

其中:  $1.xxxx \dots$   $? = k$ , 一个 "?" 代表  $2^k$ ,  $k = -1, -2, \dots$   
 $2^7: 0 -1 -2 -3 \dots$

Floating-Point Representation: In RISC-V:

bit: 1 8 (含signbit) \* 23

meaning: sign exponents fraction (mantissa)  
 $\text{number} = (-1)^s \times \text{Fraction} \times 2^E$

\* Floating-Point Representation: In IEEE 754 implied

使 leading 1 bit of normalized binary numbers implicit

因此, 实际数是 24 bits long in single precision (1+23)

正因有隐性1, "0"如何表示? 则令 exponent 为0, 硬件识别到则不加

因此 00...00<sub>two</sub> 代表0, 其余的表示方法为:

$$(-1)^s \times (1 + \text{Fraction}) \times 2^E$$

详细地: 若 fraction 部分左至右为  $s_1, s_2 \dots$ , 则值为:

$$(-1)^s \times (1 + s_1 \times 2^{-1} + s_2 \times 2^{-2} + \dots) \times 2^E$$

RP:  $E=0 \& \text{Fraction}=0$   
 $\Rightarrow 0$



它还可表示 $\pm\infty$ , 当 fraction 为 0, exponent 为 1 时, 代表  $\infty$  (sign bit 决定是  $+\infty$  还是  $-\infty$ )

进一步还可表示 NaN: exponent 为 1, fraction 不为 0

至于 Exponent, 若采用 2's complement form, 则比大小还要多看一步 E 的 sign bit (如负 E & 负 E 的比大小). 但计算机算正数二进制大小很友好。故 IEEE754 采用 a bias of 127 for single precision. Eg. -1 指数, 则 E 应为  $-1 + 127 = 126_{ten} = 0111110_{two}$  则 "E" 8-bit range:  $[0, 255] \Rightarrow E \text{ range } [-127, 128]$

但之前提过: "E" 8 位 全为 0 / 1 ( $0 / 255$ ) 有意义, 故实则: Exponent  $\in [-126, 127]$ , 则 IEEE normalized \* FP32 范围:

$$\pm 1.\overbrace{000\dots0}_{23\text{个}}_{two} \times 2^{-126} \rightarrow \pm 1.\overbrace{111\dots1}_{23\text{个}}_{two} \times 2^{127}$$

Example:  $-0.75_{ten} : -1 \& 0.5 + 0.25 \Rightarrow 0.11_{two} \times 2^0$

$$\Rightarrow 1.1 \times 2^{-1} \xrightarrow{\text{fraction}} E = -1 + 127 = 126_{ten} = 0111110_{two}$$

$$\text{则: } 31, 30, 29, 28, 27, 26, 25, 24, 23, \dots, 0 \\ 1, 0, 1, 1, 1, 1, 1, 0 ; 1, 0, 0, \dots, 0$$

FP32: 1; 1 0000001; 0100--

$$S = -1, E = 129 - 127 = 2, \text{ 则: } (-1) \times 1.01_{two} \times 2^2 \\ = (-1) \times (1 + 0.15) \times 4 = -0.5$$

之前说  $E=0$  时且 Fraction = 0 代表 0, 那么 Fraction  $\neq 0$  呢?

代表 subnormal / denormalized 数!  $\Rightarrow$  zero E but nonzero fraction

当  $E \neq 0$  时, 表达最小数为:

$$1.00\dots0_{two} \times 2^{-126}$$



## Subnormal

但通过“Exponent 为 0”去触发 implicit 为 0，则可表达的最小微数为： $0.000\cdots 1_{two} \times 2^{-?}$ ，这一类数最大为：

$$0.111\cdots 1_{two} \times 2^{-?}$$

$-?$  应是多少？是  $-127$  吗？（因为  $0 - bias = -127$ , i.e.,  $bias = 127$ ）

但！ $0.11\cdots 1_{two} \times 2^{-?}$  应能与  $1.00\cdots 0_{two} \times 2^{-126}$  接上！

则： $?$  固定为  $126$  !!  $\cancel{\star}$

Subnormal 范围：

$$\pm 0.00\cdots 1_{two} \times 2^{-126} \sim 0.11\cdots 1_{two} \times 2^{-126}$$

$\downarrow$  即  $1.0 \times 2^{-149}$

总结：normal:  $\pm 1.00\cdots 0_{two} \times 2^{-126}$  ②  $\sim \pm 1.11\cdots 1_{two} \times 2^{127}$  ④

subnormal:  $\pm 0.00\cdots 1_{two} \times 2^{-126}$  ③  $\sim \pm 0.11\cdots 1_{two} \times 2^{-126}$  ①

①：非常接近！ ②  $1.0_{two} \times 2^{-126}$  ③  $1.0_{two} \times 10^{-149}$  ④  $\approx 1.0_{two} \times 2^{128}$

Special Cases:

| Exponent | Mantissa(Fraction) | Value        |
|----------|--------------------|--------------|
| 全 1      | 0                  | $\pm \infty$ |
| 全 1      | 非 0                | NaN          |
| 全 0      | 0                  | Zero (0)     |
| 全 0      | 非 0                | Subnormal    |



## CS110 Review: C

## C Compilation:

(Abstract Syntax Tree)

main.c → pre-process: macro\*, #include → check errors/生成AST  
 → AST2 LLVMIR, then 生成汇编 (.s file) → 汇编 ⇒ 机器码  
 → machine code object file (.o file) (main.o) → Linker\* → main.out  
 lib.o

\*: main.o → Linker → main.out

\*: macro convention: 在哪儿都加括号!!

Eg. #define MAG0(x,y) sqrt(x\*x+y\*y)  
 #define MAG1(x,y) (sqrt((x)\*(x)+(y)\*(y)))

则 MAG0(i+1,j+1) output: sqrt(i+1\*i+1+j+1\*j+1).

MAG1(i+1,j+1) output: sqrt((i+1)\*(i+1)+(j+1)\*(j+1))

因此, 尽可能少用宏, 几乎只有很小的 speed up

## Size of type:

|          |       |        |           |        |          |              |
|----------|-------|--------|-----------|--------|----------|--------------|
| 32 bit 蓝 | char  | short  | short int | int    | long int | unsigned int |
| 64 bit 红 | 1 1   | 2 2    | 2 2       | 4 4    | 4 8      | 4 4          |
|          | void* | size-t | float     | double |          |              |
|          | 4 8   | 4 8    | 4 4       | 8 8    |          |              |

Diff: long int = 电脑多少位 = void\* = size-t

一个地址在几位PC便几位

设计目的便是对齐 32/64 bit

"True or False" Boolean in C:

FALSE  $\Leftrightarrow$  0(int). NULL(pointer); TRUE  $\Leftrightarrow$  ! FALSE

Address vs. Value

Memory. 其实是就是 byte array!



△: malloc & dangling pointer: function  
`realloc` 内存分配后，return 其他地址；  
realloc 但它在 heap 上，故会回收



-一个 cell, i.e., 一个 byte; <sup>stack</sup> int: 4 bytes; char: 1 byte.

因此存放不同数据的结构体有 alignment 现象！

-一个地址多少 byte: up to PC。CS110 默认 32 位, 4 byte.

-一个地址  $\Rightarrow$  particular memory location; Pointer 就是存放地址的变量。

Syntax of Pointer:

&: 取 address. \*P: 解引用, 返回 P 地址对应 value

注意函数传参: 是传地址! (引用传递; 值传递  $\Leftrightarrow$  copy init)

避免指针这个 variable 声明时不告诉它地址 (Undefined Behavior)

Array: \*

string: 最后有 '\0' (NULL) Byte  $\nabla$  (NULL Terminator).

Eg: char s[] = "abc"  $\Rightarrow$  [a, b, c, '\0']  
char s[3] = "abc"  $\Rightarrow$  [a, b, c]

\*: Array variable is a "pointer" to the first element

arr[2] ~ \*(arr+2). \*: type\* p: p 指向地址: p + i \* sizeof(type)

Key Concept: 传参时欲对传入变量就地操作, 传其指针!

我有 int array 的指针 int \*q, 欲指向下一个地址(令 q).

则函数应传入 int \*\*p

stack pointer  $\rightarrow$



C Memory Management:

stack: function 中局部变量

heap: malloc() 开辟动态内存

static data: function 外声明的变量, 可修改.

code: (a.k.a. text) 不可修改

\*: 只能 Array 隐式转至 pointer! 反之不行!

Campus: 传参只能传 pointer! 传 array 也行, 但严格转化为 pointer!



扫描全能王 创建

## CA Review: RISC-V

Assembly Instructions: 4个核心 type (R ISU) + B/J

不同 type 有不同 format, 但 rs1, rs2, rd 在相同位置

R-type: Register - register operation

接受 rs1, rs2, 轮出至 rd (S: source ; d: destination)

不可访问 main memory

$$a = b \pm c$$

|        |        |        |                |    |          |
|--------|--------|--------|----------------|----|----------|
| 31     | 25, 24 | 20, 19 | 15, 14, 12, 11 | 6  | 0        |
| funct7 | : rs2  | : rs1  | : funct3       | rd | : OPCode |

$$a \Leftarrow rd \quad b \Leftarrow rs1 \quad c \Leftarrow rs2$$

还可以是位运算: AND/OR/XOR; 还可比较: SLT/SLTU: ~rd, rs1, rs2

rd = 1 if rs1 < rs2 else 0; 且把 number 当作 signed/unsigned with  $\frac{\text{slt}}{\text{sltu}}$   
(SLT(U): store if less than, U: unsigned).

SLT(U) 可各自检测加减法在 signed/unsigned 数域内是否 overflow:

unsigned: 如 add  $x_2, x_1, x_1$  若  $x_3 = 0, x_2 < x_1$ , 则溢;

SLTU  $x_3, x_2, x_1$  否则  $x_2 = x_1 + x_1 > x_1$

signed:  $\begin{cases} \text{add } t_0, t_1, t_2 & t_3 = 1 \text{ if } t_2 < 0 \quad t_0 = t_1 + t_2. \\ \text{slti } t_3, t_2, 0 & t_4 = 1 \text{ if } t_0 < t_1 \\ \text{slt } t_4, t_0, t_1 & \text{若 } t_2 < 0, t_0 > t_1 \text{ 矛盾? 溢出!} \\ \text{bne } t_3, t_4, \text{overflow} & \text{若 } t_2 > 0, t_0 < t_1. \text{ 矛盾? 溢出!} \end{cases}$

$t_3 = 1 \text{ if } t_2 < 0 \quad t_0 = t_1 + t_2.$

$t_4 = 1 \text{ if } t_0 < t_1$

若  $t_2 < 0, t_0 > t_1$  矛盾? 溢出!

若  $t_2 > 0, t_0 < t_1$ . 矛盾? 溢出!

还可 shift 操作: shift left/right (arithmetic) SLL/SRL/SRA rd, rs1, rs2  
rs1 左/右移, 多少位呢? rs2 中低 5 位 所代表的十进制数 ( $2^5 = 32$ )

而 arithmetic: sign-extended 指的是右移后前面空出的位

用 1/0 填充, rs1 原为负 (符号位为 1) 则填 1; 反之填 0.

而: SRL 总用 0 填充; SLL 空出的低 5 位必用 0 填

\*: RISC-V 中, 所有 Imm 均是 sign-extended



|           |       |        |       |        |   |
|-----------|-------|--------|-------|--------|---|
| 31        | 20 19 | 15 14  | 12 11 | 7 6    | 0 |
| imm[11:0] | rs1   | funct3 | rd    | opcode |   |

I-type: 有两个 operands: 一个从 reg 中拿 (rs1), 一个是立即数 (sign-extended)

常用命令: addi  $x_1, x_0, 10 / -10$  (有符号)

slli / srli / srai 按 imm 低 5 位 + 进制移; 如何从机器码分辨是 srai?

用 imm 高 7 位 中 1 位 (imm[11:0]). (or funct7 field).

andi / ori / xorri / slti / sltui 都是与 signed-imm 操作:

slti: rs1 中 数  $\rightarrow$  有符号  $\downarrow$  sltui: rs1 中 数  $\rightarrow$  unsigned.

还有一类重要功能: Load

lw: lw rd, imm(rs1) : load word at addr. to rd.

而 addr.: rs1 中 数 + imm 注意 word 是 4-byte 32 位

附: Little Endian: ADDR: 3 2 1 0 (Big Endian 反之).  
Byte: 3 2 1 0  
value: --- --- --- --- 00

① lb / lbu: load signed/unsigned byte at addr. to rd.

\*: 拿一个 byte 来, 用 1/0 填至 32 位 (填高 24 位); 8 位中 sign-bit 为 1, 则 1 而 lbu 用 0 填充

类似地: lh / lhu: halfword: 2 bytes

而能 load, 就能 store: 也就是 S-type:

|           |       |       |        |          |        |   |
|-----------|-------|-------|--------|----------|--------|---|
| 31        | 25 24 | 20 19 | 15 14  | 12 11    | 7, 6   | 0 |
| imm[11:5] | rs2   | rs1   | funct3 | imm[4:0] | opcode |   |

sw rs2, imm(rs1) : store word (32bit) at rs2 to addr.

addr. = (number in rs1) + imm.

由于 rs2 中 数 本身 32 bit, 故也就无“填充之说”; 而 sh . sb 呢?

无 shu, sbu !! 直接取 rs2 中 数 低 16/8 位, 就 sh / sb 了。

Recap addi x11, x0, 0x4f6.  $\Rightarrow$  0x85f6. (假设已超过)

Exercise. sw x11, 0 (x5) | (注不报错)

lb x12, 1 (x5)

Campus X12 中: 0x4.  $\leftarrow$  0xFFFFFFF85.  
(lb: signed  $\Rightarrow$  padding)



|    |    |    |    |    |    |    |    |    |    |   |   |   |   |
|----|----|----|----|----|----|----|----|----|----|---|---|---|---|
| 31 | 30 | 25 | 24 | 20 | 19 | 15 | 14 | 12 | 11 | 8 | 7 | 6 | 0 |
|----|----|----|----|----|----|----|----|----|----|---|---|---|---|

B-type(3种SB) [imm[2]] [imm[10:5]] rs2 rs1 funct3 imm[4:1] imm[11] opcode

conditional branch (unconditional: J-type).

bne/beq, rs1, rs2, L (imm/Label). going to L if  $rs1 \neq rs2$

blt/bt / bge/bge rs1, rs2, L

<      >      ↳ 比较时：视为 unsigned (无符号).

△ Otherwise: go to next statement

当前命令地址

L若是 Label，则跳至 label；若是 imm，则跳至 (PC+imm).

介绍了 type 后，介绍 RISC-V 中如何实现类似 “call function”

正常情况，PC - 条条运行指令，但跳至函数后，不像 Label.

要能返回跳时的下一指令，i.e., PC+4

可见应有 reg 保管 PC 信息  $\Rightarrow ra(x_1)$ .

参数统一用 a<sub>0</sub>-a<sub>7</sub> 表示与保存 (a<sub>0</sub>-a<sub>1</sub> 用于返回)；

s<sub>1</sub>, s<sub>2</sub> - s<sub>11</sub> 用于作 saving reg；t<sub>3</sub>-t<sub>6</sub> 用作临时变量

sp: stack pointer, sp↓ 开辟空间，↑则恢复原状

\* Calling convention: callee reg 通通存起来！

sp, s<sub>1</sub>, s<sub>2</sub> - s<sub>11</sub>, s<sub>0</sub>(fp) (不要小了解).

良好使用 calling convention，可以支持 nested call，因为在进入函数后，原来 callee 内容存至 memory，那么 function 就能使用它们了；只需 ret 前 lw 拿回来即可

→ △△ 它是 J-type！放在此介绍仅因其与 function call 有关  
最后的 J-type，就与函数调用有关：

J-type:

|      |    |     |       |          |    |             |    |          |              |    |    |    |    |    |    |   |   |   |
|------|----|-----|-------|----------|----|-------------|----|----------|--------------|----|----|----|----|----|----|---|---|---|
| jalr | rd | rs1 | label | imm      | 31 | 30          | 25 | 24       | 20           | 19 | 15 | 14 | 12 | 11 | rd | 7 | 6 | 0 |
|      |    |     |       | [imm[2]] |    | [imm[10:1]] |    | [imm[4]] | [imm[19:12]] |    |    |    |    |    |    |   |   |   |

jump to label and return PC+4 to rd ; if imm, jump to (rs1+imm) ↳

而: jal offset  $\Leftrightarrow$  jal X<sub>1</sub>, offset. (X<sub>1</sub>=ra) | jal rd, offset, 跳至 PC+offset

j offset  $\Leftrightarrow$  jal X<sub>0</sub>, offset (相当于不加 PC+4) | 并 PC+4 给 rd. 区别.



No. D: 指令 machine code 中都是拿 imm 的；若传 label，则会计算 imm(offset)！

Date

$\rightarrow$  还为 0  
 $jr rs \Leftrightarrow jalr x_0, rs \Leftrightarrow jalr x_0, rs, 0$ , 跳至 rs，并不保存 PC + 4

Δ: nested call 中，SP 移动且 SW callee reg 且 setup argument

reg (如 add a0, s0, x0)，这一堆操作称为 Prologue

而最后 LW 恢复 callee 且 SP 移回，这一堆操作称为 Epilogue

最后简单介绍 instruction  $\rightarrow$  machine code 的 format:

rd, rs1, rs2 用了 5 位 unsigned bits 表示 reg. 的编号 ( $2^5 = 32$ )  
opcode: 7 位 & funct3 & funct7 共同决定是什么操作

但不是任何指令都有 funct3 & 7；也在 I-type 中，funct3 & 7 together 足够 判定指令

rule: 2 的补码

Encoding in: I-type: imm 12 bit, signed,  $\in [-2048, 2047]$

① imm 在指令用它操作前，要先 sign-extended !! ② 但若用于位移，则直接取 [4:0]。不必 sign-extended

③ 而 load 中，funct3 中 第一位 indicates signed(0) / unsigned(1)  
而后两位 indicates word(10) / h(01) / b(00)

(I-type 3 类任务):

①  $\Rightarrow$  arithmetic ②  $\Rightarrow$  shift ③  $\Rightarrow$  load

S-type: funct3 前一位是 0，后两位: word(10) / h(01) / b(00)

B-type: 如何表示 label? 相对于该命令地址的相对地址!

use imm field as a two's complement offset to PC

可见，address 相对范围为  $\pm 2^{12}$ 。但是一个指令四 byte，怎么说也要 2-byte alignment，则 offset 最后两位无用，则：

offset [11:0]  $\Rightarrow$  offset [13:2]，一下子 offset 范围扩至  $\pm 2^{13}$

但若至少 2-byte，则是 1 位无用，范围:  $\pm 2^{12}$  (from PC)

相当于:  $\pm 2^{10}$  32 bit instructions [signed]

Campus \* 机器码中，imm(即 offset) 的 [12:1] 被 encode



扫描全能王 创建

R-type: rd, rs1, rs2. 5bit unsigned  $\Rightarrow$  No. reg

funct3 & 7共同决定 operation type

J-type: jal rd, label, store PC+4 to rd, jump to label

label = PC + offset(cimm), 故 label 转为 offset,  $\pm 2^{18}$  32-bit instructions (因为支持的 imm: [20:1]).

I-type 补 jalr: store PC+4 to rd and jump to label = rs + imm  
imm  $\in [-2048, 2047]$ , 不再相对于 PC, 而相对于 rs reg 中  
的地址。注意: imm [11:0] 前12位全部保留, 而非最后一位  
清零, 因为 rs 中地址可能不是对齐的

U-type: Lui & auipc



lui rd, imm, rd = imm  $\ll 12$

先前 I-type 中 imm 范围为 [-2048, 2047], 但和 lui 结合,  
给 reg 传的数据的范围就能 32-bit 了:

i.e., li X5 imm  $\Rightarrow$  lui X5 imm[31:12] + addi X5, X5, imm

(附: 若 li rd imm 的 imm .1于等于12位, 则 addi 即可)

△: Given imm, signed, 若 imm 第2位为 1 呢? 则 低12位照取,  
而高20位 最后一位要加1

auipc: rd, imm: rd = PC + (imm .  $\ll 12$ )

这是因为 S-type imm 12位, 但理应支持32位的 offset

则 Store/Load with PC 相对 32位 offset / 32位 绝对地址:

auipc X5, <high20> / lui X5, <high20>

sw/lw rd, (<low12>) X5

→ store/load

→ 相对 offset / 绝对 address.

最后: 拿过来 32bit instruction, 如何看出指令?

Step 1: 查 opcode / funct3 / funct7  $\Rightarrow$  type / operation.

Step 2: 找 rs1 / rs2 / rd / imm values (若存在)

KOKUYO



扫描全能王 创建

CA review: CALL : Compiling + Assembler + Linker + Loading

Main Topic: C program from storage (disk or flash) into  
a program running on a computer



Compiler: C → Assembly

Assembler: 汇编中可能有伪指令, Assembler 基本任务是: Assembly, machine code

具体而言: assembly → object file, a combination of machine  
指令, 数据以及指令放在内存中位置的信息

指令中的 label 地址将十分重要, 故 assemble 会将追踪 labels  
并记录它们与 data transfer instructions\* 在 symbol table 中

对于 UNIX, object file 有以下六个信息:

- ① header : the size and the position of the other pieces of obj file
- ② text segment: contains machine code
- ③ static data segments: data allocated for the life of program
- ④ relocation information: 当 program load 进内存时, identifies  
instructions and data word that 依赖于绝对路径.
- ⑤ symbol table
- ⑥ debugging info

Linker: 有时要调库 (如头文件, 其它.o), 要把所有独立的  
machine language programs 都“拼”在一起  
它一共有三步:

- ① \* Place code and data modules, symbolically in memory



② Determine the address of data & labels

③ Patch both the internal and external references

fill in absolute addresses; must relocate to reflect location



Loader: 可执行文件 : disk → memory , and start it

Read header → create an address for text & data

→ copy data & 指令至内存 → 初始化 reg, set stack pointer

→ Jump to start-up routine, calls main routine of program

Ex: When are the machine codes generated ?

1) add x5, x6, x7 ⇒ After assembly

2) jal x1, fprint ⇒ After assembly

Determine? 1) After assembly 2) After linking



# CA Review: Digital Circuit - State elements

(Digital System, Combinational logics 略)

Registers: 在 clock 上升沿时，采样 input 并输出



In side a reg: Implemented by multiple D-flip-flops (DFF)

每个 DFF 可 store 1 bit: all share one clk



同步电路表示 FSM

input &  $Q_{k-1} \Rightarrow Q_k \& \text{output}$



某种程度上: ISA (指令集架构) 也是一种 FSM

\* Timing in synchronous circuits: clk:

① Hold Time    ② Setup Time

D 信息在 ① + ② 期间应保持不变  $Q$ :

同时,  $Q$  在上升沿中期 (c. 点) (上升沿视为非常短暂) 可变化,

但需在 ③: t<sub>clk-to-Q</sub> 后才能到达稳定信号



No.

Date

可见, clk frequency 不能  $\infty$ , 有限制! 如下电路:



则:  $t_{clk-to-Q} + t_{CFB} \leq \text{min clock period} - \text{setup-time}$ .

5. The slowest path decide the max frequency (critical path).

XO:



nb 及注意:  $\frac{1}{1\mu s} = 1000MHz$ ,  $1ns = 10^{-9}s$



扫描全能王 创建

## CA Review: Datapath

Useful blocks:

① ALU: arithmetic instructions 有: 异或 或 与 i] add sub slt sltu sll srl sra. xor or and  
 加减 store if less than shift.



用  $\overline{\text{sel}_0 \text{sel}_1}$  来控制输出哪个位运算.



5位 input, 因为 shift 命令就是移动 imm 低 5 位代表的十进制数.

类似可构造 srl sra 专用的 block (or notation:  $C[i-1]$ ).



而减法呢?  $A - B = A + (-B) = A + \bar{B} + 1 \pmod{2^{n-1}}$

则  $B[i]$  输入时, 应有元件控制是否翻转…… XOR Gate! \*



由 Sel 信号控制: 1. 则是减,  $B[i]$  反转(包括 0 位的进位:  $0 \Rightarrow 1$ ).  
 0. 则是加法



KOKUYO



扫描全能王 创建

至此，三种操作：add/sub, shift, and bit operation，都准备了 block  
最终依据 sel 信号选择即可：xor/and/or



△ 对于 immediate，只需修改 operand2，通过这个接口给 imm，而非 reg 中接即可

② Reg.  $\Rightarrow$  Register file.

功能：provide data given register numbers & change the stored value



\*: 这个 32-multiplexer 可能用 5 层 2-multiplexer 搭建；且一个 32-plexer 能输出一个 reg value，故此处应用两个 32-multiplexer！

△ 此处 signal 控制下一上升沿时，哪(两)个 reg 读取 input 值

DRAM memory symbol

③ Mem:



介绍了 useful blocks，接下来关键便是如何运用它们于指令！

如：明显地：ALU 将会被 R/I-type 指令使用

Another thing: symbol for Reg. file & ALU.



下面，将介绍不同 type 中的 datapath 搭建：

R-type 说的是用rs2中值对rs1作操作最后给rd值  
→根据PC信息拿指令 machine code.



I-type: 回顾一下 I-type 与 R-type 的区别:

- ① I-type 中有许多操作与 R 中类似 (addi, slti, ori), 只不过一个 reg 一个 imm
  - ② 除①之外, 还有 lwc/b/h, 要从 Data memory 中拿数据

但有个共同点，①②的输出，最终都是输回给 rd 的！



S-type: 在开始前，要厘清 S-type 在干什么：如 SW: rs2, imm(SI): store word at rs2 to memory addr. = (X[RSI] + imm).

可见，这里进 Data memory 的 addr. 依然是 ALU 的输出，但这里的 Data memory block 应支持写入 Data！

可见 Data mem 需进一步设计： read enabled



$\Leftrightarrow$  只能读。



\*: 有写&存  $\rightarrow$  clk! Reg!

(a.k.a. “读”到这个位置)

在这里 addr. 依然可用于定位，但 d-in 的设计指定了写入啥值。

而 re, we 将控制此时 block 是读 or 写, i.e., 控制 block 行为：

① we=1, re=0, 则 addr. 写入 d-in 值, d-out 为 nothing

② we=0, re=1, 则 d-out = data[addr.]

③ we=0, re=0, 代表这个指令 datapath 中不用这个 block, d-out 为 nothing 且无数据写入 ④ we=1, re=1: 禁止！ decided by mstr

可见, X[RSI] 将接入 d-in ; 图如下:



$\hookrightarrow$  [11:7]  $\Rightarrow$  不同于 I 中, imm[11:0]  $\Rightarrow$  [31:20].

因为 S 的 machine code 中, imm[11:5]  $\Rightarrow$  [31:25]; imm[4:0]  $\Rightarrow$  [11:7]

可见, instr 输入的不仅是 [31:20], 还需要 [11:7]；这也意味着, imm Gen block 的设计需要进一步完善！ $\Delta$



\* : 同时, reg-file block 加入了额外的 control signal : req-en

Why? 假设 SW 之后, d-out 为 nothing; 虽然 S-type 无 rd, 但 [11:7] 处依然是 5 位, 且传给 reg-file (但其实这 5 位是 imm[4:0]!) 那么, nothing 将会误传给 rd! 故要 req-en 控制 wb 决策!

那么可见, 若是 lw 或 R-type, rd 的更新 将在下-clk 上升沿;

下-上升沿时, rd 读入 (if req-en 为 1), 与此同时, PC reg 给出 instr, 将会陆续取出新 rd, rs1, rs2; 但前者进程更快, 故新 reg 来时, 旧 rd 已读入, 已准备好被读了 (如上一个 rd 是现在 rs1)



\* 还有 bne, blt, bge; 可让 ALU 伸出 portal, 并 instr 扩到后继

B-type: eg. beq, rs1, rs2, L (imm/label), 若  $x[rs1] == x[rs2]$ , 则前往 L ( $PC + imm / label$ ; 但机器码用 imm/label - PC)

如何简便地在上一个版本的图 (S-type) 中修改, 以支持 B-type?

回想 ALU 中计算过  $x[rs1] - x[rs2]$  的! 可以用一个大或门判断

32-bit 结果是否为 0! 因此, ALU 可以额外出一个 zero portal.

这个 portal 是否发挥作用, 应由 instruction machine code 提供的信息决定。

发挥作用时:  $\begin{cases} PC = PC + 4, & \text{if } zero \neq 0 \\ PC = PC + imm, & \text{if } zero = 0 \end{cases}$

可见: 原来的  $PC + 4$  简单逻辑也需要进一步完善

而 B-type 中 imm 组成又与 I, S 不同, 故 imm Gen 也要改



hw下是支持 R, I-type & bge 的 datapath 图：



imm Gen:



## Controller:

从之前能看出：许多控制器件的信号由 instr 而来，有：

reg-en re we alu-ctrl imm-ctrl wb-src.  
op2-src is-beq.



为了保证信号到器件时，ctrl signal 已到达，故 instr 先过 controller，由 controller 分发 ctrl signal wb 及 rd, rs1, rs2, instr[31:20][11:7]  
但画图采用 fig (题中) 也可以，只不过需要明白，ctrl-signal.  
instr[31:20][11:7] regs 是谁给！(甚至部分题目算 timing 时不考虑 controller 的延时)。

Timing：在 Datapath 图中，不难发现 path 由 5 部分组成：

| IF              | ID           | EX        | MEM           | WB                                                             |
|-----------------|--------------|-----------|---------------|----------------------------------------------------------------|
| instr fetch     | instr decode | execution | memory access | write back                                                     |
| 下面讨论各个 Type 延时： |              |           |               | 不论是 $x \rightarrow$ reg.file<br>还是 $PCimm \rightarrow PC, reg$ |



IF      无 mem 环节! ID

EX

R-type:  $[clk-to-q_h \rightarrow I_{mem}] \rightarrow [Reg\_file \rightarrow mux] \rightarrow [alu]$

$\rightarrow mux \rightarrow [setup] \text{ WB}$  关键 setup 是 PC reg 的!

同时,  $q_h$  出的 PC 回到 adder 也有时间:  $clk-to-q_h \rightarrow adder \rightarrow setup$

但一般比上一条 path 快 (assume; 且假设 control signal is fast)

AdLogic  $\checkmark$  ctrl 快速告知 mux 选 4 去加 PC.

I-type:  $q_h$  出 PC 回 adder:  $clk-to-q_h \rightarrow adder \rightarrow setup$

$\left[ \begin{array}{l} [clk-to-q_h \rightarrow I_{mem}] \xrightarrow{\text{IF}} \text{reg} \xrightarrow{\text{①}} [alu] \xrightarrow{\text{EX}} [mux \rightarrow setup] \\ [clk-to-q_h \rightarrow I_{mem}] \rightarrow \text{imm} \rightarrow mux \end{array} \right] \xrightarrow{\text{WB}} \left. \begin{array}{l} \text{max, 无 mem} \\ \text{ID} \end{array} \right\}$

alu 前两条路过来: 一个是 reg 中值, 一个是 imm; 两者都在拿到 instr 指令后出发!

Loading:  $q_h$  出 PC 回 adder:  $clk-to-q_h \rightarrow adder \rightarrow setup$

$\left[ \begin{array}{l} [clk-to-q_h \rightarrow I_{mem}] \xrightarrow{\text{IF}} \text{reg} \longrightarrow [alu] \xrightarrow{\text{Ex}} [D_{mem}] \xrightarrow{\text{MEM}} [mux \rightarrow setup] \\ \text{imm} \rightarrow mux \end{array} \right] \xrightarrow{\text{WB}} \left. \begin{array}{l} \text{max, 缓!} \\ \text{ID} \end{array} \right\}$

因此, load 操作是耗时最长的!

S-type:  $clk-to-q_h \rightarrow adder \rightarrow setup$

$\left[ \begin{array}{l} [clk-to-q_h \rightarrow I_{mem}] \xrightarrow{\text{IF}} \text{reg} \xrightarrow{\text{ID}} [alu] \xrightarrow{\text{Ex}} [D_{mem}] \xrightarrow{\text{Mem}} \left. \begin{array}{l} \text{max, 无 WB} \\ \text{addr.} \end{array} \right\} \end{array} \right]$

B-type: 现在,  $clk-to-q_h \rightarrow adder \rightarrow setup$ , 不是这么简单了!

$\left[ \begin{array}{l} [clk-to-q_h \rightarrow I_{mem}] \xrightarrow{\text{IF}} \text{reg} \xrightarrow{\text{ID}} \text{mux} \xrightarrow{\text{Ex}} [alu] \xrightarrow{\text{and}} \text{mux} \rightarrow adder \rightarrow setup \\ \text{imm} \end{array} \right] \xrightarrow{\text{WB.}} \left. \begin{array}{l} \text{max} \\ \text{无 Mem} \end{array} \right\}$



## CA Review: Pipeline

$$\text{Performance: } \frac{\text{Time}}{\text{Program}} = \frac{\text{Instructions}}{\text{Program}} \cdot \frac{\text{Cycles}}{\text{Instructions}} \cdot \frac{\text{Time}}{\text{Cycle}}$$

factors:

- ISAC RISC vs CISC)
- Program itself
- Compiler
- 编程语言

简称: CPI

Microarchitecture implementation or circuit design / ISA

- Compiler
- Program

| Program : | Instr-type: A | B | C |
|-----------|---------------|---|---|
| CPI       | 2             | 2 | 4 |

percentage      20%      40%      40%

Program 有  $10^6$  instr, 以及 CPU 频率: 2.5GHz

$$\begin{aligned} \text{则 CPU time} &= 10^6 \times \text{Average CPI} \times 1/2.5\text{GHz} \\ &= 10^6 \times 2.8 \times \frac{1}{2.5 \times 10^9} = 1.12 \times 10^{-3} \text{S} = 1.12 \text{ms} \end{aligned}$$

如何提高 Time/Cycle, 若仅是  $t_{critical-path} \leq t_{clk}$ , 一个 path 里至多可经过 5 大组件 (IF, ID, EX, MEM, WB).

但若五个阶段视为 5 个收费站呢? 而不是车必过 5 站, 下辆车才可进?

这样, Pipelined CPU: map  $\{t_{IF}, t_{ID}, t_{EX}, t_{MEM}, t_{WB}\}$  (原先是  $\Sigma$ ).

那则需要设计站以让车有序过站了,  $\Rightarrow$  reg!



同时注意到：rd不能赖在reg. file中不走，直到x[rd]来！故rd也要流动！



Structure

|          | CC1 | CC2 | CC3 | CC4   | CC5  |
|----------|-----|-----|-----|-------|------|
| Instr: 1 | IF  | ID  | EX  | MEM X | WB X |
| 2        |     |     |     |       |      |
| 3        |     |     |     |       |      |
| 4        |     |     |     | IF X  | ID X |

X: Dmem 与 IMem 说到低，在一块内存上！

X: Reg. file 能又存又写么？有先后顺序么？ to use physical resources

可在硬件上解决问题 (hw 解决 Data & Instr Mem issue); hb 及指令 take turns

|          | CC1 | CC2 | CC3              | CC4 | CC5           | CC6 |
|----------|-----|-----|------------------|-----|---------------|-----|
| Instr: 1 | IF  | ID  | EX( $x_2, x_3$ ) | MEM | WB(更新 $x_1$ ) |     |
| 2        | IF  | ID  | EX( $x_5, x_6$ ) | MEM | WB(更新 $x_4$ ) |     |

3 Read after write !!

IF ID EX( $x_1, \cancel{x_4}$ )

Solution ①. NOP: 输入空指令，啥也不做；让  $x_4$  更新后，再 EX( $x_1, x_4$ ). (Wait!)

②



因为冲突可能发生在相邻 1 or 2 条指令。

因此新 reg 值但来不及存的值，通过 mux



扫描全能王 创建

一言以蔽之：ALU结果值得以在1或2轮后返回MUX，在被存入Reg前就被可用，解决 RAW 干扰

而关于 op1-src，大致上先可用 reg-en 判断：为1时，它便会注意之后是否要提前于 WB 而读它；而 op1-src 具体多少，取决于之后几条(1/2)命令后是 rs1 还是 rs2 要利用它

2). 'load delay slot' : {



可利用等：

nop

add

在隔 1.2 条 instr 时，Data Hazard 意料之中；但 3 条之差呢？即：能  
又写又读么？一般认为，这也有 Hazard

或者 Code Rescheduling，将不冲突、不影响的指令先放 lw 后 (compiler 完成)

③ Control：考虑一个 beq 指令，若 beq 在 S 阶段后令 PC 跳至一个地方，  
那么前面 pipeline 中在跑的 beq 后几条指令岂不是全错？

一种解决方案是用 nop 等！待 S 阶段后 PC 给出正确 address，再继续

另一种是照常：若不 jump，则 OK；若 jump，则 额外花时间 flush 前四  
条指令所对 reg. mem. 做的操作！

或者：Dynamic branch prediction：Predict if the branch will be  
taken based on the current record

最后，也可考虑类似于 rd 解决方案：forwarding to reduce delay of branches  
(将 is-beq 信号一出 ALU 就送过去)。



## Multi-Issue:

在之前讨论情景中，1个 clock cycle 中最多 1个 instruction 有问题  
考虑如何提高并行效率：①是加深流程，如一个环节拆成多个  
③是多几套这样的流水线，这称为 **multiple issue**

在②做法下，原来 pipeline 中的  $CPI \geq 1$ ，可能变为  $CPI < 1$



可见，这种做法主要对 Hardware 提出了要求。

那么理想情况下，指令 scheduling 尽量 1个 ALU or Branch, 1个 Load or Store 这两个组一组，一起进 Multi-Issue。可能有 Hazard。  
如两组间有 Read before Write，但一般 forwarding 也可解决  
或者：与 nop 组一组；又或者调换顺序

可见 scheduling 是重要的！它可能是 compile time 或 execution time 来 schedule 的 (学名: Packaging)      Static      Dynamic (by hardware) \*

In most static issue processors: partially handled by Compiler

In dynamic issue designs: be normally dealt with at runtime by Processor

although compiler often have already tried to help improve by

placing instructions in a beneficial order.

而对于 dealing with data/control hazard: hardware technique

Static: compiler handles some or all data/control hazards.

Dynamic: processors attempt to alleviate some classes of hazards

\*: Also called superscalar:



Multi-issue is not Multi-core, nor SIMD; it can be combined with pipelining, SIMD, etc



## Parallelism

Motivation: 2000年后，processor 遇到了功耗墙 (power wall)

问题：虽可加晶体管数量，但因功率与热量限制，**提升性**  
**能变得困难**

Two ways to improve performance:

① 多道程序: multiprogramming，并行运行多个程序

② 并行: 让一个程序更快 topic 受影响比例

Recall Amdahl's Law: Speed up =  $\frac{1}{(1-F) + F/S}$  提升量

关于并行提升效率，有两种描述法：

① Strong scaling: Size of problem 不变，运行时间  $\times \frac{1}{n}$  不变

② Weak scaling: 变大，并行效率提高( $\propto n$ )，运行时间  
↓更易实现 ↓更难，但更理想

Flynn's Taxonomy: 将指令集与数据流并行性分为四种：

SISD SIMD MISD MIMD

Single instruction, single data

但 SIMD 不同：利用单一指令流来同时处理多个数据流：Instr Pool.

PU: processing unit

应用举例：Intel SIMD Instr Extensions:

允许多个数据元素并行处理



SIMD 是这一节的 main topic !

MIMD

Instr Pool.

Data Pool



Multicore (之后会讲)

MISD

Instr Pool

Data Pool



Rare !



```

for (int i = 0; i < N; i++) {
    for (int j = 0; j < N; j++) {
        double Cij = 0;
        for (int k = 0; k < N; k++) {
            Cij += A[i + k * N] * B[j * N + k];
        }
        C[i * N + j] = Cij;
    }
}

```

What is SIMD?

考虑矩阵乘的代码：红色部分可视为一种“操作”，其涉及大量数据（ $m \times n \times p$ ）

SIMD 恰好就可提升此种 Data Level Processing

- \* One instr is fetched & decoded for entire operation

- \* SIMD 支持内存的并行访问，这很重要！

那么现实中如何支持 SIMD？Intel X86 intrinsics 的 SIMD 指令集有 SSE, AVX 等命令可允许扩展指令集

一般 SIMD 指令会从两个源寄存器组中拿数据，送入 op(operation) 组件，目标寄存器组会将计算结果存在一起



为了实现上述思想，甚至一些特殊数据类型被设计出来：

Packed byte: 64 byte, 存 8 个 8 bytes (MMX)

word: 4 个 16 bytes

并且有寄存器专门存这种玩意儿，以支持多个数据打包至单 reg.

Intrinsic Function: 内建函数是高级语言中与汇编指令一一对应的函数，允许 C 中直接调用 SIMD 指令

