



$$\text{Prelue time} = \text{CPI} \times \text{Nins} / \text{fClock} \quad f_{\text{MHz}} = 10^9 \text{ Hz}$$

$$\text{MIPS} = (f / \text{CPI}) \times 10^{-6}$$

$$\text{Cost per die} = \frac{\text{Cost per wafer}}{\text{Dies per wafer} \times \text{yield}}$$

$$\text{yield} = (1 + (\text{Defect per area} \times \text{Die area} / \%) )^{-2}$$

$$\text{Dies per wafer} = \text{Wafer area} / \text{Die area}$$

速度 (cache)  $\text{SRAM} > \text{DRAM} > \text{Flash} > \text{Hard disk}$   
volatile

|                    | 小数点-进位 | 0.6 |
|--------------------|--------|-----|
| 0.6 = 0.1001001... | 0.2    | 1   |
| A:10 B:11 C:12     | 0.4    | 0   |
| D:13 E:14 F:15     | 0.9    | 0   |
|                    | 2      | 1   |
|                    | 0.6    | 1   |

Arithmetic IEEE754

$$\text{bias} = 2^{E-1} \rightarrow E \text{ 为指数数长} \quad F \text{ 为尾数长}$$

$$\exp(0 \times 2^{E-1}) \text{ fra 数}$$

$$0 \quad 0 \quad 0$$

$$0 \quad \#0 \quad 0 \cdot \text{fra} \times 2^{1-\text{bias}}$$

$$1 \sim 2^{-2} \quad - \quad (-1)^S (1 \cdot \text{fra}) \cdot 2^{\text{exp-bias}}$$

$$2^E-1 \quad 0 \quad \pm \text{inf}$$

$$2^E-1 \quad \#0 \quad \text{NaN}$$

范围  $[2^{1-\text{bias}}, (2-2^{-F})2^{E-1+\text{bias}}]$ , 精度  $2^{-F}$ 

总 S E F bias 范围

$$32 \quad 1 \quad 8 \quad 23 \quad 127 \quad \pm [2^{-126}, (2-2^{-23}) \cdot 2^{127}]$$

$$64 \quad 1 \quad 11 \quad 52 \quad 1023 \quad \pm [2^{-102}, (2-2^{-52}) \cdot 2^{1023}]$$

加法: ① 小数对齐到大指数 (fra前补0)

② 相加减 ③ 规格化  $1.\text{xxx} \times 2^y$  ④ 舍入

乘法: ① 指数相加, 面减 bias ② 1.fra相乘

并规格化 ③ 符号

除法: ① guard round sticky

... 0/1 0/1 (round后面如有非零, 就进)

 $\approx 1.0000100 \quad 10 \quad 000011 \quad \text{guard1, round0, sticky1}$ round to nearest even 23.5  $\rightarrow 24$  -23.5  $\rightarrow -24$ 

(int) down (-inf) 0

+800000 (+inf)

$$t: \text{Conv} = a \cdot b + (a+b) \cdot c \quad g = a \cdot b \quad p = a+b$$

$$g_2 + P_2 g_1 + P_2 P_1 g_0 + P_2 P_1 P_0 C_0$$

Instruction ① Little endian

② 指令的位宽是固定的

③ dword: 64 bit word: 32 bit

ld 是 I型, sd 是 S型, beq 是 SB型, lui 是

addi jal 是 UJ型. SB 和 UJ 2字节对齐

sll 左移 srl 右移补0 sra 右移补1

slt rd, rs1, rs2 rd = rs1 &lt; rs2 ? 1 : 0 (有符号位)

slt u 不符号 lsw, sw 高位补0

PC += offset

{ beq rs1, rs2 jal rd, imm rd = PC + 4, PC += offset

jalr rd, imm(rs1), rd = PC + 4, PC = imm + rs1

w: 是 i2, 12位 imm, sw 是 i12位

ui: rd, imm rd = imm[31:12], 12位

CPU 延时分析

jal 那数 i[20, 1], 21位, [-2<sup>20</sup>, 2<sup>20</sup>-2]

[PC - 0x100000, PC + 0xxFFFF]

beq i[12:1] [-2<sup>12</sup>, 2<sup>12</sup>-2] [-0x100, 0xFFFF]

x3: gp 大数 lui + addi 如果 imm[11]=1, 就把 imm[11]

x4: fp C 级汇编: x5-x7(t0-t2) 和 y23-x31(t3-t6) 7

保证调用后不变 - x1(ra); x2(sp) o x10-x17

是 x17参数. x10 是返回值, x3-x9, x18-x17 是参数.

int fib(int a, int b){

if(a&lt;=0) return 0;

else return fib(a-1, b) + fib(b-1, a);

fib: beq a0, x0, done

addi t0, x0, 1

beq x10, x5, done

addi sp, sp, -4

sw ra, 0(sp)

addi t0, al, -2

jal ra, fun

lw ra, 0(sp)

addi sp, sp, 4

sdn ra, 0(sp) //n

sdn x0, 4(sp) //n

done: addi a0, a0, 0

addi x10, x10, -1 //n-1

jalv x0, 0(ra)

addi x0, 0(ra)

jal ra, fib

ldn t0, 4(sp) //n

addi x10, x5, -2 //n-2

jal ra, fib

ldn t0, 4(sp)

addi x10, x10, t0

ldn ra, 0(sp)

addi sp, sp, 8

done: jalr x0, x1

Instruction ② ASCII 8位 lbu

whild(x[i] == y[i]+0) i++

addi s3, x0, 0 //i

bne rs1, rs2, Exit. L1: add t0, s3, al

lbu t1, 0(t0)

Pipeline:

加寄存器

Double Bump: 寄存器堆上升沿写, PC和Pip

regs下降沿写, 这样WB和ID可同时

bump

(Data hazard 不高 2/t stall) 元素

② Data hazard:

Forward A from Forward B / 分别对应 rs1, rs2

forwarding 元素避免 load-use 问题

ALU 0: ALU 或更复杂的 ALU

Control hazard: 后级指令会执行下去

2条指令

CPU 延时分析

8位整数地址计算在 MEM

add: Clk-to-Q + IMem读 + Reg读 + Mux + ALU + Mem写 Data hazard (不创造)

ALU + Mux + Reg setup ALU + Mux + Reg setup

addi 算法 Reg 读和 ImmGen 取 max ALU + Mux + Reg setup

lw: addi 基址 + DNMem 读 ALU + Mux + Reg setup

sw: Clk-to-Q + IMem读 + ImmGen + Mux + ALU + Mem写 (不同 Reg setup)

beq: Clk-to-Q + IMem读 + ImmGen + Mux + ALU + Reg setup

+ AND + 2\*Mux + Reg setup

层级越高, 指令越长

reg CPU High

Cache Mem Jmp

FDE DMW

FT F D D D E M W

FF F D E M W

F D D D E M W

Cache 页

Miss 分类

Compulsory miss: 第一次访问

Capacity miss: 内存大小有限, 如 32K Cache 放 128K 整数 block size↑ cap↓

Conflict miss: 非 full-access 冲突, 对齐方如两个小数据, 同时写到同一个地方 (Cache 中 1B 有 2 个 block) assoc↑ conflict

Exception: SegC: 前面遇到异常的指

cause: 异常原因

Status 里面有 NIE, 表示异常使

vector 跳到固定地址

不同地址: base + val

流水线延时分析: 每个阶段都要加 Clk-to-Q + Reg setup

单个指令, 流水线并没有缩短时间, 也没有

缩小 CPI, 但 clock 周期↓, 吞吐量↑, 总时间↓