

Logik Gates

|                               |                                      |
|-------------------------------|--------------------------------------|
| AND $\Rightarrow D = A \& B$  | NAND $\Rightarrow D = \neg(A \& B)$  |
| OR $\Rightarrow D = A \mid B$ | NOR $\Rightarrow D = \neg(A \mid B)$ |
| NOT $\Rightarrow D = \neg A$  | XOR $\Rightarrow D = A \oplus B$     |

Sign/Magnitude: 1. Bit Vorzeichen,  
 $[-2^{n-1} + 1, +2^{n-1} - 1]$

2s Complement:  $[-2^{n-1}, 2^{n-1} - 1]$

1. Bit (MSB) ist Indikator für negative Zahl.

Dec.  $\rightarrow$  2s Comp.:

- 1) absolute Wert in Bin. umwandeln
- 2) wenn negative Zahl:
  - (a) invertieren
  - (b) 1.0 addieren

2s Comp.  $\rightarrow$  Dec.

ganz normal, nur dass 1. Bit den Wert  $-2^n$  hat!

CMOS nMOS:  $A=0 \Rightarrow d=0$   
 $A=1 \Rightarrow d=1$



nMOS:  $A=0 \Rightarrow d=0$   
 $A=1 \Rightarrow d=1$



pMOS:  $A=0 \Rightarrow d=1$   
 $A=1 \Rightarrow d=0$



Binär  
 $D_{2^2} \rightarrow B_{10}:$

$$\begin{array}{l} 5_{10} : 2 = 2 \quad R_1 \\ 2 : 2 = 1 \quad R_0 \\ 1 : 2 = 0 \quad R_1 \\ \hline = 5_{10} = 101_2 \end{array}$$

$$\begin{array}{l} B_{10} \rightarrow D_{2^2}: \\ 101_2 = 1 \cdot 2^2 + 0 \cdot 2^1 + 1 \cdot 2^0 = 5_{10} \\ 101_2 = 1 \cdot 2^2 + 1 \cdot 2^1 + 1 \cdot 2^0 = 13_{10} \\ 101_2 = 1 \cdot 2^2 + 1 \cdot 2^1 + 0 \cdot 2^0 = 6_{10} \\ 101_2 = 1 \cdot 2^2 + 0 \cdot 2^1 + 0 \cdot 2^0 = 4_{10} \end{array}$$

Hexadezimal  $0, 1, 2, \dots, 9, A, B, C, D, E, F$

$$\begin{array}{l} D_{2^2} \rightarrow H_{16}: \\ 1278_{10} : 16 = 79 \quad R_{14}=E \\ 79 : 16 = 4 \quad R_{15}=F \\ 4 : 16 = 0 \quad R_4=4 \\ \hline = 1278_{10} = 4FE_{16} \end{array}$$

$$\begin{array}{l} H_{16} \rightarrow D_{2^2}: \\ 4FE_{16} = 4 \cdot 16^2 + 15 \cdot 16^1 + 14 \cdot 16^0 \\ = 1278_{10} \end{array}$$

Bei Addition kann ein zusätzlicher Bit entstehen  $\rightarrow$  nicht zwingend Overflow!  
 Overflow Detektion: Addition von zwei Zahlen gibt negative (MSB = 1 statt 0), Addition negativer Zahlen gibt positive Zahl (MSB = 0 statt 1)

S=1  
 $\downarrow$  Ground (=0)

$t, t_f, T$  Spannungsschwellen  
 $(=1)$

$$\begin{array}{l} MHz \text{ Umrechnungen} \\ M\text{Hz} = \frac{1}{T_s} \quad K\text{Hz} = \frac{1}{T_{ms}} \quad G\text{Hz} = \frac{1}{T_{ns}} \\ \text{Bsp: } T_c = 50\text{ns} \Rightarrow \frac{1}{T_{ns}} = 20\text{MHz} = \frac{1}{T_{50}}\text{GHz} \\ \quad T_c = 5\text{ns} \Rightarrow \frac{1}{T_{ns}} = 200\text{GHz} = 0,2\text{GHz} \end{array}$$

Boolean EquationsMinterm / Sum-of-Products

$$\begin{array}{ll} A & B \\ 0 & 0 \\ 0 & 1 \\ 1 & 0 \\ 1 & 1 \end{array} \begin{array}{l} Y \\ \text{SOP} \\ \overline{AB} \\ \overline{AB} \\ AB \end{array}$$

$$0 \cdot 0 \cdot 1 \cdot 1 = \overline{AB} + AB$$

$$\begin{array}{ll} A & B \\ 0 & 0 \\ 0 & 1 \\ 1 & 0 \\ 1 & 1 \end{array} \begin{array}{l} Y \\ \text{POS} \\ A+B \\ A+\overline{B} \\ \overline{A}+B \\ \overline{A}+\overline{B} \end{array}$$

$$0 \cdot 0 \cdot 0 \cdot 1 = A+B$$

K-MapBubble-PushingMultiplexer:

Delays:  $t_{pd}$ : Propagation delay. Zeit vom Moment der Inputveränderung bis zum annehmen des finalen Output Wertes. Critical Path dafür nehmen  $t_{cd}$ : Contamination delay. Zeit vom Moment der Inputveränderung bis zur ersten Änderung irgend eines Outputs. Kürzesten Pfad dafür nehmen!

SR-LatchD-LatchR-S-QClockD Flip-FlopShifters

Logic shift:  $11001111_2 = 0011_1$ ,  
 $11001111_2 = 0000_0$

Arithmetic shift:  
 $11001111_2 = 1101_0$   
 $01001111_2 = 0001_0$   
 $11001111_2 = 0010_0$

FSMallgemeine Tabellen

Output Encoding:

| Output | Encoding |
|--------|----------|
| red    | 00       |
| blue   | 10       |
| :      | :        |

State Encoding Table:

| State | Encoding |
|-------|----------|
| S0    | 00       |
| S1    | 10       |
| :     | :        |

3b

State Transition Table:

| State | Input | next state |
|-------|-------|------------|
| S0    | x x 1 | S0         |
| S0    | ?     | S1         |
| S1    | ?     | ?          |
| ?     | ?     | ?          |

3a

Moore Tabellen:State Transition Table:

| Output Table: | State | Outputs | outs | outs |
|---------------|-------|---------|------|------|
| S0            | 1 0   | S0      | 1    | S0   |
| S1            | 0 1   | S1      | 0    | S1   |
| S2            | 1 1   | S0      | 1    | S0   |
| :             | :     | :       | :    | :    |

Mealy Tabellen: State Transition + Output Table: 3a

| State | Inputs | next state | Outputs |
|-------|--------|------------|---------|
| S0    | 1 x    | S0         | 1 1     |
| S0    | x 1    | S1         | 0 1     |
| S1    | 1 1    | S0         | 1 0     |
| :     | :      | :          | :       |

Timing Analysis1) Minimales  $T_c$  berechnen:

a) kritischen Pfad finden

b)  $T_c$  ist grösser gleich der Summe aus:

(i) clock-to-Q propagation (Zeit bis Inputs aus Flip-Flops gelesen werden)

(ii) propagation delay (Zeit die die logischen Gates benötigen)

(iii) setup time (Zeit bis Output gespeichert ist)

## 2) Prüfen auf "hold time violations":

a) kürzesten Pfad betrachten

b)  $T_c$  wie bei 1) für diesen Pfad berechnen, statt propagation jeweils contamination bei (i) und (ii)c) prüfen ob  $T_c < \text{hold time}$  vom "output Speicher". Wenn ja, so ist die Schaltung instabil! oft lösbar, in dem Buffer eingebaut werden für die kürzeren PfadeN-bit Adder Ripple-Carry Adder: Aneinandergesetzte Full Adder, wobei  $Cin$  am nächsten Cout angeschlossen ist. $t_{pg}: t_p$  von 2-Input OR,  $N: \# \text{Bit}$ ,  $k: \# \text{Bit pro Block}$  $t_{pg-block}: t_p$  von 32-Input OR + 32-Input AND |  $t_{and-or}: \text{Delay vom } Cin \rightarrow \text{Cout zwischen zwei Blöcken}$  $t_{full-adder}: \text{Delay vom Full Adder}$ 

## 5.) Output Table

6.) (Boolesche Gleichungen für next state und Output)

## 7.) Schaltplan

Determining shortest Path critical Path

• "clock-to-Q contamination / propagation": Zeit nach CLK rise bis Output beginnt sich zu ändern / finalen Wert erreicht

• "setup time" ( $t_{setup}$ ): Zeit vor CLK rise während welche alle Inputs stabil sein müssen• "hold time" ( $t_{hold}$ ): Zeit nach CLK rise während welcher die Inputs stabil sein müssen• "aperture time":  $t_{setup} + t_{hold}$ : Zeit während der Inputs stabil sein müssen• "clock period" / "cycle time":  $T_c$ : Zeit zwischen zwei CLK rising• "clock frequency":  $\frac{1}{T_c}$ ,  $1 \text{ Hz} = 1 \text{ Cycle pro Sekunde}$ Full AdderCarry-Save Adder (CSA)

Die Adder werden in Blöcke unterteilt, z.B. 4-Bit Blöcke (= 4 Full Adder, 32 Bit hätte  $8 \times 4-Bit Blöcke}). Jeder Block generiert ein "generate" oder "propagate" Signal (= 0 oder 1). Ist "generate" gesetzt, so erzeugt der Block ein Carry out unabhängig von Carry in. Ist "propagate" gesetzt, so verdeckt dieser Block ein Carry in nicht, sondern gibt es weiter.$



Prefix Address: Die "programm" und "generat" Signale werden zuerst für Paare, dann für 4er, 8er, ... Gruppen berechnet. Bis für jede Spalte die Signale bekannt sind.  $t_{PA} = t_{PG} + \log_2(N) t_{PG\_prefix} + t_{xor}$ .  $t_{PG\_prefix} = t_{PG}$  von einem Prefix-Block.

## Multicycle Processor

- braucht nur einen Adressenbus
- zweigt Instruktionen in kleinere, atomare Schritte
- In Cycle kann aus dem Memory geladen werden, in dieser Zeit müssen aber die ALU verwendet werden. Kürzere Operationen können so auch schneller verarbeitet werden.

$$T_c = t_{PG} + t_{max} + \max(t_{ALU} + t_{max}; t_{mem}) + t_{setup}$$

"data hazard": Register lesen, bevor es geschrieben wurde. "control hazard": eine Instruktion wird vom Fetch-Schritt geladen bevor entweder sie ist, was die nächste Instruktion überhaupt ist. "Forwarding": kommt zur Einsatz, wenn der Source der Operation die Destination der vorherigen Instruktion ist. Die Hazard-Detection-Unit erkennt dies indem ein Multiplexer dafür sorgt, dass die Daten aus dem Speicher des Zwischenregisters geladen werden, statt den Register. Funktioniert nicht immer, dann wird ein "stall" gemacht. "Stall": Die Instruktion wird angehalten, bis die Daten bereit sind.



## Memory Systems

$$\text{"miss rate"} = \frac{\# \text{ misses}}{\# \text{ memory access}} = 1 - \text{hit rate}$$

$$\text{"hit rate"} = \frac{\# \text{ hits}}{\# \text{ memory access}} = 1 - \text{miss rate}$$

$$\text{"average memory access time"} (\text{AMAT}) = t_{cache} + \text{MR cache} (t_{vm} + \text{MR mm} + t_{vm})$$

Cache: access time cache, MR: Miss Rate, t<sub>vm</sub>: access time main memory  
t<sub>vm</sub>: access time virtual memory (HDD)

Cache besteht aus "Sets" (S), die 1-N Datenblöcken (B) haben. Zusätzlich kommt noch der "Tag" hinzu, der die Adresse des aktuelle Inhalt enthält und ein Bit-Flag "Valid", das angibt ob die Daten gültig sind.

Multi-way set Assoziative Cache: Jede Adresse ist einem Set zugeordnet, kann aber in einem der N Blöcke des Sets liegen.



## Single Cycle Processor

$$1 \text{ Instruction per cycle}, T_c = t_{PG\_PC} + 2t_{mem} + t_{RFread} + 2t_{max} + t_{ALU} + t_{RF} = \text{setup} + t_{RF..} : \text{register file}, t_{PG\_PC} : t_p vom PC Register. \rightarrow \text{critical Path} = t_w. \rightarrow \text{clock-to-q}$$

## Pipeline Processor

Processor wird in fünf Schritte unterteilt, die jeweils gleichzeitig ablaufen:

- Fetch: Instruktion aus Memory laden
- Decode: Instruktion dekodieren und Control-Signale setzen
- Execute: Abarbeiten mit Hilfe des ALU
- Memory: Lese / schreiben aus / ins Mem
- Writeback: in Register schreiben

Hazards: Entsteht, wenn eine Instruktion auf Resultate einer vorherigen wartet, die noch nicht so weit ist.  
"RAW": Read After Write (g. wird zu früh aus dem Register gelesen).

IM: Instruction Memory  
RF: Register File  
DM: Data Memory



Direct Mapped Cache: Jeder Adresse wird ein festes Set zugewiesen. Mehrere Adressen teilen sich also das gleiche Set. Z.B.: werden die Bits 4:2 als Cache Adresse eingesetzt (ID des Sets). Jedes Set hat 1 Block.

Fully Assoziative Cache: Nur 1 Set mit B Blöcken. Es müssen also B Tags geprüft werden bei jeder Anfrage

Direct Mapped braucht am wenigsten Word-wais. Durch die Fully Assoziative und darauf folgt der Multi-way Set Assoziativ. Bei der Anzahl Konflikte gerade anders rum.

Die Blöcke sind meist grösser als 1 Word, damit hinausblender Speicher gleich mit kommt

| Virtual Memory |                     |
|----------------|---------------------|
| Cache Block    | Virtual Memory Page |
| Block size     | Page size           |
| Mem            | Page fault          |
| Tag            | Virtual Page number |

Page Table wird für die Umwandlung virtueller Adressen zu physikalischen adressen ablesen (Mem) genutzt. Jeder Eintrag (Zeile)

besteht aus einem "Valid" Bit und der "physical page number". Es gibt für jede "virtual page number" einen solchen Eintrag. Ist "Valid" = 1, so liegen die Daten im Memory, sonst auf der Platte (Page Fault).

Translation Lookaside Buffer (TLB): ein kleiner Cache, der die Page Table einträge enthält, die in der Vergangenheit des letzten Zugriffs liegen. CPU schaut somit zuerst hier im TLB nach, bevor er die Page Table anfragt, die im Memory liegt. Hit rate muss 99% sein.

Terminologie "physical Memory": Memory, also RAM

Assembly Instruction Types R-Type: "register type". op(6bit) | rs(5bit)

rt(5bit) | rd(5bit) | shamt(5bit) | funct(6bit), op = 0x0 für R-Type, funkt gibt Operation an, rs + rt source register, rd destination register, shamt ist die Anzahl Bits, die bei Shift-Operationen gewählt werden soll, shamt für restliche Operationen = 0x0. add \$s0, \$t1, \$s2: \$0 destination (rd), \$t1 source (rs), \$s2 source (rt). I-Type: "immediate-type". op(6bit) | rs(5bit) | rt(5bit) | imm(16bit). rt kann sowohl source als auch destination Register sein. Imm hat den konstanten Wert dari und op gibt die Operation an. J-Type: "jump-type": op(6bit) | addr(26bit). op gibt Operation an und addr ist die Adresse.

Address Modes register-only, immediate, base addressing: Daten der die Operanden zu lesen / mitmischen. PC-relative, pseudo-direct: Werte von der PC zu rechnen.

Register-only addressing: benutzt Register für die Operanden. R-Type Instructions sind von diesem Typ. Immediate addressing: Benutzen eine 16-bit Konstante mit Register (add: z.B.). J-Type instructions werden von diesem Typ. Base addressing: die effektive Adresse besteht aus dem Brumme des Werts in einem Register plus dem 16-bit offset in immediat Feld.

PC-relative addressing: conditional branch instructions benötigen dies. Der neue PC besteht aus der Brumme des PC Werts und dem signed value vom immediat Feld. Pseudo-direct addressing: Jede Adresse an die gesprungene werden hieran ist "word-aligned". Die zwei letzten Werte sind also 00, die nächsten 26 Bit kommen aus dem "imm" Feld. Die höchsten 4 Bit kommen vom PC direkt.

Stack / Procedure calls Stack: FIFO, push (insert), pop (remove + get), current stack position that is valid (used). Gibt von vorher Umlauf 100 und "wächst" nach unten. Procedure: eine Prozedur speichert zwisch die Register auf dem Stack. Dabei geht sie wie folgt vor: Blatz auf Stack machen, beide der Register speichern, Prozedur-Code ausführen unter Verwendung der Register. Register wieder herstellen mit Hilfe des Blatts. Stack Speicher freigeben. "Stack frame" Stack des Blatts, die eine Prozedur für sich beansprucht. Register Usen: Eine Prozedur muss die "preserved" Register speichern und wieder herstellen. Die non-preserved darf sie nicht verutzt / verändert. Der aufgerufende Code ist also verantwortlich die non-preserved Register zu speichern. Preserved: \$s[0-7], \$ra, \$sp Non-preserved: \$t[0-3], \$a[0-3], \$v[0,13]. Der Stack über \$sp ist preserved, darunter nicht (non-preserved).

Combinational logic: Output basiert nur auf aktuellem Input

Sequential logic: Output basiert auf aktuellem und vorherigen Input

Memory addressing word-addressable: Jedes Data-word hat eine eigene Adresse. Byte-addressable: Jeder Byte (8 Bit) hat seine eigene Adresse. Beim Mips ist 1 Word 32-Bit lang, besteht also aus  $4 \cdot 8$ -Bit. Somit ist jede word Adresse ein Vielfaches von 4 ( $0, 4, 8, 12, 16, \dots$ ). Die Adresse des Words entspricht der Adresse des 1. Bytes dieses Words. In \$57, 8 (\$0) lädt die Daten von  $0+8=8$  nach \$57.

## Vorlesung

module [Name] (

input clk,

input [3:0] a,

output reg [3:0] q):

// code

endmodule

always @ ([sensitivity list]) begin  
 // code [clk, reset nicht verlassen] ändert sich  
 end  
 " <=" ist ein "non-blocking" assignment  
 - hat es posedge/negedge so meist "=>" ]

wird immer ausgeführt, wenn sich eines der Werte der "sensitivity list" ändert. Alle linken Seiten von " $<=$ " und " $=$ " in einem always-Block müssen "reg" sein. "reg" = Flip-Flop!

Durch: • " $<=$ " und always-Block für synchrone sequentielle Logik  
 • continuous assignment ohne always-Block für kombinatorische  
 • nie in verschiedenen always-Blöcken aufs gleiche Element schreiben  
 • nie mehrere continuous assignments für das gleiche linke Seite.

[N][b][xx]: [N]: # Bits, [b]: Basis (binär, h>Hex, d->Dec., o->okt.),  
 [xx] Wert in basayer Basis. Wandelt es dann in Binär um.

If [Bedingung] then

begin

// code

end

else

begin

// code

end

end

Flip-Flops: reg q;

always @ (posedge clk)  
 $q <= d$

case ([check]):

0: // code;

1: // code;

...

default // code;

endcase

assign q = a ? t : f;

"true" "false"

reg q;

always @ (posedge clk, posedge reset)  
 if (reset) q <= 0;  
 else q = d

reg q;

always @ (posedge clk, posedge reset,  
 posedge set)  
 if (reset) q <= 0  
 else  
 if (set) q <= 1  
 else q = d