

## Übersicht:

- 1 Zeitendarstellung
- 2 Numerik
- 3 Codierung
- 4 Informationstheorie
- 5 Boolesche Algebren (Mathematik)
- 6 KV und BDD
- 7 Digitalschaltungen (Kombinatorische Logik)
- 8 Automaten
- 9 Sequentialle Logik (Speicher - Elemente)
- 10 Speicher
- 11 Schaltwerke
- 12 Schaltwerke: Realisierung
- 13 Schaltwerke: Moore vs. Mealy
- 14 Micro 16
- 15 Befehlssatz
- 16 Pipelining
- 17 Speichermanagement
- 18 Multicore
- 19 Speichermodelle

# 01 Zahlendarstellung

## Stellenwertsystem

Basis  $b \geq 2$  ( $b=1$  wäre unrat)

Ziffern  $[0; b-1]$

## Zahlenumwandlung

Quellsystem  $\rightleftarrows$  Zielsystem

Pont zu Dezimal

$$(110,1101)_2 = (\dots)_{10}$$

$$1 \cdot 2^2 + 1 \cdot 2^1 + 0 \cdot 2^0 + 1 \cdot 2^{-1} + 1 \cdot 2^{-2} + 0 \cdot 2^{-3} + 1 \cdot 2^{-4} = 6,875$$

Oder im Horner-Schema:

Vorkommastelle:

$$((\underbrace{1}_{\sim}) \cdot 2 + \underbrace{1}_{\sim}) \cdot 2 + \underbrace{0}_{\sim} = 6$$

Nachkommastelle:

$$((\underbrace{(1) \cdot 2 + 0}_{\sim} / 2 + 1) / 2 + 1) / 2 = 0,875$$

## Dezimal zu Pont

Vorkommastelle:

$$a_0 = 6 \bmod 2 = 0$$

$$a_1 = \underbrace{(\underbrace{6-0}_{\sim} / 2)}_{=3} \bmod 2 = 1$$

$$a_2 = \underbrace{(\underbrace{3-1}_{\sim} / 2)}_{=1} \bmod 2 = 1$$

$$a_3 = (1-1) / 2 \bmod 2 = 0 \rightarrow \text{Abbruch} \quad (110)_2$$

effizienter:

$$a_0 = 6 \bmod 2 = 0$$

$$a_1 = \underbrace{\left\lfloor \frac{6}{2} \right\rfloor}_{=3} \bmod 2 = 1$$

$$a_2 = \left\lfloor \frac{3}{2} \right\rfloor \bmod 2 = 1$$

$$a_3 = \left\lfloor \frac{1}{2} \right\rfloor \bmod 2 = 0 \rightarrow \text{Abbruch} \quad (110)_2$$

Nachkommastelle:

effiziente Herleitung:

$$a_{-1} = \lfloor 0,8425 \cdot 2 \rfloor = \lfloor 1,685 \rfloor = 1$$

$$a_{-2} = \lfloor 0,685 \cdot 2 \rfloor = \lfloor 1,37 \rfloor = 1$$

$$a_{-3} = \lfloor 0,37 \cdot 2 \rfloor = \lfloor 0,74 \rfloor = 0$$

$$a_{-4} = \lfloor 0,74 \cdot 2 \rfloor = \lfloor 1,48 \rfloor = 1$$

$$a_{-5} = \lfloor 0,48 \rfloor = \lfloor 0 \rfloor = 0 \rightarrow \text{Abbruch} \quad (0,1101)_2$$

Pfeiler-Hexadezimal-Berücksichtigung

$$2^4 = 16 \quad \square \square \square \square \quad \text{4er Blöcke zur Umwandlung}$$

Darstellung negativer Zahlen  
durch Kodierung

V2-B: Vorzeichen und Restzwei

Erstes Bit

- 0 positiv
- 1 negativ

Probleme:

$\pm 0$

$+0, 1, 2, 3, -0, -1, -2, -3$

negative Zahlen stehen nach pos.

Einer-Komplement

Bitweise Inversion

Probleme:

$\pm 0$

$+0, 1, 2, 3, -3, -2, -1, -0$

Durch doppelte 0 entstehen leicht Überläufe,  
mit +1 korrigieren.

Zweier-Komplement

Bitweise Inversion +1 (wenn negativ)

Dadurch eindeutige 0:

0, 1, 2, 3, -4, -3, -2, -1

$$\begin{array}{r} 011 \quad (3) \\ 111 \quad (-0) \\ \hline *010 \quad (2) \end{array} \xrightarrow{+1} 011 \quad (3)$$

Exzess

"symmetrischer Exzess"

Kodierung: + kleinste darstellbare Zahl

$$e = 2^{\text{bits}-1} \quad \text{oder} \quad e = 2^{\text{bits}-1} - 1$$

"Asymmetrischer Exzess"

Kodierung: + beliebige Zahl

Rechnen mit Exzess:

$$e = 12$$

$$A = -3$$

$$B = 4$$

$$A_e = A + e = 9$$

$$B_e = B + e = 16$$

$$A_e + B_e = A + B + 2e$$

$$(A + B)_e = A_e + B_e - e$$

## O2 : Numerik

Kodierung von Zahlen mit Nachkommastelle

### Festpunkt

$$\text{Gesamtänge} = \underbrace{1}_{VZ} + \underbrace{g}_{\text{vorkomma}} + \underbrace{n}_{\text{nachkomma}} \rightarrow \text{Nur } \in \mathbb{Q} \text{ darstellbar}$$

Schrittweite / kleinste darstellbare Zahl

$$\Delta x = 2^{-n}$$

### Gleitpunkt

Idee: je größer die Zahl, desto unwichtiger  $\Delta x$ .



#### Normalisierte Form

implizites Pkt = 1

$$\Delta x = x_{\min} \cdot b^{e_{\min}} = 1 \cdot 2^{e_{\min}}$$

$$\text{zB: } b=2 \quad e_{\min}=-1$$



#### Denormalisierte Form

implizites Pkt = 0

„Subnormale Zahlen“ lassen sich darstellen.

Problem:

- unwünschte Lücke

- Null nicht darstellbar, muss Kodiert werden

### „Gleitpunkt-Darstellungs-Raum“ $\mathbb{F}$

$$\mathbb{F}(b, p, e_{\min}, e_{\max}, \text{denorm})$$

b ... base  $\geq 2$

p ... precision (mantisse mit implizitem Pkt)

$e_{\min}$  /  $e_{\max}$  ... kleinster / großer Exponent

denorm ... boolean

### unit of last position (ulp)

$$\text{ulp} = (0,000\dots0001)_b = b^{-p+1} \xrightarrow{\text{wegen vorkommastell}}$$

$$\Delta x = \text{ulp} \cdot b^{e_{\min}} = b^{e_{\min}-p+1}$$

# IEEE 754

Eigene Parameter für F.

single : 32 Bit, 8 Exponent Bits, 24 Mantissenbits inkl impl.

double : 64 Bit, 11 Exponent Bits, 53 Mantissenbits inkl impl.

Kodierungen im Exponenten

| VZ | Exponent | Mantisse |                                                                          |
|----|----------|----------|--------------------------------------------------------------------------|
| -  | 0...000  | -        | Denormalisiert $\rightarrow e = e_{\min}$ obwohl die $e_{\min}-1$ Stelle |
| 0  | 0...000  | 0        | +0                                                                       |
| 1  | 0...000  | 0        | -0                                                                       |
| 0  | 1...111  | >0       | NaN                                                                      |
| 0  | 1...111  | 0        | +∞                                                                       |
| 1  | 1...111  | 0        | -∞                                                                       |

Eigentlicher dekodierter Exponent-Wert: Exzessdarstellung.

Beispiel: IF (2, 11, -14, 15, true)  $\rightarrow 16$  Bit - 10 expl. Bit - 1 VZ Bit = 5 Bit

$$\begin{aligned}
 &\text{base} \dots 2 \\
 &\text{incl.} \leftarrow \text{precision} \dots 11 \\
 &\text{e}_{\min} : -14 \quad \left. \begin{array}{l} \\ \end{array} \right\} \quad \text{Exzess} = 2^{(\text{expl. Bits})-1} - 1 \\
 &\text{e}_{\max} : 15 \quad \left. \begin{array}{l} \\ \end{array} \right\} \quad \text{Exzess} = 2^{5-1} - 1 = 15 = (01111)_2 \\
 &\text{deconv: true}
 \end{aligned}$$

Dadurch:

$$e_{\min}-1 = -15 \quad (00000)$$

$$e_{\max}+1 = 16 \quad (11111)$$

## Runden

außerhalb von arithmetischen Operationen

### Abschneiden / truncate

$$(-1,6\overline{2}6)_{10} \xrightarrow{n=2} \square x = (-1,62)_{10}$$

$$(1,10\overline{1})_2 \xrightarrow{n=2} \square x = (1,10)_2$$

### Gerichtetes Runden / directed rounding

$$(-1,6\overline{2}6)_{10} \quad \begin{array}{l} \text{Aufrunden } \square x = \max(-1,62, -1,63) = -1,62 \\ \text{Abrunden } \square x = \min(-1,62, -1,63) = -1,63 \end{array}$$

$$(1,10\overline{1})_2 \quad \begin{array}{l} \text{Aufrunden } \square x = \max(1,10, 1,11) = 1,11 \\ \text{Abrunden } \square x = \min(1,10, 1,11) = 1,10 \end{array}$$

### Optimale Rundung / round to nearest

$$\hat{x} = \frac{x_1 + y_2}{2} \quad \text{bzw} \quad \hat{x} = (y_1 + y_2) \cdot 0,1$$

$$(-1,6\overline{2}6)_{10} \xrightarrow{n=2} \frac{(-1,62) + (-1,63)}{2} = -1,625 \neq \hat{x} \quad \square x = -1,63$$

$$(1,10\overline{1})_2 \xrightarrow{n=2} \frac{1,10 + 1,11}{10} = 1,101 = \hat{x}$$

round to even

$$\square x = 1,10 \rightarrow \text{es soll } 0 \text{ stehen}$$

round away from zero

$$\square x = 1,11$$

## Runden mit GRS

guard digit

round digit

sticky bit

Bei Addition & Subtraktion ab sticky Bit  
rechnen.

(bleibt 1 wenn beim Shifter eine 1 durch geht)

Optimale Rundung:

G R S

0 X X

—

1 X X

+1

1 0 0

—

Round to even

wenn LSB von Mantisse

= 0 —

= 1 +1

Round away from zero

+1

Beispiel: Addition in IEEE 754 (16 Bit)

$$A = (5,58)_{10}$$

$$B = (62,27)_{10}$$

Umrechnung ins Gleitpunkt-Format

1 Bit VZ

5 Bit Exponent

10 Bit Mantisse explizit

$$\text{excess: } 2^{5-1} - 1 = 15 = (01111)_2$$

Normalisierung

$$A = (5,58)_{10} = (101,1001010)_2 \cdot 2^0 = (1,011001010)_2 \cdot 2^2$$

$$B = (62,27)_{10} = (11111,0100)_2 \cdot 2^0 = (1,11110100)_2 \cdot 2^5$$

Exponenten nach Normalisierung Runden

$$A: 2 = (10)_2 \rightarrow 10 + 01111 = 10001$$

$$B: 5 = (101)_2 \rightarrow 101 + 01111 = 10100$$

Exponenten angeleichen

$$\begin{aligned} A &= m \cdot 2^2 \\ B &= m \cdot 2^5 \end{aligned} \quad \begin{aligned} &\rightarrow +3 \quad \text{Da } A < B \text{ muss } A \text{ angeleichen werden:} \\ &\qquad\qquad\qquad 10001 + 11 = 10100 \end{aligned}$$

$$\begin{aligned} \text{Vorher: } &0110001 \textcircled{1} 10110010100 \\ \text{Nachher: } &0110100 \textcircled{1} 0100 \textcircled{1} 0110010100 \quad \begin{aligned} &\rightarrow \text{rsh}(3) \\ &\qquad\qquad\qquad \text{GRS} \\ &\qquad\qquad\qquad \uparrow \\ &\qquad\qquad\qquad \text{implizit} \end{aligned} \end{aligned}$$

Addieren

$$\begin{array}{r} A: 01101001010010110010 \quad \text{GRS} \\ B: 0110100111111001000 \\ \hline 011010011010001111010 \quad 100 \end{array}$$

$$\begin{aligned} \text{Normalisieren: rsh}(1), \text{Exp}+1 &\quad \text{GRS} \\ 01101011110000111101010 & \end{aligned}$$

Runden

0 XX  $\rightarrow$  unverändert

## Fortsetzung: Subtraktion

- ✓ Umrechnung ins Gleitpunkt-Format
- ✓ Normalisierung, Kodierung des Exponenten
- ✓ Angleichung der Exponenten

$$A = (5,58)_{10}$$

$$B = (62,27)_{10}$$



Subtraktion

$$A - B = -(B - A)$$

Vereinfacht Rechnen

| Ab Sticky Bit |       |       |            |            |     |  |  |  |  |
|---------------|-------|-------|------------|------------|-----|--|--|--|--|
| GRS           |       |       |            |            |     |  |  |  |  |
| 000           |       |       |            |            |     |  |  |  |  |
| B:            | 0     | 10100 | 1          | 1111001000 |     |  |  |  |  |
| - A:          | 0     | 10100 | 0          | 0010110010 |     |  |  |  |  |
|               |       |       |            |            | 100 |  |  |  |  |
| ①             | 10100 | 1     | 1100010101 |            |     |  |  |  |  |
|               |       |       |            |            | 100 |  |  |  |  |

Ergbnis bereits vorwidiert

Runden

$$\dots 101 \quad 100$$

|           |    |
|-----------|----|
| LSB = 0   | -  |
| → LSP = 1 | +1 |

Lösung:

$$1 \quad 10100 \quad 1 \quad 1100010110$$

## Vorgehen beim Rechnen mit IEEE Darstellung

- 1) Angleichung der Exponenten
- 2) Mantissen addieren/subtrahieren
- 3) Ergebnis normalisieren
- 4) Runden (Guard Digit, Round Digit, Sticky Bit)

Frage 2  
Falsch  
Erreichte Punkte 0,00 von 1,00  
Frage markieren

Addieren Sie die Zahlen 0100101010111000 und 1011101000111001.

Es gilt das Gleitpunktformat  $\text{F}(2, 11, -14, 15, \text{true})$  IEEE 754-2008 mit half-precision (16 Bit — wie in der Vorlesung).

Verwenden Sie für das Ergebnis ebenfalls dieses Format.

Als Rundungsvorschrift verwenden Sie bitte "round to nearest — round to even".

Antwort: 0011100010101001



Die richtige Antwort ist: 0100101001010100

#### Angabe:

Addieren Sie die Zahlen 0100101010111000 und 1011101000111001

Als Rundungsvorschrift verwenden Sie bitte "round to nearest — round to even".

A: 0 10010 1010111000  
e = 10010 - 01111 = 0011

B: 1 01110 1000111001  
e = 01110 - 01111 = -0001

Unterschied zwischen Exponenten: 3 und -1: 4

Exponent von B um 4 erhöhen, Bits um 4 nach rechts verschieben:

A: 0 10010 1010111000 | 000  
B: 1 10010 0001100011 | 100 < implizites Bit zeigt sich durch shift  
eigentlich müsste B kodiert werden weil es jetzt denormiert ist  
aber das ist nur ein Zwischenschritt zum addieren

Mantissen addieren:

Da B negativ ist wird B von A abgezogen

A: 1.1010111000 | 000  
B: 0.0001100011 | 100 < normalerweise ab „round digit“ rechnen aber bei binär auch ab „stick bit“  
-----  
L: 1.1001010100 | 100

Normalisieren:

Es ist bereits normalisiert

Runden:

1.1001010100 | 100 < weitere Rundungsregel  
"round to nearest — round to even"  
lsb = 0 → deshalb Mantisse unverändert  
L: 1.1001010110

Meine Lösung:

0 10010 1001010100

Korrekte Lösung:

0 10010 1001010100

**Frage 3**

Falsch

Erreichte  
Punkte 0,00 von  
1,00Frage  
markieren

Subtrahieren Sie die Zahl 1101000100001101 von der Zahl 111101000010010.

Es gilt das Gleitpunktformat  $F(2, 11, -14, 15, \text{true})$  IEEE 754-2008 mit half-precision (16 Bit — wie in der Vorlesung).

Verwenden Sie für das Ergebnis ebenfalls dieses Format.

Als Rundungsvorschrift verwenden Sie bitte "round to nearest — round to even".

Antwort: 111100000100011



Die richtige Antwort ist: 111101000001111

**Angabe:**

Subtrahieren Sie die Zahl 1101000100001101 von der Zahl 1111010000010010

A und B sind negativ

A endet mit 0

B endet mit 1

A - B --&gt; wenn beide negativ sind: B - A = - (A - B)

$$\begin{array}{r} A: 1 \ 1101 \ 0000010010 \\ \quad e = 1101 - 01111 = 1110 \end{array}$$

$$\begin{array}{r} B: 1 \ 10100 \ 0100001101 \\ \quad e = 10100 - 01111 = 0101 \end{array}$$

$$\text{Unterschied: } 14 - 5 = 9$$

Exponent von B um 9 erhöhen, Bits um 9 nach rechts shiften:

$$\begin{array}{r} A: 1 \ 1101 \ 0000010010 \mid 000 \\ B: 1 \ 1101 \ 0000000010 \mid 101 \end{array}$$

Mantissen addieren:

$$\begin{array}{r} A: 1.0000010010 \mid 000 \\ B: 0.0000000010 \mid 101 \\ \hline L: 1.0000001111 \mid 011 \end{array}$$

(muss negativ sein)

**Normalisieren:**

ist bereits normalisiert

**Runden:**

Bei 011 --&gt; unverändert

**Meine Lösung:**

1 1101 0000001111

**Korrekte Lösung:**

1 1101 0000001111

Multiplizieren Sie die Zahlen 1001100011111011 und 110010000010010.

Es gilt das Gleitpunktformat  $\text{F}(2, 11, -14, 15, \text{true})$  IEEE 754-2008 mit half-precision (16 Bit — wie in der Vorlesung).

Verwenden Sie für das Ergebnis ebenfalls dieses Format.

Als Rundungsvorschrift verwenden Sie bitte "round to nearest — round to even".

Antwort:



Die richtige Antwort ist: 0010010100010001

**Angabe:**

Multiplizieren Sie die Zahlen 1001100011111011 und 110010000010010

A: 1 00110 0011111011  
e = 00110 - 01111 = -1001  
e = 6 - 15 = -9

B: 1 10010 0000010010  
e = 10010 - 01111 = 0011  
e = 18 - 15 = 3

Neuer Exponent (kodiert): 00110 + 10010 - 01111 = 01001  
6 + 18 - 15 = 9  
Eigentlicher Wert: 9 - 15 = -9 + 3 = -6 (korrekt kodiert)

**Multiplizieren:**

$$\begin{array}{r} 1.0011111011 * \\ 1.0000010010 = \\ \hline 1.0100010001 | 011 \end{array}$$

**Runden:**

011 --> unverändert

✓ **Meine Lösung:**

0 01001 0100010001

**Korrekte Lösung:**

0 01001 0100010001

**Angabe:**

Gegeben ist die Zahl  $(10.011000)_2$ .

Runden Sie die Zahl mittels "round to nearest - round away from zero" auf 3 Nachkommastellen.

Antwort: 10.011



Die richtige Antwort ist: 10.011

$$x = 10.011000$$

$$x_1 = 10.011$$

$$x_2 = 10.100$$

$$x' = (x_1+x_2) * 0.1 = 100.111 * 0.1 = 10.0111 \rightarrow \text{ungleich mit } x$$

Lösung: 10.011

**Aufgabe 2:**

**Wichtig: Punkt statt Komma benutzen damit es richtig compiled wird**

Gegeben ist das folgende Bitmuster: 001011111

Interpretieren Sie dieses als eine Festpunktzahl mit 4 Nachkommastellen und geben sie den entsprechenden dezimalen Wert an.

0 0101.1111  
5.9375

Gegeben ist die Zahl (10.101101)<sub>2</sub>.

Runden Sie die Zahl mittels "Abrunden (round min)" auf 3 Nachkommastellen.

x = 10.101 (unverändert)

Gegeben ist die Zahl (11.100011)<sub>2</sub>.

Runden Sie die Zahl mittels "round to nearest - round away from zero" auf 3 Nachkommastellen.

x1 = 11.100  
x2 = 11.101  
 $x' = (11.100 + 11.101) * 0.1 = 11.1001$   
Lösung : 11.100

**Angabe:**

Multiplizieren Sie die Zahlen 1101010011111000 und 1000110010000010.

Als Rundungsvorschrift verwenden Sie bitte "round to nearest - round to even".

A: 1 10101 0011111000

B: 1 00011 0010000010

**Neuer Exponent (kodiert):**

$$10101 + 00011 - 01111 = 01001$$

$$A_e + B_e = A+B - e$$

**Mantissen multiplizieren:**

$$1.0011111000 *$$

$$1.0010000010 =$$

$$1.0110011001 \mid 011$$

**Runden:**

unverändert

**Meine Lösung:**

$$\checkmark 0 \ 010010110011001$$

**Angabe:**

Subtrahieren Sie die Zahl 1011010110001111 von der Zahl 0011001010110100.

Als Rundungsvorschrift verwenden Sie bitte "round to nearest – round to even".

$$A \text{ (pos)} - B \text{ (neg)} = A + B \text{ (pos)}$$

A: 0 01100 1010110100

B: 1 01101 0110001111

**Exponent von A angleichen (+1), Bit shift nach rechts**

Implizite 1 wird sichtbar

$$A: 0 01100 \text{ 1}101011010 | 000 \rightarrow$$

**Addieren:**

0.1101011010

1.0110001111

-----

10.0011101001

**Normalisieren:**

Exponent +1 und shift nach rechts

$$01100 + 1 = 01101$$

$$10.0011101001 \rightarrow 1.0001110100 | 100$$

**Runden:**

Weitere Rundungsregel -> lsb = 0  
unverändert lassen

**Meine Lösung:**

0 01101 0001110100

**Richtige Lösung:**

0 01110 0001110100

**Angabe:**

Addieren Sie die Zahlen 1 01000 1000110111 und 0 11100 0101101001

- A (neg)  
B (pos)

A: 1 01000 1000110111  
B: 0 11100 0101101001

**Exponenten ausgleichen:**

A: 01000  
B: 11100

Exp von A ist um 20 kleiner als B

A: 1 01000 1000110111

A: 1 11100 0000000000 | 000

**Addieren:**

A = 0

Deshalb bleibt b gleich und ist die Lösung und muss nicht gerundet werden

✓ Meine Lösung:

B: 0111000101101001

## 03: Codierungen

Beispiele für Zeichencodierungen:

- ASCII
- Unicode
- UTF
- ISO-Latin-1

In Alltag:

QR-Codes

Bar-Codes - (ISO 18420)

## Codierungstheorie

Die mehrstufige Codierung: Trade-off  
Sicherheit / Redundanz = Aufwand



### In der Quellencodierung

Signal → binärer Code, komprimiert, verschw. oft

### In der Kanalcodierung

binärer Code → Uncodierung, sekund. redundanter Bits, Verschl.

### In der Leitungs codierung

Optimierung von binärem Code für Übertragung.

zB Licht für Glasfaser, Strom, etc

Pegelfolgen = Bitfolgen

## Leitungs-Code NRZ: Non return to zero

benötigt separaten Takt signal

bit unterscheidet zwischen high und low



NRZ-L      low=0      high=1

NRZ-N      Pegelwechsel = 1

NRZ-S      Pegelwechsel = 0

RZ: unipolarer Return-to-Zero - Code

Zweite Takthälfte immer "low"



RZ: unipolarer Return-to-Zero - Code

Zweite Takthälfte immer "low"

D-Manchester:

Es muss in jedem Bit-Takt eine Flanke geben

- Wenn man nach der Flanke auf derselben Seite ist wie vorher: 0

- wenn man Seite wechselt: 1

# Arten von Binär codes:

## Codes mit variabler Länge

zB UTF-Code, Huffman Code (Code-Baum) / Morse-Code

## Codes mit fixer Länge (Blockcodes)

### Nicht linear

zB EAN-13, US-ASCII früher

### Linear

Durch Summe von Codewörtern bleibt es gültig (Modulo)

zB Hamming-Code

### Zyklische Codes

Durch verschieben / rotieren bleibt Code gültig

zB Polynom-Code (CRC-Codes)

Blockcodes können system. Codes sein

## Systematische Codes (Prüfstellen Codes)

Prüfstellen / redundante Bits

zB. Paritätsbits (auch mehrdimensional)

Paritätsbits für Anteile (Hamming-Code)

Prüfsummen (EAN, Polynom-Codes)

## EAN-13

fixe Länge, nicht linear

$13 = 12 \text{ Stellen} + \text{Prüfziffer}$

$$(21) \quad + 3z_2 + z_3 + 3z_4 + z_5 + 3z_6 + z_7 + 3z_8 + z_9 + 3z_{10} + z_{11} + 3z_{12} + \text{Prüfziffer} \equiv 0 \pmod{10}$$

$\underbrace{\qquad\qquad\qquad}_{A,B} \qquad\qquad\qquad \underbrace{\qquad\qquad\qquad}_{C}$

Implizit:  
Aus A,B Muster  
 $(AABA\dots)$

## Hamming-Distanz

Maß für die Störfestigkeit von Codes  
(Bestimmung mit XOR möglich)

zwischen 2 Wörtern:

$$d(00, 01) = 1 = D$$

zwischen mehreren Wörtern:

minimale Hamming-Distanz

Bei Abstand  $D$  gilt:

$D-1$  Fehler erkennbar

$k < \frac{D}{2}$  Fehler korrigierbar

## Paritätsbits

$\boxed{m \quad T \quad P}$

even-parity  $\Leftrightarrow$  # Einsen gerade bleiben

odd-parity  $\Leftrightarrow$  # Einsen ungerade bleiben

## Hamming-Code

linear, systematisch (fehlerkorrigierend), fixe Länge

Abstand  $D$  immer  $\geq 3$

1 Bit korrigierbar

2 Bit erkennbar

Code indizes ab 1 zählen, an jeder 2er Potenz steht ein Prüfbit



Da z.B.  $27 = 16 + 8 + 4 + 1$  wird  $c_{27}$  die Prüfbits  $c_{16}, c_8, c_4$  und  $c_1$  beeinflussen.  
 $\begin{matrix} c_1 & c_2 & c_3 & c_4 & c_5 & c_6 & c_7 \\ p_1 & p_2 & d_1 & p_3 & d_2 & d_3 & d_4 \end{matrix}$

## Beispiel

|       |       |       |       |       |       |       |
|-------|-------|-------|-------|-------|-------|-------|
| $c_1$ | $c_2$ | $c_3$ | $c_4$ | $c_5$ | $c_6$ | $c_7$ |
| $p_1$ | $p_2$ | $d_1$ | $p_3$ | $d_2$ | $d_3$ | $d_4$ |

$$p_1 = c_1 = (c_3 + c_5 + c_7) \bmod 2 = c_3 \otimes c_5 \otimes c_7$$

$$p_2 = c_2 = (c_3 + c_6 + c_7) \bmod 2 = c_3 \otimes c_6 \otimes c_7$$

$$p_3 = c_4 = (c_5 + c_6 + c_7) \bmod 2 = c_5 \otimes c_6 \otimes c_7$$

$\uparrow$   
XOR

Fortsetzung des Beispiels:

Sender: Datenwort 0110

Prüfläts

$$P_1 = 0 \otimes 1 \otimes 0 = 1$$

$$P_2 = 0 \otimes 1 \otimes 0 = 1$$

$$P_3 = 1 \otimes 1 \otimes 0 = 0$$

zu überprüfen:

1 1 0 0 1 1 0

Empfänger: Störung 1 1 0 0 0 1 0

$$P_1 = 0 + 1$$

$$P_2 = 1 = 1$$

$$P_3 = 1 + 0$$



Bei Empfang Prüfläts selbst neu berechnen und vergleichen

Problem:

Fehlerbindel

# Polyynom - Codes

Sender und Empfänger kennen Generatorpolynom  $G(x)$

$$G(x) = x^3 + x^2 + 1 \quad (1 \ 1 \ 0 \ 1)$$

## Sender

Nachrichtenwort: 0110 (4 Bit)

Messeg.-Polynom:  $M(x) = 0x^3 + 1x^2 + 1x^1 + 0x^0 = x^2 + x$

(1)  $x^r \cdot M(x)$  wobei  $r = \text{Grad von } G(x)$

$$x^3 \cdot M(x) = x^3(x^2 + x) = x^5 + x^4 \quad 0110000$$

(2)  $\frac{x^r \cdot M(x)}{G(x)}$  und  $R(x)$  bestimmen

$$\begin{array}{r} (x^5 + x^4) : (x^3 + x^2 + 1) = x^2 \\ x^6 + x^5 + x^2 \\ \hline x^2 \text{ Rest} \end{array} \quad R(x) = x^2 + 100$$

(3)  $T(x) = x^r \cdot M(x) + R(x)$

Transmission = Übertragung

$$T(x) = (x^5 + x^4) - x^2 = x^5 + x^4 + x^2 \quad \underbrace{0110}_{M(x)} \quad \underbrace{100}_{R(x)} \rightarrow \text{Absenden}$$

Rest abgezogen,  
daher Restfrei!

(Man kann auch addieren)

Sicherung mit

## Empfänger

0110100 wird fehlerhaft übertragen

(1)  $T(x) + E(x)$  Error-Polynom empfangen

(2)  $\frac{T(x) + E(x)}{G(x)}$  decodieren

Da  $T(x)$  restfrei war, zeigt sich ein Rest

## CRC - cyclic redundancy check codes

Zyklische Polynom-Codes mit Standard  $G(x)$

z.B.: CRC-12 Generator-Polyom 12. Grades

Dadurch 12 Absicherungsbits für 6 Bit

Nachrichten

Insgesamt:  $6 + 12 = 18$  Bit zu übertragen

12 Absicherungsbits

→ 11 Fehler erkennen

→ < 6 Fehler korrigieren

$$\text{Fehler} < \frac{\text{Distanz}}{2}$$

$$N = \text{message } m + \text{redundancy } r$$

Es sind  $2^r$  mögliche redundante Codierungen möglich

- 1 Muster für Fehlerfreiheit

-  $2^r - 1$  weitere für weitere Informationen über Fehlerquelle

## 04: Informationstheorie

Nach dem Übertragungsmodell:



Das Medium überträgt den Signal.

Analog: Wert - kontinuierlich

Diskret: Wert - diskret

### Sprache

Alphabet: Menge aller Zeichen  $\rightarrow$  Wort

Syntax: Grammatik

Semantik: Bedeutung

Metasprache: Zur Definition einer neuen Sprache

### Code und Codierung

Codierung: bijektive Abbildung von 2 Wörtern zwischen 2 Sprachen  
Wort  $\mapsto$  Codewort

↑ Verarbeitung, Erfassbarkeit  
z.B. Binärcodierung mit "binary Digits" = Bits

### Informationstheorie nach Claude Shannon

8 Bit = 1 Byte

$2^{10}$  Bit = 1 Kibit (Kilo)

### Informationsgehalt / Überschlagswert

$P$  = Auftrittswahrscheinlichkeit / Erwartungswert

Es muss gelten:

↑ Wahrscheinlichkeit = ↓ Überschlags! Informationsgehalt  $f(\frac{1}{P})$   
weil Zeichen voneinander unabhängig  $\Sigma$  Einzelzeichen = gesamt. Wort

Also:

$$H(x) + H(y) = H(xy) \rightarrow \text{Erfüllt vom Logarithmus}$$



## Informationsgehalt H

$$H = \text{id}\left(\frac{1}{p}\right) = \text{id}\left(p^{-1}\right) = -\text{id}(p) \quad [\text{Bit}]$$

↑  
Wahrscheinlichkeit.

## Mittlerer inf. Gehalt H

$$H = \sum_i p_i h_i = \sum_i p_i \text{id}\left(\frac{1}{p_i}\right) = - \sum_i p_i \text{id}(p_i) \quad [\text{Bit}]$$

## Code-Wortlänge L

$$\begin{array}{lll} \text{zB } x \mapsto 1 & l_0 = 1 \\ y \mapsto 01 & l_1 = 2 \\ z \mapsto 00 & l_2 = 2 \end{array}$$

Redundanz R

$$R = L - H \quad [\text{Bit}]$$

## Mittlere Wortlänge L

$$L = \sum_i p_i l_i \quad [\text{Bit}]$$

relative Redundanz r

$$r = \frac{R}{L} \quad [\text{Einheitslos}]$$

## Huffman-Code

↓ Redundanz durch Densverdichtung (Auch Morse Code)

Wenn man ganze Zeichenfolgen kodiert → beliebig kleine Redundanz



## Adaptiver Huffman-Codier:

relative Häufigkeit in bisheriger Iteration.

Nach n Zeichen Punkt neu aufbauen

# 06: KV-Diagramme, Binary decision diagrams (BDD)

KNF: Konjunktive Normalform  
 DNF: Disjunktive Normalform  
 für bool'sche Funktionen

| A | B | C | Ergebnis | Klausel                         |
|---|---|---|----------|---------------------------------|
| 0 | 0 | 0 | 0        | $A \vee B \vee C$               |
| 0 | 0 | 1 | 0        | $A \vee B \vee \neg C$          |
| 0 | 1 | 0 | 1        | $\neg A \wedge B \wedge \neg C$ |
| 0 | 1 | 1 | 1        | $\neg A \wedge B \wedge C$      |
| 1 | 0 | 0 | 0        | $\neg A \vee B \vee C$          |
| 1 | 0 | 1 | 1        | $A \wedge \neg B \wedge C$      |
| 1 | 1 | 0 | 0        | $\neg A \vee \neg B \vee C$     |
| 1 | 1 | 1 | 1        | $A \wedge B \wedge C$           |

Wenn Ergebnis 0 dann invertiert und als Disjunktion

Wenn Ergebnis 1 dann als Konjunktion

Alle Disjunkte mit "und" verbinden  $\rightarrow$  Konjunktive Normalform: KNF

$$(A \vee B \vee C) \wedge (A \vee B \vee \neg C) \wedge (\neg A \vee B \vee C) \wedge (\neg A \vee B \vee \neg C)$$

Alle Konjunkte mit "oder" verbinden  $\rightarrow$  Disjunktive Normalform: DNF

$$(\neg A \wedge B \wedge \neg C) \vee (\neg A \wedge B \wedge C) \vee (A \wedge \neg B \wedge C) \vee (A \wedge B \wedge C)$$

Diese Repräsentation ist nicht optimal.

"Vollkonjunktion"

Wiederholung:

$(a \wedge \neg b \wedge c)$  Konjunktive Form

$(a \vee \neg b \vee \neg c)$  Disjunktive Form

Negationen nur in atomarer Form!

$$\neg(a \wedge b) = \neg a \vee \neg b \rightarrow \text{nicht atomar}$$

$$(\neg a \vee \neg b) = \neg a \vee \neg b \rightarrow \text{atomar}$$

# Vereinfachung mit KV-Diagrammen

„Karnaugh map“

- Nicht immer minimal
- Nur bis 4 Variablen sinnvoll

| $\neg x_3$ | $x_3$ | $x_2$ | $\neg x_2$ |
|------------|-------|-------|------------|
| $\neg x_1$ | 1     | 1     | 0          |
| $x_1$      | 0     | 1     | 1          |
| $\neg x_1$ | 0     | 0     | 1          |
| $x_4$      | 0     | 1     | 1          |
| $\neg x_4$ | 1     | 1     | 0          |

Reinhaltet alle möglichen Vollkonjunktionen  
 1 = kommt vor  
 0 = kommt nicht vor  
 X = don't care

Wir suchen minimale Anzahl an Blöcken

um alle 1en oder 0en abzudecken

- Per Block von 2, 4, 8, 16, 32 ...

- Nachbarer unterscheiden sich nur  
um eine Variable:  $(\neg x \vee x) = 1$

Davor:

$$\begin{aligned} & \neg x_1 \wedge \neg x_2 \wedge \neg x_3 \wedge x_4 \\ & \neg x_1 \wedge x_2 \wedge \neg x_3 \wedge x_4 \end{aligned}$$

„minimale disjunktive Normalform“

$$\longrightarrow (\neg x_1 \wedge \neg x_3 \wedge x_4) \vee (\dots) \vee (\dots) \vee (\dots)$$

↑  
weil 4 Blöcke  
gefunden

ITE - if then else

$$a \wedge b \equiv \text{ITE}(a, b, 0)$$

$$\neg a \equiv \text{ITE}(a, 0, 1)$$

$$a \vee b \equiv \text{ITE}(a, 1, b)$$

Shannon-Zerlegung

$f: \mathbb{B}^n \rightarrow \mathbb{B}$  Boolesche Funktion.

"Kofaktor von  $f$ " in der  $x_i = 1$

$$f_{i,1}: \mathbb{B}^{n-1} \rightarrow \mathbb{B}$$

oder

$$f_{i,0}: \mathbb{B}^{n-1} \rightarrow \mathbb{B}$$

$$f = (x_i \wedge f_{i,1}) \vee (\neg x_i \wedge f_{i,0})$$

## Binary Decision Diagrams BDDs

Beispiel: Von if, else Baum



Vereinfachen mit

delete - rule

merge - rule

(nicht minimal)



DNF ablesen, KNF auflesen



$$\text{DNF } (a \wedge c) \vee (\neg a \wedge b)$$

$$\text{KNF } (\neg a \vee c) \wedge (a \vee b)$$

## Reduktion mit Beads

| a | b | c | y |
|---|---|---|---|
| 0 | 0 | 0 | 0 |
| 0 | 0 | 1 | 0 |
| 0 | 1 | 0 | 1 |
| 0 | 1 | 1 | 1 |
| 1 | 0 | 0 | 0 |
| 1 | 0 | 1 | 1 |
| 1 | 1 | 0 | 0 |
| 1 | 1 | 1 | 1 |

Abhängig davon  
ob man a,b,c oder  
eine andere Permutation  
hat

Bead: erste und zweite

Hälfte stimmen nicht

Square:  $\neg$  Bead

Bei "don't cares":

" Greedy: Gleich am Anfang

Lazy: Aufschreiben



# 07: kombinatorische Logik, Digitalschaltungen, kombinat. Digitaltechnik

Bool'sche Algebren mit digitalen Bausteinen

## Diskretisierung

kont. analoge Signale  $\rightarrow$  bool'sche Werte



## Bool'sche Funktionen durch Gatter-Bausteine



Bool'sche Operatoren sind „funktional vollständig“ wenn mit ihnen alle anderen Operat. hergeleitet werden können;

$$\{\wedge, \neg\}, \{\text{NAND}\}, \{\text{NOR}\}$$

↓  
weniger Transistoren,  
billiger herzustellen

$\rightarrow$  Substitution mit Nand und Nor

## Standard - Baugruppen

Encoder: verdichtet Code

n - zu - m - Encoder

n Eingänge  $\geq$  m Ausgänge

Decoder

n zu m Decoder

n Eingänge  $\leq$  m Ausgänge

Beispiel:

„1 aus 2“ - Code  $\rightarrow$  n Bit Binerzahl

| 8 to 3    |   |                |     |                |                |                |                |                |                |
|-----------|---|----------------|-----|----------------|----------------|----------------|----------------|----------------|----------------|
| coder     |   | e <sub>3</sub> | ... | e <sub>2</sub> | e <sub>1</sub> | e <sub>0</sub> | a <sub>2</sub> | a <sub>1</sub> | a <sub>0</sub> |
| 0         | 0 | 0              | ... | 0              | 0              | 0              | 1              | 0              | 0              |
| 1         | 1 | 0              | ... | 0              | 0              | 1              | 0              | 0              | 1              |
| 2         | 2 | 0              | ... | 0              | 1              | 0              | 0              | 1              | 0              |
| :         |   | 0              | ... | 1              | 0              | *              | *              | *              | *              |
| 7         |   | *              | ... | *              | *              | *              | *              | *              | *              |
| n Eingang |   | Ausgang        |     |                |                |                |                |                |                |

Bei Decoder umgekehrt.



lässt sich auch  
kaskadieren:

4 to 16

=  
5 × [2 to 4 Decoder]

## Multiplexer



## Demultiplexer

Äquivalent zu Decoder mit Enable-Eingang



Eingang = Enable Input

## Addierer

### HA Half Adder



| $e_1$ | $e_2$ | $e_1 + e_2$ |
|-------|-------|-------------|
| 0     | 0     | 0 0         |
| 0     | 1     | 0 1         |
| 1     | 0     | 0 1         |
| 1     | 1     | 1 0         |

↑      ↑  
Carry      Sum  
 $(e_1 \wedge e_2)$        $(e_1 \oplus e_2)$

### FA Full Adder



| $e_{1i}$ | $e_{2i}$ | $c_{i-1}$ | $c_i$ | $s_i$ |
|----------|----------|-----------|-------|-------|
| 0        | 0        | 0         | 0     | 0     |
| 0        | 0        | 1         | 0     | 1     |
| 0        | 1        | 0         | 0     | 1     |
| 0        | 1        | 1         | 1     | 0     |
| 1        | 0        | 0         | 0     | 1     |
| 1        | 0        | 1         | 1     | 0     |
| 1        | 1        | 0         | 1     | 0     |
| 1        | 1        | 1         | 1     | 1     |

↑  
kanonische DNF

$$s_i = (\neg e_{1i} \wedge \neg e_{2i} \wedge \neg c_{i-1}) \vee \\ (\neg e_{1i} \wedge \neg e_{2i} \wedge c_{i-1}) \vee$$

$$\vdots$$

Es gilt:

$$s_i = e_{1i} \oplus e_{2i} \oplus c_{i-1}$$

$$c_i = (e_{1i} \wedge e_{2i}) \vee \\ (c_{i-1} \wedge (e_{1i} \oplus e_{2i}))$$

Lässt sich mit Kaskadierung von HA implementieren:



### Paralleladdierer

MSB



LSB



Auch Subtraktion möglich:  
eine Zahl invertieren,  
erstes FO:  $c_0 = 1$

Beispiele: Substitution mit NAND / NOR:

AND Substitution



$$\neg(\neg(e_1 \wedge e_2) \wedge 1) = \neg((\neg e_1 \vee \neg e_2) \wedge 1)$$

$$= e_1 \wedge e_2 \vee 0$$

OR Substitution



$$\neg(\neg e_1 \wedge \neg e_2) = (e_1 \vee e_2)$$

NOT Substitution



$$\neg(e \wedge 1) = \neg e \vee 0$$

Beispieldfunktion: Ersetzen der Gatter mit NAND

$$f(A, B, C) = (A \vee B) \vee (B \wedge C)$$



Jetzt wurden alle OR sowie AND mit NAND ersetzt



Aber wir haben noch 3 Negationsgatter

Negationsgatter

### 3 NAND Gatter Eigene



## 08 Automaten



### Formale Definition

Systeme mit Zustand (Schaltwerk) werden mit Automaten beschrieben.

Endliche Automaten:

- endliche Zustandsmenge  $Q$
- Startzustand  $s \in Q$
- Endzustandmenge  $F \subseteq Q$
- Übergangsfunktion  $\delta$
- Endliches Eingabealphabet  $\Sigma$

### Moore - Automat

- Ausgabealphabet  $\Omega$ , und Ausgabefunktion  $\lambda: Q \rightarrow \Omega$

### Mealy - Automat

- Ausgabealphabet  $\Omega$ , und Ausgabefunktion  $\lambda: Q \times \Sigma \rightarrow \Omega$

↑      ↑  
Zustand    Eingabezeichen

### Deterministische Automaten:

- Nachfolgezustand genau definiert

$$\delta: Q \times \Sigma \rightarrow Q$$

### Nicht-Deterministische Automaten

- $\exists$  ein Zustand-Eingabe-Paar ohne Nachfolge-Zustand

$$\delta \subseteq Q \times (\Sigma \cup \{\epsilon\}) \times Q \quad \rightarrow \exists \text{ Zustände ohne Eingaben}$$

↑  
Leerwort

### Vollständige Automaten

- $\forall (z, x) \in Q \ni \exists z': \delta(z, x) = z'$

Wir gehen davon aus:

Automat vollständig & deterministisch

### Moore

- Zustand bestimmt Output
- Input beeinflusst Zustand
- Output ändert sich nur bei Zustandsänderung

### Mealy

- Input & Zustand bestimmen Output
- Für jeden Zustand sind Input-Abhängig mehrere Outputs möglich
- Meistens weniger Zustände

Zusammengefasst:

#### Deterministisch

Eindeutiger Folgezustand für  $\lambda$  möglichen Eingaben in  $\lambda$  möglichen Zuständen:

Übergangsfonktion:  $\delta : Q \times \Sigma \rightarrow Q$

#### Nicht determin.

Übergangsfonktion:  $\delta \subseteq Q \times \{\Sigma \cup \{\epsilon\}\} \times Q$

↓                  ↓  
 leerwort      Ausgabe  
 und Alphab.

#### Vollständig

Min. 1 Folgezustand — " —

zu  $H(z, x) \in Q \times \Sigma$

$\exists z' : \delta(z, x) = z'$   
↑  
genau 1

#### Endlich

Beschränkte # an Zuständen

Aufgabenstellung:

Output soll 1 sein, wenn Input Pfeilfolge 1011 ist,  
(Überlappungen (10111011) auch bewerten),)

Mealy:



| Zustand        | gelesene Folge |
|----------------|----------------|
| S <sub>0</sub> | -              |
| S <sub>1</sub> | 1              |
| S <sub>2</sub> | 10             |
| S <sub>3</sub> | 101            |
| S <sub>4</sub> | 1011           |

Bei jedem Übergang wird ein Bit vom Input „consumiert“.

Moore:



## Konversion / Transformation



## Zustandsgraph - Beispiel

$$Q = \{S_0, S_1, S_2, S_3\}$$

$$S = S_0$$

$F = \{S_3\}$  (Wenn kein  $F$  mit 2 Ringen eingezeichnet, dann  $\Rightarrow$  Knoten = Endzust.)



Wir können  $e_1, e_2$  mit Pfeilwörtern angeben:

Reihenfolge:  $e_1 e_2$



## Moore Schaltwerk

Zustand bestimmt Ausgabe:

$$\lambda = \{ (S_0, 0), (S_1, 1), (S_2, 1), (S_3, 0) \}$$



Reihenfolge der Eingabe: e<sub>1</sub>, e<sub>2</sub>

Ausgabe: a

↑  
inner  
Ausgaben!

## Mealy Schaltwerk

Zustand UND Eingabe bestimmen Ausgabe:

$$\lambda = \{ ((S_0, 00), 1), \dots, ((S_0, 01), 0), \dots \}$$



# 09 : Sequentielle Logik

Kombinatorische Logik

Output vom aktuellen Input-Zustand abhängig

Keine Speicherung von Informationen / Zuständen.

Sequentielle Logik

Output vom aktuellen Input und bisherigen Ereignisverlauf (Historie) abhängig

Mit Speicherelementen

## Zeitverhalten

Idealisiert:



Real:



$t_{pd}$ : Durchlaufzeit

$t_f$ : Flankensteilheit

## Electronics Glitch / logical hazard

Wenn man keinen Takt hat:

Output kann kurzfristig falsch sein



$$f(a, b, c) = (\neg a \wedge b) \vee (a \wedge c)$$

Wenn  $b$  und  $c$  wahr sind,  
muss  $y$  unabhängig von  $a$   
wahr bleiben.

Wenn  $a=1 \Rightarrow a=0$  wird  $q$   
vor  $p$  true sein



## Speicherelemente: Latches und Flipflops

Speichern 1 Takt (so lange Spannung anliegt)

Taktzustand → Latches

Taktflanken → Flipflops

## Takt-Signal (Clock-Signal) [Hz]

Synchronisiert (vor allem große) Schaltungen

- synchrone Taktung (periodisch)
- asynchrone Taktung



Stabilisierung:  
Quarzoszillator

Flanke = Zustandswechsel



Flipflop / Zeitspezifikation beim Taktieren:



ZB bei D-Flipflop:  
Eingang muss in Vorbereit. und Haltezeit  
stabil bleiben.  
Sonst metastabile Zustände

## Glitches und Hazards

Wenn am Ausgang kurz falscher Wert steht, erzeugt durch das nicht-einhalten von  $t_{\text{setup}}$ ,  $t_{\text{hold}}$  und generell durch  $t_{\text{pd}}$

## Molekulärer Zustand

unkontrolliertes Togglen.

zB wenn man bei RS-Latch gleichzeitig von  $R=S=1$  auf  $R=S=0$  wechselt

unverhindrbar

Fürstige

## Polystabile Kippstufe

Schaltungen die 1 Bit speichern können besitzen 2 stabile Zustände  
zB Set, Reset

## Monostabile Kippstufe

Nur ein Zustand ist stabil  $\rightarrow$  So entsteht ein Takt: es fällt immer noch der Flanke zurück zum stabilen Zustand



Takt  $\quad \boxed{1} \circ \quad \boxed{\&}$  positive Taktflanken

Takt  $\quad \boxed{1} \circ \quad \boxed{\geq 1} \circ$  negative Taktflanken

Takt  $\quad \boxed{1} \circ \quad \boxed{=1}$  beide Taktflanken

$\boxed{1} \circ \quad \boxed{=1} \circ$  ↗ wäre besser als die Version ohne Negation von XOR

## Lösung des Beispiels:



|     | NOR | XOR |
|-----|-----|-----|
| 0 0 | 1   | 0   |
| 0 1 | 0   | 1   |
| 1 0 | 0   | 1   |
| 1 1 | 0   | 0   |

$\neg [ \geq 10 ]$

Aquivalent zu Not



für negative Flanke  $x=0 \quad y=1 \rightarrow 1$   
 für positive Flanke  $x=1 \quad y=0 \rightarrow 1$

## Speicherelemente

### RS - Latch



| $S$ | $R$ |                                          |
|-----|-----|------------------------------------------|
| 0   | 0   | Hold                                     |
| 0   | 1   | Reset = 0                                |
| 1   | 0   | Set = 1                                  |
| 1   | 1   | Nicht erlaubt $\rightarrow$ Instabilität |



Wenn  $R=S=1$  und dann  $R=S=0$   
dann ständiger Wechsel

### D - Latch



Baut auf RS-latch  
auf:



$$Q = \overline{Q} \\ = 0 \quad \text{---} \quad Q = \overline{Q} \\ = 1$$

$D=1 \rightarrow \text{Set}$   
 $D=0 \rightarrow \text{Reset}$   
 $C=0 \rightarrow \text{Hold}$

### D - Flip-Flop



Bewusst erzeugter Hazard: Erkennung von Taktflanke

### JK Flip-Flop



| $J$ | $K$ |        |
|-----|-----|--------|
| 0   | 0   | Hold   |
| 0   | 1   | 0      |
| 1   | 0   | 1      |
| 1   | 1   | Toggle |

## Anwendungen

### Register



bei RS Latch in D-Flipflop ist  
R nach erreichbar  
✓

Clear  
Clock

### Parallel - Register



wenn load:  
Zustand übernehmen,  
aussonst hold

### Schieber - Register



Anwendung:  
paralleles Addieren

### Universal - Register



|   | $s_0$ | $s_1$ |               |
|---|-------|-------|---------------|
| 0 | 0     | 0     | -             |
| 1 | 0     | 1     | shift left    |
| 2 | 1     | 0     | shift right   |
| 3 | 1     | 1     | parallel load |

Alle Mux werden gleichzeitig  
mit selben Angabe geschalten

## Zähler

(asynchron aufgebaut)



Da  $J=K=1$

wird aufgetaktet bei jeder negativen Flanke:



(synchroon aufgebaut)



↑  
-toggled  
mit jedem Takt

↑  
-toggled  
wenn  $a=1$

↑  
-toggled  
wenn  $a_0 \& a_1 = 1$

↑  
-toggled  
wenn  $a_0 \& a_1 \& a_2 = 1$

## 10. Speicher



Tabellenspeicher speichern Werte in Zeilen, die aussprechbar sind (Gedächtnis).

Funktionsspeicher speichern logische Funktionen (kein Gedächtnis)

Funkt. Speicher lassen sich als Tabell. Speicher implementieren, vice versa

### Funktionsspeicher : PLD

PLD programmable logic device

PLA programmable logic array → UND-ODER-Matrizen

PAL programmable array logic → ODER ist voredefiniert

Vom Anwender tx programmierbar:

Binden / Fuse ( $\rightarrow$ ) verbindet zwei Leitungen und kann durchgebrannt werden mit versch. Stromstärken

Funktion als disjunktive Normalform DNF:



Ausgänge ohne Kurzschluss zusammenschalten

Tri-State und Open-Collector:



Leitet nicht wenn endete auf 1st



# ASIC

Application Specific integrated circuit

- schnell, effizient, nur 1 Funktion
- teuer

→ zB für Handy: GSM-Protokolle fix

Es gibt auch **FPGA** (field programmable gate array)  
wie PLA aber effizienter.

## Tabellenspeicher: ROM

Read-only-memory

- permanente Speicherung, nicht flüchtig
- $\exists$  werksemprogrammierbar

1K → # Datenwörter, # Zeilen (1024)

8 → Bitbreite



Beispiel: 16x4 Rom

Mit einem 4 zu 16, wird eine Zeile ablesen

↑      ↑  
# Eingang    # Ausgang



Zum Programmieren wird ein Anti-Fuse benutzt (Beim Verschmelzen wird Kontakt erzeugt.)

Erweiterung von ROM!: Multiplexer

statt einem 32x4 Rom kann man zwei 16x4 Roms verwenden



Row 1 für Zeile 0 bis 15  
Row 2 für Zeile 16 bis 31

Dadurch:



## Erweiterung von ROM: Tri-State



Zusammenenschalter  
erlaubt!

## Erweiterung von ROM: Multiplikator

Aus  $16 \times 16$  Rom  $\rightarrow 64 \times 4$  Rom



## Anwendungen von ROM Werte:

### Flash EEPROM

USB, SSD, sehr schnell

### EEPROM

Speichern von Betriebssystemen, Embedded Systemen  $\rightarrow$  Daten die ändernden werden

## ROM vs RAM:

- Nicht flüchtig
- langsam
- hohe Kosten pro Gib
- begrenzte  $\Rightarrow$  an Lernzufallen

## Tabellen Speicher : RAM

random-access-memory (historisch bedingt)

DRAM: flüchtig, Speicherung im Kondensator

SRAM: nicht flüchtig, aus CMOS Transistoren

### Speicherzelle (Binary Cell)



Matrix aus binary cells:



Kaskadierung wie bei ROM mit decoder möglich.

# 11: Schaltwerke

## Schaltnetze

### Combinational logic

logische Funktionen ohne Speicher / internen Zuständen



## Sequentielle Schaltwerke

### Sequential logic

Ausgabe abhängig von internem Zustand und Eingang.

## Taktung, Vermeidung von Pete-Zuständen

Annahmen:

- immer synchron: Änderung nur bei Takt signal
- Eingangssignal auch synchron mit Takt, weil mealy sofort auf input reagiert

Zustand muss aktualisiert werden bevor nächste Eingabe folgt:



Minimales Taktintervall:

$$T_{min} = t_{FF} + t_G + t_{setup}$$

Maximaler Taktfrequenz:

$$f_{max} = \frac{1}{T_{min}}$$

# Zeitverhalten

Ablenkktion:

Not Gatter



Reaktivität:

ES veranagt Zeit bis Ladungsträger fließen



propagation delay  $t_{pd}$

Durchlaufzeit

Von der Taktflanke bis zur Ausgangsänderung; quasi Reaktionszeit

rise / fall time  $t_f$

Austieg / Abfallzeit

Schärfe der Flanke

Weiters:

Bei Flipflops (zB D-Flipflop) muss Eingang während Taktflanke stabil bleiben, weil sonst instabile Zustände entstehen können (unkontrolliertes Tongen)

Setup time  $t_{setup}$

Vorbereitungszeit

Zeit vor Taktflanke

Hold time  $t_h$

Haltzeit

Zeit nach der Taktflanke



## Maximale Taktfrequenz

$$\text{Frequenz [Hz]} = \frac{1}{T_0 \text{ [s]}}$$



Zeit benötigt für eine Periode

### SI-Präfixe:

|    |       |            |
|----|-------|------------|
| T  | Tera  | $10^{12}$  |
| G  | Giga  | $10^9$     |
| M  | Mega  | $10^6$     |
| k  | kilo  | $10^3$     |
| h  | hekto | $10^2$     |
| da | deka  | $10^1$     |
|    |       | $10^0$     |
| d  | dezi  | $10^{-1}$  |
| c  | Zenti | $10^{-2}$  |
| m  | Milli | $10^{-3}$  |
| M  | Micro | $10^{-6}$  |
| n  | Nano  | $10^{-9}$  |
| p  | Piko  | $10^{-12}$ |

Beispiele:

$$1\text{ ns} = 10^{-9}\text{ s}$$

$$1\text{ MHz} = 10^6 \cdot \text{Hz} : 1\text{ Mikrozyklus pro Sekunde}$$

)

### Beispiele zur Berechnung der maximalen Taktfrequenz von Flipflops

Benötigte Angaben:

Gatter Durchlaufzeit

Flipflop Durchlaufzeit von Takt bis Ausgabe

t<sub>setup</sub> für Flipflops

15 ns

45 ns

5 ns

65 ns

$$\rightarrow \frac{1}{65 \cdot 10^{-9}} =$$

$$= 15\ 384\ 615,384 \dots =$$

$$= 15,4 \text{ MHz}$$

Weiteres Beispiel:

Gatter t<sub>pd</sub> 90 ns

Flipflop t<sub>pd</sub> 40 ns

Flipflop t<sub>setup</sub> 10 ns

$$90 \text{ ns} \rightarrow \frac{1}{90 \cdot 10^{-9}} =$$

$$= 11,1 \text{ MHz}$$



$$11,1 \text{ MHz} < 25 \text{ MHz}$$

Max flipf. Maximale Taktfrequ.

keine obere Schranke!

# Systematische Schaltwerkentwicklung

## 1. Aufgabenstellung verstehen

- prüfe Vollständigkeit

## 2. Entwurf des Zustandegraphen

- prüfe Vollständigkeit

für alle mögl. Inputs

- prüfe Eindeutigkeit

(Es gäbe auch andere Wege  
Zustandsübergang zu markieren)

Deterministic finite state machine

state machine: Zustandsabhängig  
konzeptueller Automat

## 3. Minimierung der Zustands #

- automatisiert

finite: Endliche # an Zuständen

deterministic: Eindeutig Nachfolg  
Zustände

## 4. Zustandscodierung

- 1 aus  $n$  oder „dichte Codier.“

## 5. Übergangs- und Ausgangsfunktion bestimmen

- aus Zustandsgraph ableiten

- mit KV-Diagramm verknüpfen

## 6. Dokumentation der Gesamtstruktur

## 7. Berechnung von freier Taktfrequenz

# Systematische Schaltwerkerstellung

## Beispiel

### Ausgabe:

Schaltung mit Eingang E, durch die 4 Relais geschalten werden (HSE zuerst)

Soll erkennen ob die Zahl (basis 2)  $\leq (10)_{10} = (1010)_2$  ist.

### Zustandsgraph:



### Zustandscodierung:

| Zustand        | Beschreibung | D <sub>2</sub> | D <sub>1</sub> | D <sub>0</sub> |
|----------------|--------------|----------------|----------------|----------------|
| S              | B3(HSE)      | 0              | 0              | 0              |
| Z <sub>1</sub> | B2           | 0              | 0              | 1              |
| Z <sub>2</sub> | B1           | 0              | 1              | 0              |
| Z <sub>3</sub> | B0(LSE)      | 0              | 1              | 1              |
| KG             | $\leq 10$    | 1              | 0              | 0              |
| GR             | $> 10$       | 1              | 0              | 1              |

Reicht Zahl auf Stelle  
in der Zahl

### Zustandsübergangstabellen

| aktueller Zustand                              | neuer Zustand                                   |
|------------------------------------------------|-------------------------------------------------|
| D <sub>2</sub> D <sub>1</sub> D <sub>0</sub> E | D <sub>2'</sub> D <sub>1'</sub> D <sub>0'</sub> |
| 0 0 0 0                                        | 1 0 0                                           |
| 0 0 0 1                                        | 0 0 1                                           |
| 0 0 1 0                                        | 0 1 0                                           |
| 0 0 1 1                                        | 1 0 1                                           |
| 0 1 0 0                                        | 1 0 0                                           |
| 0 1 0 1                                        | 0 1 1                                           |

Mit KV-Diagrammen vereinfachen

$$D_2' = D_2 \vee (D_0 \wedge E) \vee (D_1 \wedge \neg E)$$

$$\vee (\neg D_0 \wedge \neg E)$$

$$D_1' = (\neg D_0 \wedge D_1 \wedge E) \vee (D_0 \wedge \neg D_1 \wedge D_2 \wedge E)$$

$$D_0' = (\neg D_2 \wedge E) \vee (D_0 \wedge D_2)$$

### Abschließend:

Entwurf des Schaltwesels

Einfach Codierung  
für jeden Zustand

Adicte Codierung

## 12 : Realisierung von Schaltwerken

Beispiel: Münzautomat



Moore Zustandsgraph



Notation:



Wir wandeln den Zustandsgraphen, von der Zustandscodierung in eine Tabelle für die Übergangsfunktion von:

| Input             | F      | 0      | ... | 0    | ... | ... |
|-------------------|--------|--------|-----|------|-----|-----|
|                   |        | 0      | ... | 1    | ... | ... |
|                   |        | 0      | ... | 0    | ... | ... |
| Aktueller Zustand | Idle   | Idle   | ... | Ten  | ... | ... |
|                   | Five   | Five   | ... | Paid | ... | ... |
|                   | Ten    | Ten    | ... | Paid | ... | ... |
|                   | Paid   | Paid   | ... | Ten  | ... | ... |
|                   | Cancel | Cancel | ... | Ten  | ... | ... |

← →  
neuer Zustand

## Zustandscodierung

1 aus n - Codierung

Dichte Codierung

| I  | J  | K  | L  | M  | Zustand  |
|----|----|----|----|----|----------|
| 0  | 0  | 0  | 0  | 1) | Idle     |
| 0  | 0  | 0  | 1) | 0  | Fine     |
| 0  | 0  | 1) | 0  | 0  | Ten      |
| 0  | 1) | 0  | 0  | 0  | Paid     |
| 1) | 0  | 0  | 0  | 0  | Canceled |

| K | L | M | Zustand  |
|---|---|---|----------|
| 0 | 0 | 0 | Idle     |
| 1 | 0 | 0 | Fine     |
| 0 | 1 | 0 | Ten      |
| 0 | 1 | 0 | Paid     |
| 1 | 1 | 0 | Canceled |
| 0 | 0 | 1 |          |

Moore: 1 aus n cod.



aus effizienzgründen  
derer Zuordnung

Moore: Dichte Cod.



Mealy: Dichte Cod.

T  
Z  
R



6 Inputs

## Realisierung der Übertragungsfunktion

Funktionspeicher (Einzelne Gatter oder PLA, PAL)



Tabellenpeicher (ROM)

Annammen: Moon und Deuse Encoding  
" "

$2^6 = 64$ , deshalb  $64 \times 3$  ROM



## Zeitlicher Ablauf

Seine Folien für synchrone Signale (Eingang & Zustand)

Aber möglichst keine Fliegende

## Weiteres Beispiel:

Binärzähler (zähler mit jedem Takt)  $\rightarrow$  keine Eingaben; Autonome Anlauf

Zustandsspeicher: JK (Jump-Kill) -Flipflops

Übergangsfunktion: mit Gittern

Zustandsdiagramm:

(current around bei 7)

| C   | B | A   |
|-----|---|-----|
| Msb |   | Lsb |



Übergangs- und Ausgangsfunktion

- Ausgangsfunktion Zustand: = JK-Flipflop-Ausg.
- JK-Flipflop zum kontinuierlichen Betrieb

| JK |        |
|----|--------|
| 00 | hold   |
| 01 | 0      |
| 10 | 1      |
| 11 | toggle |

bei  $J=K=0$  hold  
 $J=K=1$  toggle

Dichte Codierung

|         |           |
|---------|-----------|
| Zustand | 0 ... 000 |
|         | 1 ... 001 |
|         | 2 ... 010 |
|         | 3 ... 011 |
|         | 4 ... 111 |



Berechnung d. Maximaler Taktfrequenz

- PIO Gitter 15ns
- Durchlauf Takt bis Ausgabe 45ns
- Vorbereitungszeit 5ns
- Haltezeit 2ns
- max Taktfrequenz JK-Flipflop 25 MHz

Berechnung:

Durchl. Flipflop: 45ns  
 Durchl. Überg.: 15ns  
 (nur 1 Gitter)

Vorbereitung Flipflop: 5ns  
 65ns

$$\frac{1}{65\text{ns}} = 15,4 \text{ MHz}$$

$$15,4 \text{ MHz} < 25 \text{ MHz}$$

nicht beschrieben

# Übersicht



## 14: Micro 16 (Mikroprozessor)

Prozessor Schaltwerk zur Verarbeitung von Daten  
besteht aus Rechenwerk und Leitwerk

Rechenwerk Führt Rechenoperationen aus

Leitwerk Steuerung der Reihenfolge mit den Befehle ausgeführt werden

### ALU Arithmetic logic unit

Funktionen:



- Durchschalten ohne Änderung
- Bitweise UND
- Bitweise Komplementbildung
- Parallel Addition zweier Datenwörter  $\rightarrow$  Carry bit am Ende ausgetragen  
(nicht returned)

Es gibt viele Wege zu addieren!

- Carry ripple adder
- carry skip adder
- carry select adder
- carry look ahead adder



Micro Instruktionen:

| $F_0 \quad F_1$ |               | symbolisch                |
|-----------------|---------------|---------------------------|
| 0 0             | unverändert A | $R \leftarrow A$          |
| 0 1             | $A + B$       | $R \leftarrow A + B$      |
| 1 0             | $A \wedge B$  | $R \leftarrow A \wedge B$ |
| 1 1             | $\neg A$      | $R \leftarrow \neg A$     |

## Shifters

Folgt nach ALU



| S0 S1 |                | Bezieht sich auf Output             |
|-------|----------------|-------------------------------------|
| 0 0   | keine Änderung | 1                                   |
| 0 1   | shift left     | SH $\leftarrow$ ls <sub>h</sub> (R) |
| 1 0   | shift right    | SH $\leftarrow$ rs <sub>h</sub> (R) |
| 1 1   | -              | -                                   |

## Register File und Steuereingaben

Multiplexer schaltet Inhalt von beliebigen Register zu A/B

Bus parallele Leitungen von 4 Registern zu A/B

A - Bus : nach A

B - Bus : nach B

S - Bus : von Shifter zurück



## Control Unit



Ablauf:

C<sub>1</sub>: Microinstructionen laden

    Refer auf A / P - Bus lesen

    Auswahl ALU-Function, Shift

→ C<sub>2</sub>: Register A / B mit Daten laden

    → C<sub>3</sub>: ALU und Shifter Zeit geben

C<sub>4</sub>: Ergebnis von S-Bus in das Zielregister laden

## Speicherzugriff

MAR Memory Address register

MBR Memory Buffer register



### Speicherzugriff

- Handshake verfahren  
(zu kompliziert)

- Speicherzugriffzeit abwarten  
(ca. 2 Taktzyklen)

1. Adresse in MAR laden

2a) schreiben: MBR befüllen

2b) lesen: MBR inhalt in Register Speicher

2a) schreiben: load für MAR und MBR auf 1 stellen

read / write auf 0

2b) lesen: load nur für MAR auf 1  
read / write auf 1

# ALU Schnittstelle zu RAM / ROM



MAR steht :

- MAR wird immer mit B-BUS Eingang gefüllt.
- A-Mux entscheidet ob MBR output oder A-Bus nach ALU geschickt wird
- S-BUS schickt immer nach MBR

## Micro Instruction Register

(Wir lassen Carry Pair von ALU aus, damit wir genau 32 Bit haben)



Dazu kommen:



$$| [0; s_1] | = 32$$

# Vereinfachte Micro 16 Architektur (bisher - unvollständig)



Dazu kommen:

$256 \times 32$  Bit control Store  
Mikroprogramm speicher ] Micro-Code ROM

ADR

8 Bit  $\rightarrow 2^8 = 256$  Adressen des Speichers

ENS

Enable S-BUS-Decoder

COND

2 Bit  $\rightarrow$  Conditions für micro sequencing logic

|    |                               |                |
|----|-------------------------------|----------------|
| 00 | kein Sprung                   |                |
| 01 | Sprung zu ADR in ROM wenn N=1 | if N goto ADDR |
| 10 | Sprung zu ADR in ROM wenn Z=1 | if Z goto ADDR |
| 11 | Sprung zu ADR in ROM          | goto ADDR      |

MIC - Micro instruction controller

Bit Input zu Micro Code ROM



MIC wird immer mit einer ADR geladen,  
 micro seq. logic bestimmt aber auf Grund von N, R  
 ob zu dieser Adresse abgezweigt werden soll

## Micro Instructions für die ALU

| F0 F1 |                     |                           |
|-------|---------------------|---------------------------|
| 00    | A durchschalten     | $R \leftarrow A$          |
| 01    | $A + B$             | $R \leftarrow A + B$      |
| 10    | $A \vee B$ Bitweise | $R \leftarrow A \wedge B$ |
| 11    | $\neg A$            | $R \leftarrow \neg A$     |



## Shifters

| S0 S1 |                |                        |
|-------|----------------|------------------------|
| 00    | keine Änderung | $SH \leftarrow R$      |
| 01    | shift left     | $SH \leftarrow lsh(R)$ |
| 10    | shift right    | $SH \leftarrow rsh(R)$ |
| 11    | ungültig       | -                      |

## Speicherabbindung

Lesen:

$MAR \leftarrow R_i ; rd$   
rd  
 $R_k \leftarrow MBR$

Schreiben:

$MAR \leftarrow R_j ;$   
 $MBR \leftarrow R_j ; wr$   
wr

MAP : memory address register

MRR : Memory buffer register

Zum Lesen:

read / write = 1

memory select = 1

ADR  $\Rightarrow$  MAR und load MAR = 1

Bits von MBR holen

Zum Schreiben

read / write = 0

memory select = 1

ADR  $\Rightarrow$  MAR und load MAR = 1

Daten  $\Rightarrow$  MBR und load MBR = 1

## Micro Sequencing logic - conditions

mit clock immer +1

Entscheidet basierend auf conditions und N,Z ob MIC wirklich zu ADDRESS gehen soll oder nicht

(führt aussonder die command aus der nächsten Zeile aus)



COND

|    |                  |
|----|------------------|
| 00 |                  |
| 01 | [if N goto ADDR] |
| 10 | [if Z goto ADDR] |
| 11 | goto ADDR        |

Als Bitfolge : 32 Bits

(memory select)



# 18 Prozessorarchitekturen, Befehlssatz

Prozessoren haben eigene Architekturen  
vom diesen leiten sich Befehlssätze ab

Mit Befehlssätzen schreibt man Programme (Mikroprogramme → in Mikro ROM)

Ziel:

wichtige erweiterbare Befehlssätze (zB Multiplikation) → Mehr Maschinennstrukturen  
Interpreter im Mikrocode dafür benötigt!  
die mehr können als  
Prozessor

Gen 5: Very high level language VHLL

Gen 4: Fourth gen language (anwendungsbezogen)

Gen 3: Höhere Programmiersprachen

Gen 2: Assemblerbefehle

Gen 1: Binäre Instruktionen

) compiler  
) interpreter

Abhängig von Prozessorarchitektur

## Maschinenbefehle

Arithmetische Befehle

Addition, Subtraktion, Multiplikation, Division, Inkrement, Dekrement

Arithmetic Shift

Logische Befehle

AND, OR, XOR, Invert

Schiebebefehle

Shift, rotieren

Datentransferbefehle

MOV, I/O Befehle → Daten aus Peripherie über Ports, Stackmanipulation

(Flow Control) Kontrollbefehle

Funktionsaufrufe, Sprünge

## Befehle für Datentransfer



- MOV
- Peterwort holen, zB String und unadressieren
- PIO (Programmable I/O)
  - Peripherie wie I/O behandelt
- DMA (direct memory access)
  - Eigener Controller verwaltet I/O Zugriffe
  - CPU setzt nur DMA-Kommando ab
  - Interrupt nach Beendigung

## Adressierung

- Register Mode  $R1 \leftarrow R2$
- Immediate Mode  $R1 \leftarrow 1024$
- Direct accessing Mode ; goto 128
 
$$R8 \leftarrow \text{memory} [(500)_{16}]$$
- Register-indirect Mode :  $R6 \leftarrow \text{memory}[RS]$ 
  - $\curvearrowright$  pointer
  - oder auch pointer und Displacement
  - $[(500)_{16} + PS]$
  - $\uparrow$
  - ADD (PS) +
- Program Counter-Relative-Addressing-Mode
- Indirect Addressing Mode
 
$$R6 \leftarrow \text{memory} [\text{memory} [(500)_{16}]]$$

## Befehle für Datentransfer: Zwischen Register und Stack

Für Stack wird RAM benutzt und mit Pointer auf Stack head operiert  
(alte Elemente nicht gelöscht)

PUSH -16 (R1)      {  
   1. MAR  $\leftarrow SP$  (Stackpointer)  
   2. MBR  $\leftarrow R1$ ; wr  
   3. wr  
   SP  $\leftarrow SP + (-1)$

PUSH -16 (R3)      {  
   Speichert Ereignis in R3

## Control flow Befehle

Man unterscheidet zwischen bedingten & unbedingten Sprüngen



branch if zero flag (boolean)  
branch if equal

:

- Funktion / Prozedur / Unterprogramm

Fasst Code zu einer Einheit mit Input und Output zusammen

Zu merken:

- Wo ist Funktion
- wohin weiter nach Funktion
- Argumente
- Rückgabewert (an Stack oder Register)

Vorgehen:

Call Subroutine

PC = Return  
Address

1. Registerinhalte und PC (Program Counter Register) speichern  
(zB an Stack)
2. PC  $\leftarrow$  Startadresse der Funktion
3. Abarbeiten der Funktion

Return from Subroutine

1. Registerinhalte & PC wiederherstellen
2. Mit PC Wert fortfahren
3. Ablauf fortführen bis Programmende

Ein Stack kann dazu dienen lokale Variablen und Aufrufhierarchie zu speichern,

Gefahr: Stackoverflow / Stackunderflow (<0)

Ermöglicht rekursive Aufrufe,

## Interrupts

asynchrone Unterbrechung des Programmablaufs  
ausgelöst durch speziell. Hardw. Hardware: Interrupt Controller

- Auslöser: INTERN (Software) → Exception
- Division by Zero
  - Illegaler Befehl
  - Stack overflow

EXTERN (Hardware) → Error

- Keyboard Taste gedrückt  
(Damit Prozessor nicht ständig warten muss auf Keyboard)
- Speicherzugriff von DMA beendet

Eigene Routinen für verschiedene Interruptions

Interrupt Service Routine - ISR  
für Fehler-Behandlung

Fehler (Error / Exception) selbst erkennen oder durch codierten Interrupt  
via Datenbus error-Type erhalten

Wichtig: Interrupt-Adresse ist immer an der selben Stelle und wird mit Interrupt-Vektor bezeichnet.

- Prozesse müssen möglichst kurz sein
  - Interrupts haben Prioritäten (falls sie von einem anderen Interrupt unterbrochen werden)
    - Sie können auch aufgezögert / verzögert werden in spezifischen wichtigen Code Teilen
- ↳ Dann: flag setzen → Interrupt pending als Status im Statusregister,

## 2 Wichtige Architekturen:

**RISC** Reduced instruction set CPU (processor) → Bessere Taktzeiten

- Schnelle Zugriffe auf Speicher um Routinen auszuführen, wenige Befehlszeichen
- Weniger Adressierungsarten
- Viele Register
- Speicherhierarchie

→ ARM (Advanced RISC Machines)  
MIPS

**CISC** Complex instruction set CPU

- Gegen Teil von RISC → langsam und nicht alle Befehle oft benötigt
- Unterschiedl. Befehltypen und Adressierungssarten
- Befehle haben unterschiedliche Ausführungszeiten
- Steuerung über Mikroprogramm

→ IBM  
Intel

## 16 Pipelining

### MIPS Microprocessor without interlocked Pipeline Stages

Wiederholung:

- Maschinenbefehle zur Erweiterung der Prozessorfunktionalität  
(mehr als Mikroinstruktionen)

Beispiel: Stack, dient um Rücksprungadressen bei Funktionsaufrufern zu speichern

- Interrupts

Synchron oder Asynchron

### Speicher-Adressierung

Direct (immedate)

$$R1 \leftarrow \text{memory [0xCAFE]}$$

Indirect

$$R2 \leftarrow 0xCAFE$$

$$R1 \leftarrow \text{memory [R2]}$$

Pre und Post Increment / Decrement

$$R1 \leftarrow \text{memory [(R2) +]}$$

↑  
ergibt ob pre oder post; Danach immer gleich

### Taktung bisher in Micro6

1.    (MIR)

2.    (REG)

3.    (ADR)

4.    (WB)

je nach Befehl kann eine der 4 Phasen redundant sein!

- 4 Phasen / Takte pro Befehl

- 2ns Taktung

- 8ns pro Befehl

- 125 Mio instr. pro Sek (MIPS)

    "4 Phasen  
    Rechnerwelt"  
    ← 2ns →

Unnötige Phasen lassen sich nicht überbrücken

## Segmentierung von MIPS Datenpfad

|     |                                             |
|-----|---------------------------------------------|
| IF  | Instruction Fetch                           |
| ID  | Instruction Decode and source register read |
| EX  | Execute                                     |
| MEM | Memory access                               |
| WB  | Write back                                  |

Dadurch: 5stufige Pipeline, 2ns Taktzeit

inklusive dem Einlaufen brauchen 6 Befehle (ohne Hazards) 10 Takte.

2ns-Taktzeit

Absolute Ausführungszeit

6 Befehle in 10 Takten je 2ns  $\rightarrow$  20ns

Realer Durchsatz

$$6 \text{ Befehle}, 20 \text{ ns} \rightarrow \frac{6}{20 \cdot 10^{-9}} = 300 \text{ MIPS}$$

oder 3,33ns / Befehl

Theoretischer Durchsatz

$$1 \text{ Befehl}, 2 \text{ ns} \rightarrow \frac{1}{2 \cdot 10^{-9}} = 500 \text{ MIPS}$$

(kein Einlaufen)

Performance Verbesserung:

- Ausführungszeit für einzelne Befehle im Datenpfad bleibt gleich:  
System selbst wird nicht im Verarbeitung schneller
- Durchsatz verbessert sich im best case k-fach

Bottlenecks / Begrenzungen:

- Belastung der Pipeline Stufen  
Sie sollten alle möglichst gleich lang brauchen
- Einlaufen der Pipeline
- Hazards  
Datenabhängigkeiten  
Kontrollstrukturabhängigkeiten  
Strukturelle Abhängigkeiten (nicht in MIPS - keine Architekturfehler)

## 16 Pipelining : Parallelverarbeitung zur Beschleunigung

Bisher aus Micro-16 Control Unit:

1. (MIR) Befehl vom MIR fectchen
2. (REG) Register AB für ALU enablen
3. (Adr) MAR und MBR enablen
4. (WB) S-Bus Decoder, Scratchpad / Register Files und MIC für nächste Mikroinstruktion aktivieren.

micro instr. counter

Angenommen wir haben der Micro16-Programm:

| Phasen die beansprucht werden: | ① | ② | ③ | ④ |                               |
|--------------------------------|---|---|---|---|-------------------------------|
| $R_G \leftarrow R_G + R_S$     | ✓ | ✓ | ✗ | ✓ | (braucht MAR und MBR nicht)   |
| $MAR \leftarrow R_U; rd$       | ✓ | ✓ | ✓ | ✗ | (schreibt nichts im Speicher) |
| rd                             | ✓ | ✗ | ✗ | ✗ | (wartet nur)                  |
| $R_Z \leftarrow I_M(R_1)$      | ✓ | ✓ | ✗ | ✓ | (braucht MAR und MBR nicht)   |

Bei Micro-16:

4 Phasen Rechenwerk mit 4 Takt pro Befehl (4 ns) → 8 ns pro Befehl  
bei zus. Taktung (4 · 2 ns)  
 $\rightarrow 125 \text{ Mio. Instrukt. p. Sec (MIPS)}$   
Flops = floating point operations

Erhöhung der Parallelisierung durch neue Architektur:

MIPS: Microprocessor without interlocked pipeline stages!

- Eigene Instructionen : MIPS Assembly language
- 5 Stages:

1. IF Instruction fetch
2. ID Instruction decode
3. EX Execute / Address Calculation
4. MEM Memory Access
5. WB Write Back



## Befehle aus Vorlesung:

lw \$10, 20(\$1)       $R_{10} \leftarrow \text{Memory}[R_1 + 20]$

sub \$11, \$2, \$3       $R_{11} \leftarrow R_2 - R_3$

lw \$1, 100 (\$0)       $R_1 \leftarrow \text{Memory}[R_0 + 100]$       ↗ siehe MIPS Assembler Instructions

Aber nicht alle Befehle beanspruchen alle 5 Pipeline Stages gleich stark!

| Befehl                     | IF  | ID  | EXE | MEM | WB  | $\Sigma$                                                               |
|----------------------------|-----|-----|-----|-----|-----|------------------------------------------------------------------------|
| lw                         | 2ns | 1ns | 2ns | 2ns | 1ns | 8ns                                                                    |
| sw                         | 2ns | 1ns | 2ns | 2ns |     | 7ns                                                                    |
| [add, sub, and, or<br>slt] | 2ns | 1ns | 2ns |     | 1ns | 5ns                                                                    |
|                            |     | 2ns | 1ns | 2ns |     | 5ns                                                                    |
| beq                        |     |     |     |     |     | 2ns                                                                    |
| (branch if equal)          |     |     |     |     |     |                                                                        |
|                            |     |     |     |     |     | obwohl < 2ns, beanspruchen sie jedoch zur Vereinfachung<br>2 ganze ns. |

## Durchsätze:

5 Stufig, 2ns Taktung

Ein Befehl 10ns

Insgesamt 10 Takte

Real 3,33 ns pro Befehl

Theoretisch 2ns pro Befehl

Wichtig: mehr Stufen ≠ mehr Performance!

(sinkt ab k=15)

„Super Pipelining“

## Bottlenecks:

- Auffüllen der Pipelines „Einlaufen“
- Balance der Stufen
- Hazards (Abhängigkeiten)

## Sind mehr pipeline Stufen besser?

Intel Pentium: doppelte # Stufen

(jede Stufe in 2 aufgeteilt)

→ doppelter theoretischer Durchsatz durch Verdopplung der Taktfrequenz / Rate

Problem:

deutlich mehr Hazards



Erhöhte Abstraktion:



Dependencies:

- Gleicher Speicher für Write-Back und Instruction Decode (Annahme: in der ersten Takthälfte schreibt, dann liest)
- Gleicher Speicher für Instruktionen und Daten

## Hazards

### Strukturuelle Hazards

Pipeline Stufe nicht für alle Befehle verfügbar  
→ Lösung: Architektur Neuentwurfung, Stell

### Control Hazards

Nachfolgbefehl hängt von Verzweigung ab  
→ Lösung: prediction, delayed branching (code umändern), Stell

### Data Hazards

Berechnung abhängig von Vorgänger-Befehl, falsche Ausführungsreihenfolge  
→ Lösung: forwarding, Code-Optimierung, Stell

RAW - Read after Write  
gelesen bevor richtig beschrieben

$$\begin{array}{l} R2 \leftarrow R1 + R3 \\ R4 \leftarrow R2 + R1 \end{array} \quad \begin{array}{l} 2. \\ 1. \end{array}$$

WAR - Write after Read  
(überschrieben) bevor richtig gelesen

$$\begin{array}{l} R2 \leftarrow R1 + R3 \\ R3 \leftarrow 1 \end{array} \quad \begin{array}{l} 2. \\ 1. \end{array}$$

WAW - Write after Write  
Vom vorherigen Befehl falsch überschrieben

$$\begin{array}{l} R2 \leftarrow R1 + R3 \\ R2 \leftarrow 1 \end{array} \quad \begin{array}{l} 2. \\ 1. \end{array}$$

Die Data Hazards entstehen wegen:



Gemeinsamer Registersetz:  
1. Takthälfte Schreiben  
2. Takthälfte Lesen

Beispiel: Stell bei RAW - Read after Write

write       $R_2 \leftarrow R_1 + R_3$   
read       $R_4 \leftarrow \underline{R_2} + R_1$       problem: Read before write

| Takt | IF                         | ID                         | EX                         | MEM                        | WB                                                 |
|------|----------------------------|----------------------------|----------------------------|----------------------------|----------------------------------------------------|
| 1    | $R_2 \leftarrow K_1 + R_3$ |                            |                            |                            |                                                    |
| 2    | $R_4 \leftarrow R_2 + R_1$ | $R_2 \leftarrow R_1 + R_3$ |                            |                            |                                                    |
| 3    | ○                          | $R_4 \leftarrow R_2 + R_1$ | $R_2 \leftarrow R_1 + R_3$ |                            |                                                    |
| 4    | ○                          | $R_4 \leftarrow R_2 + R_1$ |                            | $R_2 \leftarrow R_1 + R_3$ |                                                    |
| 5    | ○                          | $R_4 \leftarrow R_2 + R_1$ |                            |                            | $\boxed{R_2 \leftarrow R_1 + R_3}$ ✓<br>ausgeführt |
| 6    | □                          | ○                          | $R_4 \leftarrow R_2 + R_1$ |                            |                                                    |
| 7    | △                          | □                          | ○                          | $R_4 \leftarrow R_2 + R_1$ |                                                    |
| 8    | ○                          | △                          | □                          | ○                          | $R_4 \leftarrow R_2 + R_1$                         |

## Hazards

Strukturelle Hazards (Hardware Problem)  $\rightarrow$  für MIPS irrelevant

Mehrere Stufen benötigen dieselben Ressourcen  $\rightarrow$  Stalling, Architektur ändert

### Control Hazards

Nachfolgebefehl hängt vom Ausgang des Sprunges ab  $\rightarrow$  prediction, delayed branching

#### Data hazards (am wichtigsten)

Berechnung benötigt Ergebnis des Vorgängers  $\rightarrow$  forwarding, code-Optimierung

RAW: read after write

1.  $R2 \leftarrow R1 + R3$  schreiben
2.  $R4 \leftarrow R2 + R1$  lesen  $\rightarrow$  Falsch

lesen bevor Register befüllt wurde mit richtigen Wert

WAR: write after read

1.  $R2 \leftarrow R1 + R3$  lesen  $\leftarrow$  irrführen mit  $R3 \leftarrow 1$  ausgeführt
2.  $R3 \leftarrow 1$  schreiben

Schreiben bevor gelesen wurde

für MIPS  
irrelevant

WAW: write after write

1.  $(R2) \leftarrow R1 + R3$
2.  $(R2) \leftarrow 1$

Vom Vorgänger überschrieben

### Stall / Pipeline Stall

Man lässt bubbles entstehen  $\rightarrow$  Entweder durch Architektur oder Compiler



### Delayed branching

Brech Befehl anwickschicken und in Zwischenzeit andere Befehle ausführen

### Code Optimierung

Dort wo keine Abhängigkeiten, Delay erzeugen und andere Befehle währenddessen machen

## Data Forwarding

add \$10, \$11, \$12  
sub \$13, \$10, \$11  
or \$14, \$10, \$12

$$\begin{aligned} R_0 &\leftarrow R_1 + R_2 \\ R_2 &\leftarrow R_0 + R_1 \\ R_4 &\leftarrow R_0 + R_2 \end{aligned}$$



leitet Daten sofort weiter um Horizontale zu vermeiden

# 17 Speichermanagement, Caches und Hierarchien

## Von-Neumann-Architektur



## Harvard Architektur



## Speicherbausteine (Wiederholung)

(Bei MicrotG:

Microinstructions - Programm speicher  
Daten speicher als ROM / RAM mit MAR)

### Hallbleiter Speicher

#### Tabellen Speicher

RAM

Statisch SRAM

dynamischen DRAM

ROM

M ROM  
P ROM  
E PROM  
...

#### Funktions Speicher

PLD

PLA

PAL

### SRAM

Speichert in Latches

- + Sehr schnell (kurze Zugriffszeiten)
- sehr teuer

Ziel: Preis - Performance - Balancierung

### DRAM

Speichert in Kondensatoren  
hat refresh-cycles

## Beobachtung:

Temporal locality - Oft dieselben Speicherzugriffe hintereinander

Spatial locality - Oft benachbarte Speicherzugriffe hintereinander

## Übung

CPU



Speicher  
Hierarchie

Zugriffszeit

Volumen

Dadurch entsteht nun gepufferte Speicherzulöfe

## Typische Hierarchie



## Cache

Schneller Zugriff der CPU auf Daten / Befehle



## Cache-Performance

$$t_{eff} = h \cdot t_{cache} + (1-h) \cdot t_{main}$$

$t_{eff}$  ... effektive Speicherzugriffszeit

$h$  .... Trefferquote (Hit-Rate)

$t_{cache}$ ... Zugriffszeit auf Cache

$t_{main}$ ... Zugriffszeit auf Main

$$t_{AUA} = t_{hit} + m \cdot t_{penalty}$$

$t_{AUA}$  ...  $\phi$  Zugriffszeit

$t_{hit}$  .... Hit time

$m$  .... Miss Rate ( $1-h$ )

$t_{penalty}$ .... Miss Penalty

↓  
Refüllen bei miss

1. Start der Pipeline
2. Adresse an Speicher management
3. Daten von Main auf Cache

(Wichtige Parameter:

Hit-Time

Hit-Rate  $\rightarrow$  Miss-Rate =  $1 - \text{Hit Rate}$

Miss-Penalty

Cache Performance wichtig, weil sonst bottle-neck für CPU

# Cache Verwaltungsstrategien

## Direct Mapped

- Ein Teil der Adresse bestimmt Cache Position (wie Modulo Rechnung)  
↳ wiederkehrende Bits: „Cache-Index“
- Restlichen Bits zur eindeutigen Identifikation als „Cache-Tag“
- „Valid-Point“ zur Erkennung bisher unbewohnter Positionen
- oft ineffizient einzelnes Wort / Pausse zu laden, deshalb werden Blöcke abgespeichert



Detaillierter:



## Fully associative Cache

Jeder Block darf in jeder beliebigen Position im Cache abgelegt werden  
(komplizierter Aufbau)

→ kein Index → volle Adresse als Tag

## N-way Set associative Cache

Jeder Block bekommt einen Set zugewiesen der fully associative ist



$$\# \text{Blöcke} = \# \text{Sets} \cdot \underbrace{\# \text{Ways}}_{\text{Index Ways}}$$

# Cache Verwaltungstechniken im Vergleich

## Direct-mapped Cache

- + Einfache Search - position im Cache für jeden Block
- + einfache Cache Verwaltung ohne Multiplexer
- ~ niedrige Hit-Rate

## Fully associative Cache

- Block kann schnell sein im Cache (Suche aber mit XOR Block! nicht einzeln)
- komplizierte Verwaltung, großer Multiplexer
- + optimale Hit-Rate

## N-way Set associative Cache

- + Suche beschleunigt → Pro Block gibt es N mögliche Positionen (im Set)
- + Einfache Ersetzungsregeln (LRU)
- + handhabbarer Multiplexer
- ~ vernünftige Hit-Rate

Beispiel: Assoziativität bei 8 Einträgen:

1-way set associative  
(= direct mapped)

|     | Way 0 |      |  |
|-----|-------|------|--|
| Set | Verw. | Data |  |
| 0   |       |      |  |
| 1   |       |      |  |
| 2   |       |      |  |
| 3   |       |      |  |
| 4   |       |      |  |
| 5   |       |      |  |
| 6   |       |      |  |
| 7   |       |      |  |



8-way set associative  
(= fully associative)

|     | Way 0      | Way 1      | Way 2      | Way 3      | Way 4      | Way 5      | Way 6      | Way 7      |
|-----|------------|------------|------------|------------|------------|------------|------------|------------|
| Set | Verw. Date |
| 0   |            |            |            |            |            |            |            |            |
| 1   |            |            |            |            |            |            |            |            |

4-way set associative

|     | Way 0  | Way 1 | Way 2 | Way 3 |
|-----|--------|-------|-------|-------|
| Set | Ver. D | V. D  | V. D  | V. D  |
| 0   |        |       |       |       |
| 1   |        |       |       |       |

2-way set associative

|     | Way 0 | Way 1 |
|-----|-------|-------|
| Set | V. D  | V. D  |
| 0   |       |       |
| 1   |       |       |
| 2   |       |       |
| 3   |       |       |

## Umgang mit Hit & Miss bei Write-Zugriffen

Bei Lesezugriffen:

Hit  $\rightarrow$  fertig

Miss  $\rightarrow$  nachladen und nach Regeln ein Set, Index überschreiten

Bei Schreibzugriffen

Hit  $\rightarrow$  Cache und DRAM müssen konsistent sein

Miss  $\rightarrow$  Nachladen optional

### Write-Hit

(WT) Write through

aktualisierte Cache und DRAM gleichzeitig

+ Datenkonsistenz immer gewährleistet

- Häufige Zugriffe auf DRAM  $\rightarrow$  Performance Verlust

(CRB) copy back / write back

aktualisierte Cache und markierte Cache-Block mit „dirty tag“, aktualisierter Hauptspeicher wenn Block aus Cache entfernt wird

- Datenkonsistenz nicht gewährleistet

- Read miss wird langsamer wenn Blöcke entfernt werden

+ Seltenere Zugriffe auf DRAM  $\rightarrow$  Performance Gewinn

### Buffered write through

(Vorteile von WT und CRB)

neue Werte werden in Cache und zweiten schnellen Zwischenspeicher eingetragen, muss Prozessor warten falls Puffer voll (nicht wenn Cache Block entfernt wird), muss Prozessor warten

### Write-Miss

Write-around

Schreibe direkt in Speicher bei miss

(meist mit WT verwendet)

(meist mit WT verwendet)

Fetch-on-write

Füllt einen leeren Cache und lädt restlichen Blockwörter aus DRAM nach

(simuliert dann quasi write hit, danach)

Vernosturmelemente:

- Valid Bit

- Dirty Bit

- Ersetzungsstrategie Bits

## Cache Replacement Strategien

Auswahl zum ersetzen:

Direct Mapped Cache : Eindeutig

Set Associative Cache : innerhalb von Set

Fully Associative Cache : beliebige Auswahl

→ braucht replacement Strategie

### LRU - Least recently used

Am längsten (Zeit) nicht verwendet

(mit Queue)

- aufwendig zu realisieren

### LFU - Least frequently used

Am wenigsten verwendet

(mit Counter)

Häufig verwendet → erst nach vielen Misses ersetzt

### "reference bit"

### Random

### FIFO (first in - first out)

Einheits

## Übersicht: Cache - Aufbau:

Ganze Blöcke mit jedem Wort übertragen



Angenommen bei 8 Zeilen:

- 1 way, 8 Sets → direct mapped
- 8 ways, 1 Set → fully associative
- Sonst → n-way set associative

$$\left. \begin{array}{l} \# \text{Blöcke} = \\ \# \text{Sets} \cdot \# \text{Ways} \\ \text{Pro Block} \times \text{Wörter} \end{array} \right\}$$

| Index / Set      | Tag         | Valid-Bit       | Dirty-Bit                        | Ersatzregel-Bits |
|------------------|-------------|-----------------|----------------------------------|------------------|
| Spricht Zeile an | XXXX[Index] | sagt ob benutzt | siehe copy back vs write through | —                |

Adresse:

| Tag | Index | Byte offset |
|-----|-------|-------------|
| 31  | 1211  | 210         |

Bestimmt aus Adresse

→ Cache Funktion

Hier: 4 Wörter pro Block: (00, 01, 10, 11)

## Exkurs: Multiprozessor - Systeme

Mehrprozess - Systeme mit Caches



Harvard - Architektur



## Exkurs: Speicherverwaltung

→ Bus ... früher: Backplane und Sockets

- Date - Transfer - Bus: zwischen CPU und Memory
    - Address
    - Date
    - Memory
  - Arbitration - Bus: für mehrere Nutzer
  - Interrupt - Bus
- } System Bus

## Interleaved Memory

Speicher aufteilen in Segmente um Zugriffe zu beschleunigen



## Direct Memory Access



ist zuständig für Kommunikation zwischen Prozessor & peripherer Geräten  
ähnlich wie Bridge verschiedene System - Busse miteinander verbindet

## 18 Multicore

Clock-Speed und Performance kann nicht mehr steigen.

Deshalb mehrere Cores (CPUs) auf einem Chip → Parallelisierung



### Architectural Gesetze

#### über Parallelisierung

+<sub>p</sub> parallelisierbare Laufzeit

+<sub>s</sub> sequentielle (nicht parallelisierbare) Laufzeit

Laufzeit vor Parallelisierung

$$t_{\text{tot}}^v = t_s + t_p$$

$$\text{Speed up } S = \frac{t_{\text{tot}}^v}{t_{\text{tot}}^n}$$

→ Laufzeit nach Parallelisierung

$$t_{\text{tot}}^n = t_s + \frac{t_p}{c} \quad \leftarrow c \text{ threads}$$

$$\text{Ausnutzung } a = \frac{t_{\text{tot}}^v / c}{t_{\text{tot}}^n}$$

maximale Auslast.

echte Auslast.

Erkenntnis:

Große Speedup Verbesserung bei gleichen Problem SCHWERER als bei schwierigeren Problemstellung!  
↓ höhere Laufzeit

### Vektor-Rechner

meist bei Bildverarbeitung benutzt

→ ALU rechnet mit Blöcken (Vektoren) (zB 4 Gleitkommazahlen à 32 Bit)

- + vereinfachte Synchronisation
- + reduzierte Kontrollhardware
- + effizient bei paralleler Strukturen (zB Bildern)
- + erweitertes CPU Instruction Set

### GPU Graphic processing unit (nicht LVA relevant)

(Graphik-Karten)  
ganz andere Architektur als CPU → für parallele Berechnungen geeignet  
eigene Programmiertechniken

# DSM - Distributed Shared Memory



- Ein Speicher pro CPU
- Problem: NUMA  
Non uniform memory access / Latency  
(Speicherzugriff auf einen Speicher außerhalb der eigenen CPU)

## SMP - Symmetric Multiprocessors

(Für TGI das einzige relevante)



# 19 Speichermodelle

Sequentially consistent word:

## Interleavings

Alle möglichen Statementreihenfolgen in threads

Thread 1 (a,c)

Thread 2 (b,d)

→ lokale Ordnung muss erhalten bleiben:

$a < c, b < d$

$(a \text{ vor } c), (b \text{ vor } d)$

Aber - Threads selbst können an beliebigen Zeitpunkten ausführen:

$(a, c, b, d) \quad (b, a, c, d)$

$(a, b, c, d) \quad (b, a, d, c)$

$(a, b, d, c) \quad (b, d, a, c)$

## Interleavinggraph

$$\rightarrow (A, B, C, D) = (0, 0, 0, 0)$$

Thread 1:

$a : A := 1$   
 $c : C := B$

Thread 2:

$b : B := 2$   
 $d : D := A$

Verschiedene Scheduling-Strategien  
 (Hardware abhängig)

alle möglich

$$\text{Start} \rightarrow (0, 0, 0, 0) \xrightarrow{a} (1, 0, 0, 0) \xleftarrow{c} (1, 0, 0, 0)$$

$$\downarrow b \qquad \qquad \qquad \downarrow b \qquad \qquad \qquad \downarrow b$$

$$(0, 2, 0, 0) \xrightarrow{a} (1, 2, 0, 0) \xleftarrow{c} (1, 2, 0, 0)$$

$$\downarrow d \qquad \qquad \qquad \downarrow d \qquad \qquad \qquad \downarrow d$$

$$(0, 2, 0, 0) \xleftarrow{a} (1, 2, 0, 0) \xrightarrow{c} (1, 2, 0, 1)$$

$$(1, 2, 0, 1) \qquad \qquad \qquad \downarrow d$$

$$(1, 2, 2, 0)$$

$$(1, 2, 2, 1)$$

$$(1, 2, 2, 0)$$

↓ Vertikal: Thread 2

-> Horizontal: Thread 1

Woran erkennt man dass wir in einer sequentially consistent word sind?  
 sequentielle Ausführung inclusiv eines Threads.

Beispiel:

Output kann nie  $(1, 2, 0, 1)$  sein, da a immer vor d ausgeführt werden muss,

D

→ SEQUENTIALLY CONSISTENT MEMORY MODEL (SC)

## Race Condition (im SC Modell)

Konstellation, in der Output von der zeitlich verschobenen Ausführung Anweisungen abhängt. (bei mehreren Threads)

↳ Setzt voraus, dass Zuweisungen atomar sind

## Vereinfachte Erklärung für SC



- Ein einziger globaler Speicher,
- Jeder Core erzeugt Speicheroperationen in Programm-Ordnung
- Speicher-Ordnung sequentiell weil Schalter zufällig einen Core access direkt zum Speicher

→ Alle Operationen atomar, weil jeweils global nur eine Operation ausgeführt werden kann

## Zusammenfassung:

Das SC Modell setzt voraus :

- atomare Wertzuweisungen
- Ausführung von Thread internem Code nach Programm-Ordnung  
(in modernen Rechnern nicht)

Man kann mit hardwaren Hilfsmittel SC gewährleisten,

- + einfach zu programmieren / debuggen
- + einfache Korrektheit zu beweisen
- langsam und nutzt Multi-Core Potential nicht aus.

## Atomsics

Beispiel: 16-Bit Wert Zuweisung erfolgt nicht atomar: je 8 Bit

1. Thread 1 überträgt 1. Hälfte auf Variable store-here:

(-1) 1111 1111 1111 1111  $\rightarrow$  store-here = 1111 1111 0000 0000

2. Thread 2 liest store-here  $\rightarrow$  Falscher Wert! (-128)

3. Thread 1 überträgt den Rest.

Wie kann man Ausführungen atomar machen?

Nur durch Hardware: atomare Operationen als Instruktionen

Programmierbar durch atomare Typen und Operationen auf atomaren Variablen in diversen Programmiersprachen

## Synchronisation & Kommunikation zwischen Threads (Einfachste Art)

Beispiel: Date von Thread 1 auf Thread 2 ohne Unterbrechung  $\rightarrow$  mit flag

$F=1 \rightarrow$  legal  
gefehlerlos,  
fertig übertragen!

Anwendung von Atomenen Operationen:

producer-consumer-Pattern

(F ist atomoar, weil es  
nur ein Bit hat)

$$(D, F, X) = (0, 0, 0)$$

Thread 1:

$$d : D = 42$$

$$f : F = 1$$

Thread 2:

if: if  $F=0$  then goto if (welt)

$$x : X = D$$



Hier keine operation für  $F \neq 0$  existent.

Großer Nachteil:

Thread 2 muss so lange warten bis Thread 1 fertig ist.

Wir nutzen also die Vorteile von Multithreading bei diesem Lösungsansatz nicht!  
(mehr dazu folgt ...)

Alles bisher war in der sequentially consistent world mit dem SC-Memory-Modell.

Dabei wurde vorausgesetzt, dass:

① - Atomare Wertzuweisungen

② - Programmordnung = Ausführungsreihenfolge in einem Thread

Aus dem Interleaving-Graphen konnte man sehen, dass:

Mit einem Core / Thread, kann man Ausführungsreihenfolge nicht umordnen.  
Mit mehreren Cores / Threads, kann Ergebnis unterschiedlich sein.

Optimierung im Hintergrund:

Programmordnung  $P_0 \neq$  Exekutionsordnung  $E_0$   
(Ausführungsreihenfolge)

Programm wird von Compiler und CPU umgedreht.

Es soll aber nicht zu einem anderen Ergebnis führen (bei einem Thread / Core)

Bei Multicore-Rechnern aber:

nicht mehr sequentially consistent!

→ also immer noch sequentially consistent obwohl 2. Bedingung verletzt wurde

Beispiel für SC-Verletzung bei Multithreading unter  $E_0 \neq P_0$ :

Einleitendes Beispiel:

Thread 1:

a: A=1

c: C=B

Thread 2:

b: B=2

d: D=A

Ohne Einhaltung der  $P_0$  innerhalb des Threads:

Thread 1:

c: A=1

a: C=P,

Thread 2:

d: D=A

b: E=2

SC ist verletzt, obwohl es

ist  $(1, 2, 0, 0)$  als

Endzustand möglich

obwohl es kontinuierlich ist und zeitlich relativ verletzt, aber kausalität

→ RELAXED MEMORY MODEL

Im relaxed memory model funktioniert "Producer - Consumer - Pattern" nicht.

Initialzustand

$$D = F = X = 0$$

Thread 1

$$d: D = 42$$

$$f: F = 1$$

Thread 2:

if : if  $F = 0$  then goto .if

$$x: X = 0$$

Reihenfolge:

$$f, \text{if}, x, d \longrightarrow (42, 1, 0)$$

nicht erfolgreich synchronisiert!

Beispiel für SC-Verletzung bei Multithreading wobei  $EO \neq PO$ :

Architektur ohne Caches  $\rightarrow$  Producer - Consumer Pattern



Initial:

Flag1 = 0

Flag2 = 0

Thread 1:

Flag1 = 1

if Flag2 = 0 then

... critical (no interruption)

Thread 2:

Flag2 = 1

if Flag1 = 0 then

... critical

Problem:

Leser-Operationen (wie die in IF Abfrage) überholen Write Buffer!

Möglicher Ablauf:

Flag1 = 1 (im Write-Buffer)

If (Flag1 = 0) then ...  $\rightarrow$  wird ausgeführt obwohl es nicht sein darf!  
ERROR

Conclusion:

SC ist verletzt, weil durch Cache die Wertzuweisungen nicht mehr atomar sind.

Definition von Atomizität mit mehreren Caches und Cores:

SCHREIBEN:

Operation darf nicht unterbrochen werden

Alle Cores müssen gleichzeitig Zugriff auf den neuen geschriebenen Wert haben, wenn es ein Core hat.

LESEN:

So lange aufschreiben bis alle Cores gleiche Cache-Kopien haben.  
ab letzter Schreiboperation

Weiteres Beispiel:

(Demonstration des Verletzung des zeitlichen Relativität)



Beispiel:

| T1     | T2     | T3     | T4     |
|--------|--------|--------|--------|
| a: A=1 | b: B=1 | c: C=A | e: E=A |
|        |        | d: D=B | f: F=B |

Initialisierung:  
 $A=B=C=D=E=F=0$

Da alle Anweisungen in beliebiger Reihenfolge ausgeführt werden dürfen:

$$(A, B, C, D, E, F) = (0, 0, 0, 0, 0, 0)$$

$\downarrow d: D=B$

$$(0, 0, 0, \underline{0}, 0, 0)$$

$\downarrow b: B=1$

$$(0, \underline{1}, 0, 0, 0, 0)$$

$\downarrow f: F=B$

$$(0, 1, 0, 0, 0, \underline{1})$$

$\downarrow e: E=A$

$$(0, 1, 0, 0, \underline{0}, 1)$$

$\downarrow a: A=1$

$$(\underline{1}, 1, 0, 0, 0, 1)$$

$\downarrow c: C=A$

$$(\underline{1}, 1, \underline{1}, 0, 0, 1)$$

$$\begin{array}{ccccccc} A & B & C & D & E & F \\ 1 & 1 & 1 & 0 & 0 & 1 \end{array} \quad )$$

Aus der Sicht von Thread 3:

$$C=1, D=0 \Rightarrow a \text{ vor } b \text{ ausgeführt} \quad (\text{also T}_2 \text{ nach T}_3)$$

Aus der Sicht von Thread 4:

$$E=0, F=1 \Rightarrow b \text{ vor } a \text{ ausgeführt} \quad (\text{also T}_1 \text{ nach T}_4)$$

Dies würde bedeuten:

$$\begin{array}{l} T_2 < T_3 \\ T_1 < T_4 \end{array} \quad \rightarrow \text{nicht möglich mit diesem Output}$$

## Allgemein: Speichermodelle

- Hardware muss wissen: welche Art von Instruction Scheduling
- Programmiersprache sagt Hardware wo fences gelegt werden müssen, beschreibt Thread Interaktion mit Speicher
- Fences können nicht automatisch gesetzt werden, (und benötigen zusätzliche Hardware)

### Speichermodell - Operationen

store : atomic-store (atomic-var, memory-order)  
load : atomic-load (atomic-var, memory-order)  
exchange : atomic-exchange (atomic-var1, atomic-var2, memory-order)

### Auswahl unter Sprachen:

JAVA: SC

C++: SC, RA, Relaxed

C: SC, RA, Relaxed ... } (schwaches Speichermodell)

Auswahl bei memory\_order:  
SC, relaxed, release und/oder acquire

### Auswahl unter Architekturen:

Intel x86/64: SC

ARM: schwaches Speichermodell

RISC-V: schwaches Speichermodell

### Performance:

SC < RA < Relaxed

↑  
sinnvoll wenn keine negativen Konsequenzen durch Anwendung.

## → RELEASE / ACQUIRE MEMORY MODEL

Benötigt Memory fences / Memory Barriers (die nur load und store Operationen betreffen)

- Verhindern Einseitig des Umordnen über Zähm
- Ausgetragen mit Release / Acquire Commands

↳ Nur Operation auf atomic Variablen (#gewöhnlich) möglich

### Relaxed

keine Einschränkung

### Release (store, speichern)



Alles unter der Annahme,  
dass Befehl selbst NIE  
verschoben wird

Wichtig: Datenabhängigkeiten per default immer berücksichtigt:

z.B. atomic (counter++)  
if (atomic (counter) > 0)  
...

← schreiben auf counter  
← legen auf counter

Darf relaxed werden

## Release - Acquire Beispiele:

Producer - Consumer - Pattern

$$D = F = X = 0$$

Thread 1



Thread 2



Reader sieht nun:

Synchronisation und Kommunikation mit diesem Pattern funktioniert mittels RA - Pattern

?) Wenn ist es sinnvoll aus RA relaxed zu machen?

Thread 1:

$$z: Z = 15$$

$$y_1: Y = 11$$

$$\underline{a: \text{atomic\_store}(A, 1)}$$

Thread 2:

$$\text{if: if atomic\_load}(A) \neq 1 \text{ goto if}$$

$$y_2: Y = 2$$

→ Lösung:

hier aber nicht:

1. z darf nicht hinter a kommen

2. y2 darf nicht vor if kommen

3. y1 darf nicht hinter a kommen, sonst könnte nach y2 noch y1 überschreiben

Thread 1:

$$y: Y = 42$$

$$a1: \text{atomic\_store}(A1, 0)$$

$$a2: \text{atomic\_store}(A2, 1)$$

Thread 2:



→ Lösung:

if Schleife wird verlassen, wenn  $(A1=0 \wedge A2=1)$

a1 darf relaxed werden, weil es egal ist ob zuerst a1 oder a2 gespeichert wird, aber an UND a2 darf nicht gleichzeitig relaxed werden

an y1 & a2 darf relaxed werden

Wenn Compiler if - booleaus von links nach rechts bewertet, beeinflusst das (neben der Tatsache dass wett a1 oder a2 relaxed hat) welche if Abfrage

Der Relexen der ersten (links) if -Ablage, wäre ausreichend  
dafür, dass nichts nach vorne wandern kann.

Somit hätten wir am Ende 2 Memory -Fences weniger!

Des relexen der ersten (linke) if -Ablage , wäre ausreichend  
dafür, dass nichts noch vorne wandern kann.

Somit hätten wir am Ende 2 Memory -Fences weniger !

# Fortsetzung des Beispiels:

Annahmen:

Thread 1

$$y_1 : y_1 = 42$$

a1 : atomic\_store (A1, 0)

a2 : atomic\_store (A2, 1)

Thread 2:

if atomic\_load (A1) ≠ 0 OR  
atomic\_load (A2) ≠ 0 goto if

$$x = y$$

| Case 1: relaxed a1 |

Mögliche Ausordnungen:

Thread 1

$$y_1 : y_1 = 42$$

$$\downarrow \quad \uparrow \\ a1 : A1 = 0$$

a2 : atomic\_store (A2, 1)

möglich

$$\begin{pmatrix} y_1 \\ a1 \\ a2 \end{pmatrix} \quad \begin{pmatrix} a1 \\ y_1 \\ a2 \end{pmatrix}$$

✓ gültig

| case 2: relaxed a2 |

Mögliche Ausordnungen:

Thread 1

$$y_1 : y_1 = 42$$

a1 : atomic\_store (A1, 0)

$$\downarrow \quad \uparrow \\ a2 : A2 = 1$$

möglich

$$\begin{pmatrix} y_1 \\ a2 \\ a1 \end{pmatrix} \quad \begin{pmatrix} a2 \\ y_1 \\ a1 \end{pmatrix}$$

✓ gültig

Der einzige ungültige Fall den man vermeiden muss:

$$\begin{pmatrix} a1 \\ a2 \\ y_1 \end{pmatrix} \quad \begin{pmatrix} a2 \\ a1 \\ y_1 \end{pmatrix}$$

Weiteres Beispiel:



→ Lösung:

- a kann relaxed werden, weil y irrelevant ist
- x kann relaxed werden, weil if und z über y Datenabhängig sind und by default nur danach stehen können  
(nur z darf mit if verknüpft werden)
- theoretisch muss A nicht atomic sein.

## Blockierendes Verhalten

bisher in "Kommunikation & Synchronisation": 1 Thread wartet in Endlos-Schleife auf Flag

## Alternative: Semaphore

Eine Semaphore ist eine atomare Variable die wie ein Zähler funktioniert und am Anfang auf eine Zahl  $\geq 0$  gesetzt wird (max # der Threads die parallel laufen dürfen)

Semaphore = Zähler = 1 initialisiert

Siehe Wikipedia  
Bücherei Beispiel  
mit Zahlenwerten

### (wait()) Lock()

Zähler --

Wenn Zähler  $\geq 0$ , darf aufrufender Thread weiterexekutieren,

Wenn aber  $< 0$  muss Thread in Queue warten (Execution stoppen)

### (post()) Unlock()

Zähler ++

Wenn Zähler  $\leq 0$  zu 1 wird, Thread aus Queue holen, sonst nichts

## Race Condition

Ausführungsreihenfolge beeinflusst Ergebnis wenn nicht alles atomar abläuft, memory fences deshalb notwendig!

Lösung:

Read - Modif - Write Operationen (in Hardware  $\rightarrow$  Prozessorarchitektur)

Versichert Atomarität, für Semaphoren geeignet

abhängig von Instruktion

## Vor und Nachteile von Semaphoren

- Korrektheit schwerer prüfbar  $\rightarrow$  für jedes Lock braucht es ein Unlock

Deshalb leichter handhabbare Alternativen in höheren Sprachen:

- Monitore
- Synchronized Objects, Java
- Protected Object, Ada

+ leicht verständlich (siehe Beispiel)

+ performant

+ Sequentially Consistent wenn Zähler = 1

- Wenn ein Thread während kritischer Operation zwischen lock() und unlock abstirbt, können andere keinen Fortschritt machen

- Thread dispatching!  
(Stoppen und Starten von Threads) sehr langsam

## Beispiel für Semaphoren:

globale Variable Z soll nur gleichzeitig von einem Thread benutzt werden.

Globel:

Z = ...

S = 1

Thread:

lock(S)

Z-local = Z

Z-local = Z-local + ...;

Z = Z-local

unlock(S)

## Nicht Blockierender Werten

statt Semaphoren direkt Read - Modify - Write - Operation von Hardware verwenden.

"Optimistisches Vorgehen":

- zB 1. Probieren Änderung auf globale Variable Z durchzuführen  
2. Falls nicht unterbrocher Ende  
    Sousd bei 1. fortsetzen

Funktion: RMV (V, alter\_wert, never\_west)

returned true: Atomare Variable V hat nun immer noch alter\_wert und Wertzuweisung erfolgreich.

returned false: Soutd

Beispiel:

Z ist atomar

- Threads:  
1. Z-local = Z                  after west          never west  
2. if not RMV (Z, Z-local, Z-local + ...) then goto 1

) false

) true

Auswirkung:

Endlosschleife, so lange bis Z = Z-local.

Dann bekommt Z = Z-local + ...

und Programm endet in diesem Thread

## Vor und Nachteile

- + Effizient bei weniger Threads, da sie nicht gestoppt / gestartet werden  
↓↓↓  
100x schneller → müssen.  
+ Wenn ein Thread abstirbt können andere Fortschritte machen  
+ Sequentially consistent und Release and Acquire Speichermodell möglich  
+ Schwer verständlich → vor allem mit RA-Speichermodell