

# Fließhammer - Einführung



# Unterschiedliche Ausführungsarten (Flipflopmauerwerk)

Flipflopbandverarbeitung?



Multiplexereinheit



A · B

(A · B) + C

# Maßnahmen zur Verbesserung der Performance

Instruktion Level Parallelism (ILP)

- i) Erhöhung des Durchsatzes durch Mehrfachigkeit
- ii) Unterschiedliche Fließbandtiefen führen zu dynamischer Fließbandverarbeitung.

Inbox Fließpfeile



Ungleichlängige Ausführungswege in Exzernen

- iii) Dynamische Belohnung des Fließband bewusstseins  $\rightarrow$  Umbenennung der Register

Register-Renaming

- iv) Leerlauf der Fließbandverarbeitung verhindern (Sprungvorlage)

- v) Leerlauf durch Zugriffsfehler verhindern

Nebenläufigkeit



hohe Nebenläufigkeit

sequentiell Ausführung

virtuelle Nebenläufigkeit



überlappendende  
sequentiell Ausführung

$CPI < T$  erfordert Nebenläufigkeit

$$IPC = \frac{1}{CPI}$$

reale Nebenläufigkeit



gleichzeitige  
nebenläufige Ausführung

Bug

# Motivation

Icke Phase endet  
wenige Ressourcen, so  
dass leite Neuerung.  
Krit endet.



ID



IF



Ex



MEM



WB

Probleme?



Tomasulo - Algorithms

# Tomasulo's Algorithm



Robert Tomasulo (1934 - 2008)  
IBM 360/91



## Funktion (Ablauf) Tomasulo's Algorithmus

RAW - Hemisse und WAR - Hemisse

i) Befehl aus Warteschlange (Dispatch)

ii) Register lesen (OF)

ii a) Reg in RF (Ex)

b) Befehl in RS und im  
RF auf bearbeitbar setz

iii) Warte bis Folgebefehl Variable schreibt

iv) Ergebnis in ROB

## Read After Write



## Write after Read (WAR)



# Write After Write (WAW)



Register Renaming

Register - Umbenennung

## Aufbau von RAV-Hazards

- a:  $R_4 = R_0 + R_8$
- b:  $R_2 = R_0 \cdot R_4$  RAV
- c:  $R_4 = R_4 + R_2$  VAR
- d:  $R_2 = R_4 \cdot R_2$  VPR



# Aufbau von RAW-Hazards: Registerumkehrung (Register Renaming)

a:  $R_4 = R_0 + R_8$

b:  $R_2 = R_0 \cdot R_4$  RAW

c:  $R_4 = R_4 + R_2$  WAR

d:  $R_2 = R_4 \cdot R_2$

$S_0 \quad S_3$   
 $\cancel{S_2} \quad \cancel{R_0}$   
 $\cancel{R_2} \quad \cancel{S_0}$   
 $\cancel{S_4} \quad \cancel{R_4}$   
 $\cancel{R_4} \quad \cancel{S_2}$   
 $\cancel{S_7} \quad \cancel{S_6}$   
 $\cancel{S_5}$



# Auf lösen von RAW-Hazards: Registerum bewegung (Register Renaming)

Originaler  
Code

$$a: R_4 = R_0 + R_8$$

$$b: R_2 = R_0 \cdot R_4$$

$$c: R_4 = R_4 + R_2$$

$$d: R_2 = R_4 \cdot R_2$$

$R_0 \quad R_2 \quad R_4 \quad R_8$   
 $S_0 \quad S_1 \quad S_2 \quad S_3$

$S_4$   
 $S_5$   
 $S_6$   
 $S_7$

Code mit  
umbenannten Registern

$$S_4 = S_0 + S_3$$

$$S_5 = S_0 \cdot S_4$$

$$S_6 = S_4 + S_5$$

$$S_7 = S_6 \cdot S_5$$

## Registersummenung:

Auflösen der Hemmung durch Umbenennung der Register

Architekturregister  $r \in R$

Physische Register  $\mu \in R'$

i) Jedes Register eines Codeblocks bekommt die new Bezeichner

$$r_i = \mu_i$$

ii) Ist ein Register in einer Codezeile ein Zielregister erhält dieses einen neuen Namen. Das Quellregister bekommt den physischen Namen  $\mu'$  des inneren Registers.

$$\mu'_{n+1} = \mu'_n \text{ O } \mu'_n$$

Z

iii) Umbenennen der Register

$$R_0 = \{v_1, \dots, v_n\}$$

$$R'_0 = \{\mu_1, \dots, \mu_m\}$$

iv) Umbenennen des Zielregisters  $\mu_{n+1} = R_n \times R_n$

$$R'_n = \{\mu_1, \dots, \mu_n, \mu_{n+1}\}$$

# Modifikation der Fließbandstufen

Instruction Buffer

Dispatch Buffer

Issuing Buffer

Completion Buffer

Slow Buffer

Fetch

Decode

Dispatch

Execute

Complete

Retire

# Superskalare Architektur

Zentrale Verarbeitungspuffer



## Superskalare Architektur



## Verkettete Verarbeitungspuffer

Einbinden des Speichers  
in die  
Superstrukture Architektur

# Superskalare Architektur



# Implementierung der Registerumbenennung (Register Renaming Implementation)

Reservation Station:



Associativspeicher



Reorder Buffers: (Ringpuffer)

Head  
↓

Tail  
↓

CAM



hier gelan  
wden!

Tag



Data

Busy  
Valid

Lesen des Reorderbuffers in gebr. Reihenfolge

# Implementierung der Registerumbenennung (Register Renaming Implementation)

Reservation Station:



Associativspeicher



Reorder Buffers: (Ringpuffer)

Head  
↓

Tail  
↓



hier gelan  
wden!

Tag



CAM

Data

Busy  
Valid

Lesen des Reorderbuffers in gegebener Reihenfolge

# Superskalärer Spurkett-Jvff



AG = Address generator

AT = Address translation

Superscaler Springer & Jüff:

Vollständige Out-of-Order - Architektur  
Load-Bypassing



# Superskalauer Spielescript: Mälwörter - Cache



Value Prediction



CT = Classification Table

VPT = Value predictive table

Dependent



Data Cache





Branch Prediction

# Sprungvorlage : Programme im Speicher

## Grundblockgraph



Def: Ein Basisblock ist ein Programmsegment (Folge von Befehl) die keine Sprünge enthalten.

$B_i$  = Basisblock  
 $C_i$  = Kontrollblock

## Sprungvorlage

### auf Offset

### Rücksprünge

### Sprung Offset (-)

Linearer Programm  
im Speicher



## Statische Sprungvorhersage:

i) Programm wird linear ausgeführt

Vorbild: Einfach

Nachbildung: Schleife ineffektiv

ii) Compiler bestimmt ob Verzweigt wird oder nicht:



iii) Bestimmung der Distanz zum Sprungziel

$|d| < \varepsilon$  Schleife!

Spring



# Dynamische Sprungvorhersage (Dynamic Branch Prediction)

Branch Target Buffer:

Assoziativspeicher:



Branch history

Mögliche Bushände:

- 00 Strongly not taken
- 01 not taken
- 10 taken
- 11 Strongly taken



# Hochdynamische Sprinkervorlasse (95% Trefferwah.) (Correlated Branch Prediction)

## Assassin's Sprites:



Bereichsbildung des Programmfades:  
In den Schleifenkörpern werden die negativen  
Treffer durch 'n' ersetzt.

# Hybridische Sprungvorlage (95% Trefferrate)

Associativspeicher:



Pattern history Table:





# Spekulative Sprungverarbeitung (Branch Target Buffer)



# Dynamische Sprungverkettung (Vergleichsbezogen)

Instruktion

Cache



Vollassoziativ Cache



Branch History

Branch Condition Speculation  
Branch Target Speculation

# Dynamische Sprungverarbeitung





## Branch Miss - Prediction Recovery

Ieder Befehl einer spekulativen Ausführung behält die Name des Basisblocks als Tag!



Microcode in Superskalaren Architekturen

# RISC in CISC : Mikroprogrammierung für Superstack Ausführung von CISC-Befehl



C  
I  
S  
C

R  
I  
S  
C

# Intel : Nehalem - Microarchitektur



# Intel : Graceful - Mikroarchitektur



\*Two stores per cycle if both hit the same cache line