

## Vad handlar kursen om?

- ✗ Pipelindade mikroprocessorer
- ✗ Minnes hierarki: Cache och virtuellt minne
- ✗ Multiple Issues processorer (Superskalär & VLIW)
- ✗ I/O - (Skivminne, bussar, SSD)
- ✗ Datortränskapsmetrik (float)
- ✗ Flertrådade processorer
- ✗ Flerkärriga processorer
- ✗ Optimering av kod och minnesystem för en viss applikation (en Gauss-elimination)

## Ättande drivande idéer

- ✗ Konstruktionerna baserade på Moore's law
- ✗ Abstraktion för att hantera komplexitet
- ✗ Fokusera på common cause
- ✗ Hög prestanda via parallellism
- ✗ Hög prestanda via pipelining
- ✗ Hög prestanda via prediktion
- ✗ Hierarki av minne
- ✗ Tillförlitlighet via redundans

## Minnesteknologier

- ✗ Cache minne görs av SRAM
  - 0.5 ns - 2.5 ns
- ✗ Dynamisk RAM
  - 50 ns - 70 ns
- ✗ Magnetiska skivor
  - 5 ms - 20 ms

Idealt minne: Accesstid som SRAM  
Kapacitet och kostnad/GB som hårddisk.

## Prestanda via Pipelining



$$\text{Effektutv} = \text{Capacitiv last} \times \text{Matningsspanning}^2 \times \text{Frekvens}$$

## Multicores

- ✗ Fler än en CPU per chip
- ✗ Långsammare klocka → Mindre värme
- ✗ Problemet flyttas till mjukvaran

## Datorprestanda

Beror av: Den underliggande algoritmen, bestämmer antalet operationer

Programmeringsspråket

Processorn och minne

I/O-system (inkl. OS)

## PC

Stort SW-utbud  
Kostnad / prestanda

## Server

Nätverksbaserade  
Jobs/Sekund

## Superdator

Högsprestanda  
Top500.org  
Green500.org

## CPU Clocking

Klockperiod: längden på en klockcykel

Klock frekvens: Cykler per sekund

Bästa mätt för prestanda är: Ekkverningstid av typiska program! (Kolla slides.)

$$CPU_{Tid} = \frac{\text{Instruktioner}}{\text{Program}} \times \frac{\text{Clock cycles}}{\text{Instruktion}} \times \frac{\text{Sekunder}}{\text{Klockcykler}} = IC \times CPI \times T_c$$

Prestandan beror av: Algoritm (IC, ev CPI)

Prog språk (IC, CPI)

Kompilatörn

ISA

SPEC Benchmarks

Kostnad / Prestanda ökar

Pipelining & Cache = ökad prestanda

Ekkverningstid.....

## RISC

### Reduced Instruction Set Computer

- ✗ Enklare instruktioner och adresseringssätt
- ✗ Gör processorn mindre komplexa → Snabbare
- ✗ De flesta moderna processorer är av RISC
- X86 är dock CISC extert

## CISC

### Complex Instruction Set Computer

- ✗ Komplexa instruktioner och adressering

## Mips

- ✗ Typexempel på RISC.
- ✗ Används i inbyggda System.
- ✗ Aritmetiska operationer använder två källregister och ett destinationsregister. Detta ger regularitet.
- ✗ Har 32x32 bit register file (RF)
  - 32 bit data kallas word

Massor av exempel. Finns i kap 1 av kompendium.

## Processor

CPU prestanda:  $T_{ex} = IC \times CPI \times T_c$

IC avgörs av ISA, komplatorn, algoritmen och programspråket.

CPI avgörs av HW.

## Instruktionsexekvering

PC → Instruktionsminnet, hämta instruktion

Registernummer → Registerfil, läs reg

Beroende på type:

- Använd ALU för att beräkna: Aritmetiska resultat  
Minnesadresser för load/store instr  
Hoppadresser och hoppvillkor
- Läs/skriv dataminnet för load/store instr.
- $PC = PC + 4$  eller hoppadress

## Logikkonstruktion

Info kodas binärt

Kombinatoriska element

Gindar, gsv

Tillståndselement

Lagrar detta.



## R-Format Instruktioner

Läs två reg operander

Utför aritmetisk/logisk operation

Skriv resultatvärdet till registerfilen

## I-format

lw \$destreg, offs(\$basreg)

sw \$källreg, offs(\$basreg)

Behöver teckenutvidga

## Branch

beq/bne \$r<sub>1</sub>, \$r<sub>2</sub>, label

Tedeanutvidga

Skifta varuster 2-bit positioner

Addera detta till PC

## Icke pipelined

En instruktion per cykel.

Slide Chapter 4-The processor - 18

## Styrenhet

R-type: O, rs, rt, rd, Shamt, funct

L/S 35/43, rs, rt, offset

## Jumps

Använder ord-addresser

Uppdatera PC med concat.

Högsta 4 bitar av PC

26 bitar från jump-instr

## Prestanda

Den längsta signalfördräjningen avgör clockperioden

## MIPS Pipeline

Fem pipesteg:

- 1: IF Instruction Fetch
- 2: ID Instruction Decode & Reg read
- 3: EX: Execute Instruction eller beräkna adress till DM
- 4: MEM: Access DM
- 5: WB: Write Back resultat till reg

Om alla pipesteg är balanserade: Pipeline Speedup =  $\frac{T_{cycle}}{T_{c,pipe}}$   $\approx$  Antal Pipesteg

Om pipen är obalanserad så är speedup mindre

Speedup pga genomströmning

Latenstiden för en enskild instruktion minskar dock inte

### Konflikter (Hazards) i datavägen

Situationer som förhindrar start av instruktion i nästa klockcykel.

- Strukturell : Ett block är upptaget S 34
- Datakonflikt : Föregående instruktion ej klar S 35
- Styrkonflikt: Hoppvillkor och adress evalueras en bit in i pipen. S. 39

### Pipeline Summering

- ❑ Pipelining ökar prestanda via ökad instruktions- genomströmning
- ❑ Flera instruktioner exekverar parallellt (via överlappning av deloperationer)
- ❑ Pipelinekonflikter (eng. hazards) måste hanteras
- ❑ Strukturkonflikt, datakonflikt (RAW), styrkonflikt
- ❑ Tydligt beroende mellan ISA och komplexitet hos pipeline implementation

### Summering

- ❑ Pipelining förbättrar instruktions- genomströmningen via parallelism (överlappning)
- ❑ Fler instruktioner slutförs per sekund
- ❑ Kortare signalvägar möjliggör en högre CPU klockhastighet
- ❑ Hazarder: strukturell, data, styr konflikt
- ❑ Nästa föreläsning: Detaljerad styrning av pipelinen, samt Multiple-Issue och Spekulativa processorer

## Styrning av Pipen

Hur löser vi RAW hazards? 4-8 §4.7

Vi kan använda forwarding. Finns några olika varianter i slides.

Double data hazard: Hazard på både ID/EX + EX/MEM och IB/EX + MEM/WB



|     |                                                  |
|-----|--------------------------------------------------|
| Add | S <sub>1</sub> , S <sub>1</sub> , S <sub>2</sub> |
| Add | S <sub>1</sub> , S <sub>1</sub> , S <sub>3</sub> |
| Add | S <sub>1</sub> , S <sub>1</sub> , S <sub>4</sub> |

Då krävs reviderad forwarding 4-14

Hur löser vi load-use? 4-17

Liknande data hazard med fin aritmetik.

Om vi behöver ställa: sätts en NOP in.

: PC ändras inte.

Hazarder vid hopp? 4-24

Hoppstrategier - Fördöda hopp

Kör alltid instruktionen efter hoppinstrukturen (delay slot)

Fyll den platsen med en nyttig instruktion, annars NOP

Mer avancerade metoder 4-33

Dupla pipes => prestanda förslust vid hopp större.

Använd dynamisk hopp-prediktion

Branch Target Buffer

Instruction Level Parallelism 4-39

Exekvera flera instruktioner parallellt via överlappning

Öka ILP => Dupla pipelines => Mindre arbete p steg  
Fler hazarder

Multiple Issue CPU

Mips med statistisk Dual Issue 4-412

Loop unrolling 4-45

## Minnessystem



- \* Minnesvägen
- \* Minnes Hierarki
  - Cache minne
    - Direkt Mapped alt associative
    - Flernivåcache
    - Hur ökar vi bandbredden mellan S och PM.
  - Sekundärminne
    - Skrivminne
    - Flash

## Minnesteknologier

- SRAM
  - 0.5ns-2.5ns, \$2000 - \$5000 per GB
- DRAM
  - 50ns-70ns, \$20 - \$75 per GB
- Magnetiska Skivor
  - 5-20ms, \$0.2 - \$2 per GB

Idealt minne: Accessid som SRAM

Kapacitet och kostnad som för hårddisk

## Lokalitetsprincipen (slide 7)

Instruktioner och data accessas ganska sekvensiellt.

### Spatial

Om en address accessas är det sannolikt att en närliggande address kommer att accessas snart.

### Temporal

Om en address accessas är det sannolikt att samma address kommer accessas snart igen.

## Cacheminne

Ett litet, snabbt, minne nära processorn och större långsammare minne längre ifrån.

$h_x$  = Hit rate

$m_x$  = Miss rate

$$AMAT = h_x T_1 + m_x T_2 = h_x T_1 + (1-h_x)T_2$$

$T_x$  = Hit time

$(T_y - T_x)$  = Miss penalty

- Fyra viktiga:
1. Var skall blocket placeras?
  2. Hur hittar vi?
  3. Slide 28
  - 4.

## Cache adressering

Tag      Index      Offset

~slide 30

Massor av exempel, se slides.

fors.

Hur ökar vi bandbredden till PM? seide 60-62

### Sekundärminne

#### Flash

100-1000 ggr snabbare än slävminne

Mindre och mer robust

Kostar mellan DRAM och slävminne

#### NOR-flash

Random read/write access

Används som instruktionsminne i inbyggda system.

#### NAND-flash

Tätare bits/area men access sker blockvis.

Billigare per GB.

Flash röts ut med tiden!

### Höstlärmesuppgift

Implementera gauss-elimination i MARS-assembler. (Flyttal)

Optimera

Väl, cache parametrar

OSU OSU

for( $i=0; i < N; i++$ )      Två block med samma index  
   $A[i] = A[i+m]$       Ger miss vid varje access

### Prestandaberäkningar - Tenta 2010-05-25

a) 1000 mätningar  $\cdot 10 \text{ ms} = 10 \text{ s}$

$$T = IC \cdot CPI \cdot T_c$$

$$IC = 2 \cdot 10^9, T_c = \frac{1}{10^8} = 10^{-8}, CPI = ?$$

$$CPI = 1.3 + CPI_{\text{dop}} = 1.3 + 0.1 \cdot 10 \cdot 10 \cdot 0.2 = 1.5$$

Missrate      Miss penalty      Andel data ref

$$T = 2 \cdot 10^9 \cdot 1.5 \cdot 10^{-8} = 30 \text{ s}$$

$$T_{\text{tot}} = 30 + 10 = 40 \text{ ms}$$

b) I\$: MP=10 cykler, MR=0.01

$$CPI_{\Delta I_b} = 10 \cdot 0.01 = 0.1$$

Beräkningstiden minskar med faktorin  $\frac{1.5 - 0.1}{1.5} = 0.933$

$$\frac{T_{\text{tot}}}{T_{\text{tot}}} = \frac{10 + 30 \cdot 0.933}{10 + 30} = 0.95$$

### Slävminne

slide 67...

c) Halvera waiting time på sensorn eller halvera miss penalty?

Halvera väntetiden  $\Rightarrow 5 \text{ s}$  förbättring

Halvera inverkan av D\$ miss  $\Rightarrow \frac{0.2}{2} = 0.1$

Hela beräkningstiden minskar med  $\frac{0.1}{1.5} \cdot 30 = 2 \text{ s}$

Det är alltså bättre att halvera väntetiden på sensorn.

## Virtuellt Minne

Man har virtuella och fysiska adresser. Den virtuella är oftast större vilket ger illusionen av ett större PM.

VM använder PM som cache för SM.

Varje program har ett eget virtuellt addressrum.

Physical address: Address in PM

## PAGE FAULT

Sidan måste hämtas från disk.

Tar miljoner clock cykler

Hänteras av OS kod.

Det finns sidatabeller i PM som innehåller placeringsinformation.

5.1)

```
for (i=0; i<8; i++)
    for(j=0; j<8000; j++)
        A[i][j] = B[j][0] + A[j][0];
```

5.1.1 How many 32-bit ints in 16 byte cache block?

4

5.1.2 Which variables exhibit temporal locality?

j, i

5.1.3 Spatial locality

C codes gets stored rows first.



3x2 So we have spatial locality when accessing several items on the same row.

```
for i=1:8
    for j=1:8000
        A(i,j) = B(i,0) + A(j,i);
    end
end
```

5.1.4 How many 16-byte cache blocks are needed to store all 32-bit elements referenced?

$$(8 \times 8000 + 8000 + 8000 \times 8 - 8 \times 8) \cdot \frac{1}{4} = 33984$$

5.1.5 Temporal  
i, j



5.1.6 Spatial  
 $A(j,i), B(j,0)$

512 Kib

5.5,

512 Kib working set with address stream: 0 2 4 6 8 10 12 ...

5.5.1 Assume 64 KiB direct mapped cache with 32-byte block. What is the MR?

How is it sensitive to the set size or cache size?

$$\frac{64}{32} = 2 \text{ K blocks}$$

1 bytes per elem  
32 bytes per block



First access  $\Rightarrow$  Miss, read 16 elems to cache (1, 3, 5, ... garbage)  
17th access  $\Rightarrow$  — — —

Miss every 16th access. Only cold misses due to streams not having locality.

5.5.2 MR for 16-byte, 64 and 128-byte block size

16 byte:  $\frac{1}{8}$

64 byte:  $\frac{1}{32}$

128 byte:  $\frac{1}{64}$

What kind of locality is exploited?

Spatial. We read sequentially.

5.5.3 Assume a two-entry stream buffer.

First read would give a miss, then no misses.

Cache block size (B) can affect both miss rate and miss latency. Assuming CPI=1 and an avg of 1.35 references per instruction find the optimal block size given the following MR for block sizes: B: 8 | 16 | 32

4% | 3% | 2%

5.5.4 What is the optimal block size for miss latency of  $20 \times B$  cycles?

B=8: 0.04(8·20)

B=16: 0.03(16·20)      8 wins!

⋮

5.5.5  $24+B$  cycles. 24 units of time to fetch the first elem and the consecutive elems takes 1 unit.

B=8: 0.04(24+8)

B=16: 0.03(24+16)

⋮

5.5.6 For const miss latency?

Only the missrate matters!

## 5.11

**5.11.1** As described in Section 5.7, virtual memory uses a page table to track the mapping of virtual addresses to physical addresses. This exercise shows how this table must be updated as addresses are accessed. The following data constitutes a stream of virtual addresses as seen on a system. Assume 4 KiB pages, a 4-entry fully associative TLB, and true LRU replacement. If pages must be brought in from disk, increment the next largest page number.

4669, 2227, 13916, 34587, 48870, 12608, 49225

TLB

| Valid | Tag | Physical Page Number |
|-------|-----|----------------------|
| 1     | 11  | 12                   |
| 1     | 7   | 4                    |
| 1     | 3   | 6                    |
| 0     | 4   | 9                    |

Page table

| Valid | Physical Page or in Disk |
|-------|--------------------------|
| 1     | 5                        |
| 0     | Disk                     |
| 0     | Disk                     |
| 1     | 6                        |
| 1     | 9                        |
| 1     | 11                       |
| 0     | Disk                     |
| 1     | 4                        |
| 0     | Disk                     |
| 0     | Disk                     |
| 1     | 3                        |
| 1     | 12                       |

5.11.1 Show the final stage of the system given the above info. Also show if it's a hit in TLB or page fault.

4669: 0001 0010 0011 1101      4 KiB pages  $\Rightarrow 4 \cdot 2^10 \Rightarrow 12$  bits to encode

12 bits

Tag      Byte offset in page      Tag 1 is not in TLB  $\Rightarrow$  TLB miss  
(Tag = Virtual Page)

5.11.2 Use 16 KiB instead of Pages. Advantages / Disadvantages?

- + Fewer misses since you load larger chunks.
- Larger misspenalty!

## Example : TLB och Cacheinteraktion

### Virtuellt minne exempel (tentamensfråga 4 2010-08-16)

- Assume a computer system with the following characteristics: The CPU uses virtual memory (unified data- and instructions) using 32-bit virtual addresses. There is a maximum of 32 MB of physical primary memory, and a two-way set associative 16 KB cache. The hit-time in this cache is 1.5 ns. A 32-entry fully associative TLB is used for virtual-to-physical address translations. The TLB hit-time is 1 ns. The page size is 16 KB, and the cache uses a block size of 4 words.
- The cache, the TLB, and the virtual memory uses a "write-back" ("copy-back") strategy. The replacement algorithm used by the cache is "Random", and for the virtual memory an approximative "LRU" using 2-bit time "time stamps" per page. Virtual memory pages that belong to the OS are marked with a "protection bit" to protect it from user process accesses. In maximum, 16 processes are active at any given time. The Page Tables do not store secondary storage addresses when the pages are not in primary memory.

### 2010-08-16, uppg.4 , forts

- a. How many bits must the cache memory be able to store ? (4 p)
- b. How many bytes is needed to store the Page Tables ? (4 p)
- c. How many bits must the TLB be able to store ? (4 p)
- d. What is the maximum clock frequency the processor can have (assuming the critical timing path is constrained by TLB and cache) (6 p)?

Chapter 5 — Large and Fast: Exploiting Memory Hierarchy — 27



$$\begin{aligned} \text{Offset: } & 2^4 \Rightarrow 16 \text{ byte} \\ \text{Index: } & \frac{16 \text{ KB}}{16 \text{ B}} = 1 \text{ K blocks} \quad \left. \begin{array}{l} 2-\text{way} \\ \end{array} \right\} \frac{1 \text{ K}}{2} = 512 = 2^9 \Rightarrow 9 \text{ bitar} \\ \text{Tag: } & 25 - 9 - 4 = 12 \text{ bitar} \\ & 1 + 1 + 12 + 128 = 142 \text{ bitar/block} \Rightarrow 142 \cdot 1024 = 145408 \text{ bitar} \end{aligned}$$



Page offset: 16 KB  $\Rightarrow 2^{14}$  bits

Physical Page:  $25 - 14 = 11$

PTE =  $1+1+1+2+11=16$  bitar

There's one PTE for each virtual page.

How many pages?  $2^{32-14} \cdot 32 \cdot \text{VA}, 14: \text{Page offset} = 2^{18} = 256 \text{ K}$

$$256 \text{ K} \cdot 2 \text{ B} \cdot 16 = 8 \text{ MB}$$

#processes



Tag in TLB = Virtuell page number = 18

Physical Page = 11

Totalt:  $1+1+1+2+18+11=34 \Rightarrow 32$  entries in TLB  $34 = 1088$  bitar i TLB

d) Physically addressed cache:  $\text{VA} \rightarrow \boxed{\text{TLB}} \xrightarrow{\substack{\text{FA} \\ 1 \text{ ns}}} \boxed{\$} \xrightarrow{\substack{\text{Data} \\ 1.5 \text{ ns}}} \text{Instr/ Data}$   $f_{max} = \frac{1}{1+1.5} = 400 \text{ MHz}$

Pipelined:  $\text{VA} \rightarrow \boxed{\text{TLB}} \rightarrow \boxed{\_} \rightarrow \boxed{\$} \rightarrow \boxed{\_} \xrightarrow{\substack{\text{Data} \\ 1.5 \text{ ns}}} f_{max} = \frac{1}{1.5} = 667 \text{ MHz}$

Virtually addressed:  $\text{VA} \rightarrow \boxed{\$} \xrightarrow{\substack{\text{Data} \\ 1.5 \text{ ns}}} \text{TLB is not in CP} \Rightarrow \text{TLB is only used if cache miss. } f_{max} = \frac{1}{1.5} = 667 \text{ MHz}$

## Mipsaritmetik

Multiplikation: Två 32-bitars register för produkten

H1 (32 MSB)

LO (32 LSB)

Division: Använder HI/LO registeren för resultat

HI: Rest

LO: Kvot

## Flyttal

Representation av icker-heltal.

Binärt:  $\pm 1.xxxxxx_2 \cdot 2^m$  ← Normaliserat

Det är  
jämför...

Standardiserad enl IEEE

| S | Exp | Fraction |
|---|-----|----------|
|---|-----|----------|

$$x = (-1)^s \cdot (1 + \text{Fraction}) \cdot 2^{(\text{Exponent} - \text{Bias})}$$

Exponent: Excess representation: aktuell exponent+Bias

Sök på flyttal på  
dokchuck80.com !

## Exempel $F \rightarrow C$

C-kod:

```
float f2c(float f){  
    return ((5.0/9.0)*(f-32));  
}
```

MIPS:

```
f2c: lwc1 $f16, const5($gp)  
      lwc1 $f18, const9($gp)  
      div.s $f16, $f16, $f18  
      lwc1 $f18, const32($gp)  
      sub.s $f18, $f12, $f18  
      mul.s $f $f $f  
      jr ra
```

## Exempel från tenta

- a) Nyttjar lokaliteten bättre.
- b) Får bra plats med 4 block  $\Rightarrow$  Fler konflikter.
- c) Vad är den genomsnittliga mBekräfnaden?

$$4B: 0.38(4+4\frac{1}{4}) = 1.9$$

$$16B: 0.22(4+1\frac{1}{4}) = 1.76$$

$$64B: 0.19(4+6\frac{1}{4}) = 3.8$$

$$256B: 0.27(4+2\frac{5}{4}) = 18.36$$

## Exempel Hophazarder

|        |               |
|--------|---------------|
| ADDI   | \$5 \$0, 2    |
| L1: LW | \$4, 100(\$5) |
| ADDI   | \$5, \$5, -1  |
| ADD    | \$3, \$3, \$4 |
| BNE    | \$5, \$0, L1  |
| SW     | \$3, 100, \$0 |

Always stall: 2 cykler extra pga hazarder. Om hoppviller beräknas och används i ID:  $10+2+4 = 16$  (4: T8m pipe) Om Ex:  $10+2 \cdot 3+4=20$

Assume not taken: Gissar fel en gång.  $\Rightarrow$  1 cykel extra om hoppvillaret beräknas och används i ID-steget

$$10+1+4=15$$

Om vi beräknar i EX och använder i Mem  $\Rightarrow$  3 cykler extra.  
 $10+3+4=17$

L1 körs 2gg

Alla datahazarder kan lösas med forwarding.

Hur många extra cykler pga hophazarder?

Räkna inte med fördöjda hopp!

## Multithreading (MT)

Flera PC, fler registerfiler, snabb växling mellan trådar.  
Fin resp. grovkernig MT.

## Parallelism exempel

Summa 10 tal sequentiellt och utfor också en  $10 \times 10$  matrisaddition. Vi kan använda 10 eller 100 CPUs

$$1 \text{ CPU: } T = (10+100) \cdot t_{\text{add}} = 110 \cdot t_{\text{add}}$$

$$10 \text{ CPU: } T = 10 \cdot t_{\text{add}} + \frac{100}{10} \cdot \dots \dots$$

### Tenta Q1 2010-08-16

- RAW**
- |     |                |                                                                                                                    |
|-----|----------------|--------------------------------------------------------------------------------------------------------------------|
| Slt | v0, a0, a1     | a) Sorts the values in the registers depending on the values.                                                      |
| beq | v0, zero, L1   | b) In data: $a_x$<br>Out: $v_x$                                                                                    |
| add | v0, a0, zero   | c) How many <u>stalls</u> if $a_0=5, a_1=1$ .                                                                      |
| add | v1, a1, zero   | 1. beq vill ha v0 i 10 men kan inte få det förrän slt skrivit tillbaka i<br>WB. Det krävs 2 stallcykler för detta. |
| beq | zero, zero, L2 | 2. 3 stall cykler                                                                                                  |
- L1:
- |     |              |                                                                               |
|-----|--------------|-------------------------------------------------------------------------------|
| add | v0, a1, zero | Summa: 5                                                                      |
| add | v1, a0, zero | d) För att göra till en subroutine: Lägg till Label och använd med<br>jr \$ra |
- L2
- |     |              |                         |
|-----|--------------|-------------------------|
| add | v0, a1, zero | Anrop: addi a0, zero, 5 |
| add | v1, a0, zero | addi a1, zero, 1        |
|     |              | jal Label               |

### Q2 2009-05-19

50 computers @ 500 MHz  
Offer: 1 GHz samma ISA  
600 MHz bättre ISA

1 GHz = dubbelt så snabba som 500 MHz ty samma ISA.

$$T_{exe} = IC \cdot CPI \cdot T_c$$



1 GHz ger 289r ECO  
600 MHz ger 3.4189r ECO

### Q3 2011-01-12

a) Avg read/write time?

Sector size: 512 byte

7200 RPM

Avg seek time: 8 ms

Transfer rate: 20 MiB/s

Controller off : 2 ms

$$\text{Disk access} = \text{Seek} + \text{Rotational latency} + \text{transfer} + \text{controller off} =$$

$$8 + 0.5 \cdot \frac{60}{7200} \cdot 1000 + \frac{512}{20 \cdot 10^6} \cdot 1000 + 2 = 14.19 \text{ ms}$$

b) 3 step process: Read 4KiB

$$\text{Process} = 8 + 0.5 \cdot \frac{60}{7200} \cdot 1000 + \frac{4 \cdot 1024}{20 \cdot 10^6} \cdot 1000 + 2 = 14.37 \text{ ms}$$

$$\text{Process} = \frac{20 \cdot 10^6}{4 \cdot 1024} = 50 \text{ ms}$$

$$\text{Write 4KiB} = \text{Read} = 14.37 \text{ ms}$$

$$\text{Total time: } 2 \cdot (14.37 + 50) = 78.74 \text{ ms} \Rightarrow \frac{1}{78.74} \cdot 1000 = 12.76 \text{ blocks/s}$$

c) What is the bottle neck?

$$\text{Time to process } 64 \text{ Ki} \quad \text{block } \frac{20 \cdot 10^6}{3 \cdot 10^9} = 0.67 \text{ ms.}$$

$$\text{Transfer a } 64 \text{ KB block on bus: } \frac{64 \cdot 2^{10}}{64 \cdot 2^{20}} = 0.097$$

$$\text{Time for I/O} \quad 9 + \frac{64 \cdot 2^{10}}{64 \cdot 2^{20}} \cdot 1000 + \frac{10^6}{3 \cdot 10^9} \cdot 1000 = 10.33 \text{ ms}$$

Q4 2009-05-26



Bussen används för överföring av 4 ora åt gången. (Address+Block = 1+4=5 cylter)

$$a) \text{Bussid}_{\text{I$miss}} = 0.01 \cdot 5 \cdot 5 = 0.25 \quad \text{Bussid}_{\text{D$miss, L$}} = 0.02 \cdot 5 \cdot 5 \cdot 0.25 = 0.125$$

*Missrate* → *MP* → *CPU Egen snabblane* → *#CPU cykler* → *# Buscykler*

$$\text{Bussid}_{\text{D$miss, skriv}} = 0.05 \cdot 2 \cdot 5 = 0.5$$

*Data+addr* →

Systembussen är uppslagen med trafik mellan cache och minne:  $0.25 + 0.5 + 0.125 = 87.5\%$  av tiden.

$$b) \text{Max bandbredd per disk R/W-huvud} = \frac{6000}{60} \cdot 500 \cdot 200 = 10 \text{ MB/s}$$

→ 8 ytor:  $8 \cdot 10 \text{ MB/s} = 80 \text{ MB/s}$

$$c) \text{Max bandbredd på systembussen} = \frac{4 \text{ ora}}{5 \text{ cylter}} = \frac{4 \cdot 4 \text{ B}}{5 \cdot 10^6} = 320 \text{ MB/s}$$

$$d) \text{Använd bandbredd per I/O-buss?}$$

$$\text{DMA(128 K block)} = 2 \text{ ms} + 7 \text{ ms} + \frac{128 \cdot 2^{10}}{10 \cdot 2^{20}} \cdot 1000$$

*DMA setup* → *SEEK+ROT*

Tenta Q4 2009-05-26



2) Läxmiss

$$\text{Busstid}_{DRM} = 0.02 \cdot 5 \cdot 5 \cdot 0.25 = 0.125$$

25% reads

Skrivmiss

$$\text{Busstid}_{D\$SM} = 0.05 \cdot 2 \cdot 5 = 0.5$$

5% writes

$\text{Busstid}_{\text{Miss}} = 0.25 + 0.125 + 0.5 = 0.875 \Rightarrow$  Bussen är upptagen med missar 87.5% av tiden. 12.5% ger alltså att använda till I/O-operationer.

3) Max bandbredd per disk R/W-head:  $\frac{6000}{60} \cdot 500 \cdot 200 = 10 \text{ MB/s}$ . 8ytter  $\Rightarrow 80 \text{ MB/s}$ .

4) Bandbredd för bussen:  $\frac{4}{5} \frac{6000}{60} = \frac{160}{10000} = 320 \text{ MB/S}$

5) Använd bandbredd per I/O-buss?

$$\text{DMA}(128 \text{ KiB}) = \underbrace{2 \text{ ms}}_{\substack{\text{DMA} \\ \text{Setup}}} + \underbrace{7 \text{ ms}}_{\substack{\text{seek} \\ \text{rotations}}} + \underbrace{10 \text{ ms}}_{\substack{\text{transfertid}}} \cdot 1000 = 22.1 \text{ ms}$$

2 DMA överföringar kan ske samtidigt  $\Rightarrow \frac{2 \cdot 128 \text{ KiB}}{22.1 \text{ ms}} = 11.86 \text{ MB/S}$  (effektiv databandbredd per I/O-buss)

Bandbredd för disk > Bandbredd för I/O-Buss, alltså är det I/O-bussen som fläster.

6)  $0.125 \cdot 320 = 40 \text{ MB/s}$  ledigt för I/O  $\Rightarrow 3 \cdot 11.86 < 40 \Rightarrow$  Vi kan ha 3 I/O-kontroller.  
*Tid ledig*

Q2a. 2011-01-12

|     |                              |
|-----|------------------------------|
| add | $R_4 = R_1 + R_0$            |
| sub | $R_9 = R_3 - R_4$            |
| add | $R_4 = R_5 + R_6$            |
| lw  | $R_2 = M[R_3 + 100]$         |
| lw  | $R_2 = M[R_2 + 0]$           |
| sw  | $M[R_4 + 100] = R_9$         |
| and | $R_3 = R_3 \& R_1$           |
| beq | $R_9 == R_1, \text{ Target}$ |
| and | $R_9 = R_9 \& R_1$           |

L1a löses med ALU FWD  
 $R_9$  ger ingen hazard.  
Gren måste ställas en cykel och sedan använda ME  $\rightarrow$  EX FWD.

Uppgiften är dock att göra ett diagram som beskriver detta.

Q4, 2012-01-11



Blocksize:  $128 \text{ B} \Rightarrow \text{Byte offset} = 7 = \log_2(128) \Rightarrow C=7$

Cachesize:  $64 \text{ KiB} \Rightarrow \frac{64 \cdot 1024}{128} = 256 \Rightarrow \text{Index} = 8 \Rightarrow B=8$

Physical address = 32 bits  $\Rightarrow \text{Tag} = 32 - 8 - 7 = 17 \Rightarrow A=17$

$128 \text{ B block} \Rightarrow 128 \cdot 8 = 1024 \text{ bitar} \Rightarrow D=1024$

Tag/Status:  $17 + 1 = 19 \Rightarrow E=19$  Valid+Dirty



Virtual address: 64 bitar

8 KiB sider: 13 bitar ( $2^{3 \cdot 2^9}$ ) size offset  $\Rightarrow H=13$

512 entries:  $\frac{512}{2} = 256 \Rightarrow 8 \text{ bitar index} \Rightarrow G=8$

Tag:  $64 - 13 = 43 \text{ bitar} \Rightarrow F=43$

$PA = 32 \text{ bitar}, \text{Page} = 8 \text{ KiB} \Rightarrow 32 - 13 = 19 \text{ bitar physical page} \Rightarrow I=19$

Q4 2009-08-17

a) Beräkna CPI

b)



PMs mp:  $4 + 60 + 12 + 8 = 84 \text{ ns}$

Det tar 8 ns att skicka  
men 12 att hämta.

$\Delta \text{CPI}$

MRL<sub>1</sub>

Inst hämt L2:  $0.02 \cdot 32 = 0.64$

Inst hämt PM:  $0.01 \cdot 0.02 \cdot 84 = 0.0168$

MRL<sub>2</sub> MRL<sub>1</sub> 20% reads

Data las L2:  $0.05 \cdot 0.26 \cdot 32 = 0.32$

Data las PM:  $0.05 \cdot 0.01 \cdot 0.2 \cdot 84 = 0.0084$

$\text{CPI} = 1.0 + 0.64 + 0.0168 + 0.32 + 0.0084 = 1.9852$