

## Structure dans le cache

- Le cache est divisé en blocs (ligne) (groupe de 8-64 octets)

- les blocs ont une étiquette unique (tag)

- Combien de lignes dans un cache de 64KB avec des lignes de taille 64 Bytes ?

$$KB = 2^{10} = 1024 \text{ (oct)} \rightarrow (64 * 1024) / 64 = 1024$$



### Objectifs:

- Taux de succès maximum
- Temps d'accès minimum
- Temps penalisation minimum
- Réduire coût hardware

$$T_{MAM} = T_{succes} + (1 - H)T_{penal}$$

(fréquence de succès)

## Fréquence de succès

- dépend de la taille du cache

- Miss penalty devient du Hit time

|            | Rate                                     | Time                                                                             |
|------------|------------------------------------------|----------------------------------------------------------------------------------|
| Cache Hit  | Hit rate = Nombre de hits/Nombre d'accès | Temps d'accès à la cache (hit time)                                              |
| Cache Miss | 1 - (Hit rate)                           | Temps d'accès à la mémoire principale + temps de chargement cache (miss penalty) |

## Recherche dans la cache

mots = mots dans la mémoire principale

bute = trouver la ligne dont le tag correspond à l'Addr de base demander au répertoire

### 1) Complètement associative : mots peuvent être stocker n'importe où dans le cache

- + : taux de hit très élevé

- : trop lent (sequential, toutes les lignes à regarder)



### 2) Associative par ensembles : mots sont chargés dans des lignes prédefinies (toujours la même) dans le cache

- + : get rapide, car il faut vérifier 1 ligne

- : conflit, taux de hit éclater



### 3) Associative par voies :

- Bits faible → index (quelle ligne) et position dans la ligne

- Bits fort → Tag

Chaque bloc tombe sur la même cache

- Mémoire principale (MP) : 256 (oct), 8 (oct) blocs → 32 blocs (Addr 5 (oct))

- Cache (MC) : 64 (oct), 8 blocs (Addr 3 (oct))

### Exemple (avec des adresses de 8 bits)



### 4) Associative par voie : Cache composé de plusieurs "cache" (même addr) accessibles en parallèle

- Chaque cache est appelé une voie

- Mots peuvent être stockés dans N positions différentes dans le cache

- Diminution de la fréquence d'échec : Associativité \*2 = diminution de 20%

- Taille cache \*2 = diminution de 69%



## Cache (ou antémémoire)

- Composer de transistors et pas de condensateurs

- Pas de contrôle sur son contenu

## Localité

| Localité spatiale                                                                                                                                                                                                                                                                                 | Localité temporelle                                                                                                                                                                                                                                                                                            |
|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| <p>Le code d'un programme s'exécute toujours à l'intérieur de petites zones répétées de mémoire (des blocs correspondant à des boucles ou/et des sous-programmes).</p> <p>Si une adresse mémoire est utilisée, alors les <b>adresses proches</b> le seront probablement dans un futur proche.</p> | <p>Les blocs s'exécutent en séquences très proches</p> <p><i>Il y a plus de chances d'accéder à une position de mémoire utilisée il y a 10 cycles qu'à une autre utilisée il y a 10000 cycles</i></p> <p>Si une adresse mémoire est utilisée, elle sera probablement <b>à nouveau</b> dans un futur proche</p> |

**Localité temporal**: Chaque fois que le processeur prend un mot de la mémoire, il copie le mot à la cache.

- Pénalisation dans le premier accès
- Plusieurs utilisations seront plus rapides

**Localité spatiale**: Au lieu de copier un seul mot, on va en prendre plusieurs en même temps (un bloc)

- Accès à a[0]
- On prend aussi a[1], a[2], a[3]



## Niveaux

souvent plusieurs niveaux de cache (instruction et données)

## Répertoire

Indique si le mot accédé par le processeur se trouve dans la cache. Si oui → indique l'Addr dans le cache

## Contrôleur de la cache

Contrôle de la lecture/écriture en mémoire (parmi des buffers, les blocs avec les triangles)

## Écriture et Lecture

En gros,

- lecture : quand ça miss ça vas chercher dans la mémoire et ça écrit le résultat en même temps que de retourne la valeur

- écriture : on écrit dans les 2 de toute manière mais si ça hit, on peut le retourner plus vite



CPU à 2.6 GHz, mémoire RAM avec 10ns de latence. Le CPU veut accéder à une information mémoire.

- Après combien de temps va-t-il recevoir l'information ?

$$10 * 10^9 \text{ s} = 10^{-8} = 10 \mu\text{s}$$

- Combien de cycles CPU se sont déroulés pendant ce temps ?

$$10 * 10^9 * 2.6 * 10^9 = 26 \text{ cycles}$$

IT'S MARIOVER

## Cache ARM9

- 128KB : 4 voies associative 32KB
- ligne : 64 (oct)

### Algo d'écriture

- Write-back
- Write-through



### Algo de suppr

- Il faut ajouter l'information manquante à la cache
  - Si la cache est pleine, comment choisir la ligne à remplacer ?

|       | Fully associative | Direct Mapped | Set associative |
|-------|-------------------|---------------|-----------------|
| Choix | Trop de choix     | Pas le choix  | Un peu de choix |

- Politiques de remplacement

### Algo de suppr (cache miss)

- Il faut ajouter l'information manquante à la cache
  - Si la cache est pleine, comment choisir la ligne à remplacer ?
- Politiques de remplacement
  - **Aléatoire** : on choisit une ligne au hasard
  - **FIFO** : premier entré – premier sorti
  - **Least Recently Used (LRU)** : on supprime une ligne qui n'a pas été utilisée depuis longtemps



## Cache Exo methods

**Get memorie require 3 (ws)(wait state) et (hr)(hit rate) de 90%**

- nombre moyen de waits state =  $10\% * 3 = 0,3$  ws par cycle mémoire  
si donné en cache → 0 ws

**Instruction require 2 cycle sans (ws) et 5 cycle avec | (hr) = 80%**

10 instruction →  $(10 * 0.8 * 2) + (10 * (1 - 0.8) * 5) = 16 + 26 \rightarrow 26$  cycle dont 16 avec cache

**Instruction require 2 cycle sans (ws) et 5 cycle avec | (hr) = 80%**

10 instruction →  $(10 * 0.8 * 2) + (10 * (1 - 0.8) * 5) = 16 + 26 \rightarrow 26$  cycle dont 16 avec cache

**COMPLÈTEMENT ASSOCIATIVE** : Bus (Addr et donné) du processeur sont de 32 bits.

Cache de 16KB (Ligne de 64 (oct))



$$N \text{ ligne} = (16 * 1024) / 64 = 256$$

A) 1 comp par ligne → N ligne

A2) on a besoin 26 bits à cause de (C)

B) bus de 32 bits (donné)

C)  $32 - 6$  (raison (D)) = 26 bits → [31...6]

D) offset →  $64 = 2^6$  → besoin de 6 bits pour les décrire

E)  $N \text{ ligne} = 256 = 2^8 \rightarrow$  besoin de 8 b pour trouver la ligne

F) donner dans la donné

**ASSOCIATIVE PAR ENSEMBLES** : Bus (Addr et donné) du processeur sont de 32 bits.

Cache de 64KB (Ligne de 32 (oct))



$$N \text{ ligne} = (64 * 1024) / 32 = 2048$$

A) donner

B)  $(32-16) - 5$  (du à (H)) = 11 bits

C)  $(16-5) = 11 \rightarrow 2^{11} = 2048 = N \text{ ligne} \rightarrow$  besoin de 11 bits au total

D,E) Meme logic que (C)

F) donner

G)  $N \text{ ligne} = 2048 \rightarrow 11 \text{ bits} \rightarrow 11 + 5$  (du à (H)) = 16

H) ligne de 32(oct)= $2^5$  → 5 bits

I)  $32 - 16 = 16$

**ASSOCIATIVE À 2 VOIES** : Bus Addr de 24 bits et donné du processeur sont de 32 bits.

Cache de 32KB par voie (Ligne de 128 (oct))



$$N \text{ ligne} = (32 * 1024) / 128 = 256$$

A) donner

B) 15 (du à (G)) - 7 = 8 bits

C) N ligne

D,E) du à (I) et au fait qu'il y a 2 voie →  $2^2$  = 4

F) donner

G)  $N \text{ ligne} = 256 \rightarrow 8 \text{ bits} \rightarrow 8 + 7$  (du à (H)) = 15

H) ligne de 128(oct)= $2^7$  → 7 bits

I)  $32 - 15 = 9$

# Mémoire

- Addr est stockée dans un mot
- N bits d'un mot = taille max de la mémoire → mots = 32 bits →  $2^{32} = 4\text{GB}$

## Décode d'Addr memoire

$$2^{32} = 4\text{MW} (4 \text{ Mega mots})$$

$$\text{Adr} = (\text{N} * \text{nb\_byte}) / (\text{taille de mots})$$



| Mémoires volatiles (vives)                                                                                                                                                      | Mémoires non-volatiles (mortes)                                                                                                                                                                                                                                                                                                                                                                                              |
|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| <ul style="list-style-type: none"> <li>informations <b>perdues</b> à la mise hors tension</li> <li>lecture et écriture en cours d'utilisation</li> </ul> <p>RAM, SRAM, DRAM</p> | <ul style="list-style-type: none"> <li>informations <b>conservées</b> à la mise hors tension</li> <li>lecture en cours d'utilisation</li> <li>écriture (« programmation ») durant la fabrication de la mémoire, ou sur la carte (in situ).</li> <li>modification du contenu durant le fonctionnement du système, implique un effacement!</li> </ul> <p>EPROM, Flash memory, PROM, FeRAM, EEPROM, ROM, PRAM, E2PROM, MRAM</p> |

## Memory Map

Exemple :

32 bits d'adressage

$$\text{SRAM} = 32\text{KB} = 2^{15} = 0111\ 1111\ 1111\ 1111$$

$$= 0x00007FFF$$

$$\text{Internal Flash} = 4\text{MB} = 2^{22} = 0x007FFFFF$$

$$\text{Total mem} \rightarrow 2^{32} = 4\text{GB} \rightarrow 0x3FFFFF$$

$$\rightarrow 0xFFFFFFF - 0x3FFFFF = 0xFFC00000$$

$$\text{SRAM} \rightarrow 0x00000000 \rightarrow 0x00007FFF + 1$$

## Endianness



## Bank de registre

|            |            |            |            |            |            |            |            |
|------------|------------|------------|------------|------------|------------|------------|------------|
| R0         | R1         | R2         | R3         | R4         | R5         | R6         | R7         |
| R13 (SP)   | R14 (LR)   | R15 (PC)   | CPSR       |            |            |            |            |
| 0x00000000 |

- SP (Stack pointer) : Stocke la position dans la pile de stockage
- LR (Link Register) : Garde l'adresse de retour(appel de fct)



- Pile ascendante : SP init sur l'Addr du bas de la pile



- Pile descendante : SP init sur l'Addr du haut de la pile



## Fetch

- PC (Programme compteur): incrément chaque instru sauf si saut



## Saut inconditionnel

$$\text{- Adr} = \text{PC} + \text{extension\_16bits(offset(11) x 2)} + 4$$

$$\text{Exemple : } 0xE00F \rightarrow 1110\ 0\ 000\ 0000\ 1111$$

$$\text{offset(11) x 2} \rightarrow 000\ 0001\ 1110$$

$$\text{Extention 16 bits} \rightarrow 0000\ 0000\ 0001\ 1110$$

$$+4 \rightarrow 0000\ 0000\ 0010\ 0010 = v$$

$$\text{PC actuel} = 0000\ 0000\ 0000\ 1110$$

$$v + \text{PC actuel} \rightarrow 0000\ 0000\ 0011\ 0000 \rightarrow 0x0030$$

## Saut conditionnel

$$\text{- Adr} = \text{PC} + \text{extension\_16bits(offset 8 x 2)} + 4$$

## Interruption

$$2) t = 1\text{ms} \mid d = 3\text{ms}$$

$$4) t = 3\text{ms} \mid d = 4\text{ms}$$

$$3) t = 4\text{ms} \mid d = 2\text{ms} \rightarrow$$

$$7) t = 5\text{ms} \mid d = 3\text{ms}$$

$$6) t = 6\text{ms} \mid d = 1\text{ms}$$



## Execute

- **Logical shift**: multiplication ou division par une puissance de 2
  - ajout de 0 à droite ou à gauche

- **Arithmetic shift**: multiplication ou division par une puissance de 2 sur des nombres signés
  - ajout de 0 à droite, extension de signe à gauche

- **Rotation**: report des bits retirés d'un côté vers l'autre côté



## MEMORY ACCESS

$$M[0x208] = 0x23AB5C82, r1 = 0x200$$

$$\text{LDR } r0, [r1*2^4]$$



- Un périphérique comprenant 5 registres de 16 bits est placé à l'adresse 0xF230 sur le bus d'un processeur. Le bus d'adresses est un bus de 16 bits. Donnez les adresses des 5 registres (**Incrément de 2 car 16 bits**) : 0xF230, 0xF232, 0xF234, 0xF236, 0xF238

## Pile

- Pile ascendante : SP init sur l'Addr du bas de la pile



- Pile descendante : SP init sur l'Addr du haut de la pile



## Utilisation Pile

- stockage des Addr de retour pour les appl de fonction et interuption
- Save de registre pour les contexte
- Save de variable locales

## Incrémantion

$$\text{Pré} = +i \mid \text{Move SP} \rightarrow \text{action}$$

$$\text{Post} = i++ \mid \text{action} \rightarrow \text{move SP}$$



# Float

## Structure d'un float



Séquence binaire: 00100100100000000000000000000000

## Decimal → Binaire

0.375 = ?

$$\begin{aligned}0.375 \times 2 &= 0.75 \\0.75 \times 2 &= 1.5 \\0.5 \times 2 &= 1.0\end{aligned}$$

0.375 = 0.011

0.3 = ?

$$\begin{aligned}0.3 \times 2 &= 0.6 \\0.6 \times 2 &= 1.2 \\0.2 \times 2 &= 0.4 \\0.4 \times 2 &= 0.8 \\0.8 \times 2 &= 1.6 \\0.6 \times 2 &= 1.2\end{aligned}$$

...

0.3 = 0.01001[1001] = 0.0[1001]



$$\begin{aligned}+1101.1 &= +1.011 \times 2^3 \\-10.0101 &= -1.001 \times 2^4\end{aligned}$$

## Représentation avec biais

Champ exposant = exposant + biais

Typiquement  $2^{k-1}-1$

avec k=nombre de bits du champ de l'exposant

Exemple :

$$\begin{array}{c} \text{signe exposant mantisse} \\ \text{bais} = 2^{3-1}-1 = 2^2-1 = 3 \\ 01101011 \\ + \\ 6-3=3 \\ +1.1011 \times 2^3 \\ +1101.1 = 13.5_{10} \end{array}$$

## Représentation non normaliser

Pour les nombres très petits proches de 0

+0.0=0 00...00

-0.0=1 00...00

Dans ce cas l'exposant = 1 - biais

Exemple : exposant +0.001 = +0.10\*2^-2 = 0 000 10



## Standard IEEE 754

- normaliser : biais = 127

- Non-normaliser : 1-biais = -126



# Pipeline



## Aléas

### Dépendances

- Structurel : Accès aux mêmes ressources
- Données : Utilisation des mêmes registres
- Contrôle : Décision de branchement

### Dépendances de données

- RAW (read after write) = ADD R1, R2, R3  
SUB R5, R1, #2
- WAR (write after read) = ADD R1, R2, R3  
SUB R2, R4, #2
- WAW (write after write) = AND R5, R1, R2  
SUB R1, R4, #2

### Stop pipeline

| 1              | 2  | 3  | 4  | 5   | 6   | 7   | 8   | 9   | 10 |
|----------------|----|----|----|-----|-----|-----|-----|-----|----|
| ADD R1, R2, R3 | IF | ID | EX | MEM | WB  |     |     |     |    |
| SUB R5, R1, #2 |    | IF | ID | ID  | ID  | ID  | EX  | MEM | WB |
|                |    |    |    |     |     |     |     |     |    |
| ADD R1, R2, R3 | IF | ID | EX | MEM | WB  |     |     |     |    |
| NOP            |    | IF | ID | EX  | MEM | WB  |     |     |    |
| NOP            |    |    | IF | ID  | EX  | MEM | WB  |     |    |
| NOP            |    |    |    | IF  | ID  | EX  | MEM | WB  |    |
| SUB R5, R1, #2 |    |    |    |     | IF  | ID  | EX  | MEM | WB |



## Forwarding

Cours ARO 2025

Exemple de pipeline avec bypass

r4 = 0x12, r3 = 0x2BB2,

M[0x2BB4] = 0xABCD

16: 1C9A add r2, r3, #2  
18: 18A5 add r5, r4, #2  
1a: 88D0 ldrh r0, [r2, #8]  
1c: 1D01 add r1, [r0, #4]



Arrêt du pipeline

| 16            | 18         | 1A | 1C | 1E | 20 | 22 | 24 | 26 | 28 | 2A | 2B | Remarque pour l'arrêt en jaune                                                             |
|---------------|------------|----|----|----|----|----|----|----|----|----|----|--------------------------------------------------------------------------------------------|
| PC            | FETCH (IR) |    |    |    |    |    |    |    |    |    |    | On ne connaît pas encore la valeur de R0 à reprendre car le Memory Access n'a pas été fait |
| Rx1           |            |    |    |    |    |    |    |    |    |    |    |                                                                                            |
| Rx2           |            |    |    |    |    |    |    |    |    |    |    |                                                                                            |
| Rd            |            |    |    |    |    |    |    |    |    |    |    |                                                                                            |
| Rimm          |            |    |    |    |    |    |    |    |    |    |    |                                                                                            |
| EXECUTE       |            |    |    |    |    |    |    |    |    |    |    | Maintien de la valeur dans E car le bloc execute est en arrêt                              |
| MEMORY        |            |    |    |    |    |    |    |    |    |    |    | Maintien de la valeur dans Memory Accs car le bloc est en arrêt                            |
| WRITE BACK    |            |    |    |    |    |    |    |    |    |    |    | Maintien de la valeur dans Write Back car le bloc est en arrêt                             |
| REG bypass E  |            |    |    |    |    |    |    |    |    |    |    |                                                                                            |
| REG bypass F1 |            |    |    |    |    |    |    |    |    |    |    |                                                                                            |
| REG bypass F2 |            |    |    |    |    |    |    |    |    |    |    |                                                                                            |
| REG M         |            |    |    |    |    |    |    |    |    |    |    |                                                                                            |

1 LDR r1, [r5] | 1  
2 ADD r5, r1, 1 | 1  
3 LDR r1, [r6] | 1



## Pipeline MATH

### Base

- T\_e = temps de passage à chaque étape

- T\_p = n\*T\_e = temps pour n étapes

### Calcul de performances

- Latence : Temps entre le début et la fin de l'exéc

- Débit : nombre d'op exécuter par unités de temps

$$D = \frac{m}{(n+m-1) * T_e} \approx \frac{1}{T_e}$$

- Accélération : n fois plus rapide que le séquentiel

$$A = \frac{T_{seq}}{T_{pip}} = \frac{m * n * T_e}{(n+m-1) * T_e} = \frac{m * n}{n+m-1} \sim n \text{ (pour m très grand)}$$

- IPC (nombre d'instru par cycle)

Exemple : stop 3 cycle pour 20% des instru

$$IPC = 1 / (0.8 * 1 + 0.2 * 4) = 0.625$$

