

## RAPPORT

---

# Architecture des Processseurs 2

*Compte rendu des travaux dirigés*



**DERRUAU Noam**

Groupe 2— 2A

*ISMIN*

[noam.derruaud@etu.emse.fr](mailto:noam.derruaud@etu.emse.fr)

**DEKEYSER Alexis**

Groupe 2— 2A

*ISMIN*

[alexis.dekeyser@etu.emse.fr](mailto:alexis.dekeyser@etu.emse.fr)

---

15 janvier 2026

# Table des matières

|                                                                                |           |
|--------------------------------------------------------------------------------|-----------|
| <b>1 RV32I architecture pipeliné</b>                                           | <b>8</b>  |
| 1.1 Étude du processeur RISCV pipeliné . . . . .                               | 8         |
| 1.1.1 Découverte du processeur . . . . .                                       | 8         |
| 1.1.2 Examination du datapath . . . . .                                        | 11        |
| 1.1.3 Examination du controlpath . . . . .                                     | 12        |
| 1.1.4 Examination des mémoires . . . . .                                       | 15        |
| 1.2 Éxécution et simulation d'un programme . . . . .                           | 16        |
| 1.2.1 Un premier programme . . . . .                                           | 16        |
| 1.2.2 Un second programme . . . . .                                            | 17        |
| <b>2 Gestion des dépendances</b>                                               | <b>19</b> |
| 2.1 Correction des dépendances . . . . .                                       | 19        |
| 2.1.1 Correction logicielle . . . . .                                          | 19        |
| 2.1.2 Correction Matérielle des dépendances de données . . . . .               | 23        |
| 2.1.3 Correction matérielle des dépendances de contrôle de type saut . . . . . | 28        |
| 2.1.4 Test de la gestion des sauts . . . . .                                   | 31        |
| 2.2 Correction matérielle des dépendances de contrôle de branchement           | 31        |
| 2.2.1 Logique de fonctionnement des branchements . . . . .                     | 31        |
| 2.2.2 Analyse des dépendances de données lors d'un branchemen                  | 32        |
| 2.2.3 Problématique du ( <i>stall</i> ) actuel . . . . .                       | 32        |
| 2.2.4 Implémentation de la solution . . . . .                                  | 33        |
| 2.2.5 Test de la gestion des dépendances de contrôle de type bran-             |           |
| chement . . . . .                                                              | 36        |
| 2.3 Validation globale avec <i>ilock_tests.s</i> . . . . .                     | 37        |
| 2.3.1 Conclusion des tests . . . . .                                           | 38        |
| 2.4 Implémentation du <i>Wait State</i> . . . . .                              | 39        |
| 2.4.1 Adaptation du processeur à ce changement . . . . .                       | 40        |
| 2.4.2 Gestion du signal de validité . . . . .                                  | 40        |

## TABLE DES MATIÈRES

|                                                            |           |
|------------------------------------------------------------|-----------|
| <b>3 Implémentation d'une mémoire cache</b>                | <b>41</b> |
| 3.1 Calculs préliminaires . . . . .                        | 42        |
| 3.1.1 Analyse de la structure du cache direct . . . . .    | 42        |
| 3.1.2 Analyse des performances attendues . . . . .         | 42        |
| 3.2 Design et implémentation du cache direct . . . . .     | 43        |
| 3.2.1 Intégration au SoC . . . . .                         | 43        |
| 3.2.2 Caractéristiques Techniques . . . . .                | 43        |
| 3.2.3 Étapes de Conception . . . . .                       | 44        |
| 3.2.4 Machine d'État et Optimisations . . . . .            | 45        |
| 3.3 Test du cache direct . . . . .                         | 46        |
| 3.4 Cache Instruction Associatif à Deux Voies . . . . .    | 47        |
| 3.4.1 Architecture Matérielle . . . . .                    | 48        |
| 3.4.2 Stratégie de Remplacement : Algorithme LRU . . . . . | 48        |
| 3.4.3 Étapes Logiques de Conception . . . . .              | 49        |
| 3.4.4 Analyse des Performances . . . . .                   | 50        |
| 3.4.5 Conclusion . . . . .                                 | 50        |

# Table des figures

|      |                                                                                           |    |
|------|-------------------------------------------------------------------------------------------|----|
| 1    | Arborescence du projet . . . . .                                                          | 6  |
| 1.1  | Fichiers source du processeur de référence . . . . .                                      | 9  |
| 1.2  | Schéma de la hiérarchie des composants du processeur . . . . .                            | 10 |
| 1.3  | Les 5 étages du datapath . . . . .                                                        | 11 |
| 1.4  | Schéma de l'effet du signal de stall . . . . .                                            | 14 |
| 1.5  | Distinction des adresses IMEM et DMEM (en hexa) . . . . .                                 | 15 |
| 1.6  | Chronogramme de <code>exo1.S</code> . . . . .                                             | 17 |
| 1.7  | Code du second programme de test . . . . .                                                | 18 |
| 1.8  | Résultats de l'exécution de <code>main.S</code> . . . . .                                 | 18 |
| 2.1  | Valeurs des registres à la fin de <code>exo2.S</code> . . . . .                           | 22 |
| 2.2  | Chronogramme de l'exécution de la correction logicielle . . . . .                         | 23 |
| 2.3  | Types d'instructions de RV32i . . . . .                                                   | 25 |
| 2.4  | <i>Opcodes</i> et utilisation des opérandes . . . . .                                     | 25 |
| 2.5  | Expression de <code>stall_o</code> . . . . .                                              | 27 |
| 2.6  | Activation du stall pour les dépendances de données . . . . .                             | 28 |
| 2.7  | Activation du <code>fetch_nop_o</code> pour les dépendances de saut . . . . .             | 31 |
| 2.8  | Test ModelSim des dépendances de branchement . . . . .                                    | 36 |
| 2.9  | Valeurs des registres lors des tests d'interlock ( <code>ilock_tests.S</code> ) . . . . . | 38 |
| 2.10 | Comparaison de la vitesse du CPU et de la Mémoire . . . . .                               | 39 |
| 3.1  | Insertion du cache en tant que composant . . . . .                                        | 41 |
| 3.2  | Machine d'état du cache direct . . . . .                                                  | 46 |
| 3.3  | Simulation du cache direct . . . . .                                                      | 47 |
| 3.4  | Table de vérité de la mise à jour du LRU . . . . .                                        | 48 |
| 3.5  | Comparaison des performances avec et sans cache . . . . .                                 | 50 |

# Introduction

L'architecture RISC-V s'est imposée comme un standard incontournable grâce à son jeu d'instructions ouvert et modulaire. Ce rapport porte sur l'étude et l'optimisation d'un processeur 32 bits implémentant l'ISA **RV32I**. À l'exception des instructions de synchronisation et d'exception (FENCE, ECALL et EBREAK), l'ensemble du jeu d'instructions de base a été implémenté.

L'enjeu principal de ce travail est de transformer une exécution séquentielle en une architecture pipelinée performante, capable de traiter les instructions en parallèle tout en garantissant la cohérence des calculs.

Nos objectifs se déclinent selon trois axes :

- **Analyse architecturale** : Compréhension approfondie de l'architecture d'un processeur RISCV single-core pipeliné
- **Gestion des aléas** : Mise en place de mécanismes pour résoudre les dépendances de données et les dépendances de contrôle afin d'éviter de manuellement insérer des NOP dans notre programme.
- **Optimisation mémoire** : Conception et intégration d'un *cache d'instructions* en lecture seule afin de réduire les cycles d'attente lors des accès mémoire.

## Précisions - Instructions pour les programmes Verilog

Ce rapport est accompagné d'un fichier *zip* contenant l'intégralité du code pour les trois TD. Vous pouvez retrouver une copie de l'intégralité du code au lien suivant :

<https://github.com/derruau/ismin-adp2-riscv>

L'arborescence du projet est telle que :

**FIGURE 1 : Arborescence du projet**

Remarquez qu'avant d'accéder à cette arborescence, nous avons le choix entre les dossiers **base** et **modified** :

- **base** : contient le code tel qu'il était juste avant de commencer le TD.
- **modified** : contient le code après modification.

Pour les TD 2 et 3, plusieurs versions du code à différentes étapes du TD sont disponible. Ils se trouvent dans les dossiers : `./TD[X]/modified/hdl_src/Q[Y]/`.

De plus, vous pouvez compiler le code à n'importe quelle version de celui-ci en une seule commande lorsque vous êtes dans le dossier `./TD[X]/modified` :

```
1 # X peut prendre les valeurs suivantes pour les différents TD
2 # TD1: exo1, main
3 # TD2: Q3, Q10, Q12, Q14, Q15, Q17
4 # TD3: direct, associatif
5 # Ainsi, en faisant './build Q10', vous compilez et lancez
6 # directement la version du code telle qu'elle était à la
7 # question 10 dans le TD2.
8 ./build [X]
```

Pour plus d'informations, n'hésitez pas à consulter le README.

## TD 1

# RV32I architecture pipeliné

Afin de commencer l'étude du processeur, nous nous appuierons sur un projet de référence fourni sur [ecampus](#). Cette première étape consiste à appréhender l'organisation modulaire du code et la hiérarchie des fichiers, calquée sur l'architecture matérielle du processeur. L'objectif est de valider le bon fonctionnement du socle initial et de maîtriser le flux de simulation avant d'entamer les phases de modification du pipeline et l'implémentation du cache.

## 1.1 Étude du processeur RISCV pipeliné

### 1.1.1 Découverte du processeur

L'architecture matérielle du processeur est définie par un ensemble de modules Verilog situés dans le dossier `./TD1/base/hdl_src/`. La structure se décompose comme suit :

FIGURE 1.1 : Fichiers source du processeur de référence



Nous allons tout d'abord essayer de comprendre les relations d'instanciation entre ces différents fichiers pour construire un premier schéma de l'architecture de ce processeur. En ouvrant les différents fichiers, nous observons ceci :

**RV32i\_soc.sv**

```

1 RV32i_top RV32i_core (
2     ...
3 );
4
5 wsync_mem #(
6     ...
7 ) imem (
8     ...
9 );
10
11 wsync_mem #(
12     ...
13 ) dmem (
14     ...
15 );

```

**RV32i\_pipeline\_top.sv**

```

1 RV32i_datapath dp (
2     ...
3 );
4
5 RV32i_controlpath cp (
6     ...
7 );

```

Ainsi, nous constatons que le fichier `RV32i_soc.sv` contient deux instances du fichier `wsync_mem.sv` correspondant aux mémoires d'instruction et de données et une instance du fichier `RV32i_pipeline_top.sv`, qui contient une instance du *datapath* et du *controlpath*.

- **Le datapath** regroupe tous les circuits qui manipulent, transportent ou stockent les données binaires, par exemple l'ALU qui effectue les opérations et les registres qui stockent temporairement le résultat des opérations. C'est la partie qui exécute physiquement les opérations. Nous pou-

vons d'ailleurs voir ces circuits car dans le code de `RV32i_pipeline_datapath.sv`, nous retrouvons bien une instantiation de `RV32i_alu.sv` et `regfile.sv`.

- **Le controlpath** est le "cerveau" du processeur. Il décode les instructions et génère les signaux de commande nécessaires pour piloter le *datapath*. Il détermine, par exemple, quelle opération l'ALU doit effectuer ou si un registre doit être écrit ou lu à un instant *t*.

Muni de ces connaissances, nous pouvons faire un premier schéma de la hiérarchie des composants du processeur :

**FIGURE 1.2 : Schéma de la hiérarchie des composants du processeur**



Examinons maintenant d'un peu plus près chacun de ces composants.

### 1.1.2 Examination du datapath

Commençons par examiner le *datapath* plus en détail. Nous remarquons que le datapath se découpe en **5 étages**, tous séparés par un registre qui contient l'instruction dans l'étage correspondant. Chaque étage est relié au suivant linéairement comme ceci :

**FIGURE 1.3 : Les 5 étages du datapath**



- FETCH** : Récupération de la prochaine instruction à insérer dans la pipeline.
- DECODE** : Décomposition des différentes parties de l'instruction selon son type.
- EXECUTE** : Exécution de l'instruction et calcul du résultat.
- MEMORY** : Stockage (optionnel) du résultat dans la mémoire de données.
- WRITE BACK** : Écriture dans le banc de registres du résultat.

Le pilotage du *datapath* par le *controlpath* repose sur une interaction bidirectionnelle. Si le *controlpath* orchestre l'exécution via des signaux de commande, il doit également recevoir des signaux de retour du *datapath* tels que les indicateurs de comparaison ou de statut pour adapter son comportement aux conditions dynamiques de l'exécution. D'après le code de `RV32i_pipeline_top.sv`, nous avons 4 signaux qui vont du *datapath* au *controlpath* :

**RV32i\_pipeline\_datapath.sv**

```

1 module RV32i_datapath (
2   ...
3   // Dec stage
4   output logic [31:0] instruction_o, // Donne l'instruction
                                         // actuellement dans
                                         // l'étage DECODE au
                                         // controlpath.
5
6   ...
7   // Exec stage
8   output logic alu_zero_o, // Flags de comparaison de
9   output logic alu_lt_o, // l'ALU
10  output logic alu_ltu_o, //
11  ...
12  );
13
14 );
  
```

De même, on peut identifier les signaux à destination de la mémoire d'instruction et de la mémoire de donnée :

### Signaux à destination des mémoires

```

1 // À destination de la mémoire d'instruction
2 module RV32i_datapath (
3     ...
4     // Fetch stage
5     output logic [31:0] imem_addr_o, // Donne l'adresse de la
6                                         // prochaine instruction à
7                                         // fetch
8     ...
9 );
10
11 // À destination de la mémoire de données
12 module RV32i_datapath (
13     ...
14     // Mem stage
15     output logic [31:0] dmem_addr_o, // L'adresse à écrire.
16     output logic [31:0] dmem_di_o, // les données à écrire.
17     output logic [ 3:0] dmem_ble_o, // Le masque pour écrire les
18                                         // données.
19     ...
20 );

```

### 1.1.3 Examination du controlpath

L'étude du code du *controlpath* montre que celui-ci suit la même logique que le pipeline. Pour fonctionner correctement, il reçoit l'instruction située à l'étage DECODE du *datapath*. Comme le processeur traite plusieurs instructions en même temps, le *controlpath* possède lui aussi une série de registres qui font circuler l'instruction de l'étage DECODE jusqu'à l'étage WRITE BACK. Cela permet au *controlpath* de connaître l'instruction présente dans chaque étage et d'envoyer les bons ordres au bon moment.

### Système de pipeline du controlpath

```

1 module RV32i_controlpath (
2   ...
3   // Dec stage
4   input logic [31:0] instruction_i,
5   ...
6 );
7   ...
8   assign inst_dec_w = stall_dec_i ? 32'h00000013 : instruction_i;
9   ...
10  // Exec stage
11  always_ff @(posedge clk_i or negedge resetn_i) begin : exec_stage
12    if (!resetn_i) begin
13      inst_exec_r <= 32'h0;
14    end else if (!stall_exec_i) begin
15      inst_exec_r <= inst_dec_w;
16    end
17  end
18  ...
19  // Mem stage
20  always_ff @(posedge clk_i or negedge resetn_i) begin : mem_stage
21    if (!resetn_i) begin
22      inst_mem_r <= 32'h0;
23    end else if (!stall_exec_i) begin
24      inst_mem_r <= inst_exec_r;
25    end
26  end
27  ...
28  // Write back
29  always_ff @(posedge clk_i or negedge resetn_i) begin : wb_stage
30    if (!resetn_i) inst_wb_r <= 32'h0;
31    else inst_wb_r <= stall_exec_i ? 32'h00000013 : inst_mem_r;
32  end
33  ...
34 endmodule

```

Cet extrait de code illustre le mécanisme de transfert des instructions aux travers des registres `inst_dec_w`, `inst_exec_r`, `inst_mem_r` et `inst_wb_r` à chaque cycle d'horloge.

### Le signal de stall

Une des difficultés majeure lors du passage d'une architecture monocycle à une architecture pipeliné est la gestion des dépendances. Les dépendances arrivent lorsqu'une instruction nécessite un résultat d'une autre instruction toujours dans la pipeline. Voici un exemple de dépendance de donnée :

**Exemple de dépendance de données**

```

1 .section .start;
2 .globl start;
3
4 start:
5     addi  x3, x3, 10
6     add   x4, x4, x3 # Dépendance de donnée avec x3
7 end:
8     j    end
9     nop
10    nop

```

Dans ce cas et sans gestion de dépendance de données, l'instruction addi se trouve à l'étage DECODE lorsque l'instruction add est exécutée et le registre x3 n'est donc pas encore mis à jour.

Pour remédier à ce problème, une solution partielle consiste à introduire un signal, appelé signal de *stall* (*stall\_o* dans le *controlpath*) qui stoppe une partie de la pipeline pour laisser le temps aux résultats dépendants de finir de traverser la pipeline.

Pour l'instant, le signal de *stall* est toujours désactivé dans le *controlpath* :

**RV32i\_pipeline\_controlpath.sv**

```
1 assign stall_o = 1'b0;
```

Cependant, bien que les conditions d'activation du signal de *stall* n'aient pas été implémentés, son effet sur le *datapath* et le *controlpath* l'a été. Le signal de *stall* active dans le toplevel un signal appelé *stall\_from\_hazard* qui va lui-même activer l'entrée *stall\_dec\_i* du *datapath* ET du *controlpath*. Ces signaux vont alors suspendre la partie DECODE du pipeline et laisser les instructions dans les parties suivantes continuer.

**FIGURE 1.4 : Schéma de l'effet du signal de stall**

### 1.1.4 Examination des mémoires

Les derniers composants de `RV32i_soc.sv` à examiner sont la mémoire d'instructions (IMEM) et la mémoire de données (DMEM). Ces mémoires sont des instances du même composant `wsync_mem.sv`. Voici comment elles sont définies :

#### Adresses de base

```
1 //  
2 localparam IMEM_BASE_ADDR = 32'h0000_0000; // 0  
3 localparam DMEM_BASE_ADDR = 32'h0001_0000; // 65536 en decimal
```

#### IMEM

```
1 assign imem_re_w = ire_w &  
    ↪ imem_cs_w;  
2 wsync_mem #(  
3     .SIZE(4096),  
4     .WS(0),  
5     .INIT_FILE(IMEM_INIT_FILE)  
6 ) imem (  
7     .clk_i(clk_i),  
8     .we_i(1'b0),  
9     .re_i(imem_re_w),  
10    .ble_i(4'b1111),  
11    .d_i(32'h0),  
12    .add_i(imem_add_w[11:2]),  
13    .d_o(imem_data_w),  
14    .valid_o(imem_valid_w)  
15 );
```

#### DMEM

```
1 assign dmem_we_w = dwe_w &  
    ↪ dmem_cs_w;  
2 assign dmem_re_w = dre_w &  
    ↪ dmem_cs_w;  
3 wsync_mem #(  
4     .SIZE(4096),  
5     .WS(0),  
6     .INIT_FILE(DMEM_INIT_FILE)  
7 ) dmem (  
8     .clk_i(clk_i),  
9     .we_i(dmem_we_w),  
10    .re_i(dmem_re_w),  
11    .ble_i(ble_w),  
12    .d_i(dmem_di_w),  
13    .add_i(dmem_add_w[11:2]),  
14    .d_o(dmem_do_w),  
15    .valid_o(dmem_valid_w)  
16 );
```

Ces mémoires ont une taille de 4096 mots chacune, comme indiqué par la ligne `.SIZE(4096)`. Ainsi, un programme ne peut pas faire plus de 4096 instructions sinon on ne peut pas le stocker complètement dans la mémoire et il ne peut pas non plus stocker plus de 4096 mots dans la mémoire de données.

Les adresses de base sont à 0 pour IMEM et 65536 pour DMEM. Ce choix permet de déterminer si une adresse appartient à la mémoire d'instruction ou la mémoire de données en ne regardant qu'un seul bit :

**FIGURE 1.5 : Distinction des adresses IMEM et DMEM (en hexa)**

|      |   |   |   |   |        |        |        |        |
|------|---|---|---|---|--------|--------|--------|--------|
| IMEM | 0 | 0 | 0 | 0 | $X_3$  | $X_2$  | $X_1$  | $X_0$  |
| DMEM | 0 | 0 | 0 | 1 | $X'_3$ | $X'_2$ | $X'_1$ | $X'_0$ |

## 1.2 Éxécution et simulation d'un programme

Maintenant que nous nous sommes familiarisé avec l'architecture de référence du processeur, nous allons le tester en faisant tourner quelques programmes.

### 1.2.1 Un premier programme

Le premier programme que nous allons tester nous est fourni est s'appelle `exo1.S`, voici son contenu :

#### `exo1.S`

```

1 .section .start;
2 .globl start;
3
4 start:
5     li t0,1
6     li t1,2
7     li t2,3
8     li t3,4
9     li t4,5
10    li t5,6
11    li t6,7
12 lab1 :
13    j lab1      # Boucle infinie (signale la
14    nop          # fin du programme
15
16 .end start

```

Ce programme n'est pas censé poser de difficultés au processeur puisqu'il n'y a aucune dépendance de données. Les opérations `li` sont des pseudo-instructions qui sont compilés comme ci-contre.

```

1 # Pseudo instruction
2 li rd, imm
3 # Instruction équivalente
4 addi rd, x0, imm

```

De plus, on voit que le programme finit par une boucle infinie d'instruction `J` suivie de `NOP`. Tous les programmes que nous écrirerons pour ce processeur devront finir par cette boucle infinie. En effet, dans le testbench (`./TD1/modified/tb/RV32i_tb.sv`), il y a une boucle qui compte si cette séquence de `J` et de `NOP` se répète 5 fois d'affilé. Si c'est le cas, on stoppe le programme. Cette séquence d'instruction est donc un moyen de dire que la simulation est finie.

### Code déterminant la fin de la simulation

```

1 do begin
2     @(inst_w); // Attendre que inst_w change
3     if (inst_w == 32'h0000000F) begin // Détection du J
4         @(inst_w); // Attendre que inst_w change
5         if (inst_w == 32'h00000013) i = i + 1; // Détection du NOP
6         else begin
7             @(inst_w);
8             i = 0;
9         end
10    end
11 end while (i < 5); // Répétition 5 fois
12
13 $stop; // Arrêt de la simulation

```

Ainsi, après l'exécution du programme exo1.S, le résultat dans les registres est correct comme l'illustre le chronogramme ci-dessous.

**FIGURE 1.6 : Chronogramme de exo1.S**



Note : Vous pouvez voir les captures d'écran de toutes les simulations ModelSim en annexe en fin de rapport. [Cliquez ici](#) (Figure 3.6)

## 1.2.2 Un second programme

Le second programme de test est spécifiquement conçu pour introduire des dépendances de données. Son exécution vise à mettre en évidence les limites de l'architecture actuelle et à confirmer que le processeur, en l'absence de mécanismes de gestion des aléas, ne permet pas encore de garantir l'intégrité des résultats. Le code assembleur utilisé pour ce test se trouve ci-dessous :

**FIGURE 1.7 : Code du second programme de test**

```

1 .section .start;
2 .globl start;
3
4 start:
5   li t0, 0x3
6   li t1, 0x8
7   add t2, t0, t1 # Dépendance de données
8   li t3, 0x10
9   li t4, 0x11
10  sub t5, t3, t4 # Dépendance de données
11 lab1 :
12  j lab1
13  nop
14
15 .end start

```

Les dépendances de données observées proviennent d'un conflit de lecture/écriture : les résultats des chargements dans les registres t0, t1, t3 et t4 n'ont pas encore été stabilisés dans le banc de registres. En effet, alors que les instructions add et sub atteignent l'étage EXECUTE, les données dont elles dépendent transitent encore dans les étages MEMORY ou WRITE BACK. En l'absence de mécanisme de gestion des dépendances de données, le processeur utilise les valeurs obsolètes (égales à 0) présentes dans les registres, ce qui conduit à des calculs erronés. Les résultats de cette exécution sont détaillés ci-dessous :

**FIGURE 1.8 : Résultats de l'exécution de main.s**

| Registre | Résultat Correct | Résultat Réel |
|----------|------------------|---------------|
| t0 (x5)  | 0x03             | 0x03          |
| t1 (x6)  | 0x08             | 0x08          |
| t2 (x7)  | 0x0B             | 0x00          |
| t3 (x28) | 0x10             | 0x10          |
| t4 (x29) | 0x11             | 0x11          |
| t5 (x30) | 0x21             | 0x00          |

Note : . Accéder à la simulation ModelSim (Figure 3.7)

Comme attendu, le processeur n'a pas bien calculé les valeurs de t2 et t5. Pour remédier à ce problème, nous allons donc commencer à implémenter la gestion des dépendances dans le prochain TD.

## TD 2

# Gestion des dépendances

L'étape précédente a mis en évidence les limites d'un pipeline sans mécanismes de contrôle : les dépendances de données mais aussi les ruptures du flux d'instructions compromettent l'intégrité de l'exécution. Cette deuxième partie est consacrée à la résolution de ces problématiques à travers l'implémentation de solutions logicielles et matérielles.

Nous travaillerons sur trois mécanismes de contrôle :

- **Résolution des dépendances de données** : Nous comparerons deux approches pour garantir la disponibilité des opérandes. D'une part, une méthode logicielle par insertion d'instructions NOP (No Operation), et d'autre part, une solution matérielle via l'implémentation d'un mécanisme d'Interlock.
- **Gestion des ruptures de flux** : Nous traiterons les dépendances de contrôle liées aux instructions de branchement et de saut, afin d'assurer la cohérence du PC lors des ruptures de séquence.
- **Synchronisation mémoire** : Enfin, nous intégrerons un mécanisme de *Wait State (WS)*. Ce dispositif permettra au processeur de se synchroniser avec la mémoire d'instruction en suspendant le pipeline jusqu'à la réception effective des instructions demandées.

## 2.1 Correction des dépendances

### 2.1.1 Correction logicielle

Nous allons commencer par essayer de corriger le problème des dépendances de façon logicielle en insérant des instructions NOP là où les dépendances peuvent

arriver.

Une instruction NOP (No OPeration) est une instruction dont le but est de ne rien faire du tout. On peut coder une instruction NOP sur l'architecture RISC-V en ajoutant 0 au registre  $x0$ . En effet, le registre  $x0$  est un registre spécial qui contient toujours 0. Voici l'équivalent de l'instruction NOP :

### Instruction équivalente à un NOP

```
1 addi x0, x0, 0
```

On distingue trois types de dépendances :

1. Les dépendances de données
2. Les dépendances de contrôle de type branchement
3. Les dépendances de contrôle de type saut

### Le cas des dépendances de données

Les dépendances de données arrivent lorsque le résultat d'un calcul n'a pas eu le temps d'être mis à jour dans les registres et qu'une seconde opération dans l'étage EXECUTE nécessite le résultat de l'opération précédente, par exemple :

### Exemple de dépendance de données

```
1 addi x8, x8, 1
2 addi x8, x8, 1
```

La première instruction addi doit d'abord passer par les étages de MEMORY et WRITE BACK avant de mettre à jour les registres.

**Il faut donc 3 NOP pour gérer une dépendance de données :**

```
1 addi x8, x8, 1
2 nop
3 nop
4 nop
5 addi x8, x8, 1
```

### Le cas des dépendances de contrôle de type branchement

Les dépendances de contrôle de type branchement arrivent lorsque le flux d'exécution du programme est rompu, c'est à dire lorsqu'on prends un branchement. Voici un exemple pour mieux comprendre :

**Exemple de dépendance de contrôle de type branchement**

```

1 beq t0, t1, label # Si t0 == t1, on saute au label
2 addi t2, t2, 1     # Instruction suivante "par défaut"
3 subi t3, t3, 1     # Instruction suivante "par défaut"
4 ...
5 label: sub t3, t4, t5

```

Pour un branchement, la prise de décision est faite à l'étage EXECUTE. Or, à ce moment, les instructions addi et subi juste après sont déjà dans la pipeline aux étages DECODE et FETCH. Même si on change le PC et que l'on prends bien le branchement pour executer l'opération sub, les instructions addi et subi seront quand même exécutées lors des prochains cycle d'horloge.

**Il faut donc 2 NOP pour gérer une dépendance de contrôle de type branchement :**

```

1 beq t0, t1, label
2 nop
3 nop
4 addi t2, t2, 1
5 subi t3, t3, 1
6 ...
7 label: sub t3, t4, t5

```

**Le cas des dépendances contrôle de type saut**

Pour finir, les dépendances de contrôle de type saut arrivent presque à cause des mêmes raisons que les dépendances de branchement, cependant contrairement à ces dernières, les dépendances de contrôle de type saut font changer le PC à l'étage DECODE, donc seule une seule instruction est déjà dans la pipeline derrière elle.

**Exemple de dépendance de contrôle de type saut**

```

1 j label
2 addi x7, x7, 1
3 ...
4 label: addi t3, t3, 1

```

**Il faut donc 1 NOP pour gérer une dépendance de contrôle de type saut :**

```

1 j label
2 nop
3 addi x7, x7, 1
4 ...
5 label: addi t3, t3, 1

```

### Nouveau programme à corriger

Pour ce deuxième TD, un nouveau programme à l'emplacement `./TD2/modified/firmware/exo2_unmodified.S` nous a été fourni. Une copie de ce programme est disponible en annexe ([Figure 3.8](#)). S'il est correctement exécuté, nous devons obtenir les valeurs suivantes dans nos registres :

**FIGURE 2.1 : Valeurs des registres à la fin de `exo2.S`**

| Registre | Résultat Correct |
|----------|------------------|
| t0 (x5)  | 0x0F             |
| t1 (x6)  | 0x10             |
| t2 (x7)  | 0x00             |
| fp (x8)  | 0x02             |

Comme nous l'avons mis en évidence auparavant, l'absence de traitement des dépendances conduit inévitablement à des erreurs d'exécution. Afin de garantir l'intégrité des calculs, nous présentons ici la version corrigée du programme intégrant des instructions NOP. Le nombre de cycles d'attente insérés entre chaque instruction critique respecte les délais établis lors de l'analyse des dépendances dans les sections précédentes.

### Correction logicielle de exo2.S

```

1 .section .start;
2 .globl start;
3
4 start:
5     addi x5, x0, 15
6     add x6, x0, x0
7     add x7, x0, x0
8     add x8, x0, x0
9 lab1:
10    j lab2           // Dépendance de contrôle de type J;
11    nop             // On a besoin de 1 NOP
12    addi x7, x7, 1  //
13 lab2:
14    addi x6, x6, 1  //
15    nop             // Dépendance de données:
16    nop             // On a besoin de 3 NOP
17    nop             //
18    bge x5, x6, lab1
19    nop             //
20    → B:            // Dépendance de contrôle avec instruction type
21    nop             // On a besoin de 2 NOP
22    addi x8, x8, 1  //
23    nop             // Dépendance de données:
24    nop             // On a besoin de 3 NOP
25    nop             //
26    addi x8, x8, 1  //
27    nop             //
28    nop             // Ces NOP sont ici avoir le temps de mettre le
29    → addi dans r8
30    nop             //
31 lab3:
32    j lab3          // Condition de stop du testbench:
33    nop             // avoir 5 fois j lab3 suivi d'un nop
34
35 .end start

```

Voici là aussi le chronogramme de l'exécution de ce nouveau programme :

**FIGURE 2.2 : Chronogramme de l'exécution de la correction logicielle**



Note : . Accéder à la simulation ModelSim (Figure 3.9)

### 2.1.2 Correction Matérielle des dépendances de données

La correction logicielle n'est pas une solution souhaitable car avec cette solution un programme devrait être recompilé pour chaque type de processeur exis-

tant (qui ont chacun des pipelines différentes). Cela créerait vite des casse-tête énorme pour les développeurs de compilateurs. De plus, les exécutables seraient beaucoup plus lourds que ce qu'ils ne pourraient être. Ainsi, il y aurait beaucoup de gâchis de mémoire avec cette solution.

Il est donc préférable de corriger les dépendances de façon matérielle. Notre objectif dans cette partie sera donc d'écrire une équation booléenne correcte du signal `stall_o` du fichier `./TD2/modified/hdl_src/RV32i_pipeline-controlpath.sv` qui permet de stopper les étages `FETCH` et `DECODE` du *datapath*

### Identification des opérandes et des destinations

La première étape consiste à extraire les adresses des registres impliqués dans chaque étage du pipeline. Dans l'étage `DECODE`, on identifie les sources potentielles via les signaux `rs1_dec_w` et `rs2_dec_w`. Simultanément, on surveille les adresses de destination (`rd`) des instructions plus avancées dans le pipeline (étages `EXE`, `MEM` et `WB`).

Une dépendance brute existe si l'adresse d'une source en cours de décodage correspond à l'adresse d'une destination en cours d'exécution ou de sauvegarde.

### Première écriture du `stall_o`

Nous créons deux signaux, `hazard_rs1` et `hazard_rs2` qui sont vrai lorsqu'il y a une dépendance de donnée sur `rs1` et `rs2` respectivement.

Alors, nous pouvons dire que nous devons activer le `stall` lorsqu'au moins un de ces signaux est vrai.

#### RV32i\_pipeline\_controlpath.sv

```

1 logic hazard_rs1;
2 logic hazard_rs2;
3
4 // Condition de stall sur rs1:
5 assign hazard_rs1 = rs1_dec_w == rd_add_exec_w || rs1_dec_w ==
   → rd_add_mem_w || rs1_dec_w == rd_add_wb_w;
6
7 // Condition de stall sur rs2
8 assign hazard_rs2 = rs2_dec_w == rd_add_exec_w || rs2_dec_w ==
   → rd_add_mem_w || rs2_dec_w == rd_add_wb_w;
9
10 assign stall_o = hazard_rs1 || hazard_rs2;
```

Cependant, comme nous allons le voir dans la prochaine partie, cette logique n'est pas du tout complète.

## Correction du signal de stall

En effet, il existe des instructions RISCV RV32I qui ne contiennent pas les opérandes rs1, rs2 ou rd :

**FIGURE 2.3 : Types d'instructions de RV32i**

| 31           | 27                    | 26 | 25  | 24 | 20     | 19          | 15 | 14     | 12     | 11 | 7 | 6 | 0 |        |
|--------------|-----------------------|----|-----|----|--------|-------------|----|--------|--------|----|---|---|---|--------|
| funct7       | rs2                   |    | rs1 |    | funct3 |             | rd |        | opcode |    |   |   |   | R-type |
|              | imm[11:0]             |    | rs1 |    | funct3 |             | rd |        | opcode |    |   |   |   | I-type |
| imm[11:5]    | rs2                   |    | rs1 |    | funct3 | imm[4:0]    |    | opcode |        |    |   |   |   | S-type |
| imm[12 10:5] | rs2                   |    | rs1 |    | funct3 | imm[4:1 11] |    | opcode |        |    |   |   |   | B-type |
|              | imm[31:12]            |    |     |    |        |             | rd |        | opcode |    |   |   |   | U-type |
|              | imm[20 10:1 11 19:12] |    |     |    |        |             | rd |        | opcode |    |   |   |   | J-type |

Nous allons donc devoir créer cinq signaux supplémentaires :

- rs1\_re\_dec\_w : qui est vrai lorsque l'opération à l'étage DECODE utilise rs1.
- rs2\_re\_dec\_w : qui est vrai lorsque l'opération à l'étage DECODE utilise rs2.
- rd\_we\_exec\_w, rd\_we\_mem\_w et rd\_we\_wb\_w : qui sont vrai lorsque l'instruction dans les étages EXEC, MEMORY ou WRITE BACK utilisent rd.

Pour ce faire, examinons les *opcodes* des instructions qui utilisent rs1, rs2 et rd pour essayer de déterminer les différences entre les opérations qui utilisent ces opérandes et les autres.

**FIGURE 2.4 : Opcodes et utilisation des opérandes**

| Type d'instruction | Opcode    | rs1 Utilisé | rs2 utilisé | rd utilisé |
|--------------------|-----------|-------------|-------------|------------|
| R                  | 0b0110011 | ✓           | ✓           | ✓          |
| I                  | 0b0010011 | ✓           | ✗           | ✓          |
| I (bis)            | 0b0000011 | ✓           | ✗           | ✓          |
| S                  | 0b0100011 | ✓           | ✓           | ✗          |
| B                  | 0b1100011 | ✓           | ✓           | ✗          |
| U                  | 0b0110111 | ✗           | ✗           | ✓          |
| J                  | 0b1101111 | ✗           | ✗           | ✓          |

**Pour rs1** La différence entre un *opcode* qui utilise rs1 et les autres est le bit de poids 2<sup>2</sup>.

**Définition de rs1\_re\_dec\_w**

```

1 logic rs1_re_dec_w;
2
3 // Les instructions qui utilisent rs1 ont ce bit à 0, les autres à
   ↪ 1
4 assign rs1_re_dec_w = !opcode_dec_w[2];

```

**Pour rs2** La différence entre un *opcode* qui utilise rs2 et les autres se trouve dans le fait qu'un *opcode* qui utilise rs2 a les bit de poids  $2^2$  à 0 et le bit de poids  $2^5$  à 1.

**Définition de rs2\_re\_dec\_w**

```

1 logic rs2_re_dec_w;
2
3 // Les instructions qui utilisent rs1 ont ce bit à 0, les autres à
   ↪ 1
4 assign rs2_re_dec_w = !opcode_dec_w[2] && opcode_dec_w[5];

```

**Pour rd** Les *opcodes* qui utilisent rd sont les seuls à avoir la séquence 0b100 entre les bits de poids  $2^5$  et  $2^3$ .

**Définition de rd\_we\_XXX\_w**

```

1 // Les rd_we_XXX_w sont à 1 lorsqu'une instruction dans XXX utilise
2 // rd.
3 logic rd_we_exec_w, rd_we_mem_w, rd_we_wb_w;
4
5 // Fonction qui retourne 1 si l'instruction utilise rd, 0 sinon.
6 function logic rd_used(input logic [31:0] inst);
7   // Cas spécial pour les instructions qui utilisent R0.
8   // On DOIT les rendre non-bloquants sinon ils peuvent
9   // créer un stall infini.
10  //
11  //           RD      !=      R0      &&      OPCODE[5:3] !=
12    ↪ 3'b100
13  rd_used = ( inst[11:7] != 7'b0000000 ) && ( inst[5:3] !=
14    ↪ 3'b100 );
15 endfunction
16
17 // On applique la fonction rd_used aux signaux rd des différents
18 // stages de la pipeline.
19 assign rd_we_exec_w = rd_used(inst_exec_r);
20 assign rd_we_mem_w = rd_used(inst_mem_r);
21 assign rd_we_wb_w = rd_used(inst_wb_r);

```

**Écriture finale de l'expression de stall\_o pour les dépendances de données**

En combinant les extraits de code des parties précédentes, nous arrivons à cette expression pour stall\_o :

**FIGURE 2.5 : Expression de stall\_o**

```

1 // Les rd_we_XXX_w sont à 1 lorsqu'une instruction dans XXX utilise rd
2 // Les hazard_rsX sont à 1 lorsqu'il y a dépendance de donnée sur le registre rsX.
3 // Les rsX_re_dec_w sont à 1 lorsque l'instruction dans le stage DEC utilise rsX
4 logic rd_we_exec_w, rd_we_mem_w, rd_we_wb_w;
5 logic hazard_rs1, hazard_rs2;
6 logic rs1_re_dec_w, rs2_re_dec_w;
7
8 // Fonction qui retourne 1 si l'instruction utilise rd, 0 sinon.
9 function logic rd_used(input logic [31:0] inst);
10    // Cas spécial pour les instructions qui utilisent R0.
11    // On DOIT les rendre non-bloquants sinon ils peuvent
12    // créer un stall infini.
13    //
14    //      RD      !=      R0      &&      OPCODE[5:3] != 3'b100
15    rd_used = ( inst[11:7] != 7'b0000000 ) && ( inst[5:3] != 3'b100 );
16 endfunction
17
18 // On applique la fonction rd_used aux signaux rd des différents
19 // stages de la pipeline.
20 assign rd_we_exec_w = rd_used(inst_exec_r);
21 assign rd_we_mem_w = rd_used(inst_mem_r);
22 assign rd_we_wb_w = rd_used(inst_wb_r);
23
24 // Les opcodes qui utilisent rs1 ont le bit 2^2 à 0, les autres à 1
25 // Les opcodes qui utilisent rs2 ont le bit 2^2 à 0 et le 2^5 à 1, ce qui n'est
26 // pas le cas des autres opcodes.
27 assign rs1_re_dec_w = !opcode_dec_w[2];
28 assign rs2_re_dec_w = !opcode_dec_w[2] && opcode_dec_w[5];
29
30 // Il y a une dépendance de donnée sur rsX lorsque:
31 // - rsX est utilisé dans le stage DEC
32 // - rd est utilisé dans le stage EXEC, MEM ou WB
33 // - rsX correspond à rd dans le stage EXEC, MEM ou WB
34 assign hazard_rs1 =
35   (rs1_re_dec_w)
36 && (
37   (rd_we_exec_w && (rs1_dec_w == rd_add_exec_w))
38   || (rd_we_mem_w && (rs1_dec_w == rd_add_mem_w))
39   || (rd_we_wb_w && (rs1_dec_w == rd_add_wb_w)))
40 );
41 assign hazard_rs2 =
42   (rs2_re_dec_w)
43 && (
44   (rd_we_exec_w && (rs2_dec_w == rd_add_exec_w))
45   || (rd_we_mem_w && (rs2_dec_w == rd_add_mem_w))
46   || (rd_we_wb_w && (rs2_dec_w == rd_add_wb_w)))
47 );
48
49 // On stall si on a une dépendance de données sur rs1 ou sur rs2.
50 assign stall_o = hazard_rs1 || hazard_rs2;

```

Une fois avoir enlevé les dépendances de données de notre programme, (maintenant enregistré sous le nom `exo2_Q10.S` (Figure 3.10), nous pouvons tester cette logique sur ModelSim en faisant `./build Q10` dans le TD2. Cela nous permet de vérifier que ce code est juste puisque les registres ont les bonnes valeurs de fin et que le signal de `stall` s'active au bon moment.

FIGURE 2.6 : Activation du stall pour les dépendances de données



Note : Retrouvez l'intégralité de la simulation en cliquant ici (Figure 3.11)

### 2.1.3 Correction matérielle des dépendances de contrôle de type saut

Pour assurer le bon fonctionnement du processeur lors de l'exécution d'instructions de rupture de flux, nous avons implémenté une logique spécifique pour les instructions de type J.

#### Analyse du comportement au travers d'un exemple

Considérons le programme assembleur suivant :

##### Programme d'exemple pour la gestion de saut

```

1 0x100: ADDI R1, R1, 15
2 0x104: ADDI R1, R1, 15
3 0x108: ADDI R2, R1, 15
4 0x10C: J 0x11C          # Instruction de saut
5 0x110: ADDI R4, R0, 10  # Instruction devant être annulée
6 0x114: ADDI R5, R0, 10
7 0x118: ADDI R6, R0, 10
8 0x11C: ADDI R7, R2, 5  # Cible du saut
9 0x120: NOP
10 0x124: ORI R7, R7, 16

```

Dans ce scénario, le flux d'exécution se déroule normalement jusqu'à ce que l'instruction J atteigne l'étage DECODE. Au front d'horloge suivant, l'instruction située à l'adresse 0x110 (ADDI R4, R0, 10), qui a déjà été chargée par anticipation, est remplacée par une instruction NOP. Simultanément, le circuit de calcul des sauts met à jour le (PC) à l'adresse cible 0x11C.

L'état successif des instructions dans l'étage DECODE est alors le suivant :

1. J 0x11C
2. NOP (insérée pour annuler l'instruction chargée par erreur)
3. ADDI R7, R2, 5

**Note sur les dépendances de données :** Un point crucial de cette implémentation est la synergie avec le mécanisme de *stall*. On remarque que lorsque l'instruction ADDI R7, R2, 5 arrive à l'étage DECODE, l'instruction ADDI R2, R1, 15 se situe à l'étage WRITE BACK. En conséquence, le signal de *stall* s'active naturellement.

**Il n'est donc pas nécessaire de modifier la condition de stall existante pour gérer les dépendances liées aux sauts.**

À l'étage EXECUTE, la séquence d'exécution finale se présente ainsi :

- ADDI R2, R1, 15
- J 0x11C
- NOP
- NOP (induite par le *stall*)
- ADDI R7, R2, 5

### Modifications matérielles

En résumé, l'implémentation de la logique des sauts repose sur deux piliers :

1. La détection des instructions de type J dès l'étage DECODE.
2. L'ajout d'un multiplexeur en amont du registre de l'étage DECODE. Ce multiplexeur transmet l'instruction provenant de l'étage FETCH par défaut, mais insère un NOP dès qu'un saut est détecté.

**Modification du Datapath** Dans le fichier RV32i\_pipeline\_datapath.sv, nous avons introduit un signal d'entrée permettant de forcer l'insertion d'un NOP.

**RV32i\_pipeline\_datapath.sv**

```

1 module RV32i_datapath (
2   ...
3   // Fetch stage
4   input logic fetch_nop_i, // Signal du control_path
5   // sélectionnant un NOP
6   // pour le registre DEC à la place de
7   // l'instruction
8   // mémoire habituelle.
9   ...
10 );
11 ...
12 // Sélectionne un NOP (0x00000013) si fetch_nop_i est actif,
13 // sinon transmet imem_data_i
14 assign inst_w = fetch_nop_i ? 32'h00000013 : imem_data_i;

```

**Modification du Controlpath** Dans le fichier `RV32i_pipeline_controlpath.sv`, la logique de détection identifie l'Opcode correspondant au type J.

**RV32i\_pipeline\_controlpath.sv**

```

1 module RV32i_controlpath (
2   ...
3   // Fetch stage
4   output logic fetch_nop_o, // Commande l'insertion du NOP dans
5   // le datapath.
6   ...
7 );
8 ...
9 // Activation si l'opcode à l'étage de décodage correspond à une
10 // → instruction J
11 // opcode_dec_w provient de l'instruction actuellement en étage DEC
12 assign fetch_nop_o = (opcode_dec_w == 7'b1101111);

```

**Interconnexion au niveau Top** Enfin, les signaux sont interconnectés dans le module *Top*.

**RV32i\_pipeline\_top.sv**

```

1 // Signal d'interconnexion pour le Fetch Stage
2 logic fetch_nop_w;
3
4 RV32i_datapath dp (
5   ...
6   .fetch_nop_i(fetch_nop_w),
7   ...
8 );
9
10 RV32i_controlpath cp (
11   ...
12   .fetch_nop_o(fetch_nop_w),
13   ...
14 );

```

## 2.1.4 Test de la gestion des sauts

Pour tester notre gestion des sauts, nous créons une autre version du programme, appelée `exo2_Q12.S` (Figure 3.12) qui ne contient plus de NOP là où il y avait des gestions de saut. Une simulation ModelSim nous permet de voir que notre solution fonctionne puisque les registres ont les bonnes valeurs à la fin du programme et que le signal `fetch_nop_o` s'active au bon moment.

Pour lancer cette simulation, tapez `./build Q12`

**FIGURE 2.7 : Activation du `fetch_nop_o` pour les dépendances de saut**



Note : Retrouvez l'intégralité de la simulation en [cliquant ici](#) (Figure 3.13)

## 2.2 Correction matérielle des dépendances de contrôle de branchement

### 2.2.1 Logique de fonctionnement des branchements

Une opération de branchement suit la logique algorithmique suivante :

```

1 if (condition(rs1, rs2)) {
2     PC += imm;
3 } else {
4     PC += 4;
5 }

```

Dans notre architecture, l'adresse cible du PC en cas de branchement peut être déterminée dès l'étage DECODE. Cependant, la décision effective (savoir si la condition est remplie) ne peut être validée qu'après le passage dans l'ALU.

Ainsi, la décision n'est connue avec certitude qu'au moment où le résultat de la condition est stabilisé dans le registre de l'étage MEMORY.

En fonction du résultat, deux scénarios se présentent :

- **Si la branche n'est pas prise** : Le flot d'exécution se poursuit séquentiellement sans interruption.
- **Si la branche est prise** : Deux instructions ont déjà été chargées par anticipation dans le pipeline (aux étages DECODE et EXECUTE). Ces instructions étant invalides, elles doivent être supprimées (*flush*).

### 2.2.2 Analyse des dépendances de données lors d'un branchement

Lorsqu'une dépendance de données survient simultanément à un branchement effectif, la situation est la suivante :

- Le branchement se situe dans l'étage MEMORY.
- Une instruction dépendante se trouve dans DECODE.
- Une autre instruction dépendante est soit dans EXECUTE, soit dans WRITE BACK.

Si l'instruction dépendante est dans WRITE BACK ou EXECUTE et que la branche est prise, les étages DECODE et EXECUTE sont vidés. Par conséquent, la dépendance de donnée est naturellement résolu par le changement de flux de contrôle.

### 2.2.3 Problématique du (*stall*) actuel

Avec notre implémentation actuelle, une dépendance de donnée lors d'un branchement active le signal `stall_o = 1` dans le *controlpath*. Cela propage `stall_dec_w = 1` dans le *top*, puis `stall_dec_i = 1` dans le *datapath*.

Considérons le code de gestion du PC :

```

1 // Définition de la clock
2 always_ff @(posedge clk_i, negedge resetn_i) begin :
3   → program_counter
4   if (!resetn_i) pc_counter_r <= '0;
5   else begin
6     if (!stall_dec_i || (pc_next_sel_i == SEL_PC_BRANCH)) begin
7       pc_counter_r <= pc_next_w;
8     end
9   end
10
11 // Définition de la sélection du prochain PC
12 always_comb begin : pc_next_comb
13   case (pc_next_sel_i)
14     SEL_PC_PLUS_4: pc_next_w = pc_plus4_w;
15     SEL_PC_JAL:   pc_next_w = pc_j_target_w;
16     SEL_PC_JALR:  pc_next_w = pc_jr_target_w;
17     SEL_PC_BRANCH: pc_next_w = pc_br_target_r;
18     default:    pc_next_w = pc_plus4_w;
19   endcase
20 end

```

Le problème réside dans le fait que le PC se retrouve bloqué par le mécanisme de *stall*. Cela empêche l'exécution effective du branchement et entraîne un gaspillage de cycles d'horloge.

**Il est donc impératif de modifier la formule du signal stall\_o !**

## 2.2.4 Implémentation de la solution

Pour corriger ce comportement, nous devons :

- Implémenter un mécanisme permettant de remplacer le contenu des étages EXECUTE et DECODE par des instructions NOP (*flush*).
- Lever l'état de *stall* si un branchement est pris (étage MEMORY).

### Modifications du Controlpath

Dans le fichier RV32i\_pipeline\_controlpath.sv, nous modifions l'équation du *stall* pour qu'elle soit ignorée si une branche est prise :

**RV32i\_pipeline\_controlpath.sv**

```

1 // La condition de stall est qualifiée par l'absence de
2 // branchement pris
3 assign stall_o = (hazard_rs1 || hazard_rs2) && !branch_taken_w;
4
5 // Étage DEC
6 assign inst_dec_w = stall_dec_i ? 32'h00000013 : instruction_i;
7
8 // Étage EXEC
9 always_ff @(posedge clk_i or negedge resetn_i) begin : exec_stage
10   if (!resetn_i) begin
11     inst_exec_r <= 32'h0;
12   end else if (branch_taken_w) begin
13     // Flush de l'étage EXEC en insérant un NOP
14     inst_exec_r <= 32'h00000013;
15   end else if (!stall_exec_i) begin
16     inst_exec_r <= inst_dec_w;
17   end
18 end
19
20 // Logique de décision du branchement
21 always_comb begin : branch_taken_comb
22   case (opcode_exec_w)
23     RV32I_B_INSTR: begin
24       case (func3_exec_w)
25         RV32I_FUNCT3_BEQ: branch_taken_w = alu_zero_i;
26         RV32I_FUNCT3_BNE: branch_taken_w = !alu_zero_i;
27         RV32I_FUNCT3_BLT: branch_taken_w = alu_lt_i;
28         RV32I_FUNCT3_BGE: branch_taken_w = !alu_lt_i;
29         RV32I_FUNCT3_BLTU: branch_taken_w = alu_ltu_i;
30         RV32I_FUNCT3_BGEU: branch_taken_w = !alu_ltu_i;
31         default: branch_taken_w = 1'b0;
32       endcase
33     end
34     default: branch_taken_w = 1'b0;
35   endcase
36 end
37
38 assign branch_taken_o = branch_taken_w;

```

**Modifications du Datapath**

Dans le fichier `RV32i_pipeline_datapath.sv`, nous ajoutons les entrées de *flush* pour nettoyer les registres de pipeline :

**RV32i\_pipeline\_datapath.sv**

```

1 // Étage DEC
2 always_ff @(posedge clk_i or negedge resetn_i) begin : dec_stage
3   if (!resetn_i) begin
4     // Reset des signaux...
5     opcode_r <= '0;
6   end else if (flush_dec_i) begin
7     // Flush : insertion d'un NOP (ADDI x0, x0, 0)
8     opcode_r <= 7'b0010011;
9     func3_dec_r <= '0;
10    func7_dec_r <= '0;
11    rs1_addr_r <= '0;
12    rs2_addr_r <= '0;
13    rd_addr_dec_r <= '0;
14    pc_counter_dec_r <= '0;
15   end else if (!stall_dec_i) begin
16     opcode_r <= opcode_w;
17     func3_dec_r <= func3_w;
18     func7_dec_r <= func7_w;
19     rs1_addr_r <= rs1_addr_w;
20     rs2_addr_r <= rs2_addr_w;
21     rd_addr_dec_r <= inst_w[11:7];
22     pc_counter_dec_r <= pc_counter_r;
23   end
24 end
25
26 // Étage EXEC
27 always_ff @(posedge clk_i or negedge resetn_i) begin : exec_stage
28   if (!resetn_i) begin
29     alu_op1_data_r <= '0;
30     // ...
31   end else if (flush_exec_i) begin
32     alu_op1_data_r <= '0;
33     alu_op2_data_r <= '0;
34     rs2_data_r <= rs2_data_w;
35     func3_exec_r <= '0;
36     pc_br_target_r <= pc_br_target_w;
37     pc_counter_exec_r <= pc_counter_dec_r;
38   end else if (!stall_exec_i) begin
39     alu_op1_data_r <= alu_op1_data_w;
40     alu_op2_data_r <= alu_op2_data_w;
41     rs2_data_r <= rs2_data_w;
42     func3_exec_r <= func3_dec_r;
43     pc_br_target_r <= pc_br_target_w;
44     pc_counter_exec_r <= pc_counter_dec_r;
45   end
46 end

```

**Modifications du Module Top**

Enfin, nous connectons les signaux de *flush* au signal *branch\_taken* dans *RV32i\_pipeline\_top.sv*:

### RV32i\_pipeline\_top.sv

```

1 logic branch_taken_w;
2 logic flush_dec_w, flush_exec_w;
3
4 RV32i_datapath dp (
5     .flush_dec_i(flush_dec_w),
6     .flush_exec_i(flush_exec_w),
7     // ...
8 );
9
10 RV32i_controlpath cp (
11     .branch_taken_o(branch_taken_w),
12     // ...
13 );
14
15 // Utilisation de signaux distincts pour le futur,
16 // bien qu'identiques ici
17 assign flush_dec_w = branch_taken_w;
18 assign flush_exec_w = branch_taken_w;

```

## 2.2.5 Test de la gestion des dépendances de contrôle de type branchement

Pour tester notre gestion des branchements, nous créons une autre version du programme, appelée `exo2_Q14.S` (Figure 3.14) qui ne contient plus de NOP nulle part. Une simulation ModelSim nous permet de voir que notre solution fonctionne puisque les registres ont les bonnes valeurs à la fin du programme. Pour lancer cette simulation, tapez `./build Q14`

**FIGURE 2.8 : Test ModelSim des dépendances de branchement**



Note : Retrouvez l'intégralité de la simulation en [cliquant ici](#) (Figure 3.15)

## 2.3 Validation globale avec `ilock_tests.S`

Pour finaliser la validation de notre architecture, nous avons soumis le processeur à une suite de tests intensive contenue dans le fichier `ilock_tests.S`.

Le programme `ilock_tests.S` est structuré en plusieurs séquences distinctes, chacune isolée par l'insertion de quatre instructions NOP. Cette séparation permet de s'assurer que le pipeline est totalement vidé entre chaque test, évitant ainsi toute interférence résiduelle entre les différentes conditions de risque étudiées.

Le tableau ci-dessous récapitule les valeurs attendues dans les registres  $x1$  à  $x5$  après l'exécution des différentes étapes de validation :

Pour lancer la simulation ModelSim correspondante, utiliser la commande `./build.sh Q15`

**FIGURE 2.9 : Valeurs des registres lors des tests d'interlock (*iLock\_tests.s*)**

| Nature du Test                     | Étape | x1       | x2   | x3   | x4 | x5 |
|------------------------------------|-------|----------|------|------|----|----|
| <b>1. Sans dépendance</b>          | -     | 1        | 2    | 3    | 4  | 5  |
| <b>2. Dépendance rs1</b>           | 1     | 2        | 3    | -    | -  | -  |
|                                    | 2     | 3        | 3    | -    | -  | -  |
|                                    | 3     | 3        | 3    | -    | -  | -  |
|                                    | 4     | 3        | 3    | -    | -  | -  |
|                                    | 5     | 3        | 3    | -    | -  | -  |
| <b>3. Dépendance rs2</b>           | 1     | 4        | 5    | -    | -  | -  |
|                                    | 2     | 5        | 5    | -    | -  | -  |
|                                    | 3     | 5        | 5    | -    | -  | -  |
|                                    | 4     | 5        | 5    | -    | -  | -  |
|                                    | 5     | 5        | 5    | -    | -  | -  |
| <b>4. Non-activation Interlock</b> | 1     | 0x10800  | 6    | -    | -  | -  |
|                                    | 2     | 0x10800  | 6    | 0x0C | -  | -  |
|                                    | 3     | 0x10800  | 6    | 0x0C | -  | -  |
|                                    | 4     | 0x10800  | 6    | 0x0C | -  | -  |
|                                    | 5     | 0x10800  | 6    | 0x0C | -  | -  |
|                                    | 6     | 0x10800  | 6    | 0x07 | -  | -  |
| <b>5. Vérification JAL</b>         | -     | @ retour | -    | -    | -  | -  |
| <b>6. Dépendance de contrôle</b>   | -     | -        | 0x0E | -    | -  | -  |

### 2.3.1 Conclusion des tests

L'analyse des chronogrammes de simulation confirme que les tests sont tous passés. À l'issue de cette campagne de mesures, les résultats obtenus en simulation correspondent strictement aux valeurs théoriques présentées ci-dessus. Nous pouvons donc conclure que le processeur a passé avec succès l'intégralité des tests fonctionnels et gère désormais correctement les dépendances de don-

nées et de contrôle.

## 2.4 Implémentation du *Wait State*

Depuis le début des TD, les mémoires IMEM et DMEM n'avaient aucune latence. Ce comportement n'est pas très réaliste puisqu'on observe qu'un écart se creuse de plus en plus entre la vitesse des processeurs et la vitesse de la mémoire :

**FIGURE 2.10 : Comparaison de la vitesse du CPU et de la Mémoire**



Ainsi, nous allons artificiellement ajouter 3 cycles de latence aux mémoires DMEM et IMEM dans le but de reproduire un comportement plus fidèle du processeur.

### RV32i\_soc.sv

```

1 wsync_mem #(
2     .SIZE(4096),
3     .WS(3), // 3 cycles de latence
4     .INIT_FILE(IMEM_INIT_FILE)
5 ) imem (
6     ...
7 );
8
9 wsync_mem #(
10    .SIZE(4096),
11    .WS(3), // 3 cycles de latence
12    .INIT_FILE(DMEM_INIT_FILE)
13 ) dmem (
14     ...
15 );

```

### 2.4.1 Adaptation du processeur à ce changement

### 2.4.2 Gestion du signal de validité

Durant l'intervalle s'écoulant entre la requête d'accès et la réponse effective de la mémoire, le bus de sortie `d_o` contient des données non significatives. Il est donc impératif de conditionner la lecture du contenu de `d_o` à l'activation du signal `valid_o`.

#### Problématique de la désynchronisation lors des branchements

Un cas critique survient lors de l'exécution d'une instruction de branchement. Lorsque cette instruction atteint l'étage EXEC, une nouvelle requête d'instruction est émise alors que la précédente n'a potentiellement pas encore validé son cycle par le signal `valid_o`.

Le module de mémoire fourni, `wsync_mem.sv`, ne réinitialise son compteur interne permettant de générer `valid_o` que lorsque les signaux de lecture (`re_i`) et d'écriture (`we_i`) sont nuls. Par conséquent, si le signal `i.mem_re_o` (correspondant au `re_i` de la mémoire) n'est pas forcé à 0 au moment où le branchement est validé dans l'étage EXEC, le signal `valid_o` sera désynchronisé pour l'instruction suivante.

Il est à noter que, bien que la mémoire `wsync_mem.sv` maintienne une valeur correcte sur le bus `d_o` même en l'absence de `valid_o`, maintenir `i.mem_re_o` à 1 en permanence n'affecte pas l'exécution fonctionnelle dans cet environnement de simulation spécifique. Cependant, par souci de rigueur architecturale et pour garantir la portabilité vers une mémoire réelle, une correction logicielle est nécessaire.

#### En résumé

**Le signal `i.mem_re_o` doit être forcé à 0 lorsqu'une instruction de type B à l'étage EXEC valide un branchement.**

#### RV32i\_pipeline\_top.sv

```

1 // Pour synchroniser le signal valid_o de la mémoire d'instruction
2 // lorsqu'on prends une branche. Dans le cas contraire on a une
3 // désynchronisation du temps d'attente pour l'instruction
4 // suivant le branchement (ce qui peut potentiellement mener
5 // à une instruction invalide dans d_o)
6 assign i.mem_re_o = !branch_taken_w;

```

## TD 3

# Implémentation d'une mémoire cache

L'introduction d'une latence de trois cycles d'horloge lors de l'accès à la mémoire d'instruction a mis en évidence un goulet d'étranglement majeur pour notre architecture. Dans cette configuration, chaque chargement d'instruction pénalise lourdement le débit du processeur, limitant drastiquement le nombre d'instructions exécutées par cycle.

L'objectif de cette section est de pallier cette latence en concevant et en intégrant un cache d'instructions en lecture seule. En exploitant le principe de localité spatiale et temporelle, ce module permettra de stocker localement les instructions les plus fréquemment sollicitées, réduisant ainsi le temps d'accès moyen à la mémoire.

Le cache sera situé comme ceci dans la hiérarchie des composants :

FIGURE 3.1 : Insertion du cache en tant que composant



## 3.1 Calculs préliminaires

Dans un premier temps, nous allons implémenter un cache mémoire direct. Afin de concevoir un cache adaptée à notre architecture pipelinée, nous avons défini un adressage mémoire segmenté. Cette étude préalable permet de déterminer les caractéristiques physiques du cache L1 ainsi que le gain de performance attendu.

### 3.1.1 Analyse de la structure du cache direct

L'adresse de 32 bits fournie par le processeur est décomposée selon le schéma suivant pour un cache direct :

| Bits [31 :10]   | Bits [9 :4] | Bits [3 :0]       |
|-----------------|-------------|-------------------|
| Étiquette (TAG) | Index       | Décalage (OFFSET) |

#### Taille d'une ligne de cache

La taille d'une ligne de cache est déterminée par le champ OFFSET. Avec 4 bits dédiés, nous pouvons calculer la capacité par ligne en octets et en mots :

- **En octets** :  $L_{octet} = 2^{\text{OFFSET}} = 2^4 = 16$  octets.
- **En mots** : Puisque notre architecture est basée sur des mots de 32 bits (4 octets), une ligne contient :

$$\frac{16 \text{ octets}}{4 \text{ octets/mot}} = 4 \text{ mots}$$

#### Nombre d'entrées (lignes)

Dans notre architecture, le nombre d'entrées correspond au nombre de lignes disponibles, défini par le champ INDEX. Avec 6 bits :

$$N_{lignes} = 2^{\text{INDEX}} = 2^6 = 64 \text{ entrées}$$

### 3.1.2 Analyse des performances attendues

Pour évaluer l'efficacité de ce cache, nous considérons un processeur cadencé à 100 MHz, soit une période d'horloge  $T_{clk} = 10$  ns. Les paramètres de simulation sont les suivants :

- **L1 HIT Time** : 1 cycle (10 ns)

- **MISS Penalty** : 10 cycles (100 ns)
- **L1 HIT Rate** : 90 % (0, 9)

### Miss Rate

Le taux de défaut est le complémentaire du taux de succès :

$$\text{Miss Rate} = 1 - \text{Hit Rate} = 1 - 0,9 = 0,1 \text{ (soit } 10\%)$$

### Temps d'accès moyen

Pour un échantillon de 1000 accès mémoire, le temps d'accès moyen ( $T_{moy}$ ) se calcule par la moyenne pondérée du temps de succès et du temps de pénalité :

$$\begin{aligned} T_{moy} &= (\text{Hit Rate} \times \text{Hit Time}) + (\text{Miss Rate} \times \text{Miss Time}) \\ T_{moy} &= (0,9 \times 10 \text{ ns}) + (0,1 \times 100 \text{ ns}) \\ T_{moy} &= 9 \text{ ns} + 10 \text{ ns} \\ T_{moy} &= 19 \text{ ns} \end{aligned} \tag{3.1}$$

**Conclusion :** L'intégration de ce cache permet d'atteindre un temps d'accès moyen de 19 ns par instruction, contre 100 ns en cas d'accès systématique à la mémoire principale. Cela valide l'intérêt du cache pour compenser la latence imposée.

## 3.2 Design et implémentation du cache direct

### 3.2.1 Intégration au SoC

L'architecture du RV32i\_soc intègre désormais un module `cache_direct` agissant comme interface entre le `RV32i_core` et la mémoire d'instruction (IMEM).

L'interconnexion entre l'IMEM et le cache utilise un bus de données large de 128 bits (4 mots de 32 bits). Ce choix permet de charger une ligne de cache entière en une seule transaction mémoire, optimisant ainsi la localité spatiale.

L'introduction du signal `imem_valid_i` est cruciale : la latence mémoire n'étant plus constante (différence entre un *HIT* instantané et un *MISS* avec pénalité), ce signal permet au contrôleur de cache d'indiquer au cœur que l'instruction est prête à être consommée.

### 3.2.2 Caractéristiques Techniques

Le cache est directe. Ainsi, les paramètres sont définis comme suit :

### Paramètres du cache

```

1 // Paramètres de segmentation de l'adresse [cite: 1, 2]
2 localparam ByteOffsetBits = 4; // Bits 3 à 0 (16 octets par ligne)
3 localparam IndexBits      = 6; // Bits 9 à 4 (64 entrées)
4 localparam TagBits        = 22; // Bits 31 à 10
5
6 // Calculs de structure
7 localparam NrWordsPerLine = (2**ByteOffsetBits) / 4; // 4
   → mots/ligne
8 localparam NrLines         = 2**IndexBits;           // 64 lignes
9 localparam LineSize        = 32 * NrWordsPerLine;    // 128 bits de
   → données

```

### 3.2.3 Étapes de Conception

#### Structure de Stockage

Chaque ligne du cache doit stocker trois types d'informations pour identifier et restituer les données :

- **Le Dirty-Bit** : Indique si la ligne contient des données synchronisées avec la mémoire.
- **Le Tag** : Les 22 bits de poids fort de l'adresse originale.
- **Les données** : La ligne de 128 bits (4 mots).

Le stockage est modélisé par un tableau de registres de taille [151 : 0] (128 bits de données + 22 bits de Tag + 1 bit de validité) :

```
1 logic [LineSize + TagBits:0] registers [NrLines] = '{default: 0};
```

#### Découpage de l'Adresse et Détection du Hit

L'adresse reçue `addr_i` est décomposée de manière combinatoire. La condition de *HIT* est validée si le bit de validité est à 1 et que le Tag stocké correspond au Tag de l'adresse demandée :

### Système de détection de HITS

```

1 assign {tag_w, index_w, offset_w} = addr_i;
2 assign {rdirty_bit_w, rtag_w, rdata_w} = registers[index_w];
3
4 assign request_hit_w = read_en_i && (rdirty_bit_w == 1'b1) &&
   → (rtag_w == tag_w);

```

#### Sélection du Mot

Comme le cache stocke 128 bits par ligne, nous utilisons l'offset pour extraire le mot de 32 bits spécifique demandé par le processeur. Pour optimiser les res-

sources matérielles, nous utilisons un décalage binaire :

```
1 assign shifted_rdata = rdata_w >> ('h8 * offset_w);
2 assign read_word_o = shifted_rdata[31:0];
```

### 3.2.4 Machine d'État et Optimisations

#### Conception de la FSM

Pour garantir la performance, la logique de contrôle utilise une machine d'état à trois états :

- **WAIT** : État de repos. Si un *HIT* est détecté, transition vers **RESPONSE**, sinon **MEM\_QUERRY**.
- **MEM\_QUERRY** : Envoi de la requête à la mémoire principale. On attend le signal `mem_read_valid_i`. À réception, la ligne de cache est mise à jour.
- **RESPONSE** : Délivrance de la donnée au processeur via `read_valid_o`.

#### Optimisations de Performance

Afin d'éviter de gaspiller des cycles d'horloge, plusieurs optimisations ont été implémentées :

- **Transition Directe RESPONSE → MEM\_QUERRY** : Si, durant l'état de réponse, le processeur demande une nouvelle adresse qui n'est pas dans le cache, la FSM bascule directement en requête mémoire sans repasser par **WAIT**.
- **Logique Combinatoire du Prochain État** : Le calcul de `next_cache_state` est placé dans un bloc `always_comb`. Cela permet d'anticiper les signaux de contrôle mémoire (comme `mem_read_en_o`) dès le cycle actuel et nous fait gagner un cycle.
- **Gestion du Flush/Restart** : Si l'adresse `addr_i` change durant un **MEM\_QUERRY**, le système redémarre la requête pour s'assurer que le pipeline ne reçoive pas une instruction obsolète.

FIGURE 3.2 : Machine d'état du cache direct



### 3.3 Test du cache direct

Voici une diagramme de simulation ModelSim. Le cache fait tourner le programme fourni avec le TD 3, appelé `exo3_2ways.S`, dont une copie se trouve en annexe.

Dans le but de tester le processeur, il existe aussi une version de ce programme sans les NOP appelé `exo3_2ways_sans_nop.S`, dont une copie est aussi disponible en annexe.

Le programme `exo3_2ways.S` est équivalent au programme ci-dessous en C. C'est un programme qui multiplie `x1` et `x2` et place le résultat dans `x7` :

**Programme équivalent à exo3\_2ways.S**

```

1 int main() {
2     unsigned int x1, x2, x3, x4, x5, x6, x7;
3
4     x5 = 0;
5     x4 = 0;
6
7     x6 = 15;
8     x1 = 0xA5A5
9     x2 = 7;
10
11    do {
12        x3 = x1 & 1;
13
14        if (x3 != 0) {
15            x4 += x2;
16        }
17
18        x1 = x1 >> 1;
19        x2 = x2 << 1;
20
21        x5++;
22
23    } while (x6 >= x5);
24
25    x7 = x4;
26
27    return 0;
28 }
```

Pour lancer ces deux simulations, vous pouvez exécuter les commandes `./build direct` et `./build direct-sans-nop`  
Voici le résultat de la simulation avec les NOP :

**FIGURE 3.3 : Simulation du cache direct**


On remarque que les changements d'état se font instantanément. Le cache ne peut physiquement pas aller plus vite puisqu'il ne gâche aucun cycle d'horloge.

## 3.4 Cache Instruction Associatif à Deux Voies

L'évolution de notre architecture vers un cache associatif à deux voies vise à réduire le taux de conflits d'indexation rencontrés dans le cache direct. Cette structure permet de stocker deux lignes de données différentes pour un même

index mémoire.

### 3.4.1 Architecture Matérielle

Le cache est désormais composé de deux structures de stockage identiques (voies), chacune capable de stocker une ligne de 128 bits, son Tag de 22 bits et un (*dirty-bit*).

```

1 // Les deux voies contenant les lignes de registre.
2 logic [LineSize + TagBits:0] registers_voie_1_r [NrLines] =
  → '{default: 0};
3 logic [LineSize + TagBits:0] registers_voie_2_r [NrLines] =
  → '{default: 0};
```

### 3.4.2 Stratégie de Remplacement : Algorithme LRU

Pour décider quelle voie remplacer lors d'un défaut de cache (*Miss*), nous implémentons la stratégie **LRU** (*Least Recently Used*). L'objectif est de préserver les données les plus récemment sollicitées en vertu du **principe de localité**.

Dans une configuration à deux voies, la gestion du LRU est simplifiée par l'utilisation d'un seul bit par index (*lru\_data\_r*) indiquant quelle voie est la candidate au remplacement :

- *lru\_data\_r* = 0 : La Voie 1 sera remplacée.
- *lru\_data\_r* = 1 : La Voie 2 sera remplacée.

#### Mise à jour de la priorité

La mise à jour de ce bit s'effectue de manière séquentielle à chaque succès de lecture (*Hit*). La logique suit la table de vérité suivante pour garantir que la voie non sollicitée devienne la prochaine victime :

**FIGURE 3.4 : Table de vérité de la mise à jour du LRU**

| Hit Voie 1 | Hit Voie 2 | Prochain LRU | Signification                     |
|------------|------------|--------------|-----------------------------------|
| 0          | 0          | -            | Pas de remplacement               |
| 0          | 1          | 0            | Remplacer Voie 1 au prochain Miss |
| 1          | 0          | 1            | Remplacer Voie 2 au prochain Miss |
| 1          | 1          | IMPOSSIBLE   | Imp. à cause de l'unicité du tag  |

Voici le code correspondant à cette mise à jour :

```

1 always_ff @(posedge clk_i or negedge rstn_i) begin
2     // Ici on update la voie la plus récemment utilisée.
3     // On ne peut pas avoir de hit sur les deux signaux en même
4     // temps, s'il y a un hit, c'est obligatoirement sur un
5     // des deux signaux car le tag est unique pour un même index.
6     // La table de vérité est équivalente à la valeur de
7     // request_hit_1_w.
8     if (request_hit_w) begin
9         lru_data_r[index_w] <= request_hit_1_w;
10    end
11 end

```

### 3.4.3 Étapes Logiques de Conception

#### Détection du Hit et Sélection des Données

Lors d'une requête, le cache compare simultanément le Tag de l'adresse avec ceux stockés dans les deux voies. Un multiplexeur sélectionne ensuite la donnée de la voie gagnante pour le traitement

```

1 // Les signaux qui indiquent si oui ou non la requête est un hit
2 // ou un miss.
3 // request_hit_1_w est pour la première voie
4 // request_hit_2_w est pour la deuxième voie
5 logic request_hit_1_w;
6 logic request_hit_2_w;
7 logic request_hit_w;
8
9 // La ligne de cache sélectionnée.
10 logic [LineSize-1:0] rdata_sel_w;
11
12 always_comb begin
13     ...
14     // Détection des Hits par voie
15     request_hit_1_w = read_en_i && (rdirty_bit_1_w == 1'b1) &&
16         (rtag_1_w == tag_w);
17     request_hit_2_w = read_en_i && (rdirty_bit_2_w == 1'b1) &&
18         (rtag_2_w == tag_w);
19     request_hit_w = request_hit_1_w || request_hit_2_w;
20
21     // Sélection de la voie active
22     rdata_sel_w = request_hit_2_w ? rdata_2_w : rdata_1_w;
23     ...
24 end

```

#### Extraction du Mot et Récupération Mémoire

Comme pour le cache direct, le mot de 32 bits est extrait de la ligne de 128 bits via un décalage basé sur l'offset. En cas de Miss, la machine d'état (*FSM*) passe en état **MEM\_QUERRY** pour solliciter **IMEM** et mettre à jour la voie désignée par le bit LRU.

### 3.4.4 Analyse des Performances

Les tests de simulation montrent un gain de performance significatif grâce à la réduction des défauts de cache par rapport au cache direct.

Le tableau suivant présente le temps total d'exécution du programme de test selon l'architecture utilisée :

**FIGURE 3.5 : Comparaison des performances avec et sans cache**

| Architecture             | Temps d'exécution (ns) |
|--------------------------|------------------------|
| Sans cache               | 12 530                 |
| Cache direct             | 5 670                  |
| Cache associatif 2 voies | 3 870                  |

Ces tests ont été réalisé avec la version sans-nop du programme exo3\_2ways.S. Les commandes précises qui ont été utilisés sont :

- ./TD3/modified/build.sh direct sans-nop
- ./TD3/modified/build.sh associative sans-nop
- ./TD3\_SANS\_CACHE/modified/build.sh

### 3.4.5 Conclusion

L'implémentation du cache associatif à deux voies, combinée à une gestion LRU rigoureuse, permet une réduction du temps d'exécution de près de 70 % par rapport à une architecture sans cache, et de 31 % par rapport au cache direct simple. La robustesse de la FSM, notamment la transition optimisée entre les états RESPONSE et MEM\_QUERRY, assure une réactivité maximale du pipeline.

# Annexe

Cette partie regroupe les ressources complémentaires nécessaires à la compréhension détaillée du rapport, mais dont le volume ne permettait pas une insertion directe dans le corps du rapport. Vous y trouverez notamment des extraits de code source complets ainsi que des captures de simulations et de chronogrammes directement prise de ModelSim. Ces documents servent de support technique aux analyses présentées précédemment.

## TD 1

FIGURE 3.6 : Chronogramme de exo1.s sur ModelSim



Note : Retour au Rapport (Figure 1.6)

**FIGURE 3.7 : Chronogramme de main.S sur ModelSim**

Note : Retour au Rapport (Figure 1.8)

## TD 2

**FIGURE 3.8 : Programme exo2\_unmodified.s**

```

1 .section .start;
2 .globl start;
3
4 start:
5   addi x5,x0,15
6   add x6,x0,x0
7   add x7,x0,x0
8   add x8,x0,x0
9 lab1:
10  j lab2      # Dépendance de contrôle de type saut
11  addi x7,x7, 1
12 lab2:
13  addi x6,x6, 1 # Dépendance de données
14  bge x5,x6,lab1 # Dépendance de contrôle de type saut
15  addi x8,x8, 1 # Dépendance de données
16  addi x8,x8, 1
17 lab3:
18  j lab3
19  nop
20  nop
21
22 .end start
23

```

Note : Retour au Rapport (Figure 2.1.1)

**FIGURE 3.9 : Chronogramme de la correction logicielle sur ModelSim**

Note : Retour au Rapport (Figure 2.2)

**FIGURE 3.10 : Programme exo2\_Q10.s**

```

1 .section .start;
2 .globl start;
3
4 start:
5   addi x5,x0,15
6   add x6,x0,x0
7   add x7,x0,x0
8   add x8,x0,x0
9 lab1:
10  j lab2      // Dépendance de contrôle de type J;
11  nop         // On a besoin de 1 NOP
12  addi x7,x7,1 //
13 lab2:
14  addi x6,x6,1 // Dépendance de données
15  bge x5,x6,lab1 //
16  nop         // Dépendance de contrôle avec instruction type B:
17  nop         // On a besoin de 2 NOP.
18  addi x8,x8,1 // Dépendance de données
19  addi x8,x8,1 //
20 lab3 :
21  j lab3      // Condition de stop du testbench:
22  nop         // avoir 5 fois j lab3 suivi d'un nop
23
24 .end start
25

```

Note : Retour au Rapport (Figure 2.1.2)

**FIGURE 3.11 : Chronogramme gestion des dépendances de données par le stall**

Note : Retour au Rapport (Figure 2.6)

**FIGURE 3.12 : Programme exo2\_Q12.s**

```

1 .section .start;
2 .globl start;
3
4 start:
5     addi x5,x0,15
6     add x6,x0,x0
7     add x7,x0,x0
8     add x8,x0,x0
9 lab1:
10    j lab2
11    addi x7,x7,1
12 lab2:
13    addi x6,x6,1 // Dépendance de données
14    bge x5,x6,lab1 //
15    nop          // Dépendance de contrôle avec instruction type B:
16    nop          // On a besoin de 2 NOP.
17    addi x8,x8,1 // Dépendance de données
18    addi x8,x8,1 //
19 lab3:
20    j lab3      // Condition de stop du testbench:
21    nop          // avoir 5 fois j lab3 suivi d'un nop
22 .end start

```

Note : Retour au Rapport (Figure 2.1.4)

**FIGURE 3.13 : Chronogramme gestion des dépendances de saut par *fetch\_nop\_o***

Note : Retour au Rapport (Figure 2.7)

**FIGURE 3.14 : Programme exo2\_Q14.S**

```

1 .section .start;
2 .globl start;
3
4 start:
5     addi x5,x0,15
6     add x6,x0,x0
7     add x7,x0,x0
8     add x8,x0,x0
9 lab1:
10    j lab2
11    addi x7,x7,1
12 lab2:
13    addi x6,x6,1 // Dépendance de données
14    bge x5,x6,lab1 // Dépendance de contrôle
15    addi x8,x8,1
16    addi x8,x8,1 // Dépendance de données
17 lab3:
18    j lab3 // Condition de stop du testbench:
19    nop // avoir 5 fois j lab3 suivi d'un nop
20 .end start

```

Note : Retour au Rapport (Figure 2.2.5)

**FIGURE 3.15 : Chronogramme gestion des dépendances de saut par *fetch\_nop\_o***



Note : Retour au Rapport (Figure 2.8)

## TD 3

**FIGURE 3.16 : Programme exo3\_2ways.S**

```

1 .section .start
2 .globl start
3 .globl lab
4 .globl shifter
5
6 start:
7     addi x6,x0,15
8     // a=0xA5A5
9     lui x1,0xA
10    nop
11    nop
12    nop
13    addi x1,x1,0x5A5
14    // b=7
15    addi x2,x0,7
16    nop
17    nop
18    // bit 0 de a
19 lab:
20    andi x3,x1,1
21    nop
22    nop
23    nop
24    // si le bit 0 de a est zero on accumule b*2
25    beqz x3,lab1
26    // on accumule
27    nop
28    nop
29    add x4,x4,x2
30 lab1:
31 // on decale a vers la droite
32    //srai x1,x1,1
33 // on decale b vers la gauche
34    //slli x2,x2,1
35    jal x8,shifter
36    nop
37    addi x5,x5,1
38    nop
39    nop
40    nop
41    bge x6,x5,lab
42    nop
43    nop
44    //resultat final dans x7 =0x48783
45    add x7,x0,x4
46 lab3:
47    j lab3
48    nop
49    nop
50
51 .section .way2
52 shifter :
53    srai x1,x1,1
54    slli x2,x2,1
55    jalr x0,x8
56    nop
57    nop

```

Note : Retour au Rapport (Figure 3.3)

**FIGURE 3.17 : Programme exo3\_2ways\_sans\_nop.S**

```

1 // Programme de multiplication entre x1 et x2
2 // Le résultat de la multiplication est stocké dans x7
3 // Exemple:
4 // x1 = 0xA5A5 et x2 = 0x7 => x7 = 0x48783
5
6 .section .start
7 .globl start
8 .globl lab
9 .globl shifter
10
11 start:
12     // Dans x1: 0xA5A5
13     // Dans x2; 0x7
14     // Dans x6: x0F
15     addi x6,x0,15
16     lui x1,0xA
17     addi x1,x1,0xA5A5
18     addi x2,x0,7
19 lab:
20     // Si x3 % 2 == 0, goto lab1
21     // Sinon, x4 += x2
22     andi x3,x1,1
23     beqz x3,lab1
24     add x4,x4,x2
25 lab1:
26     // Appelle la fonction shifter
27     // x5 += 1
28     // Si x6 >= x5, aller à lab
29     // Sinon x7 = x4
30     jal x8,shifter
31     addi x5,x5,1
32     bge x6,x5,lab
33     add x7,x0,x4
34 lab3:
35     j lab3
36     nop
37     nop
38
39 .section .way2
40 shifter:
41     // Divise x1 par 2
42     // Divise x2 par 2
43     // Retourne après le jal x8,shifter
44     srai x1,x1,1
45     slli x2,x2,1
46     jalr x0,x8
47     nop // La gestion de JALR n'est pas implémenté
48     nop

```

Note : Retour au Rapport (Figure 3.3)