

# Test Microprocessors Architecture Configuration

**Javier Andres Tarazona**

**Jimenez**

*Ingénieur Degree Programme*

*STIC*

*ENSTA Paris*

Paris, France

javier-andres.tarazona@  
ensta-paris.fr

**Jair Anderson Vasquez Torres**

*Ingénieur Degree Programme*

*STIC*

*ENSTA Paris*

Paris, France

jair-anderson.vasquez@  
ensta-paris.fr

**Maeva Noukoua**

*Ingénieur Degree Programme*

*STIC*

*ENSTA Paris*

Paris, France

maeva-sandy.noukoua@  
ensta-paris.fr

**Carlos**

*Ingénieur Degree Programme*

*STIC*

*ENSTA Paris*

Paris, France

carlos@ensta-paris.fr

**Abstract—...**

**Index Terms—...**

## I. EXERCICE 3

## II. EXERCICE 4

### A. Profiling (Q1)

a) **Objectif.**: Le *profiling* de l'*instruction mix* consiste à mesurer la répartition des instructions exécutées par grandes catégories (calcul entier, mémoire, contrôle, etc.). Cette information est essentielle en architecture : elle permet d'identifier où se situe la pression dominante (unités de calcul, hiérarchie mémoire, prédition de branchements), et donc d'anticiper quels leviers microarchitecturaux sont les plus pertinents.

b) **Méthode.**: Nous avons simulé les exécutions avec gem5 en mode SE (ISA RISC-V), en configuration de type A7 (se\_A7.py). Les compteurs proviennent des instructions *committed* (retired). Le nombre total d'instructions exécutées est  $N = \text{simInsts}$ . Pour chaque catégorie  $c$ , on note  $I_c$  le nombre d'instructions appartenant à  $c$ . Le pourcentage associé est :

$$\text{pct}(c) = 100 \times \frac{I_c}{N}.$$

Les valeurs sont arrondies à deux décimales (somme  $\approx 100\%$ ).

TABLE I: Répartition des instructions exécutées (profiling) — configuration A7.

| Catégorie               | Dijkstra (A7)   |                | Blowfish (A7)  |                |
|-------------------------|-----------------|----------------|----------------|----------------|
|                         | Count           | %              | Count          | %              |
| ALU entier              | 22118141        | 44.09%         | 1882443        | 55.42%         |
| Chargements (Load)      | 11799269        | 23.52%         | 771841         | 22.72%         |
| Stockages (Store)       | 4853941         | 9.68%          | 408487         | 12.03%         |
| Branches (contrôle)     | 9870255         | 19.67%         | 334128         | 9.84%          |
| Mult/Div entier         | 1517371         | 3.02%          | 6              | 0.00%          |
| Flottant (FP)           | 12              | 0.00%          | 12             | 0.00%          |
| Autres                  | 10476           | 0.02%          | 18             | 0.00%          |
| <b>TOTAL (simInsts)</b> | <b>50169465</b> | <b>100.00%</b> | <b>3396935</b> | <b>100.00%</b> |

c) **Résultats détaillés.:**

d) **Synthèse par familles (lecture plus “architecture”).:**

Afin de mieux comparer les pressions microarchitecturales, on regroupe les catégories en trois familles : *calcul entier* (ALU + Mult/Div), *mémoire* (Load + Store) et *contrôle* (Branches).

TABLE II: Agrégation par familles : calcul, mémoire et contrôle (A7).

| Famille                        | Dijkstra (%)   | Blowfish (%)   | $\Delta$ (BF – Dij) [points] |
|--------------------------------|----------------|----------------|------------------------------|
| Calcul entier (ALU + Mult/Div) | 47.11          | 55.42          | +8.31                        |
| Mémoire (Load + Store)         | 33.20          | 34.75          | +1.55                        |
| Contrôle (Branches)            | 19.67          | 9.84           | -9.83                        |
| Reste (FP + Autres)            | $\approx 0.02$ | $\approx 0.00$ | $\approx 0$                  |

e) **Interprétation (comparaison chiffrée).:** Les deux applications présentent une part mémoire comparable ( $\approx 33.20\%$  pour Dijkstra contre  $\approx 34.75\%$  pour Blowfish), ce qui indique que la hiérarchie mémoire (L1/L2) reste un levier important dans les deux cas. En revanche, Dijkstra est nettement plus *control-heavy* : les branches représentent 19.67% des instructions contre 9.84% pour Blowfish, soit environ  $\times 2$  de densité de contrôle. À l'inverse, Blowfish est davantage *compute-heavy* : la part d'ALU entier atteint 55.42% contre 44.09% pour Dijkstra (+11.33 points). Les instructions FP sont négligeables (quelques occurrences attribuables à un surcoût du runtime plutôt qu'au noyau algorithmique).

### B. Q2 : Catégorie à améliorer

Sur **Dijkstra**, la part **contrôle** est élevée (**branches = 19.67%**) et s'ajoute à une pression **mémoire** déjà importante (**load+store = 23.52% + 9.68% = 33.20%**) : améliorer la **prédition de branchements** (et réduire les bulles/flush) est donc un levier prioritaire pour ce code très *branchy*. Sur **Blowfish**, le profil est surtout **compute-heavy** en entier (**ALU = 55.42%** avec **branches = 9.84%**) : l'amélioration la plus pertinente concerne le **débit/latence des opérations entières** (ALU), tandis que la mémoire reste secondaire bien que non

négligeable (**load+store = 34.75%**). Ainsi, la catégorie à optimiser dépend de l'application : **contrôle (branches) pour Dijkstra et calcul entier (ALU) pour Blowfish**.

#### C. Q3 : Comparaison avec les charges du TP2 (SSCA2-BCS, SHA-1, poly\_mult)

Pour comparer Dijkstra et Blowfish aux benchmarks du TP2, on s'appuie sur une lecture *architecture* en trois familles : (i) **calcul entier** (ALU + Mult/Div), (ii) **mémoire** (Load + Store) et (iii) **contrôle** (Branches). Cette classification renseigne directement sur les ressources dominantes (unités entières, hiérarchie mémoire, prédition de branchement) et sur la sensibilité aux mécanismes OoO (ROB/LSQ) et au masquage de latence.

a) *Dijkstra vs. SSCA2-BCS (graphes, accès irréguliers)*.: Dijkstra présente une composante **contrôle** élevée (**19.67%** de branches) ainsi qu'une pression **mémoire** marquée (**Load+Store = 33.20%**). Ce profil est typique d'un traitement de graphe : parcours, conditions dépendantes des données, et accès non séquentiels (structures et indices variables), ce qui dégrade la localité et rend les préchargements moins efficaces. On s'attend donc à des comportements proches de **SSCA2-BCS** (également orienté graphes) : forte sensibilité au frontend (prédition de branchement) et à la capacité du cœur OoO à tolérer des latences mémoire (fenêtres ROB/LSQ, MLP).

b) *Blowfish vs. SHA-1 (noyaux compute-bound entiers)*.: Blowfish est davantage **compute-heavy** en entier : **ALU+Mult/Div = 55.42%**, avec un **contrôle plus faible** (**9.84%** de branches), tout en conservant une part mémoire non négligeable (**Load+Store = 34.75%**) liée aux buffers et tables. Cette dynamique se rapproche de **SHA-1**, qui est encore plus dominé par le calcul entier : dans notre run *SHA small*, on obtient **78.34%** d'ALU entier, **Load+Store = 16.29%** et **5.37%** de branches. Ainsi, SHA-1 et Blowfish sont tous deux des noyaux à contrôle relativement réduit et à calcul entier majoritaire ; la différence principale est que **SHA-1 est plus “pur compute”**, tandis que **Blowfish** conserve davantage d'accès mémoire (p.ex. tables/S-boxes), ce qui peut augmenter la sensibilité aux caches lorsque les ensembles de données grandissent.

c) *poly\_mult (produit de polynômes / convolution)*.: À l'inverse des charges de type graphe, **poly\_mult** manipule généralement des tableaux et des boucles régulières : les accès sont souvent *séquentiels* (bonne localité spatiale), et la part de branches est typiquement faible (boucles simples). On s'attend donc à un comportement plus proche d'un noyau *streaming* : la performance dépend alors (i) du **débit de calcul** (multiplications/additions) et (ii) de la **bande passante mémoire** lorsque les tableaux dépassent les caches. En conséquence, lorsqu'on rend le cœur plus agressif (meilleur IPC théorique), la latence/bande passante mémoire tend à devenir un facteur plus visible : l'optimisation de la hiérarchie mémoire (caches, miss rate effectif, éventuel préchargement) devient alors un levier majeur, surtout pour les grandes tailles.

d) *Synthèse*.: En résumé, **Dijkstra** se rapproche des workloads *graph/irregular* comme **SSCA2-BCS** (contrôle +

mémoire élevés), alors que **Blowfish** se situe entre un noyau *compute entier* et une charge mémoire modérée, et se compare naturellement à **SHA-1** (mais avec plus d'accès mémoire). Enfin, **poly\_mult** est attendu plus régulier et potentiellement limité par la bande passante mémoire sur grands tableaux, avec un contrôle faible.

TABLE III: Répartition des instructions exécutées pour SHA-1 (small).

| Catégorie           | Count           | %              |
|---------------------|-----------------|----------------|
| ALU entier          | 10032072        | 78.34%         |
| Chargements (Load)  | 1496416         | 11.69%         |
| Stockages (Store)   | 589104          | 4.60%          |
| Branches (contrôle) | 687432          | 5.37%          |
| Mult/Div entier     | 89              | 0.00%          |
| Floottant (FP)      | 12              | 0.00%          |
| Autres              | 55              | 0.00%          |
| <b>TOTAL</b>        | <b>12805180</b> | <b>100.00%</b> |

#### D. Q4 : Impact de la taille de L1 (Cortex-A7, entrées large)

L'objectif est d'évaluer la sensibilité des applications à la hiérarchie mémoire en faisant varier la taille de la cache L1 (1, 2, 4, 8, 16 KB), tout en conservant le même jeu de données (*large*) et la même configuration globale. Les métriques principales sont la performance (IPC, numCycles) et les taux de miss des caches (I-L1, D-L1, L2). On vérifie que simInsts reste constant pour un même binaire : Dijkstra (simInsts=227 442 465) et Blowfish (simInsts=12 761 206).

##### a) Performance (IPC et cycles).:

TABLE IV: Cortex-A7 (large) — Performance en fonction de la taille L1

| L1 (KB) | Dijkstra |                          | Blowfish |                          |
|---------|----------|--------------------------|----------|--------------------------|
|         | IPC      | Cycles ( $\times 10^6$ ) | IPC      | Cycles ( $\times 10^6$ ) |
| 1       | 0.233    | 974.9                    | 0.248    | 51.4                     |
| 2       | 0.242    | 941.5                    | 0.255    | 50.0                     |
| 4       | 0.251    | 905.1                    | 0.268    | 47.7                     |
| 8       | 0.271    | 838.3                    | 0.295    | 43.3                     |
| 16      | 0.277    | 820.6                    | 0.296    | 43.1                     |

##### b) Comportement cache (miss rates).:

TABLE V: A7 (large) — Miss rates et branchements (mispred\_rate en %)

| L1 (KB) | Dijkstra |        |        |             | Blowfish |        |        |             |
|---------|----------|--------|--------|-------------|----------|--------|--------|-------------|
|         | I-L1     | D-L1   | L2     | mispred (%) | I-L1     | D-L1   | L2     | mispred (%) |
| 1       | 0.0468   | 0.2171 | 0.0002 | 1.36        | 0.3083   | 0.1936 | 0.0015 | 1.40        |
| 2       | 0.0341   | 0.1767 | 0.0002 | 1.36        | 0.1263   | 0.1581 | 0.0024 | 1.40        |
| 4       | 0.0122   | 0.1361 | 0.0003 | 1.36        | 0.0040   | 0.1063 | 0.0048 | 1.40        |
| 8       | 0.0045   | 0.0677 | 0.0006 | 1.35        | 0.0007   | 0.0227 | 0.0246 | 1.40        |
| 16      | 0.0010   | 0.0499 | 0.0009 | 1.35        | 0.0006   | 0.0181 | 0.0318 | 1.40        |



(a) IPC en fonction de la taille de L1.



(b) numCycles vs taille L1 (performance globale).



(a) IPC en fonction de la taille de L1.



(b) numCycles vs taille L1 (performance globale).



(a) Miss rate I-L1 vs taille L1.



(b) Miss rate I-L1 vs taille L1.

c) (A7).: En augmentant L1 de 1 KB à 16 KB, on observe un gain net de performance : **IPC** passe de 0.233 à 0.277 pour Dijkstra (+18.8%) et de 0.248 à 0.296 pour Blowfish (+19.4%), avec une baisse correspondante de **cycles** d'environ 16% dans les deux cas (Table ??). Ces gains sont principalement expliqués par la chute des miss rates L1 (Table ??) : Dijkstra réduit fortement ses misses D-L1 ( $0.217 \rightarrow 0.050$ , soit -77%) mais reste plus pénalisé à cause d'accès moins réguliers, tandis que Blowfish devient très efficace dès 8 KB ( $D-L1 \approx 0.023$ ) avec un rendement décroissant ensuite ( $8 \rightarrow 16$  KB : +0.6% seulement en IPC). Le **mispred rate** reste quasi constant (environ 1.35% pour Dijkstra et 1.40% pour Blowfish), indiquant que l'amélioration provient surtout de la hiérarchie mémoire plutôt que du contrôle. Ainsi, en termes de performance pure, la meilleure configuration parmi celles testées est **L1=16 KB**

pour les deux applications sur A7, avec une saturation visible autour de **8 KB** (notamment pour Blowfish).

*E. Q5: Impact de la taille de L1 (Cortex-A5, entrées large)*

On étudie l'impact de la **taille de la cache L1** sur les performances du cœur **A15** pour deux applications (dijkstra\_large et blowfish\_large). Comme le nombre d'instructions est (quasi) constant pour une application donnée (simInsts), une variation de numCycles se traduit directement par une variation d'IPC ( $IPC = simInsts/numCycles$ ). On interprète les tendances via les **miss rates** (I-L1, D-L1, L2) et le **taux de mauvaise prédition** (mispred\_rate).

a) *Performance (IPC et cycles).:*

TABLE VI: Cortex-A15 (large) — Performance en fonction de la taille L1

| L1 (KB) | Dijkstra |                          | Blowfish |                          |
|---------|----------|--------------------------|----------|--------------------------|
|         | IPC      | Cycles ( $\times 10^6$ ) | IPC      | Cycles ( $\times 10^6$ ) |
| 2       | 0.685    | 332.0                    | 1.094    | 11.7                     |
| 4       | 0.749    | 303.6                    | 1.191    | 10.7                     |
| 8       | 0.925    | 245.8                    | 1.458    | 8.7                      |
| 16      | 0.996    | 228.4                    | 1.489    | 8.6                      |
| 32      | 1.161    | 195.8                    | 1.636    | 7.8                      |

b) *Comportement cache (miss rates).:*

TABLE VII: A15 (large) — Miss rates et branchements (mispred\_rate en %)

| L1 (KB) | Dijkstra |        |        | mispred (%) | Blowfish |        |        |             |
|---------|----------|--------|--------|-------------|----------|--------|--------|-------------|
|         | I-L1     | D-L1   | L2     |             | I-L1     | D-L1   | L2     | mispred (%) |
| 2       | 0.0500   | 0.1703 | 0.0001 | 1.56        | 0.1159   | 0.2062 | 0.0016 | 1.35        |
| 4       | 0.0265   | 0.1278 | 0.0002 | 1.55        | 0.0058   | 0.1417 | 0.0027 | 1.43        |
| 8       | 0.0116   | 0.0661 | 0.0004 | 1.56        | 0.0008   | 0.0402 | 0.0125 | 1.39        |
| 16      | 0.0020   | 0.0465 | 0.0005 | 1.55        | 0.0006   | 0.0349 | 0.0163 | 1.39        |
| 32      | 0.0016   | 0.0108 | 0.0022 | 1.55        | 0.0005   | 0.0008 | 0.6820 | 1.35        |



(a) IPC en fonction de la taille de L1.  
(b) numCycles vs taille L1 (performance globale).



(a) Miss rate I-L1 vs taille L1. (b) Miss rate D-L1 vs taille L1.



(a) Miss rate L2 (conditionné aux accès L2) vs taille L1. (b) Taux de mauvaise prédiction (mispred rate) vs taille L1.

c) (A15).: Sur A15, l'augmentation de la taille L1 réduit fortement les **misses L1** (I et D), ce qui diminue numCycles et augmente l'IPC. Le gain est particulièrement marqué entre 4KB et 8KB (diminution nette des misses), puis les rendements deviennent décroissants. Le **taux de mauvaise prédiction** varie très peu avec L1, ce qui indique que l'amélioration provient majoritairement de la **hiérarchie mémoire** (et non du front-end branchement). Le point à retenir est donc que, pour ces workloads `large`, la performance A15 est fortement corrélée à la capacité de L1 à absorber le working set (surtout en données pour Dijkstra).

#### F. Q6 : état configuration de cache

Dans `cache.cfg`, les paramètres par défaut sont 32 KB (32768 Bytes) de cache, 64 B de bloc, associativité 2, et une technologie de 32 nm.

#### G. Q7 : efficacité surfacique des caches L1

a) *Paramètres de référence (Tableau 12).*: Pour le Cortex A15, les caches *I*-L1 et *D*-L1 sont configurés en 32KB/64/2. Pour le Cortex A7, les caches *I*-L1 et *D*-L1 sont configurés en 32KB/32/2.

b) *Note de cohérence (technologie et unités).*: Les fichiers CACTI utilisés ici (`result_L1_A15.txt` et `result_L1_A7.txt`) sont calculés à 32 nm (Technology size (nm) : 32), alors que l'énoncé donne les surfaces totales des coeurs (2 mm<sup>2</sup> pour A15 et 0.45 mm<sup>2</sup> pour A7) à 28 nm. Pour être rigoureux, on normalise donc les surfaces de cache de 32 nm vers 28 nm

avant de calculer les pourcentages. Par ailleurs, la technologie s'exprime en nm (et non en mm).

c) *Surface d'un cache L1 (sortie CACTI à 32 nm).*: On utilise la métrique Cache height × width (mm) :

$$A_{L1,A15} = \text{Cache height} \times \text{width}.$$

Pour A15 :

$$A_{L1,A15}^{(1)} = 0.265667 \times 0.175632 = 0.046660 \text{ mm}^2.$$

Pour A7 :

$$A_{L1,A7}^{(1)} = 0.265667 \times 0.174962 = 0.046482 \text{ mm}^2.$$

d) *Surface totale des caches L1 à 32 nm (instructions + données).*: Comme il y a deux caches L1 par cœur (*I*-L1 et *D*-L1) :

$$A_{L1,\text{tot}} = 2 \times A_{L1}^{(1)}.$$

$$A_{L1,\text{tot},A15} = 0.093319 \text{ mm}^2, \quad A_{L1,\text{tot},A7} = 0.092963 \text{ mm}^2.$$

e) *Normalisation des surfaces L1 de 32 nm vers 28 nm.*: En première approximation, la surface suit le carré du facteur de technologie :

$$A_{28} = A_{32} \left( \frac{28}{32} \right)^2, \quad \left( \frac{28}{32} \right)^2 = 0.765625.$$

$$A_{L1,\text{tot},A15}^{(28)} = 0.093319 \times 0.765625 = 0.071448 \text{ mm}^2,$$

$$A_{L1,\text{tot},A7}^{(28)} = 0.092963 \times 0.765625 = 0.071175 \text{ mm}^2.$$

f) *Part des L1 dans la surface totale des coeurs (base homogène 28 nm).*: Avec les surfaces globales données dans l'énoncé (2 mm<sup>2</sup> pour A15, 0.45 mm<sup>2</sup> pour A7, à 28 nm) :

$$\%L1 = \frac{A_{L1,\text{tot}}^{(28)}}{A_{\text{coeur} + L1}} \times 100.$$

$$\%L1_{A15} = \frac{0.071448}{2} \times 100 = 3.572\%$$

$$\%L1_{A7} = \frac{0.071175}{0.45} \times 100 = 15.817\%.$$

g) *Taille des coeurs hors caches L1.*:

$$A_{\text{coeur hors L1}} = A_{\text{coeur} + L1} - A_{L1,\text{tot}}^{(28)}.$$

$$A_{\text{coeur hors L1},A15} = 2 - 0.071448 = 1.928552 \text{ mm}^2,$$

$$A_{\text{coeur hors L1},A7} = 0.45 - 0.071175 = 0.378825 \text{ mm}^2.$$

h) *Analyse..*: Les deux coeurs ont des surfaces de L1 très proches, y compris après normalisation à 28 nm ( $\approx 0.071 \text{ mm}^2$  pour *I*-L1+*D*-L1 dans les deux cas). L'impact relatif reste néanmoins très différent : les L1 représentent une part modérée du A15 ( $\approx 3.57\%$ ), et une part nettement plus élevée du A7 ( $\approx 15.82\%$ ). Le même budget de cache pèse donc davantage dans un cœur plus compact.

H. Q8 : variation de la taille L1 et nouvelle surface totale (L2 inclus)

a) Méthode.: Nous faisons varier simultanément I-L1 et D-L1 dans les intervalles demandés :

$$A7 : \{1, 2, 4, 8, 16\} \text{ KB}, \quad A15 : \{2, 4, 8, 16, 32\} \text{ KB}.$$

Note : un point A7 à 32 KB a été généré à titre hors consigne / additionnel pour comparaison visuelle avec A15. Les résultats exigés pour Q8 côté A7 restent strictement  $\{1, 2, 4, 8, 16\}$  KB. Les surfaces de cache sont obtenues avec CACTI 6.5 (sorties à 32 nm), puis normalisées à 28 nm :

$$A_{28} = A_{32} \left( \frac{28}{32} \right)^2.$$

La surface totale demandée à Q8 est calculée par :

$$A_{\text{total}}^{(28)} = A_{\text{coeur hors L1}}^{(28)} + A_{L2}^{(28)} + A_{L1,I+D}^{(28)}.$$

avec  $A_{\text{coeur hors L1}}^{(28)} = 1.928552 \text{ mm}^2$  (A15) et  $A_{\text{coeur hors L1}}^{(28)} = 0.378825 \text{ mm}^2$  (A7), issus de Q7.

b) Résultats numériques ( $\text{mm}^2$ ): Elles sont normalisées à 28 nm

TABLE VIII: Q8 – Cortex A7 : surface L1 totale et nouvelle surface totale (L2 inclus).

| L1 (KB) | $A_{L1,I+D}^{(28)}$ | $A_{\text{total}}^{(28)}$ |
|---------|---------------------|---------------------------|
| 1       | 0.007995            | 0.757841                  |
| 2       | 0.019817            | 0.769663                  |
| 4       | 0.011540            | 0.761386                  |
| 8       | 0.025437            | 0.775283                  |
| 16      | 0.038482            | 0.788329                  |

TABLE IX: Q8 – Cortex A15 : surface L1 totale et nouvelle surface totale (L2 inclus).

| L1 (KB) | $A_{L1,I+D}^{(28)}$ | $A_{\text{total}}^{(28)}$ |
|---------|---------------------|---------------------------|
| 2       | 0.019483            | 2.267949                  |
| 4       | 0.009264            | 2.257730                  |
| 8       | 0.025521            | 2.273987                  |
| 16      | 0.028377            | 2.276843                  |
| 32      | 0.071448            | 2.319914                  |

c) Graphes demandés.: Deux graphes sont tracés : si le point A7 32 KB apparaît dans les figures, il est hors consigne / additionnel.



Fig. 7: Q8 – Surface totale de L1 (I-L1+D-L1) en fonction de la taille L1.



Fig. 8: Q8 – Nouvelle surface totale (coeur hors L1 + L1 + L2) en fonction de la taille L1.

d) Analyse.: L'augmentation de la taille L1 tend globalement à augmenter la surface totale, avec un décalage vertical dû à L2 fixe (512 KB). Les courbes ne sont pas strictement monotones pour toutes les tailles intermédiaires à cause des choix internes de floorplan/organisation CACTI (banques, mats, découpage), qui introduisent des paliers et des réorganisations discrètes. Malgré ces irrégularités locales, la tendance globale est claire : des L1 plus grands impliquent une surface totale plus grande pour A7 comme pour A15.

#### I. Q9 : efficacité surfacique ( $\text{IPC}/\text{mm}^2$ )

a) Définition.: Pour chaque configuration de L1 et pour chaque application, nous calculons :

$$\text{Efficacité surfacique} = \frac{\text{IPC}}{\text{surface totale} (\text{mm}^2)}.$$

Les IPC proviennent des sweeps gem5 (Q4 pour A7 et Q5 pour A15) et les surfaces totales proviennent de Q8 ( $A_{\text{total}}^{(28)}$ , base homogène 28 nm).

TABLE X: Q9 – A7 : IPC et efficacité surfacique (Dijkstra/Blowfish).

| L1 (KB) | $A_{\text{tot}}^{(28)} (\text{mm}^2)$ | $\text{IPC}_{\text{Dij}}$ | $\text{SE}_{\text{Dij}} (\text{IPC}/\text{mm}^2)$ | $\text{IPC}_{\text{Bf}}$ | $\text{SE}_{\text{Bf}} (\text{IPC}/\text{mm}^2)$ |
|---------|---------------------------------------|---------------------------|---------------------------------------------------|--------------------------|--------------------------------------------------|
| 1       | 0.757841                              | 0.239596                  | 0.316156                                          | 0.244910                 | 0.323168                                         |
| 2       | 0.769663                              | 0.250319                  | 0.325232                                          | 0.251317                 | 0.326529                                         |
| 4       | 0.761386                              | 0.260730                  | 0.342441                                          | 0.264360                 | 0.347209                                         |
| 8       | 0.775283                              | 0.280289                  | 0.361531                                          | 0.293105                 | 0.378062                                         |
| 16      | 0.788329                              | 0.286805                  | 0.363814                                          | 0.294579                 | 0.373675                                         |

#### b) Résultats – Cortex A7.:

TABLE XI: Q9 – A15 : IPC et efficacité surfacique (Dijkstra/Blowfish).

| L1 (KB) | $A_{\text{tot}}^{(28)} (\text{mm}^2)$ | $\text{IPC}_{\text{Dij}}$ | $\text{SE}_{\text{Dij}} (\text{IPC}/\text{mm}^2)$ | $\text{IPC}_{\text{Bf}}$ | $\text{SE}_{\text{Bf}} (\text{IPC}/\text{mm}^2)$ |
|---------|---------------------------------------|---------------------------|---------------------------------------------------|--------------------------|--------------------------------------------------|
| 2       | 2.267949                              | 0.654431                  | 0.288556                                          | 1.045684                 | 0.461070                                         |
| 4       | 2.257730                              | 0.714325                  | 0.316391                                          | 1.129990                 | 0.500498                                         |
| 8       | 2.273987                              | 0.878416                  | 0.386289                                          | 1.415052                 | 0.622278                                         |
| 16      | 2.276843                              | 0.947300                  | 0.416059                                          | 1.446239                 | 0.635195                                         |
| 32      | 2.319914                              | 1.056581                  | 0.455440                                          | 1.576089                 | 0.679374                                         |

#### c) Résultats – Cortex A15.:



Fig. 9: Q9 – Efficacité surfacique de Dijkstra en fonction de la taille L1.



Fig. 10: Q9 – Efficacité surfacique de Blowfish en fonction de la taille L1.

#### d) Graphes Q9.:

e) Analyse.: Pour A15, l'efficacité surfacique augmente avec L1 pour les deux applications, et le meilleur point observé est 32 KB (Dijkstra : 0.455440, Blowfish : 0.679374 IPC/mm<sup>2</sup>). Pour A7, Dijkstra atteint son maximum à 16 KB (0.363814 IPC/mm<sup>2</sup>), tandis que Blowfish atteint son maximum à 8 KB (0.378062 IPC/mm<sup>2</sup>) puis se tasse légèrement à 16 KB. Globalement, les gains de performance liés à l'augmentation de L1 compensent le surcoût en surface sur la plage testée, avec un point de rendement décroissant plus tôt sur A7.

#### J. Q10 : puissance à la fréquence maximale

a) Formule utilisée.: La consigne donne une consommation énergétique en mW/MHz. La puissance à fréquence maximale est calculée par :

$$P \text{ (mW)} = \left( \frac{\text{mW}}{\text{MHz}} \right) \times f \text{ (MHz)}.$$

#### b) Conversion des fréquences.:

$$1.0 \text{ GHz} = 1000 \text{ MHz} \quad (\text{A7}), \quad 2.5 \text{ GHz} = 2500 \text{ MHz} \quad (\text{A15}).$$

#### c) Calcul.:

$$P_{\text{A7}} = 0.10 \times 1000 = 100 \text{ mW},$$

$$P_{\text{A15}} = 0.20 \times 2500 = 500 \text{ mW}.$$

#### d) Résultat Q10.:

$$\text{Cortex-A7} = 100 \text{ mW}, \quad \text{Cortex-A15} = 500 \text{ mW}.$$

e) Interprétation pratique.: Ces valeurs indiquent la puissance consommée à la fréquence maximale d'après les coefficients fournis par l'énoncé (28 nm). En pratique, ce n'est pas un jugement absolu "bon" ou "mauvais" : elles montrent surtout que, à pleine fréquence, l'A15 consomme environ 5× plus de puissance que l'A7. L'A7 est donc plus favorable pour des contraintes de basse puissance, tandis que l'A15 vise davantage la performance au prix d'une consommation plus élevée.

#### K. Q11 : Efficacité énergétique

a) Rappel méthodologique.: L'efficacité énergétique est définie comme le rapport entre la performance obtenue (IPC) et la puissance consommée à fréquence maximale :

$$\text{Efficacité énergétique} = \frac{\text{IPC}}{P \text{ (mW)}}.$$

Les puissances maximales ont été déterminées à la question Q10 à partir des consommations en mW/MHz et des fréquences maximales.

b) Puissance maximale des processeurs.: Pour le Cortex A7 :

$$P_{\text{A7}} = 0.10 \text{ mW/MHz} \times 1000 \text{ MHz} = 100 \text{ mW}.$$

Pour le Cortex A15 :

$$P_{\text{A15}} = 0.20 \text{ mW/MHz} \times 2500 \text{ MHz} = 500 \text{ mW}.$$

Ainsi :

$$P_{\text{A7}} = 100 \text{ mW}, \quad P_{\text{A15}} = 500 \text{ mW}.$$

#### Cortex A7

TABLE XII: Efficacité énergétique du Cortex A7 en fonction de la taille du cache L1.

| L1 (KB) | IPC | Efficacité énergétique (IPC/100) |
|---------|-----|----------------------------------|
| 1       |     |                                  |
| 2       |     |                                  |
| 4       |     |                                  |
| 8       |     |                                  |
| 16      |     |                                  |

#### Cortex A15

TABLE XIII: Efficacité énergétique du Cortex A15 en fonction de la taille du cache L1.

| L1 (KB) | IPC | Efficacité énergétique (IPC/500) |
|---------|-----|----------------------------------|
| 2       |     |                                  |
| 4       |     |                                  |
| 8       |     |                                  |
| 16      |     |                                  |
| 32      |     |                                  |

c) *Analyse qualitative attendue.*: L'efficacité énergétique augmente lorsque l'IPC augmente, c'est-à-dire lorsque la réduction des cache misses améliore l'utilisation des unités de calcul.

Cependant, malgré un IPC généralement plus élevé pour le Cortex A15, sa consommation énergétique est cinq fois supérieure à celle du Cortex A7 (500 mW contre 100 mW). Ainsi, l'amélioration d'IPC doit être suffisamment significative pour compenser ce surcoût énergétique.

On s'attend donc à observer :

- Une amélioration de l'efficacité énergétique lorsque la taille du L1 augmente jusqu'à un point de saturation.
- Une stabilisation des gains au-delà d'une certaine taille de cache (rendements décroissants).
- Une efficacité énergétique globalement supérieure pour le Cortex A7, en raison de sa consommation nettement plus faible.

En conclusion, le Cortex A7 devrait offrir un meilleur compromis performance/énergie pour des charges modérées, tandis que le Cortex A15 privilégie la performance brute au détriment de la consommation.

#### L. Q12: Architecture big.LITTLE

a) *Objectif.*: L'architecture big.LITTLE associe un cœur *économique* (A7) et un cœur *performant* (A15). Pour chaque application, on souhaite proposer une configuration de caches L1 (*I-L1* et *D-L1* de même taille) qui offre le meilleur compromis *performance/énergie* à fréquence maximale, en s'appuyant sur les résultats des questions Q10–Q11 [?].

b) *Principe de décision (règle utilisée).*: Pour chaque processeur et chaque application, on retient :

- la configuration de *L1* située au *coude* des courbes (rendement décroissant), c.-à-d. la plus petite taille de *L1* à partir de laquelle l'IPC n'augmente plus significativement ;
- et/ou la configuration maximisant l'efficacité énergétique  $E = \text{IPC}/P$ .

Cette stratégie reflète un choix “concepteur” : éviter d’augmenter *L1* lorsque le gain de performance devient marginal.

#### M. Recommandation pour Dijkstra

a) *Cortex A7.*: D'après les résultats de Q11, l'efficacité énergétique de Dijkstra sur A7 est maximale (ou proche du maximum) pour  $L1 = [\dots]$  KB. Au-delà, l'IPC progresse faiblement tandis que l'intérêt énergétique devient marginal. Nous proposons donc :

$$L1_{A7}^{(\text{Dijkstra})} = [\dots] \text{ KB.}$$

b) *Cortex A15.*: Sur A15, l'IPC est supérieur mais la consommation est plus élevée, ce qui réduit l'efficacité énergétique. Les résultats montrent un coude / plateau à  $L1 = [\dots]$  KB. Nous proposons :

$$L1_{A15}^{(\text{Dijkstra})} = [\dots] \text{ KB.}$$

c) *Synthèse Dijkstra.*: La configuration big.LITTLE recommandée pour Dijkstra est :

$$(A7, A15) = ([\dots] \text{ KB}, [\dots] \text{ KB}).$$

#### N. Recommandation pour Blowfish

a) *Cortex A7.*: Pour Blowfish, les résultats de Q11 indiquent que l'efficacité énergétique sur A7 est optimale (ou quasi optimale) pour  $L1 = [\dots]$  KB. Nous proposons :

$$L1_{A7}^{(\text{Blowfish})} = [\dots] \text{ KB.}$$

b) *Cortex A15.*: Pour A15, l'augmentation de *L1* améliore l'IPC jusqu'à  $L1 = [\dots]$  KB, puis les gains deviennent faibles. Au regard de l'efficacité énergétique, on retient :

$$L1_{A15}^{(\text{Blowfish})} = [\dots] \text{ KB.}$$

c) *Synthèse Blowfish.*: La configuration big.LITTLE recommandée pour Blowfish est :

$$(A7, A15) = ([\dots] \text{ KB}, [\dots] \text{ KB}).$$

d) *Discussion générale.*: On s'attend à ce que le cœur A7 soit privilégié lorsque la contrainte énergétique domine (efficacité élevée), tandis que le cœur A15 est mobilisé lorsque la performance brute est requise. Les tailles retenues correspondent au meilleur compromis observé entre gain d'IPC et coût énergétique, en évitant les configurations où l'augmentation de *L1* n'apporte plus de bénéfice notable.

#### O. Q13 : équivalence des configurations et compromis

a) *Comparaison des configurations optimales.*: Les tailles de cache L1 retenues pour Dijkstra et Blowfish ne sont pas nécessairement identiques. Cette différence s'explique par la nature distincte des applications :

- Dijkstra présente une pression importante sur le contrôle et la mémoire,
- Blowfish est davantage dominée par le calcul entier.

Ainsi, la taille optimale de L1 peut différer selon le profil microarchitectural de la charge.

b) *équivalence.*: Si les tailles optimales obtenues pour les deux applications sont différentes (par exemple  $L1 = [\dots]$  KB pour Dijkstra et  $L1 = [\dots]$  KB pour Blowfish), alors les configurations ne sont pas strictement équivalentes.

En revanche, si les performances et l'efficacité énergétique restent proches dans une même plage de tailles, on peut considérer les configurations comme quasi équivalentes.

c) *Proposition de compromis.*: Dans un système réel, le cache L1 est fixe et ne peut être redimensionné dynamiquement. Il est donc pertinent de choisir une taille offrant :

- une performance proche de l'optimum pour les deux applications,
- une efficacité énergétique satisfaisante,
- un coût en surface raisonnable.

Nous proposons ainsi un compromis à  $L1 = [\dots]$  KB, correspondant au meilleur équilibre global observé.

*d) Conclusion sur les applications étudiées.*: Les résultats montrent que le dimensionnement optimal du cache dépend fortement du profil applicatif. Les applications orientées contrôle/mémoire bénéficient davantage d'un L1 suffisamment dimensionné pour réduire les miss, tandis que les charges compute-heavy sont plus sensibles au débit des unités de calcul qu'à l'augmentation excessive du cache.

*P. Q14 : Approche méthodologique pour la spécification d'une architecture*

La conception d'une architecture destinée à exécuter plusieurs applications dans un domaine spécifique doit suivre une approche systématique :

- 1) **Profiling représentatif** : Identifier un ensemble d'applications représentatives du domaine et mesurer leur instruction mix ainsi que leurs métriques de performance.
- 2) **Identification des pressions dominantes** : Déterminer si les charges sont principalement compute-bound, memory-bound ou control-bound.
- 3) **Exploration paramétrique** : Faire varier les paramètres microarchitecturaux clés (taille des caches, largeur pipeline, prédition de branchement, etc.) afin d'observer leur impact sur les métriques de performance, d'énergie et de surface.
- 4) **Analyse multi-critères** : évaluer les compromis performance/énergie/surface à l'aide d'indicateurs normalisés (IPC, efficacité énergétique, efficacité surfacique).
- 5) **Choix robuste** : Sélectionner une configuration offrant des performances stables sur l'ensemble des applications, même si elle n'est pas optimale pour chacune individuellement.

Cette approche permet de concevoir une architecture équilibrée, robuste et adaptée au domaine cible, plutôt qu'optimisée pour un cas particulier.

#### REFERENCES

- [1] TP4, "Microprocessors Architecture Configuration," document de travaux pratiques du cours.
- [2] A. Huamán, "Feature Description," *OpenCV Documentation* (OpenCV 4.14.0-pre), accessed Feb. 6, 2026. [Online]. Available: [https://docs.opencv.org/4.x/d5/dde/tutorial\\_feature\\_description.html](https://docs.opencv.org/4.x/d5/dde/tutorial_feature_description.html)