

Tsar

# TSAR

- TSAR signifie Tera Scale Architecture
- Architecture conçue au LIP6 et dont un prototype a été réalisé au CEA LETI
- 2 projets Européen + 1 projet ANR entre 2008 et 2017 (9 thèses + beaucoup de stages)
- Manycore jusqu'à 1024 cores, les prototypes ont 16 cores et 96 cores
- architecture CC-NUMA : Cache-Coherent Non Uniform Memory Access
- Usage général donc tournant sous Linux, NetBSD et ALLOS
- Architecture caractérisée : 1 cluster = 4 NPs + 1 segment de mémoire + périphériques.
- 3 niveaux de caches 2xL1 de 16 kB/core + 1L2 de 256 kB/cluster + 1L3 de 4 Mo/cluster
- MMU entièrement hardware (pages faults générés par le matériel)
- cache L1 et TLB cohérents par le matériel

# General Purpose CC-NUMA

Les Noc sont des mesh 2D ou 3D



parce que les Bus ont une bande passante limitée

Les Noc ont une bande passante qui croît avec leur taille  
**Mais**

- » latence plus grande  $\Rightarrow$  transactions pipelinées
- » cohérence par SNOOP impossible
- » problème des instructions atomiques
- » l'accès aux E/S est plus complexe



La complexité de TSAR  
est dans son système-mémoire

# General Purpose CC-NUMA



# Espaces d'adressages

- Espace d'adressage physique sur 40 bits  
Logiquement partagée  $\Rightarrow$  tous les cores y accèdent physiquement distribuée  $\Rightarrow$  chaque dossier gère 1 segment de 4 GB.



- Espace d'adressage virtuel sur 32 bits (puisque les cores sont 32 bits)



on général c'est l'inverse  
l'espace virtuel est plus grand  
(ou égal) que l'espace physique

# Memory Management Unit

- Espace d'adressage physique sur 40 bits  
Logiquement partagée  $\Rightarrow$  tous les cores y accèdent physiquement distribuée  $\Rightarrow$  chaque destinataire gère 1 segment de 4 GB.
- Espace d'adressage virtuel sur 32 bits (parce que les cores sont 32 bits)
- les Espaces sont de tableaux de pages de 4 KB ( $2^{12}$  octets)



| x      | y      | Local address | 0 |
|--------|--------|---------------|---|
| 4 bits | 4 bits | 32 bits       |   |



# Memory Management Unit

adresse virtuelle  
↓ 32



adresse physique  
↓ 40

## MMU par défaut

adresse virtuelle  
↓ 32

PADDR\_EXT



8

132

adresse physique  
↓ 40

au reset  $\text{PADDR\_EXT} = \phi$

$\Rightarrow$  tous les clusters accèdent au banc  $\phi\phi$

## MMU principe



table des pages  
 $4 \text{ PB} = 2^{20}$   
entrées de 32 bits minimum

Il y a 2 MMU dans TSAR

## MMU réelle



table de premier niveau  
 $8 \text{ KB} = 2048$   
entrées de 32 bits

table de deuxième niveau  
 $4 \text{ KB} = 512$   
entrées de 64 bits

La table des pages est composée de

- 1 table de premier niveau
- $\phi$  à 2048 table de 2<sup>nd</sup> niveau.

PTE : page table entry

PTD : page table directory

# Memory Management Unit

La table de premier niveau contient 2 types d'entrée

- PTD1 Page Table Directory.

PPN : Physical Page Number



validité  
type  
28 bits  
c'est une adresse de page de 4 kB  
il faut décaler de 12 bits  
vers la gauche

vers table de 2<sup>ème</sup> niveau

- PTE1 Page Table Entry n°1



8 FLAGS  
C : cachable  
E : Executable  
W : Writable  
etc...

19 bits  
c'est une adresse  
de page de 2 MB

MMU Grande. Pages

adresse virtuelle  
+ 32



11 bits 21 bits



21  
19  
140  
adresse physique

# Memory Management Unit

La table de 2<sup>nd</sup> niveau contient des entrées sur 64 bits.



## FLAGS

|   |               |      |
|---|---------------|------|
| L | Local Acces   | hard |
| R | Remote Access | hard |
| C | Cachable      | soft |
| W | writable      | soft |
| X | executable    | soft |
| U | User          | soft |
| G | Global        | soft |
| D | dirty         | hard |

c'est le numéro de page physique qui doit être concaténé à l'offset

les bits doivent être modifiés par des accès atomiques pour être sûr de leur modification avant de continuer

# Memory Management Unit

- Dans la MMU il y a aussi une TLB Translation Lookaside Buffer  
C'est un cache qui enregistre les dernières traductions d'adresses  
il a 64 entrées  $16 \times 4$  (associatif à 4 voies)



# Cohérence des caches

La cohérence des caches L1 est garantie par le matériel

Si deux caches L1 lisent la même ligne, alors si l'une des copies est modifiée l'autre aussi.  
Le snoop ne fonctionne pas avec le NoC.

C'est le cache L2 qui donne les lignes aux caches L1. Il existe plusieurs solutions possibles :

- 1 - pour chaque ligne, le L2 dispose d'un BIT MAP avec autant de cases que de L1  
c'est simple mais ça ne passe pas à l'échelle
- 2 - les copies de lignes sont chaînées entre elles  
c'est très difficile à gérer, quand une ligne est evincée d'un L1 il faut maintenir le chainage.
- 3 - le cache L2 se stocke pour chaque ligne la liste des L1 ayant la copie  
C'est plus simple à mettre en œuvre que la solution 2 mais ce n'est pas scalable
- 4 - le cache L2 se contente de se souvenir le nombre de copies de chaque ligne  
C'est simple et ça passe à l'échelle mais il n'est pas possible de faire des mises à jour de ligne  
si une ligne est modifiée - le cache L2 doit demander une invalidation avec 1 broadcast

Pour toutes les solutions le cache L2 doit être inclusif et les caches L1 doivent être en write through.

# Cohérence des caches

TSAR implémente un mix. entre les solutions 3 et 4 - c'est le protocole

DHCCP

Distributed Hybrid Cache Coherence Protocol

Les caches L2 conservent une liste des copies jusqu'à un seuil (ici 4)  $\Rightarrow$  mise à jour des copies et au-delà de ce seuil il ne stocke que le nombre de copies.  $\Rightarrow$  invalidation des copies

Les transactions entre les caches L1 et L2 sont

• les transactions clientées

- commande pour la lecture ou les écritures

- réponse pour les lignes lues ou les acquittements d'écriture

• auxquelles s'ajoutent des transactions de cohérences

- update ou inval  $L2 \rightarrow L1$  lors de la modification ou l'évincement d'une ligne du L2

- cleanup  $L1 \rightarrow L2$  lors de l'évincement d'une ligne du L1

- clock  $L2 \rightarrow L1$  pour acquitter le L1 que l'éviction est pris en compte



# Cohérence des caches

L1

BC : Broadcast

MC : Multi Cast



Si L2 évincé des lignes  
il doit invalider ces lignes dans tous les L1  
il attend autant de cleanup que de copie  
et il envoie un clack à la fin.  
de même si l'on reçoit une écriture au delà du seuil

Quand le L1 évincé une ligne  
il doit prévenir le L2 pour le retirer  
de la liste des copies ou déclencher le copieur

Si le L2 reçoit une écriture dans une ligne  
en deçà du seuil il demande la mise à jour  
individuelle de chaque L1  
Il faut 3 réseaux indépendant



# Cohérence des caches

- les TLB sont également cohérentes par le matériel
- les entrées de TLB sont aussi dans les L1
- quand une TLB fait NISS  $\Rightarrow$  elle lit le cache L1
  - Si le L1 possède la ligne  $\rightarrow$  HIT
    - la TLB est mise à jour
  - Si le L1 ne possède pas la ligne  $\rightarrow$  NISS
    - lecture de la ligne dans le L1
    - puis mise à jour de la TLB
- le cache sert pour chaque ligne si elle se trouve partiellement dans la TLB
  - Si une ligne partiellement dans la TLB est invalidée ou mise à jour la TLB est mise à jour
    - pb on peut perdre des entrées dans la TLB si le L1 enlève des lignes pour se faire de la place

# Opérations Atomiques

- Objectif : permettre le partage de ressources entre plusieurs threads, (fil d'exécution)
  - mécanisme pour garantir l'atomité de la sequence : read - modify - write
  - NIPS : instructions

Linked Load      LL    \$r1,(\$r2)    \$r1←mem(\$r2)

Store Conditional. SC     $\$r_2, (\$r_2)$      $\text{mem}(\$r_2) \leftarrow \$r_2$  et  $\$r_1 \leftarrow \begin{cases} 1 & \text{si OK} \\ 0 & \text{si KO} \end{cases}$

- le cache L2 enregistre qui a réalisé le LL et n'autorise le SC que pour celui qui a fait le dernier LL la valeur de retour du SC infime si l'accès a fonctionné
  - prendre un lock L2 \$r1, spinlock

L2 \$r1, spinlock

Lock: LL \$r2,(\$r1) ] le spinlock est caché  
 bnez \$r2, lock ] => l'attente est dans le code

ori \$52, 1

SC \$12, (\$1)

begin \$r2, loc

# Opérations Atomiques

- LL **addr**

le L2 dispose d'un tableau de réservation associative à 32 entrées : **addr**, **key**.

addr = adresse lue

key = un identifiant de la transaction sur cette adresse

le L2 renvoie la valeur lue et le key.

Si une autre LL arrive sur la même adresse le L2 renvoie la même chose

- SC **addr**, **val**

le L1 envoie une commande à l'adresse **addr** contenant **val** et **key**

le L2 recherche l'adresse dans le tableau de réservation

s'il y a une entrée et que c'est la bonne key. → Succès. → écriture  
et l'entrée est supprimée dans le tableau de réservation

Sinon échec

- Problème: il y a un risque de faillite pour les LL/SC certains  
Si il y a un LL sans SC → le tableau de réservation se rompt

# Opérations Atomiques

Problème 1 : Si LL mais pas de SC  
⇒ la table se remplit ⇒ déni de service

Solution : limiter la durée de vie des entrées dans la table de réservation du cache L2

Problème 2. 1 famine possible pour les LL/SC lointains  
à cause du NUMA les LL/SC lointains sont défavorisé

Solution : rendre la durée de vie des entrées variables  
beaucoup d'entrée avec une courte durée de vie  
et quelques entrée avec une durée de vie grande  
Il y a une probabilité non nulle qu'un LL/SC lointain  
utilise une entrée longue durée

## Conclusion...

la complexité de TSAR est son système mémoire

- » Le réseau pour relier le CPU aux mémoires
- » les caches et leur cohérence

(la gestion de la cohérence logicielle des structures

de données va s'inspirer de la gestion de la cohérence matérielle)