

**INSA**  
RENNES

Institut National des Sciences Appliquées  
École Polytechnique de Rennes

## COURS PARALLELISME

### Programming multicore architectures

Jean-Louis PAZAT INSA/IRISA



---

---

---

---

---

---

**INSA**  
RENNES

Institut National des Sciences Appliquées  
École Polytechnique de Rennes

### Computer architecture for Dummies

- Needed:
  - A processor (computation)
  - memory (storage)
  - I/Os (communication)



---

---

---

---

---

---

**INSA**  
RENNES

Institut National des Sciences Appliquées  
École Polytechnique de Rennes

### Multiprocessors

- Speeding up ?
  - Add processors



---

---

---

---

---

---



**INSA RENNES**

What is a multicore architecture ?

Institut National des Sciences Appliquées  
École Polytechnique d'Ingénieurs

- Uniform multicore architectures
  - A « core » is the core of a processor :
    - ALU, registers, sequencer
    - 0,1, or 2 caches
    - 1 core can run one or more threads
  - A processor may have many cores
    - Past : 1 core
    - Now : from 2 to 8 cores
    - In a few years: > 100 cores
  - Cores share cache(s)
  - A multicore processor needs efficient memory access

---

---

---

---

---

---

---

---

**INSA RENNES**

Why sharing caches ?

Institut National des Sciences Appliquées  
École Polytechnique d'Ingénieurs

- Best use of cache space
- Efficient communication between cores
- Example L2 cache sharing

---

---

---

---

---

---

---

---

**INSA RENNES**

Les Intel multicore architectures (outdated fig.)

Institut National des Sciences Appliquées  
École Polytechnique d'Ingénieurs

| Dual-Core Xeon 71xx(Tulsa)                                                                           | Quad-Core Xeon 73xx(Tigerton)                                                                     | Dunnington                                                                                               | Nehalem-EX(Beckton)                                                                                                                                                                       |
|------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Native 2-core CPU<br>FSB 1333   1066MHz<br>Shared L2 Cache                                           | Native 4-core CPU<br>FSB 1333   1066MHz<br>Shared L2 Cache                                        | Native 4-core CPU<br>FSB 1333   1066MHz<br>Shared L2 Cache                                               | Native 8-core CPU<br>FSB 1333   1066MHz<br>Shared L2 Cache                                                                                                                                |
| Netburst Microarchitecture<br>2 cores<br>4 threads<br>Single FSB<br>16MB L3<br>Single FSB (3900Mops) | Core Microarchitecture<br>4 cores<br>4 threads<br>Single FSB<br>2x8MB L2<br>Shared FSB (1666Mops) | Core Microarchitecture<br>4.8 cores<br>4.8 threads<br>Single FSB<br>12/16 MB L3<br>Single FSB (3900Mops) | Nehalem Microarchitecture<br>up to 8 cores<br>up to 8 threads<br>Single FSB<br>24MB L7<br>4 QPI (6.4Gops)<br>24MB Shared Last Level Cache<br>FBQS Memory Controller   QPI Link Controller |
| Q3 96                                                                                                | Q3 97                                                                                             | Q4 08                                                                                                    | Q4 08<br>2H 09                                                                                                                                                                            |

---

---

---

---

---

---

---

---







# A CUDA example

- [-> bureau](#)



Institut National des Sciences Appliquées  
Tours Poitiers Rennes

---

---

---

---

---

---

---

**Ancestors : SIMD machines ('70)**

- Connection machine
  - 65536 processeurs, 4 Ko by processor
  - 1 sequencer:
    - At each cycle a processor
      - Executes the same operation as the others do
      - or
      - Does nothing
  - Fine for
    - Matrix/vector computation, image processing, ...
    - Data parallelism

---

---

---

---

---

---

---



# SIMD programming

- Programming languages
  - Data parallel languages
    - Global opérations on data
      - alpha operations, beta reductions
      - « threads » for computation (CUDA)
    - Data movement
      - between processors (SHIFT, ROTATE, ...) SUR CM
      - Between memory banks
    - Syntax
      - « Strange » or « C(++)-like »
  - Performance: do not forget :
    - SIMD = every proc does the same work or nothing
    - Programming language may be misleading

---

---

---

---

---

**INSA RENNES**

Institut National des Sciences Appliquées  
École Polytechnique d'Ingénieurs

## Outline

- Multicore architectures
- Programming with Threads
- TBB
- Higher level languages
- openMP

---

---

---

---

---

---

---

**INSA RENNES**

Institut National des Sciences Appliquées  
École Polytechnique d'Ingénieurs

## Intel TBB

- TBB =
  - Threads Building Blocks
  - Intel C++ library
  - Uses native threads
- Basic « object » : Task
  - Tasks are executed by native threads
  - Load balancing by Work stealing
- Templates to ease parallel programming
  - Parallel\_for, parallel\_reduce, ...
  - Synchronization tools (atomic, exmut,...)

---

---

---

---

---

---

---

**INSA RENNES**

Institut National des Sciences Appliquées  
École Polytechnique d'Ingénieurs

## Work stealing ?

- How to do load balancing ?
  - Centralized distribution of work
    - Master/worker, processor farms
  - Move work to under used resources
  - If you have not enough work
    - steal work to another unit
      - Sound strange ?
      - Efficient (theoretically « optimal »)

---

---

---

---

---

---

---

```

void SerialApplyFoo(float a[],size_t n) {
    for( size_t i=0; i!=n; ++i )Foo(a[i]);
}

#include "tbb/tbb.h"
using namespace tbb;
class ApplyFoo {
    float *const my_a;
public:
    void operator()(const blocked_range<size_t>& r)
    const {
        float *a = my_a;
        for( size_t i=r.begin(); i!=r.end(); ++i )Foo(a[i]);
    }
    ApplyFoo( float a[] ) :
    my_a(a){}
};

void ParallelApplyFoo(float a[],size_t n)
{parallel_for(blocked_range<size_t>(0,n),
    ApplyFoo(a));
}

```

**OpenMP : présentation**

**OpenMP: une API pour écrire des Applications Multithread (spécification de 1997)**

- Un ensemble de directives de compilation et une bibliothèque de fonctions
- Facilite la création de programmes multi-thread (MT) Fortran, C and C++
- Standardise la pratique de la programmation des machines SMP des 15 dernières années
- Plus facile que TBB mais pas C++

[F. Cappello, CNRS-LRI Orsay et IPef2000-Aussois]

**OpenMP : mode de programmation**

OpenMP est utilisé « principalement » pour paralléliser les boucles :

Trouver les boucles les plus coûteuses en temps  
Distribuer leurs itérations sur plusieurs threads.

**Programme Séquentiel**

```

void main()
{
    double Res[1000];
    for(int i=0;i<1000;++i) {
        do_huge_comp(Res[i]);
    }
}

```

**Programme Parallèle**

```

void main()
{
    double Res[1000];
    #pragma omp parallel for
    for(int i=0;i<1000;++i) {
        do_huge_comp(Res[i]);
    }
}

```

Parallélisme Fork-Join :

- Le thread Maître lance une équipe de threads selon les besoins (région parallèle).
- Le parallélisme est introduit de façon incrémentale ; le programme séquentiel évolue vers un prog. parallèle

Régions parallèles

The slide features the INSA Rennes logo in the top left corner, consisting of a blue geometric pattern followed by the text "INSA" in large blue letters and "RENNES" in smaller black letters. The title "L'API OpenMP" is centered at the top in a large, bold, black font. The background is light green with faint blue curved lines. A vertical bar on the left contains the text "Institut National des Sciences Appliquées" and "École Doctorale d'Ingénierie".

**INSA** OpenMP : Les régions parallèles

Les threads sont créés avec la directive “omp parallel”.

```
!$OMP PARALLEL [CLAUSE[, , CLAUSE]...]
...
!$OMP END PARALLEL
```

Chaque thread exécute de manière redondante le code à l'intérieur du bloc structuré

```
double A[1000];
omp_set_num_threads(4);
#pragma omp parallel
{
    int ID = omp_get_thread_num();
    fnc(ID,A);
}
```

← Tous les threads attendent les autres threads ici avant de continuer (*barrier*)

Chaque thread appelle fnc(ID,A) avec ID différent

**INSA RENNES OpenMP : Les régions parallèles**

Tous les threads exécutent le même code.

```
double A[1000];
omp_set_num_threads(4);
#pragma omp parallel
{
    int ID = omp_get_thread_num();
    fonsc(ID, A);
}
printf("fin\n");
```

Une seule copie de A est partagée entre tous les threads.

Tous les threads attendent ici les autres threads avant de continuer (barrier)

**INSA RENNAIS**

## OpenMP : Synchronisations

- OpenMP possède les constructeurs suivants pour les opérations de synchronisation
  - **atomic**
  - **critical section**
  - **barrier**
  - **flush**
  - **ordered**
  - **single**
  - **master**



## OpenMP : section critique

- Un seul thread à la fois peut entrer dans une section critique (**critical**)

```
!$OMP PARALLEL DO PRIVATE(B)
!$OMP& SHARED(RES)
    DO 100 I=1,NITERS
        B = DOIT(I)
    !$OMP CRITICAL
        CALL COMBINE (B, RES)
    !$OMP END CRITICAL
100    CONTINUE
!$OMP END PARALLEL DO
```

**INSA RENNES**  
OpenMP : action atomique

Institut National des Sciences Appliquées  
École polytechnique d'Ingénierie

- **Atomic** est un cas spécial de section critique qui peut être utilisé pour certaines opérations simples.
- Elle s'applique seulement dans le cadre d'une mise à jour d'une case mémoire

```

!$OMP PARALLEL PRIVATE (B)
  B = DOIT(I)
  !$OMP ATOMIC
    X = X + B
  !$OMP END PARALLEL

```

---

---

---

---

---

---

---

---

**INSA RENNES**  
OpenMP : barrières de synchronisation

Institut National des Sciences Appliquées  
École Polytechnique d'Ingénierie

**BARRIER** tous les thread attendent que les autres threads arrivent au même point d 'exécution avant de continuer

```

#pragma omp parallel shared (A, B, C) private(id)
{
    id=omp_get_thread_num();
    A[id] = big_calc1(id);                                Barrière implicite à la fin
    #pragma omp barrier                                     de la construction
    #pragma omp for
        for(i=0;i<N;i++){C[i]=big_calc3(i,A);}
    #pragma omp for nowait
        for(i=0;i<N;i++){ B[i]=big_calc2(C, i); }
    A[id] = big_calc3(id);                                Pas de barrière
}                                                       implicite nowait
    
```

---

---

---

---

---

---

---

---