

## Introdução à Arquitetura de Computadores

Aula 25

### ***μArquitetura MIPS Multicycle: I***

#### *Performance Single-cycle*

Caminho Crítico; Tempo de Execução

#### **Arquitetura Multicycle (MC)**

Limitações do *datapath Single-cycle*

*Multicycle* versus *Single-cycle*

#### **Datapath MC**

Elementos de Estado: Memória Única

Execução de instruções:

Acesso à Memória: *lw*, *sw*,

Tipo-R e

Branch (*beq*)

A. Nunes da Cruz / DETI - UA

Maio / 2018

### ***Performance SC (1) - Caminho Crítico: $T_C$ (1)***

Num processador *single-cycle* todas as instruções executam num ciclo de *clock*.

O **período mínimo do clock** ( $T_C$ ) é limitado pelo caminho crítico (*critical path*) da instrução *lw* (ilustrado no diagrama abaixo com a linha azul tracejada).



$T_C$  limitado pelo caminho crítico (*lw*)

© A. Nunes da Cruz

IAC - MIPS - Multicycle I

1/24

## Performance SC (2) - Caminho Crítico: $T_c$ (2)

1. PC carrega um novo endereço no flanco ascendente do *clock*.
2. A instrução é lida da Memória de Instruções.
3. O operando *SrcA* é lido do Banco de Registros (e simultaneamente, não tracejado no diagrama, o valor **imediato** é estendido em sinal e *ALUSrc* seleciona-o como *SrcB* no multiplexor).



$T_{C2}$  : CLK to Instruction\_Mem to Register\_File to ALU

## Performance SC (3) - Caminho Crítico: $T_c$ (3)

4. A ALU soma *SrcA* com *SrcB* para calcular o endereço (*ALUResult*).
5. Deste endereço é lido *ReadData* da Memória de Dados.
6. O multiplexor *MemToReg* seleciona *ReadData*.
7. O *Result* apresenta-se à entrada do Banco de Registros, respeitando o tempo de *setup*, para ser escrito no próximo flanco ascendente do *clock*.



$T_{C3}$  : ALU to Data\_Mem to Mux to Register\_File

## Performance SC (4) - Caminho Crítico: $T_c$ (4)

- Caminho Crítico Single-cycle:

$$T_c = t_{pcq\_PC} + t_{mem} + \max(t_{RFread}, t_{sext} + t_{mux}) + t_{ALU} + t_{mem} + t_{mux} + t_{RFsetup}$$

- Na maioria das implementações os limites são impostos por:  
Memórias, Banco de Registos e ALU.

$$T_c = t_{pcq\_PC} + 2t_{mem} + t_{RFread} + t_{ALU} + t_{mux} + t_{RFsetup}$$



© A. Nunes da Cruz

IAC - MIPS - Multicycle1

4/24

## Performance SC (5) - Caminho Crítico: LW Timing



© A. Nunes da Cruz

IAC - MIPS - Multicycle1

5/24

## Performance SC (5) - Tempo de Execução (1)

### Tempo de Execução de um Programa

$$\begin{aligned}\text{Tempo de Execução} &= \# \text{Instruções} \times (\text{Ciclos/Instrução}) \times \\ &\quad (\text{Segundos/Ciclo}) \\ &= \# \text{Instruções} \times \text{CPI} \times T_c\end{aligned}$$

$$T_{EXEC} = \frac{\text{Segundos}}{\text{Programa}} = \frac{\# \text{Instruções}}{\text{Programa}} \times \frac{\text{Ciclos}}{\text{Instrução}} \times \frac{\text{Segundos}}{\text{Ciclo}}$$

- Segundos/Programa :  $T_{EXEC}$  : Tempo de espera para executar a tarefa
- #Instruções/Programa: Número de Instruções para completar a tarefa
- Ciclos/Instrução: CPI: Ciclos/Instrução (=1 no Single-cycle)
- Segundos/Ciclo:  $T_c$ , Período de Clock (1/Frequência)

## Performance SC (6) - Tempo de Execução (2)

| Elemento            | Parâmetro     | Atraso (ps) |
|---------------------|---------------|-------------|
| Register clock-to-Q | $t_{pcq\_PC}$ | 30          |
| Register setup      | $t_{setup}$   | 20          |
| Multiplexer         | $t_{mux}$     | 25          |
| ALU                 | $t_{ALU}$     | 200         |
| Memory read         | $t_{mem}$     | 250         |
| Register file read  | $t_{RFread}$  | 150         |
| Register file setup | $t_{RFsetup}$ | 20          |

$$\begin{aligned}T_c &= t_{pcq\_PC} + 2t_{mem} + t_{RFread} + t_{ALU} + t_{mux} + t_{RFsetup} \\ &= [ 30 + 2(250) + 150 + 200 + 25 + 20 ] \text{ ps} \\ &= 925 \text{ ps (1.08 GHz)}$$

Estes atrasos são, em geral, dependentes da tecnologia usada para implementar a lógica.

## ***Performance SC (6) - Tempo de Execução (3)***

Qual o tempo de execução dum programa com 100 mil milhões de instruções, num CPU *Single-cycle*?

$$\begin{aligned}\text{Tempo de Execução} &= \#\text{instruções} \times \text{CPI} \times T_C \\ &= 0.1 \times 10^{12} \times (1) \times 925 \times 10^{-12} \text{ s} \\ &= \textcolor{blue}{92.5} \text{ segundos}\end{aligned}$$

|                        |
|------------------------|
| $\text{CPI} = 1$       |
| $T_C = 925 \text{ ps}$ |

## ***Multicycle MIPS (1) - Limitações Single-cycle***

### ***Limitações do Single-cycle***

Basicamente, **três** pontos fracos:

1. Requere um período de *clock* suficientemente **longo** para acomodar a instrução com o tempo de execução mais longo (*lw*), não obstante a maioria das instruções ter um tempo de execução mais curto
2. Usa dois somadores e uma ALU
3. Usa memórias separadas para instruções e dados (*Harvard*). Hoje em dia, a maioria dos computadores **usa uma única** memória (*Von Neumann*) para instruções e dados.

## Multicycle MIPS (2) - SC vs MC: Modo de Execução

**Ideia:** Dividir a execução em múltiplos ciclos de *clock*



- No **Single-cycle** todas as instruções ocupam o mesmo tempo de execução.
- No **Multicycle** as instruções ocupam um tempo de execução **variável** (no diagrama é usado um *clock* 4 vezes mais rápido). Consegue-se, deste modo, uma maior taxa média de execução de instruções-por-segundo (ou *throughput*).

Admitimos que é possível dividir a execução em múltiplas fases (max. 5): *fetch*, *decode*, operação na ALU, acesso à memória (dados) e escrita no RF.

© A. Nunes da Cruz

IAC - MIPS - Multicycle1

10/24

## Multicycle MIPS (3) - SC vs MC: LW Timing



© A. Nunes da Cruz

IAC - MIPS - Multicycle1

11/24

## Multicycle MIPS (4) - SC vs MC: Sumário

- Microarquitectura Single-cycle
  - + simples
  - tempo de ciclo limitado pela instrução mais longa (`lw`)
  - uma ALU, dois somadores e duas memórias
- Microarquitectura Multicycle
  - + frequência de *clock* mais elevada
  - + as instruções mais simples executam mais rápido
  - + reutilização de *hardware* (caro) em ciclos distintos:  
uma única Memória e uma única ALU
  - Unidade de Controlo mais complexa:  
máquina de estados (FSM)
- Fases de *design* iguais: datapath + control

## MC Elementos de Estado - Uma só Memória

Substituição das duas memórias de Instruções e Dados por uma única\*

- Não era possível na implementação Single-cycle  
As instruções e os dados são necessários durante o mesmo ciclo de *clock*.
- Agora, a mesma memória pode ser (re)usada se necessário  
O *fetch* da instrução e o acesso aos dados são feitos em *ciclos de clock distintos*.



\*A arquitetura de Von Neumann substitui a de Harvard

## MC Datapath (1) - 1w Fetch

### Passo 1: Leitura da Instrução (Fetch)



1. Usa-se um novo Registo de Instrução\* (Instr) para reter a instrução por forma a poder ser usada nos ciclos seguintes.

\* Registo não acessível ao programador, designado por 'non-architectural' (contrariamente ao que acontece com os registos do RF e mesmo com o PC).

Estes registos (e são vários) são colocados nas saídas dos elementos funcionais para possibilitar o acesso aos valores (endereços/dados) do respectivo elemento, nos ciclos seguintes.

## MC Datapath (2) - 1w Leitura do Operando

### Passo 2: Leitura do operando do Register File (RF)



2. Insere-se mais um registo adicional (RegA), para reter o valor de rs (vai ser necessário no ciclo seguinte).

## MC Datapath (3) - 1w Obtenção do Offset

### Passo 3: Extensão do sinal do valor Imediato



3. Converte-se o valor  $\text{Imm}_{16}$ ,  $\text{Instr}15:0$ , em  $\text{SignImm}_{32}$



## MC Datapath (4) - 1w Cálculo do Endereço

### Passo 4: Cálculo do endereço de memória



4. Na ALU soma-se o endereço base  $\text{SrcA}$  ao  $\text{SrcB}$ , para obter o endereço de memória em  $\text{ALUResult}$  (endereço =  $A + \text{SignImm}$ ) .  
Insere-se um novo registo na saída da ALU,  $\text{ALUOut}$ .

O registo  $\text{ALUOut}$  é necessário devido à partilha da ALU para várias funções. Dependendo da instrução, o resultado pode ser enviado ou para a memória ( $\text{lw/sw}$ ) ou para o RF (tipo-R).

## MC Datapath (5) - *lw* Ler Valor da Memória

### Passo 5: Leitura do valor da Memória



5. Insere-se um **multiplexer** em frente da entrada de endereço da memória (Adr), para selecionar o **PC** ou **ALUOut** (i.e., o *Fetch* da instrução ou o acesso a **dados** é controlado pelo **novo** sinal de controlo **IorD**). O valor lido (**RD**) é colocado **noutro** registo (**Data**).

© A. Nunes da Cruz

IAC - MIPS - Multicycle1

18/24

## MC Datapath (6) - *lw* Escrever Valor no RF

### Passo 6: Escrita no Banco de Registros



6. O valor lido da memória (**Data**) é escrito (**RegWrite=1**) no registo **rt** (**Instr20:16**) do Banco de Registros.

***lw rt, imm(rs)***

© A. Nunes da Cruz

IAC - MIPS - Multicycle1

19/24

## MC Datapath (7) - 1w Incrementar o PC

### Passo 7: Calculo do PC'

ALUSrcB<sub>1:0</sub>: Seleciona 4 ou SignImm como SrcB (As restantes entradas mais adiante).



7.  $PC' = PC + 4$ . A soma é feita (re)usando a mesma ALU (tb usada no cálculo do endereço), mas em ciclos distintos.

O novo sinal de controlo PCWrite (enable do registo PC) possibilita a atualização do PC só em determinados ciclos.

© A. Nunes da Cruz

IAC - MIPS - Multicycle1

20/24

## MC Datapath (8) - sw versus 1w

### Passo 5: Escrita do valor de rt na Memória



Comparando **sw** com **1w** (e neste mesmo ciclo de clock):

- O valor de **rt** está no novo registo **RegB** (tb foi lido no Passo 2)
- Escreve **B** na memória fazendo **MemWrite =1** com **Adr =ALUOut**

| 31:26 | 25:21 | 20:16 | 15:0 | sw rt, imm(rs) |
|-------|-------|-------|------|----------------|
| 43    | rs    | rt    | imm  |                |

© A. Nunes da Cruz

IAC - MIPS - Multicycle1

21/24

## MC Datapath (9) - Tipo-R

- Usa os registos **rs** e **rt** como operandos    **add rd, rs, rt**



- Executa a operação aritmética/lógica (resultado em **ALUOut**)
- Escreve o resultado no registo **rd** (RF), **RegDst=1**
- O multiplexor **MemToReg** está, agora, em frente de **WD3** do Banco de Registros.

© A. Nunes da Cruz

IAC - MIPS - Multicycle1

22/24

## MC Datapath (10) - Branch

**beq rs, rt, imm**

- Determina se o valor dos registos **rs** e **rt** é igual (**Zero**)



- Calcula o endereço-alvo (reusando a ALU):  
 $BTA = (\text{SignImm}_{32} \ll 2) + (\text{PC} + 4)$
- O novo multiplexor **PCSrc**, escolhe o signal que atualiza o valor de **PC'**. O **PC** tanto pode ser atualizado (**PCEn**) pelo **PCWrite** como devido a um **Branch**.

Estas duas operações (BTA e comparação de **rs** e **rt**) são feitas em ciclos diferentes! Ver FSM (beq).

© A. Nunes da Cruz

IAC - MIPS - Multicycle1

23/24

## MC Datapath (11) - Completo\*



\*Mas, com um *instruction set* limitado a: lw/sw, tipo-R e beq