

# Trabalho 2 de Sistemas Digitais

Projeto PC-PO/HLS  
Multiplicação de matrizes 3x3

---

Gabriel Patrocínio - 00340812  
Leonardo Santos - 00341831

# Resumo

1. Implementar um algoritmo de multiplicação de duas matrizes 3x3.
2. Solução HLS
  - Programa em C
  - Solução básica com HLS
  - Uma solução básica e duas otimizadas com HLS
3. Solução PC-PO
  - Fluxograma PC-PO
  - Esquemático da PO
  - FSM da PC
  - Programa em VHDL e simulações
4. Comparação dos resultados

## 2. Solução HLS

- Programa em C

```
1  #ifndef MATRIX_MULT_H
2  #define MATRIX_MULT_H
3
4  #include <stdint.h>
5
6  #define N 3
7  typedef uint8_t mat_in_t;
8  typedef int32_t mat_out_t;
9
10 void matrix_mult(mat_in_t A[N][N], mat_in_t B[N][N], mat_out_t R[N][N]);
11
12 #endif
```

Código 1: *matrix\_mult.h*

## 2. Solução HLS

- Programa em C

```
1  #include "matrix_mult.h"
2
3  void matrix_mult(mat_in_t A[N][N], mat_in_t B[N][N], mat_out_t R[N][N]) {
4      Row_Loop: for (int i = 0; i < N; i++) {
5          Col_Loop: for (int j = 0; j < N; j++) {
6              mat_out_t sum = 0;
7              Prod_Loop: for (int k = 0; k < N; k++) {
8                  sum += A[i][k] * B[k][j];
9              }
10             R[i][j] = sum;
11         }
12     }
13 }
```

Código 2: *matrix\_mult.cpp*

## 2. Solução HLS

- Uma solução básica e duas otimizadas com HLS

| TARGET   |  | WITH UNCERTAINTY | ESTIMATED |
|----------|--|------------------|-----------|
| 10.00 ns |  | 7.30 ns          | 2.301 ns  |

  

| Performance & Resource Estimates |  |             |                   |          |            |           |           |      |     |    |     |      |
|----------------------------------|--|-------------|-------------------|----------|------------|-----------|-----------|------|-----|----|-----|------|
| MODULES & LOOPS                  |  | LATENCY(NS) | ITERATION LATENCY | INTERVAL | TRIP COUNT | PIPELINED | STRUCTURE | BRAM | DSP | FF | LUT | URAM |
| matrix_mult (1)                  |  | 1.600E3     |                   | 161      |            | no        | function  | 0    | 1   | 48 | 186 | 0    |
| > c_Row_Loop (1)                 |  | 1.590E3     | 53                | -        | 3          | no        | loop      |      |     |    |     |      |

Síntese 1: solução não otimizada

## 2. Solução HLS

- Uma solução básica e duas otimizadas com HLS

| TARGET   |  | WITH UNCERTAINTY | ESTIMATED |
|----------|--|------------------|-----------|
| 10.00 ns |  | 7.30 ns          | 5.893 ns  |

  

| Performance & Resource Estimates |  |             |                   |          |            |                  |           |      |     |    | <input checked="" type="checkbox"/> Modules | <input checked="" type="checkbox"/> Loops | <input checked="" type="checkbox"/> Hide empty columns |
|----------------------------------|--|-------------|-------------------|----------|------------|------------------|-----------|------|-----|----|---------------------------------------------|-------------------------------------------|--------------------------------------------------------|
| MODULES & LOOPS                  |  | LATENCY(NS) | ITERATION LATENCY | INTERVAL | TRIP COUNT | PIPELINED        | STRUCTURE | BRAM | DSP | FF | LUT                                         | URAM                                      |                                                        |
| matrix_mult (1)                  |  | 230.000     |                   | 18       |            | loop auto-rewind | function  | 0    | 2   | 50 | 320                                         | 0                                         |                                                        |
| Row_Loop_Col_Loop                |  | 210.000     |                   | 6        | 2          | 9                | yes       | loop |     |    |                                             |                                           |                                                        |

Síntese 2: solução otimizada com **pipeline**

## 2. Solução HLS

- Uma solução básica e duas otimizadas com HLS

| TARGET   |  | WITH UNCERTAINTY |  | ESTIMATED |  |
|----------|--|------------------|--|-----------|--|
| 10.00 ns |  | 7.30 ns          |  | 4.960 ns  |  |

  

| Performance & Resource Estimates |             |          |           |           |      |     |     |     |      |  | <input checked="" type="checkbox"/> Modules | <input checked="" type="checkbox"/> Loops | <input checked="" type="checkbox"/> Hide empty columns |
|----------------------------------|-------------|----------|-----------|-----------|------|-----|-----|-----|------|--|---------------------------------------------|-------------------------------------------|--------------------------------------------------------|
| MODULES & LOOPS                  | LATENCY(NS) | INTERVAL | PIPELINED | STRUCTURE | BRAM | DSP | FF  | LUT | URAM |  |                                             |                                           |                                                        |
| matrix_mult                      | 90.000      | 10       | no        | function  | 0    | 18  | 172 | 575 | 0    |  |                                             |                                           |                                                        |

Síntese 3: solução otimizada com **unroll**

### 3. Solução PC-PO

- Fluxograma da PC-PO



### 3. Solução PC-PO

#### - Esquemático da PO



### 3. Solução PC-PO

- FSM da PC



### 3. Solução PC-PO

- Programa em VHDL

Código 1: *matrix\_mult\_top.vhd*

```
1 library IEEE;
2 use IEEE.STD_LOGIC_1164.ALL;
3 use work.pkg_matrix.ALL;
4
5 entity matrix_mult_top is
6     Port (
7         clk      : in  STD_logic;
8         rst      : in  STD_logic;
9         start    : in  STD_logic;
10        A_in     : in  t_matrix_in;
11        B_in     : in  t_matrix_in;
12        done     : out STD_logic;
13        R_out    : out t_matrix_out
14    );
15 end matrix_mult_top;
16
17 architecture Structural of matrix_mult_top is
18     signal ld_regs, clr_acc, ld_acc, wr_res : STD_logic;
19     signal inc_k, inc_j, inc_i, clr_k, clr_j, clr_i : STD_logic;
20     signal k_done, j_done, i_done : STD_logic;
21 begin
22     inst_PC: entity work.matrix_mult_pc
23     port map (
24         clk => clk, rst => rst, start => start, done => done,
25         k_done => k_done, j_done => j_done, i_done => i_done,
26         ld_regs => ld_regs, clr_acc => clr_acc, ld_acc => ld_acc, wr_res => wr_res,
27         inc_k => inc_k, inc_j => inc_j, inc_i => inc_i,
28         clr_k => clr_k, clr_j => clr_j, clr_i => clr_i
29     );
30
31     inst_PO: entity work.matrix_mult_po
32     port map (
33         clk => clk, rst => rst,
34         ld_regs => ld_regs, clr_acc => clr_acc, ld_acc => ld_acc, wr_res => wr_res,
35         inc_k => inc_k, inc_j => inc_j, inc_i => inc_i,
36         clr_k => clr_k, clr_j => clr_j, clr_i => clr_i,
37         k_done => k_done, j_done => j_done, i_done => i_done,
38         A_in => A_in, B_in => B_in, R_out => R_out
39     );
40 end Structural;
```

### 3. Solução PC-PO

- Programa em VHDL

#### Código 2: *matrix\_mult\_pc.vhd*

```
1 library IEEE;
2 use IEEE.STD_LOGIC_1164.ALL;
3
4 entity matrix_mult_pc is
5     Port (
6         clk, rst, start : in std_logic;
7         done           : out std_logic;
8
9         -- Inputs da PO
10        k_done, j_done, i_done : in std_logic;
11
12        -- Outputs para PO
13        ld_regs, clr_acc, ld_acc, wr_res : out std_logic;
14        inc_k, inc_j, inc_i : out std_logic;
15        clr_k, clr_j, clr_i : out std_logic
16    );
17 end matrix_mult_pc;
```

```
19 architecture Behavioral of matrix_mult_pc is
20     type state_type is (IDLE, SETUP, INIT_I, INIT_J, INIT_K, CALC, CHECK_K, WRITE_RES, CHECK_J, CHECK_I, FINISHED);
21     signal current_state, next_state : state_type;
22 begin
23
24     process(clk, rst)
25     begin
26         if rst = '1' then current_state <= IDLE;
27         elsif rising_edge(clk) then current_state <= next_state;
28     end if;
29     end process;
30
31     process(current_state, start, k_done, j_done, i_done)
32     begin
33         -- Defaults
34         ld_regs<='0'; clr_acc<='0'; ld_acc<='0'; wr_res<='0';
35         inc_k<='0'; inc_j<='0'; inc_i<='0';
36         clr_k<='0'; clr_j<='0'; clr_i<='0';
37         done<='0'; next_state <= current_state;
38
39     case current_state is
40         when IDLE =>
41             if start = '1' then next_state <= SETUP; end if;
42         when SETUP =>
43             ld_regs <= '1'; next_state <= INIT_I;
44         when INIT_I =>
45             clr_i <= '1'; next_state <= INIT_J;
46         when INIT_J =>
47             clr_j <= '1'; next_state <= INIT_K;
48         when INIT_K =>
49             clr_k <= '1'; clr_acc <= '1'; next_state <= CALC;
50         when CALC =>
51             ld_acc <= '1'; next_state <= CHECK_K;
52         when CHECK_K =>
53             if k_done = '1' then next_state <= WRITE_RES;
54             else inc_k <= '1'; next_state <= CALC; end if;
55         when WRITE_RES =>
56             wr_res<='1'; next_state <= CHECK_J;
57         when CHECK_J =>
58             if j_done = '1' then next_state <= CHECK_I;
59             else inc_j <= '1'; next_state <= INIT_K; end if;
60         when CHECK_I =>
61             if i_done = '1' then next_state <= FINISHED;
62             else inc_i <= '1'; next_state <= INIT_J; end if;
63         when FINISHED =>
64             done <= '1';
65             if start = '0' then next_state <= IDLE; end if;
66         when others => next_state <= IDLE;
67     end case;
68 end process;
69 end Behavioral;
```

### 3. Solução PC-PO

- Programa em VHDL

#### Código 3: *matrix\_mult\_po.vhd*

```

1 library IEEE;
2 use IEEE.STD_LOGIC_1164.ALL;
3 use IEEE.NUMERIC_STD.ALL;
4 use work.pkg_matrix.ALL;
5
6 entity matrix_mult_po is
7     Port (
8         clk      : in  std_logic;
9         rst      : in  std_logic;
10
11         -- Controle
12         ld_regs  : in  std_logic;
13         clr_acc  : in  std_logic;
14         ld_acc   : in  std_logic;
15         wr_res   : in  std_logic;
16         inc_k, inc_j, inc_i : in  std_logic;
17         clr_k, clr_j, clr_i : in  std_logic;
18
19         -- Status (Done quando contadores chegam a 2)
20         k_done   : out std_logic;
21         j_done   : out std_logic;
22         i_done   : out std_logic;
23
24         -- Dados
25         A_in     : in  t_matrix_in;
26         B_in     : in  t_matrix_in;
27         R_out    : out t_matrix_out
28     );
29 end matrix_mult_po;

```

```

31 architecture Behavioral of matrix_mult_po is
32     signal reg_A : t_matrix_in;
33     signal reg_B : t_matrix_in;
34     signal reg_R : t_matrix_out := (others => (others => '0')));
35
36     -- Contadores agora vão de 0 a 2 (3 iterações)
37     signal i, j, k : integer range 0 to 2 := 0;
38
39     signal mult_res : unsigned(15 downto 0);
40     signal acc      : unsigned(19 downto 0);
41
42 begin
43     -- Multiplicação Padrão: Linha de A x Coluna de B
44     -- A(i,k) * B(k,j)
45     mult_res <= reg_A(i, k) * reg_B(k, j);
46
47     process(clk, rst)
48     begin
49         if rst = '1' then
50             i <= 0; j <= 0; k <= 0;
51             acc <= (others => '0');
52             reg_R <= (others => (others => (others => '0')));
53             reg_A <= (others => (others => (others => '0')));
54             reg_B <= (others => (others => (others => '0')));
55
56         elsif rising_edge(clk) then
57             -- Carregar Entradas
58             if ld_regs = '1' then
59                 reg_A <= A_in;
60                 reg_B <= B_in;
61             end if;
62
63             -- Acumulador
64             if clr_acc = '1' then
65                 acc <= (others => '0');
66             elsif ld_acc = '1' then
67                 acc <= acc + resize(mult_res, 20);
68             end if;
69
70             -- Escrever Resultado
71             if wr_res = '1' then
72                 reg_R(i, j) <= acc;
73             end if;
74
75             -- Contadores
76             if clr_k = '1' then k <= 0;
77             elsif inc_k = '1' then k <= k + 1; end if;
78
79             if clr_j = '1' then j <= 0;
80             elsif inc_j = '1' then j <= j + 1; end if;
81
82             if clr_i = '1' then i <= 0;
83             elsif inc_i = '1' then i <= i + 1; end if;
84         end if;
85     end process;
86
87     -- Sinais de Status: Done quando o contador é 2 (Tamanho - 1)
88     k_done <= '1' when k = 2 else '0';
89     j_done <= '1' when j = 2 else '0';
90     i_done <= '1' when i = 2 else '0';
91
92     R_out <= reg_R;
93 end Behavioral;

```

### 3. Solução PC-PO

#### - Testbench

#### Código 1: *tb\_matrix\_mult.vhd*

```
1: library IEEE;
2: use IEEE.STD_LOGIC_1164.ALL;
3: use IEEE.NUMERIC_STD.ALL;
4: use work.pkg_matrix.ALL;
5:
6: entity tb_matrix_mult_3 is
7: -- Testbench 3: Entradas = 3
8: end tb_matrix_mult_3;
9:
10: architecture Behavioral of tb_matrix_mult_3 is
11: component matrix_mult_top
12:     Port (
13:         clk, rst, start : in std_logic;
14:         A_in, B_in : in t_matrix_in;
15:         done : out std_logic;
16:         R_out : out t_matrix_out
17:     );
18: end component;
19:
20: signal clk, rst, start, done : std_logic := '0';
21: signal A_in, B_in : t_matrix_in := (others => (others => '0'));
22: signal R_out : t_matrix_out;
23: constant clk_period : time := 10 ns;
24:
25: begin
26:     uut: matrix_mult_top port map (
27:         clk => clk, rst => rst, start => start,
28:         A_in => A_in, B_in => B_in, done => done, R_out => R_out
29:     );
30:
31:     clk_process : process
32:     begin
33:         clk <= '0'; wait for clk_period/2;
34:         clk <= '1'; wait for clk_period/2;
35:     end process;
36:
37:     stim_proc: process
38:     begin
39:         rst <= '1'; wait for 20 ns; rst <= '0'; wait for 20 ns;
```

```
41:     -- ----- ALTERAR AQUI PARA CADA TESTE----- --
42:     -- TESTE 3: Entradas com valor 3
43:     -- Esperado: 3*3 + 3*3 + 3*3 = 27 (Hex: 1B)
44:     report "Iniciando Teste 3 (Valores = 3)";
45:     A_in <= (others => (others => to_unsigned(3, 8)));
46:     B_in <= (others => (others => to_unsigned(3, 8)));
47:
48:     start <= '1'; wait for clk_period; start <= '0';
49:
50:     wait until done = '1';
51:     wait for clk_period;
52:
53:     report "Teste 3 Concluido.";
54:     wait;
55: end process;
56: end Behavioral;
```

### 3. Solução PC-PO

#### - Simulações

Simulação comportamental 1:

$$\begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{bmatrix} = \begin{bmatrix} 3 & 3 & 3 \\ 3 & 3 & 3 \\ 3 & 3 & 3 \end{bmatrix}$$



### 3. Solução PC-PO

#### - Simulações

Simulação comportamental 2:

$$\begin{bmatrix} 2 & 2 & 2 \\ 2 & 2 & 2 \\ 2 & 2 & 2 \end{bmatrix} \times \begin{bmatrix} 2 & 2 & 2 \\ 2 & 2 & 2 \\ 2 & 2 & 2 \end{bmatrix} = \begin{bmatrix} 12 & 12 & 12 \\ 12 & 12 & 12 \\ 12 & 12 & 12 \end{bmatrix}$$



### 3. Solução PC-PO

#### - Simulações

Simulação comportamental 3:

$$\begin{bmatrix} 3 & 3 & 3 \\ 3 & 3 & 3 \\ 3 & 3 & 3 \end{bmatrix} \times \begin{bmatrix} 3 & 3 & 3 \\ 3 & 3 & 3 \\ 3 & 3 & 3 \end{bmatrix} = \begin{bmatrix} 27 & 27 & 27 \\ 27 & 27 & 27 \\ 27 & 27 & 27 \end{bmatrix}$$



### 3. Solução PC-PO

- Simulações

| Resource | Utilization | Available | Utilization % |
|----------|-------------|-----------|---------------|
| LUT      | 175         | 133800    | 0.13          |
| FF       | 361         | 267600    | 0.13          |
| IO       | 328         | 400       | 82.00         |
| BUFG     | 1           | 32        | 3.13          |

Síntese pós-implementação

## 4. Comparação dos resultados

### 1. PC-PO:

- FF: **361**
- LUT: **175**
- DSP: **0**
- Ciclos: **~34**
- Memória (BRAM): **0**
- Pinos I/O: **328**

### 2. HLS básico:

- FF: **48**
- LUT: **186**
- DSP: **1**
- Ciclos: **160**
- Memória (BRAM): **0**
- Pinos I/O: **328\***

### 3. HLS com pipeline:

- FF: **50**
- LUT: **320**
- DSP: **2**
- Ciclos: **23**
- Memória (BRAM): **0**
- Pinos I/O: **328\***

### 4. HLS com unroll:

- FF: **172**
- LUT: **575**
- DSP: **18**
- Ciclos: **9**
- Memória (BRAM): **0**
- Pinos I/O: **328\***

## 4. Comparação dos resultados

### 1. PC-PO

- Teve **o maior uso de Flip-Flops** (361) devido aos registradores explícitos de dados.
- O uso de blocos DSP foi **nulo**. A síntese converteu as multiplicações em lógica distribuída (LUTs).
- O desempenho foi **mediano**, exigindo cerca de 34 ciclos para completar a tarefa.
- A velocidade é limitada pela máquina de estados que processa os dados **sequencialmente**.

## 4. Comparação dos resultados

### 2. HLS básico

- Foi a implementação **mais lenta de todas**, necessitando de 160 ciclos de clock.
- O hardware reutiliza o mesmo recurso de cálculo para todas as operações, uma por vez.
- **Não há paralelismo nem otimização de fluxo de dados.**

## 4. Comparação dos resultados

### 3. HLS com pipeline

- A otimização insere registradores entre as etapas do cálculo, permitindo que uma nova operação inicie a cada ciclo de clock antes da anterior terminar.
- A técnica de pipeline permitiu iniciar novos cálculos antes do término dos anteriores.
- O tempo de execução caiu drasticamente para apenas 23 ciclos.
- Houve um leve aumento na área, subindo para 2 DSPs.
- Esta opção representa o melhor equilíbrio entre custo de hardware e velocidade.

## 4. Comparação dos resultados

### 4. HLS com unroll

- A diretiva "desenrola" o laço de repetição, criando cópias físicas do hardware para executar todas as iterações do loop **ao mesmo tempo**.
- O hardware foi replicado para realizar todos os cálculos simultaneamente (**paralelismo total**).
- Foi a **versão mais rápida**, concluindo a operação em apenas 9 ciclos.
- O **custo de área foi altíssimo**, consumindo 18 DSPs e triplicando o uso de LUTs.
- É a solução ideal para desempenho máximo, **mas ocupa muito espaço no chip**.