

ÜNİVERSİTE ADI

ELEKTRİK-ELEKTRONİK MÜHENDISLİĞİ BÖLÜMÜ

# RV32I 3-Way Superscalar İşlemci Tasarımı ve Gerçeklemesi

Yüksek Lisans Tezi

Hazırlayan:

*Öğrenci Adı*

Danışman:

*Prof. Dr. Danışman Adı*

# İçindekiler

# **Şekil Listesi**

# **Tablo Listesi**

# Kısaltmalar

**ALU** Arithmetic Logic Unit – Aritmetik Mantık Birimi

**BRAT** Branch Resolution Alias Table – Dal Çözümleme Takma Ad Tablosu

**BTB** Branch Target Buffer – Dal Hedef Tamponu

**CDB** Common Data Bus – Ortak Veri Yolu

**FIFO** First In First Out – İlk Giren İlk Çıkar

**FSM** Finite State Machine – Sonlu Durum Makinesi

**GHR** Global History Register – Küresel Geçmiş Kaydı

**IPC** Instructions Per Cycle – Çevrim Başına Komut

**ISA** Instruction Set Architecture – Komut Seti Mimarisi

**LSQ** Load Store Queue – Yükleme/Saklama Kuyruğu

**PC** Program Counter – Program Sayacı

**PHT** Pattern History Table – Örütü Geçmiş Tablosu

**RAT** Register Alias Table – Kayıt Takma Ad Tablosu

**RAS** Return Address Stack – Dönüş Adresi Yiğini

**RF** Register File – Kayıt Dosyası

**ROB** Reorder Buffer – Yeniden Sıralama Tamponu

**RS** Reservation Station – Rezervasyon İstasyonu

**WAR** Write After Read – Okumadan Sonra Yazma

**WAW** Write After Write – Yazmadan Sonra Yazma

**RAW** Read After Write – Yazmadan Sonra Okuma

# Bölüm 1

## Giriş

### 1.1 Motivasyon

Modern bilgisayar sistemlerinin performans gereksinimleri sürekli artmaktadır. Tek çevrimde tek komut işleyen geleneksel skalar işlemciler, bu artan talepleri karşılamakta yetersiz kalmaktadır. İşlemci frekansını artırmanın fiziksel sınırlarına (güç tüketimi, ısı dağılımı) ulaşılmasıyla birlikte, performans artışı için farklı yaklaşımlar gerekli hale gelmiştir.

*Superscalar* işlemciler, tek bir çevrimde birden fazla komutun paralel olarak işlenmesine olanak tanıyarak bu soruna çözüm sunar. Bu yaklaşım, *Komut Düzeyinde Parallelilik* (Instruction-Level Parallelism - ILP) kavramını kullanarak, programdaki bağımsız komutları eşzamanlı yürütür.

Bu tez çalışmasında, RISC-V RV32I komut seti mimarisini destekleyen, 3 yolu (3-way) superscalar bir işlemci tasarımları ve gerçekleme sunulmaktadır. Tasarım, Tomasulo algoritmasını temel olarak sıra dışı (out-of-order) yürütme yeteneği sunarken, spekülatif dal tahmini ile performansı maksimize etmeyi hedeflemektedir.

### 1.2 Tezin Kapsamı

Bu çalışma aşağıdaki konuları kapsamaktadır:

- **RV32I Komut Seti Desteği:** RISC-V temel tamsayı komut setinin tam gerçekleme (37 komut)
- **3-Way Superscalar Mimari:** Her çevrimde en fazla 3 komutun paralel olarak decode, issue, dispatch ve commit edilmesi
- **Sıra Dışı Yürütme:** Tomasulo algoritması tabanlı dinamik zamanlama ile veri bağımlılıklarının donanım seviyesinde çözümlenmesi
- **Spekülatif Dal Tahmini:** Tournament, GShare ve 2-bit sayaç tabanlı dal tahmin mekanizmaları ile JALR hedef tahmini
- **Eager Misprediction Recovery:** Branch Resolution Alias Table (BRAT) ile sıfır gecikmeli yanlış tahmin düzeltmesi

- **Load/Store Queue:** Bellek operasyonlarının sıralı commit ile sıra dışı yürütülmesi

## 1.3 Tasarım Hedefleri

İşlemci tasarımda aşağıdaki hedefler gözetilmiştir:

1. **Yüksek IPC (Instructions Per Cycle):** Teorik maksimum 3.0 IPC hedefine yaklaşmak için pipeline verimliliğinin maksimize edilmesi
2. **Düşük Dal Cezası:** Yanlış tahmin durumunda minimum çevrim kaybı için eager recovery mekanizması
3. **Ölçeklenebilirlik:** Parametrik tasarım ile farklı konfigürasyonlara kolayca uyarlanabilirlik
4. **Doğrulanabilirlik:** Modüler yapı ve kapsamlı assertion'lar ile fonksiyonel doğrulama kolaylığı
5. **Sentezlenebilirlik:** FPGA ve ASIC hedefleri için uygun RTL tasarımı

## 1.4 Tez Organizasyonu

Bu tez aşağıdaki şekilde organize edilmiştir:

**Bölüm 2 - Mimari Genel Bakış:** İşlemcinin genel mimarisi, pipeline yapısı ve temel tasarım prensipleri

**Bölüm 3 - Fetch Stage:** Komut getirme aşaması, çoklu komut fetch, dal tahmini ve program sayacı yönetimi

**Bölüm 4 - Issue Stage:** Komut decode, register renaming, kaynak tahsis ve BRAT mekanizması

**Bölüm 5 - Dispatch Stage:** Reorder Buffer, Reservation Station ve Register File yapıları

**Bölüm 6 - Execute Stage:** ALU, shifter ve dal çözümleme birimleri

**Bölüm 7 - Memory Stage:** Load/Store Queue ve bellek erişim yönetimi

**Bölüm 8 - Performans Analizi:** Benchmark sonuçları ve karşılaştırmalı analiz

**Bölüm 9 - Doğrulama Stratejisi:** Test metodolojisi ve doğrulama yaklaşımları

**Bölüm 10 - Sonuç:** Çalışmanın özeti ve gelecek çalışmalar

## 1.5 Katkılar

Bu tez çalışmasının başlıca katkıları şunlardır:

1. **BRAT Mekanizması:** Spekülatif dallanma için düşük gecikmeli recovery sağlayan yeni bir RAT snapshot yönetim yapısı
2. **3-Port Circular Buffer:** ROB ve LSQ kaynak tahsis için verimli bir paralel allocation/deallocation mekanizması
3. **Combinational Bypass:** Dal çözümleme sonuçlarının aynı çevrimde tüm pipeline aşamalarına iletilmesi
4. **Tournament Predictor:** Yerel ve global dal geçmişini birleştiren hibrit tahmin mekanizması
5. **Açık Kaynak Gerçekleme:** Eğitim ve araştırma amaçlı kullanılabilecek tam dokümante edilmiş SystemVerilog kodu

# Bölüm 2

## Mimari Genel Bakış

Bu bölümde, RV32I 3-way superscalar işlemcinin genel mimarisini, pipeline yapısını ve temel tasarım prensiplerini açıklanmaktadır.

### 2.1 Superscalar İşlemci Kavramı

#### 2.1.1 Skalar ve Superscalar İşlemciler

Geleneksel *skalar* işlemciler, her çevrimde en fazla bir komut işler. Bu yaklaşım basit ve öngörelebilir olmasına rağmen, modern uygulamaların performans gereksinimlerini karşılamakta yetersiz kalır.

*Superscalar* işlemciler, tek bir çevrimde birden fazla komutun paralel olarak işlenmesine olanak tanır. N-way superscalar bir işlemci, teorik olarak çevrim başına N komut (N IPC) işleyebilir.

#### Neden Bu Tasarım?

3-way superscalar tasarım seçilmesinin nedenleri:

- **Donanım Karmaşıklığı:** 2-way'den belirgin performans artışı sağlarken, 4-way'e göre daha düşük alan ve güç tüketimi
- **ILP Sınırları:** Tipik programlarda ortalama ILP 2-3 civarındadır; daha geniş issue width marjinal kazanç sağlar
- **Critical Path:** 3 paralel yol, kabul edilebilir clock period'u korurken yeterli paralellik sunar

#### 2.1.2 Komut Düzeyinde Paralellik (ILP)

Superscalar işlemcilerin performansı, programdaki *Komut Düzeyinde Paralellik* (ILP) miktarına bağlıdır. ILP, aynı anda yürütülebilecek bağımsız komut sayısını ifade eder.

ILP'yi sınırlayan faktörler:

- **Veri Bağımlılıkları:** RAW, WAR, WAW hazard'ları

- Kontrol Bağımlılıkları:** Dal komutları ve belirsiz akış
- Kaynak Çekişmesi:** Sınırlı fonksiyonel birim sayısı

## 2.2 Pipeline Yapısı

İşlemci, 5 ana aşamadan oluşan bir pipeline yapısına sahiptir. Her aşama, belirli görevleri yerine getirir ve bir sonraki aşamaya veri aktarır.

### 2.2.1 Pipeline Aşamaları



Şekil 2.1: İşlemci pipeline aşamaları

Tablo 2.1: Pipeline aşamaları ve genişlikleri

| Aşama    | Görev           | Genişlik | Açıklama                             |
|----------|-----------------|----------|--------------------------------------|
| Fetch    | Komut getirme   | 5-wide   | Bellekten 5 komut okuma, dal tahmini |
| Issue    | Decode + Rename | 3-wide   | Komut çözümleme, register renaming   |
| Dispatch | ROB/RS yazma    | 3-wide   | Kaynak tahsis, operand okuma         |
| Execute  | Yürütme         | 3 FU     | ALU, shifter, branch işlemleri       |
| Commit   | Retire          | 3-wide   | Sonuçların RF'e yazılması            |

### Neden Bu Tasarım?

#### Neden 5-wide fetch, 3-wide issue?

Fetch aşaması 5 komut getirirken, issue aşaması 3 komut işler. Bu asimetri, instruction buffer'in (IB) doldurulmasını sağlar:

- Dal tahmini yanlışlığında IB boşalır
- 5-wide fetch, IB'yi hızlıca yeniden doldurur
- Issue aşaması, IB'den komut çekme hızından bağımsız çalışır
- Fetch stall durumlarında (cache miss) IB tampon görevi görür

## 2.2.2 In-Order vs Out-of-Order Aşamalar

Tablo 2.2: Aşamaların sıralama özellikleri

| Aşama    | Sıralama     | Açıklama                           |
|----------|--------------|------------------------------------|
| Fetch    | In-Order     | Program sırasında komut getirme    |
| Issue    | In-Order     | Program sırasında decode ve rename |
| Dispatch | Out-of-Order | Hazır komutlar önce yürütülür      |
| Execute  | Out-of-Order | Bağımsız yürütme                   |
| Commit   | In-Order     | Program sırasında sonuç yazma      |

## 2.3 Tomasulo Algoritması

Bu işlemci, sıra dışı yürütme için *Tomasulo algoritmasını* kullanmaktadır. 1967'de Robert Tomasulo tarafından IBM System/360 Model 91 için geliştirilen bu algoritma, veri bağımlılıklarını donanım seviyesinde dinamik olarak çözümler.

### 2.3.1 Temel Kavramlar

#### Register Renaming

*Register renaming*, WAW (Write-After-Write) ve WAR (Write-After-Read) hazard'larını ortadan kaldırır. Mimari register'lar (x0-x31) fizikal register'lara (bu tasarımda 64 adet) eşlenir.

```

1 // Orijinal kod (WAW hazard)
2 ADD x1, x2, x3      // x1'e yaz
3 SUB x4, x1, x5      // x1'i oku
4 MUL x1, x6, x7      // x1'e yeniden yaz (WAW!)
5
6 // Renaming sonrası
7 ADD p32, p2, p3      // p32 <- x1'in yeni mapping'i
8 SUB p33, p32, p5      // p32'yi oku (RAW - gerçek bağımlılık)
9 MUL p34, p6, p7      // p34 <- x1'in en yeni mapping'i (WAW yok!)

```

Listing 2.1: Register renaming örneği

#### Reservation Station

*Reservation Station* (RS), yürütülmeyi bekleyen komutları tutar. Her RS entry'si:

- Operasyon türünü
- Kaynak operand değerlerini veya üretici komut tag'lerini

- Hedef register bilgisini
  - Hazır durumunu
- saklar.

### Common Data Bus (CDB)

Yürütmeye sonuçları, *Common Data Bus* üzerinden yayınlanır. Bekleyen tüm RS entry'leri bu yayını izler ve eşleşen tag'leri yakaladığında operand değerini günceller.

#### 2.3.2 Tomasulo Akışı

1. **Issue:** Komut decode edilir, register'lar rename edilir, RS'e yazılır
2. **Dispatch:** Operandlar hazır olduğunda komut yürütmeye gönderilir
3. **Execute:** Fonksiyonel birimde işlem yapılır
4. **Write Result:** Sonuç CDB üzerinden yayınlanır
5. **Commit:** ROB başındaki komut retire edilir, RF güncellenir

## 2.4 Spekülatif Yürütmeye ve BRAT

Dal komutları, program akışında belirsizlik yaratır. *Spekülatif yürütme*, dal sonucu belirlenmeden önce tahmine dayalı olarak komut yürütmeye devam eder.

#### 2.4.1 Dal Tahmini

İşlemci, üç farklı dal tahmin mekanizması içerir:

- **2-Bit Sayaç:** Basit, düşük maliyetli yerel tahmin
- **GShare:** Global history ile PC XOR'lanarak indeksleme
- **Tournament:** Yerel ve global tahminlerin kombinasyonu

#### 2.4.2 Branch Resolution Alias Table (BRAT)

Yanlış tahmin durumunda işlemci durumunun geri yüklenmesi gereklidir. Geleneksel yaklaşımında, yanlış tahmin yapan dal ROB başına ulaşana kadar beklenir. Bu, onlarca çevrim gecikmeye neden olabilir.

*BRAT*, her dal komutu için RAT'ın anlık görüntüsünü (snapshot) saklar. Yanlış tahmin tespit edildiğinde, ROB başı beklenmeden anında geri yükleme yapılır.

### Neden Bu Tasarım?

BRAT'ın temel avantajları:

- **Sıfır Gecikmeli Recovery:** Dal yürütüldüğü çevrimde geri yükleme
- **Combinational Bypass:** Aynı çevrimde tüm modüllere sinyal iletimi
- **In-Order Resolution:** Program sırasında dal çözümleme garantisi

BRAT detayları ??'te açıklanmaktadır.

## 2.5 Kaynak Yönetimi

3-way superscalar mimari, her çevrimde 3 komut için kaynak tahsisı gerektirir:

- **ROB Entry:** Her komut için benzersiz bir ROB indeksi
- **Physical Register:** Hedef register yazan komutlar için
- **LSQ Entry:** Load/store komutları için

Bu tahsisler, *3-Port Circular Buffer* yapısı ile yönetilir. Detaylar ??'da açıklanmaktadır.

## 2.6 Modül Hiyerarşisi



Şekil 2.2: Üst düzey modül hiyerarşisi

## 2.7 Veri Akışı

1. **Fetch → Issue:** 5 komut + PC değerleri + dal tahmin bilgileri
2. **Issue → Dispatch:** 3 decoded komut + renamed operandlar + ROB/LSQ indeksleri
3. **Dispatch → Execute:** Hazır komutlar + operand değerleri + kontrol sinyalleri

4. **Execute → Commit:** Sonuç değerleri + dal çözümleme bilgileri
5. **Commit → RF:** Retire edilen komutların sonuçları

## 2.8 Kontrol Akışı

### 2.8.1 Normal Operasyon

Normal çalışmada, her aşama bağımsız olarak ilerler. Stall sinyalleri, kaynak yetersizliğinde pipeline’ı durdurur:

- **rob\_full:** ROB dolu, issue durur
- **rs\_full:** RS dolu, dispatch durur
- **lsq\_full:** LSQ dolu, load/store issue durur

### 2.8.2 Misprediction Recovery

Yanlış tahmin tespit edildiğinde:

1. BRAT, RAT snapshot’ını geri yükler
2. Fetch, doğru PC’ye yönlendirilir
3. Pipeline flush sinyali gönderilir
4. ROB, spekülatif entry’leri temizler
5. RS, spekülatif komutları iptal eder

Tüm bu işlemler tek çevrimde gerçekleşir (combinational bypass sayesinde).

# Bölüm 3

## Fetch Stage

Fetch stage, işlemcinin ilk pipeline aşamasıdır ve bellekten komutların getirilmesinden sorumludur. Bu bölümde, 5-wide fetch mimarisi, komut tamponu, dal tahmini mekanizmaları ve program sayacı yönetimi detaylı olarak açıklanmaktadır.

### 3.1 Genel Bakış

Fetch stage, her çevrimde en fazla 5 komut getirerek instruction buffer’ı doldurur. Issue stage ise bu tampondan 3 komut çeker. Bu asimetrik tasarım, pipeline verimliliğini artırır.



Şekil 3.1: Fetch stage blok diyagramı

### 3.1.1 Fetch Stage Bileşenleri

Tablo 3.1: Fetch stage modülleri

| Modül                | Dosya                                  | Görev                                 |
|----------------------|----------------------------------------|---------------------------------------|
| Multi Fetch          | <code>multi_fetch.sv</code>            | 5 komut paralel getirme koordinasyonu |
| Instruction Buffer   | <code>instruction_buffer_new.sv</code> | Fetch-decode ayrıştırma tamponu       |
| PC Controller        | <code>pc_ctrl_super.sv</code>          | Program sayacı yönetimi               |
| Jump Controller      | <code>jump_controller_super.sv</code>  | Dal/atlama komut tespiti              |
| Tournament Predictor | <code>tournament_predictor.sv</code>   | Hibrit dal tahmini                    |
| GShare Predictor     | <code>gshare_predictor_super.sv</code> | Global history tabanlı tahmin         |
| JALR Predictor       | <code>jalr_predictor.sv</code>         | Dolaylı atlama hedef tahmini          |

## 3.2 Multi Fetch Modülü

`multi_fetch` modülü, fetch stage'in ana koordinasyon birimidir. Bellekten 5 komut okur, dal tahminlerini yapar ve instruction buffer'a iletir.

### 3.2.1 Tasarım Amacı

#### Neden Bu Tasarım?

##### Neden 5-wide fetch?

3-way issue için 5-wide fetch seçilmesinin nedenleri:

- **Buffer Doldurma:** Misprediction sonrası instruction buffer hızla yeniden doldurulmalı.  $5 > 3$  olduğu için buffer birikir.
- **Dal Kesilmesi:** Bir dal “taken” tahmin edilirse, sonraki komutlar geçersiz olur. 5 komut getirerek, en az 1 geçerli komut garantielenir.
- **Fetch Bandwidth:** Modern bellek sistemleri geniş bant genişliği sunar. Bu kapasiteyi kullanmamak israftır.

### 3.2.2 Komut Geçerlilik Mantığı

Fetch edilen 5 komuttan bazıları geçersiz olabilir. Bir dal komutu “taken” tahmin edilirse, ondan sonraki komutlar program akışında yer almaz:

```

1 // Branch prediction invalidation logic
2 assign block_0 = jump_0 | jalr_0;
3 assign block_1 = jump_1 | jalr_1;
```

```

4 assign block_2 = jump_2 | jalr_2;
5 assign block_3 = jump_3 | jalr_3;
6
7 // Final fetch valid signals
8 assign fetch_valid_o[0] = base_valid;
9 assign fetch_valid_o[1] = base_valid & ~block_0;
10 assign fetch_valid_o[2] = base_valid & ~block_0 & ~block_1;
11 assign fetch_valid_o[3] = base_valid & ~block_0 & ~block_1 & ~block_2;
12 assign fetch_valid_o[4] = base_valid & ~block_0 & ~block_1 & ~block_2
    & ~block_3;

```

Listing 3.1: Fetch geçerlilik sinyalleri

### 3.2.3 Misprediction İşleme

BRAT'tan gelen misprediction sinyalleri, oldest-first öncelikle işlenir:

```

1 always_comb begin
2     if (misprediction_i_0) begin
3         eager_flush = 1'b1;
4         eager_flush_target_pc = correct_pc_i_0;
5     end else if (misprediction_i_1) begin
6         eager_flush = 1'b1;
7         eager_flush_target_pc = correct_pc_i_1;
8     end else if (misprediction_i_2) begin
9         eager_flush = 1'b1;
10        eager_flush_target_pc = correct_pc_i_2;
11    end else begin
12        eager_flush = 1'b0;
13        eager_flush_target_pc = {size{1'b0}};
14    end
15 end

```

Listing 3.2: Eager flush mantığı

#### Neden Bu Tasarım?

##### Neden oldest-first öncelik?

Aynı anda birden fazla dal çözümlenebilir. En yaşlı misprediction önceliklidir çünkü:

- Genç dallar, yaşlı dalmın spekülatif yolunda olabilir
- Yaşlı misprediction düzeltildiğinde, genç dallar flush edilecek
- Genç misprediction'ları işlemek gereksiz çalışma olur

### 3.3 Instruction Buffer

`instruction_buffer_new` modülü, fetch ve decode aşamalarını ayırtırın bir FIFO tampondur.

#### 3.3.1 Tasarım Amacı

##### Neden Bu Tasarım?

###### Neden instruction buffer gereklidir?

- **Hız Uyumsuzluğu:** Fetch 5-wide, issue 3-wide. Buffer bu farkı dengeler.
- **Stall İzolasyonu:** Issue stall olduğunda fetch devam edebilir (buffer dolana kadar).
- **Misprediction Toleransı:** Buffer doluyken, recovery süresi kısalır.
- **Latency Gizleme:** Bellek gecikmesi buffer tarafından emilir.

#### 3.3.2 Buffer Yapısı

Buffer, circular buffer olarak implement edilmiştir:

Tablo 3.2: Instruction buffer parametreleri

| Parametre       | Değer  | Açıklama                              |
|-----------------|--------|---------------------------------------|
| BUFFER_DEPTH    | 16     | Maksimum tamponlanabilir komut sayısı |
| Giriş Genişliği | 5-wide | Her çevrimde yazılabilecek komut      |
| Çıkış Genişliği | 3-wide | Her çevrimde okunabilecek komut       |

Her buffer entry'si şu alanları içerir:

- `instruction`: 32-bit komut kodu
- `pc`: Komutun program sayacı değeri
- `imm`: Önceden decode edilmiş immediate değeri
- `branch_prediction`: Dal tahmini sonucu
- `pc_at_prediction`: Tahmin yapıldığındaki PC
- `global_history`: Dal predictor için global history
- `ras_tos_checkpoint`: RAS checkpoint pointer

### 3.3.3 Backpressure Yönetimi

Buffer dolduğunda, fetch stage'e backpressure uygulanır:

```

1 // Conservative: leave space for 5 instructions
2 assign fetch_ready_o = !flush_i && !buffer_full_o && (space_available
   >= 5);

```

Listing 3.3: Backpressure mantığı

#### Neden Bu Tasarım?

##### Neden `space_available >= 5`?

Fetch stage, mevcut çevrimde zaten 5 komut göndermiş olabilir. Bu komutlar henüz buffer'a yazılmamışken (kombinasyonel gecikme), yeni fetch başlatılmamalı. Konservatif yaklaşım deadlock'u önerler.

### 3.3.4 Forwarding Mantığı

Buffer boşken ve fetch valid ise, komutlar doğrudan çıkışa forward edilir:

```

1 assign use_fwd_0 = (count == 0) & (num_to_write >= 1) & read_en_0;
2 assign use_fwd_1 = (count <= read_en_0) & (num_to_write >= (1 +
   use_fwd_0)) & read_en_1;
3 assign use_fwd_2 = (count <= read_en_0 + read_en_1) &
   (num_to_write >= (1 + use_fwd_0 + use_fwd_1)) &
   read_en_2;

```

Listing 3.4: Direct forwarding

Bu mekanizma, buffer boşken bile zero-cycle forwarding sağlar, pipeline bubble'ları minimize eder.

## 3.4 PC Controller

`pc_ctrl_super` modülü, program sayacı yönetiminden sorumludur.

### 3.4.1 PC Güncelleme Senaryoları

Tablo 3.3: PC güncelleme öncelikleri

| Öncelik | Senaryo            | Yeni PC Değeri         |
|---------|--------------------|------------------------|
| 1       | Misprediction      | correct_pc (BRAT'tan)  |
| 2       | JALR (tahminli)    | jalr_prediction_target |
| 3       | Branch/JAL (taken) | PC + imm               |
| 4       | Normal akış        | PC + 20 (5 komut)      |

### 3.4.2 Paralel PC Hesaplama

5 komut için PC değerleri paralel olarak hesaplanır:

```

1 assign current_pc_0 = pc_current_val;
2 assign current_pc_1 = parallel_mode ? pc_current_val + 32'd4 :
   current_pc_0;
3 assign current_pc_2 = parallel_mode ? pc_current_val + 32'd8 :
   current_pc_0;
4 assign current_pc_3 = parallel_mode ? pc_current_val + 32'd12 :
   current_pc_0;
5 assign current_pc_4 = parallel_mode ? pc_current_val + 32'd16 :
   current_pc_0;

```

Listing 3.5: Paralel PC hesaplama

### 3.4.3 Misprediction Recovery

Misprediction durumunda PC, BRAT'tan gelen doğru değere ayarlanır:

```

1 parametric_mux #(.mem_width(size), .mem_depth(2)) correction_mux(
2   .addr(misprediction),
3   .data_in({correct_pc, pc_plus}),
4   .data_out(pc_new_val));

```

Listing 3.6: PC misprediction recovery

## 3.5 Dal Tahmini

İşlemci, üç farklı dal tahmin mekanizması içerir. Bu mekanizmalar, farklı dal davranışları hedefler.

### 3.5.1 Dal Tahmini Genel Bakış

Dal komutları, program akışında belirsizlik yaratır. Dal sonucu belirlenene kadar (execute aşaması) işlemci, hangi komutları getireceğini bilemez. Dal tahmini, bu belirsizliği spekülatif olarak çözerek pipeline verimliliğini artırır.

#### Neden Bu Tasarım?

##### Neden dal tahmini kritik?

Dal komutları tipik programlarda %15-25 oranında görülür. Tahminsiz bir işlemcide her dal 3+ çevrim gecikmeye neden olur. %20 dal oranı ve 3 çevrim ceza ile:

$$\text{Efektif IPC} = \frac{1}{1 + 0.20 \times 3} = 0.625$$

Bu, teorik IPC'nin %37.5 altındadır. Doğru tahmin bu kaybı minimize eder.

### 3.5.2 Tahmin Mekanizmaları

İşlemci üç farklı dal tahmin mekanizması içerir:

Tablo 3.4: Dal tahmin mekanizmaları karşılaştırması

| Mekanizma   | Güçlü Yön            | Zayıf Yön            | En İyi Senaryo            |
|-------------|----------------------|----------------------|---------------------------|
| 2-Bit Sayaç | Basit, düşük maliyet | Korelasyon kalayamaz | Tutarlı dallar (döngüler) |
| GShare      | Global korelasyon    | Aliasing sorunları   | Korele dallar             |
| Tournament  | Adaptif seçim        | Yüksek maliyet       | Karışık iş yükleri        |

#### 2-Bit Sayaç (Bimodal Predictor)

En basit dal tahmin mekanizmasıdır. Her dal adresi için 2-bit doyurulmuş sayaç tutulur:



Şekil 3.2: 2-bit sayaç durum makinesi

### Neden Bu Tasarım?

#### Neden 2-bit (1-bit değil)?

1-bit sayaç, tek bir yanlış sonuçta hemen fikir değiştirir. Döngü sonlarında bu sorunlu olur: döngü 100 kez “taken” olduktan sonra 1 kez “not taken” olur ve 1-bit sayaç hemen “not taken” tahmin etmeye başlar.

2-bit sayaç, iki ardışık yanlış sonuç gerektirir. Bu, döngü sonu gibi “anomali” durumlarına karşı dayanıklılık sağlar.

### GShare Predictor

GShare, *global history* ile PC’yi XOR’layarak indeks oluşturur. Bu, farklı dallar arasındaki korelasyonu yakalar.

```

1 // GShare index = PC XOR Global History Register
2 assign predict_index_0 = current_pc_0[INDEX_WIDTH+1:2] ^ ghm0;
3 assign predict_index_1 = current_pc_1[INDEX_WIDTH+1:2] ^ ghm1;
4 ...

```

Listing 3.7: GShare indeks hesaplama

**Global History Register (GHR)** GHR, son N dalın sonuçlarını (taken/not-taken) bir shift register’da tutar. Her dal çözümlendiğinde, sonuç GHR’a shift edilir.

```

1 // Per-slot history advance uses predicted bits
2 assign global_history_1 = slot_branch_0 ?
3     {global_history_0[INDEX_WIDTH-2:0], branch_taken_o_0} :
4     global_history_0;
5 assign global_history_2 = slot_branch_1 ?
6     {global_history_1[INDEX_WIDTH-2:0], branch_taken_o_1} :
7     global_history_1;

```

Listing 3.8: GHR güncelleme

### Neden Bu Tasarım?

#### Neden spekülatif GHR güncellemesi?

Dal sonucu execute aşamasında belli olur, ancak tahmin fetch aşamasında yapılır. Eğer GHR güncellemesi commit'e kadar bekleyseydi, ardışık dallar için yanlış history kullanılırdı.

Spekülatif güncelleme, tahmin edilen sonucu GHR'a hemen ekler. Misprediction durumunda GHR, BRAT'tan restore edilir.

### Tournament Predictor

Tournament predictor, GShare ve bimodal predictor'ları birleştirir. Bir *chooser table*, hangi predictor'ın kullanılacağına karar verir.

```

1 typedef enum logic [1:0] {
2     STRONG_BIMODAL = 2'b00,
3     WEAK_BIMODAL  = 2'b01,
4     WEAK_GSHARE    = 2'b10,
5     STRONG_GSHARE  = 2'b11
6 } chooser_state_e;
```

Listing 3.9: Tournament chooser durumları

**Chooser Güncellemeye Kuralı** Chooser, yalnızca iki predictor farklı tahmin yaptığında güncellenir:

- Her iki predictor aynı tahmini yaparsa: chooser değişmez
- Predictor'lar farklı tahmin yaparsa: doğru olanın yönünde güncelle

### Neden Bu Tasarım?

#### Neden her iki predictor'i da eğitiyoruz?

Alternatif: Sadece seçilen predictor'i eğitmek. Ancak bu yaklaşımda, chooser yanlış predictor'a sabitlenirse, diğer predictor güncellenemez ve "öğrenemez."

Her iki predictor'i eğitmek, chooser değiştiğinde diğer predictor'in hazır olmasını sağlar.

**History Packing** Tournament predictor, hem GShare hem de bimodal bilgisini BRAT'a kaydetmelidir. Bu bilgi, *global\_history\_\*\_o* sinyalinde paketlenir:

```

1 // Layout of global_history bus (MSB..LSB):
2 //   [INDEX_WIDTH+2:3] = GHR_before  (INDEX_WIDTH bits, from gshare)
3 //   [2]                 = gshare_pred
4 //   [1]                 = bimodal_pred
```

```
5 // [0] = chooser_sel (1 => gshare, 0 => bimodal)
```

Listing 3.10: Tournament history packing

### 3.5.3 JALR Predictor

JALR (Jump And Link Register) komutları, hedef adresi bir register'dan okur. Bu nedenle, hedef adres fetch aşamasında bilinmez.

**jalr\_predictor** modülü, bir *Branch Target Buffer* (BTB) kullanarak JALR hedeflerini tahmin eder.

Tablo 3.5: JALR predictor özellikleri

| Özellik       | Değer/Açıklama                     |
|---------------|------------------------------------|
| Tablo Boyutu  | 32 entry (parametrik)              |
| İndeksleme    | PC[INDEX_WIDTH+1:2]                |
| Saklanan Veri | Hedef PC adresi                    |
| Güncelleme    | Execute aşamasından (gerçek hedef) |

#### Neden Bu Tasarım?

##### Neden ayrı JALR predictor?

Dal predictor'ları yön tahmini yapar (taken/not-taken). JALR için bu yeterli değildir; hedef adres de tahmin edilmelidir.

JALR'lar genellikle fonksiyon dönüşleri (RET= JALR x0, ra, 0) veya dolaylı çağrılarındır. BTB, son kullanılan hedefi saklar ve çoğu durumda doğru tahmin sağlar.

### 3.5.4 Return Address Stack (RAS)

Fonksiyon dönüşleri (RET) için özel bir yapı olan *Return Address Stack*, CALL/RET çiftlerini takip eder.

#### RAS Operasyonları

- **CALL (JAL/JALR with rd=ra):** Dönüş adresini (PC+4) stack'e push et
- **RET (JALR x0, ra, 0):** Stack'ten pop et ve hedef olarak kullan

**Spekülatif RAS ve Checkpoint** RAS, spekülatif olarak güncellenir. Misprediction durumunda geri alınabilmesi için, her dal komutu RAS top-of-stack pointer'ını BRAT'a kaydeder:

```

1 output logic [2:0] ras_tos_checkpoint_o, // RAS TOS at fetch time
2 input  logic ras_restore_en_i,
3 input  logic [2:0] ras_restore_tos_i

```

Listing 3.11: RAS checkpoint

### 3.5.5 Predictor Güncelleme Akışı

1. **Fetch:** Tahmin yapılır, GHR spekülatif güncellenir
2. **Issue:** Tahmin bilgisi BRAT'a kaydedilir
3. **Execute:** Dal çözümlenir, gerçek sonuç belirlenir
4. **BRAT Resolution:** Sonuç in-order olarak çıkar
5. **Predictor Update:** Tablo güncellenir, GHR düzelttilir

```

1 // Branch predictor: update when update_valid & !is_jalr
2 assign branch_update_valid_0 = update_valid_i_0 & ~is_jalr_i_0;
3
4 // JALR predictor: update when update_valid & is_jalr
5 assign jalr_update_valid_0 = update_valid_i_0 & is_jalr_i_0;

```

Listing 3.12: Predictor güncelleme ayrimı

## 3.6 Fetch Stage Özeti

Tablo 3.6: Fetch stage özellikleri

| Özellik               | Değer/Açıklama                  |
|-----------------------|---------------------------------|
| Fetch Genişliği       | 5 komut/çevrim                  |
| Buffer Derinliği      | 16 entry                        |
| Dal Tahmin Yöntemleri | Tournament, GShare, 2-bit sayaç |
| JALR Tahmini          | BTB tabanlı hedef tahmini       |
| Misprediction Kaynağı | BRAT (eager recovery)           |
| Backpressure          | fetch_ready_o sinyali ile       |

# Bölüm 4

## Issue Stage

Issue stage, fetch edilen komutların decode edildiği, register renaming'in yapıldığı ve kaynak tahsisinin gerçekleştirildiği pipeline aşamasıdır. Bu bölümde, 3-way paralel decode, Register Alias Table (RAT), BRAT mekanizması ve kaynak yönetimi detaylı olarak açıklanmaktadır.

### 4.1 Genel Bakış

Issue stage, instruction buffer'dan 3 komut alır ve her biri için:

1. Komut decode işlemi (RV32I format çözümleme)
2. Register renaming (RAT lookup ve allocation)
3. ROB/LSQ kaynak tahsisi
4. Dal komutu ise BRAT'a snapshot kaydetme

İşlemlerini paralel olarak gerçekleştirir.



Şekil 4.1: Issue stage blok diyagramı

### 4.1.1 Issue Stage Bileşenleri

Tablo 4.1: Issue stage modülleri

| Modül           | Dosya                                 | Görev                                 |
|-----------------|---------------------------------------|---------------------------------------|
| Issue Stage     | <code>issue_stage.sv</code>           | Üst seviye koordinasyon               |
| RV32I Decoder   | <code>rv32i_decoder.sv</code>         | Komut format çözümleme ( $\times 3$ ) |
| RAT             | <code>register_alias_table.sv</code>  | Register renaming                     |
| Circular Buffer | <code>circular_buffer_3port.sv</code> | ROB/LSQ allocation                    |
| BRAT            | <code>brat_circular_buffer.sv</code>  | Dal recovery snapshot                 |

## 4.2 RV32I Decoder

Her issue slot için bağımsız bir `rv32i_decoder` instance'sı bulunur. Decoder, 32-bit komuttan kontrol sinyallerini çıkarır.

### 4.2.1 Decoder Çıkışları

Tablo 4.2: Decoder çıkış sinyalleri

| Sinyal                       | Boyut  | Açıklama                            |
|------------------------------|--------|-------------------------------------|
| <code>control_word</code>    | 26 bit | ALU operasyonu, memory erişimi, vb. |
| <code>branch_sel</code>      | 3 bit  | Dal koşulu seçimi                   |
| <code>rs1_arch</code>        | 5 bit  | Kaynak register 1 adresi            |
| <code>rs2_arch</code>        | 5 bit  | Kaynak register 2 adresi            |
| <code>rd_arch</code>         | 5 bit  | Hedef register adresi               |
| <code>rd_write_enable</code> | 1 bit  | Hedef register yazma izni           |
| <code>load_store</code>      | 1 bit  | Memory operasyonu mu?               |
| <code>branch</code>          | 1 bit  | Dal/atlama komutu mu?               |

### 4.2.2 RV32I Komut Formatları

RV32I, 6 temel komut formatı tanımlar:

Tablo 4.3: RV32I komut formatları

| Format | Kullanım                                       |
|--------|------------------------------------------------|
| R-type | Register-register ALU (ADD, SUB, AND, OR, ...) |
| I-type | Immediate ALU, load, JALR                      |
| S-type | Store komutları                                |
| B-type | Conditional branch                             |
| U-type | LUI, AUIPC                                     |
| J-type | JAL                                            |

### 4.2.3 Paralel Decode

3 decoder paralel çalışır, ancak aralarında bağımlılık yoktur:

```

1 // Decoder 0
2 rv32i_decoder #(.size(DATA_WIDTH)) decoder_0 (
3     .instruction(instruction_i_0),
4     .control_word(control_signal_internal_0),
5     .branch_sel(branch_sel_internal_0)
6 );
7
8 // Decoder 1
9 rv32i_decoder #(.size(DATA_WIDTH)) decoder_1 (
10    .instruction(instruction_i_1),
11    .control_word(control_signal_internal_1),
12    .branch_sel(branch_sel_internal_1)
13 );
14
15 // Decoder 2
16 rv32i_decoder #(.size(DATA_WIDTH)) decoder_2 (
17     .instruction(instruction_i_2),
18     .control_word(control_signal_internal_2),
19     .branch_sel(branch_sel_internal_2)
20 );

```

Listing 4.1: Paralel decoder instantiation

#### Neden Bu Tasarım?

##### Neden bağımsız decoder'lar?

Decode aşaması kombinasyonel lojiktir ve komutlar arası bağımlılık gerektirmez. Her komut, sadece kendi 32-bit instruction word'üne bakarak decode edilir. Bu, tam paralel decode sağlar ve critical path'i minimize eder.

## 4.3 Register Alias Table

RAT, issue stage'in en kritik bileşenidir. Register renaming, kaynak tahsisi ve spekülatif recovery mekanizmalarını içerir.

## 4.4 Register Alias Table (RAT)

Bu bölümde, Tomasulo algoritmasının temel bileşeni olan Register Alias Table (RAT) yapısı detaylı olarak açıklanmaktadır.

### 4.4.1 Tasarım Amacı

*Register renaming*, WAW (Write-After-Write) ve WAR (Write-After-Read) hazard'larını ortadan kaldırmak için kullanılır. RAT, mimari register'lari (x0-x31) fiziksel register'lara (0-63) eşler.

#### Neden Bu Tasarım?

##### Neden register renaming gereklidir?

Aşağıdaki kod parçasını düşünün:

```

1 ADD x1, x2, x3      // I1: x1'e yaz
2 SUB x4, x1, x5      // I2: x1'i oku (RAW - gerçek bağımlılık)
3 MUL x1, x6, x7      // I3: x1'e yaz (WAW - I1 ile)
4 AND x8, x1, x9      // I4: x1'i oku (RAW - I3 ile)

```

Renaming olmadan:

- I3, I1 bitene kadar beklemeli (WAW)
- I4, I3 bitene kadar beklemeli

Renaming ile:

- I1 → p32, I3 → p33 (farklı fiziksel register)
- I1 ve I3 paralel yürütülebilir
- Sadece gerçek RAW bağımlılıkları kalır

#### 4.4.2 RAT Yapısı

Tablo 4.4: RAT parametreleri

| Parametre       | Değer | Açıklama                           |
|-----------------|-------|------------------------------------|
| ARCH_REGS       | 32    | Mimari register sayısı (x0-x31)    |
| PHYS_REGS       | 64    | Fiziksel register sayısı           |
| PHYS_ADDR_WIDTH | 6 bit | Fiziksel register adresi genişliği |

**Fiziksel Register Alanı** 64 fiziksel register iki bölgeye ayrılır:

- **0-31:** Register File (RF) - commit edilmiş değerler
- **32-63:** Reorder Buffer (ROB) - in-flight değerler

#### Neden Bu Tasarım?

##### Neden 64 fiziksel register?

32 mimari register + 32 ROB entry = 64 fiziksel register.

- Her in-flight komut için 1 ROB entry gerekli
- 32 ROB entry, 32 komut paralel yürütme kapasitesi sağlar
- 3-way superscalar için bu yeterli buffer derinliği

#### 4.4.3 RAT Operasyonları

##### Kaynak Register Lookup

Kaynak register'lar (rs1, rs2) için mevcut mapping okunur:

```

1 // Direct RAT lookup
2 assign rs1_phys_0 = rat_table[rs1_arch_0];
3 assign rs2_phys_0 = rat_table[rs2_arch_0];
4
5 // Same-cycle forwarding for dependent instructions
6 assign rs1_phys_1 = rs1_arch_1_equal_rd_arch_0 ? rd_phys_0 : rat_table
7 [rs1_arch_1];
8 assign rs2_phys_1 = rs2_arch_1_equal_rd_arch_0 ? rd_phys_0 : rat_table
9 [rs2_arch_1];
10
11 assign rs1_phys_2 = rs1_arch_2_equal_rd_arch_1 ? rd_phys_1 :
12 rs1_arch_2_equal_rd_arch_0 ? rd_phys_0 : rat_table
13 [rs1_arch_2];

```

Listing 4.2: Kaynak register lookup

## Neden Bu Tasarım?

### Neden same-cycle forwarding?

Aynı çevrimde issue edilen 3 komut arasında bağımlılık olabilir:

```
1 ADD x1, x2, x3      // Inst 0: x1'e yaz
2 SUB x4, x1, x5      // Inst 1: x1'i oku (Inst 0'a bağımlı)
```

RAT tablosu henüz güncellenmedi. Forwarding olmadan Inst 1, eski x1 mapping'ini görür. Same-cycle forwarding, Inst 0'ın yeni rd\_phys değerini Inst 1'e ileter.

## Hedef Register Allocation

Hedef register (rd) için yeni fiziksel register allocate edilir:

```
1 always_comb begin
2     // Instruction 0
3     if (need_alloc_0 && found_first) begin
4         allocated_phys_reg[0] = first_free;
5         allocation_success[0] = 1'b1;
6     end
7
8     // Instruction 1
9     if (need_alloc_1 && found_second) begin
10        allocated_phys_reg[1] = second_free;
11        allocation_success[1] = 1'b1;
12    end
13
14    // Instruction 2
15    if (need_alloc_2 && found_third) begin
16        allocated_phys_reg[2] = third_free;
17        allocation_success[2] = 1'b1;
18    end
19 end
```

Listing 4.3: Hedef register allocation

## RAT Güncelleme

Başarılı allocation sonrası RAT tablosu güncellenir:

```
1 always_ff @(posedge clk) begin
2     // Rename: Update RAT for new allocations
3     if (need_alloc_0 && rd_arch_0 != 0) begin
4         rat_table[rd_arch_0] <= allocated_phys_reg[0];
5     end
6     if (need_alloc_1 && rd_arch_1 != 0) begin
7         rat_table[rd_arch_1] <= allocated_phys_reg[1];
```

```

8     end
9     if (need_alloc_2 && rd_arch_2 != 0) begin
10       rat_table[rd_arch_2] <= allocated_phys_reg[2];
11   end
12 end

```

Listing 4.4: RAT güncelleme

### Neden Bu Tasarım?

#### Neden `rd_arch != 0` kontrolü?

RISC-V'de x0 register'i sabit sıfırdır ve yazılabilir. x0'a yapılan yazmalar görmezden gelinir. RAT'ta x0 her zaman fiziksel register 0'a map edilir.

### Commit İşleme

ROB commit olduğunda, değer RF'e yazılır ve RAT güncellenir:

```

1 // Commit: Restore architectural register to RF mapping
2 if (commit_valid[0] && commit_addr_0 != 0) begin
3   if (commit_rob_idx_0 == rat_table[commit_addr_0][4:0]) begin
4     rat_table[commit_addr_0] <= {1'b0, commit_addr_0};
5   end
6 end

```

Listing 4.5: Commit işleme

### Neden Bu Tasarım?

#### Neden ROB indeksi karşılaştırması?

Aynı mimari register için birden fazla in-flight yazma olabilir:

```

1 ADD x1, x2, x3      // ROB[5]: x1'e yaz
2 MUL x1, x4, x5      // ROB[8]: x1'e yaz

```

ADD commit olduğunda, x1 hâlâ MUL'un sonucuna (ROB[8]) bağlıdır. RAT'ı RF'e döndürmek yanlış olur. Karşılaştırma, sadece "en son yazma" commit olduğunda RF mapping'e dönmemeyi sağlar.

### 4.4.4 3-Way Paralel Renaming

3 komut aynı anda rename edilir. Bu, karmaşık bağımlılık kontrolü gerektirir:

```

1 // Instruction 1 depends on Instruction 0?
2 assign rs1_arch_1_equal_rd_arch_0 = (rs1_arch_1 == rd_arch_0) &&
3   (rd_arch_0 != 5'h0) && decode_valid[0] && rd_write_enable_0;
4
5 // Instruction 2 depends on Instruction 0 or 1?
6 assign rs1_arch_2_equal_rd_arch_0 = (rs1_arch_2 == rd_arch_0) &&

```

```

7   (rd_arch_0 != 5'h0) && decode_valid[0] && rd_write_enable_0;
8 assign rs1_arch_2_equal_rd_arch_1 = (rs1_arch_2 == rd_arch_1) &&
9   (rd_arch_1 != 5'h0) && decode_valid[1] && rd_write_enable_1;

```

Listing 4.6: 3-way bağımlılık kontrolü

#### 4.4.5 Kaynak Yönetimi

RAT, ROB ve LSQ kaynak tahsisini de yönetir. Bu mekanizmalar aşağıdaki alt bölümlerde detaylı olarak açıklanmaktadır.

#### 4.4.6 3-Port Circular Buffer ile Kaynak Allocation

Bu bölümde, ROB ve LSQ kaynak tahsisi için kullanılan 3-port circular buffer yapısı detaylı olarak açıklanmaktadır.

##### Problem: 3-Way Paralel Allocation

3-way superscalar mimaride, her çevrimde en fazla 3 komut issue edilir. Her komut potansiyel olarak şu kaynakları gerektirir:

- 1 ROB entry (fiziksel register = ROB indeksi)
- 1 LSQ entry (load/store komutları için)

Geleneksel *free list* yaklaşımında, 3 bağımsız boş kaynak bulmak karmaşık priority encoder mantığı gerektirir. N entry'li bir free list için:

- İlk boş entry'yi bul: O(N) tarama veya priority encoder
- İkinci boş entry'yi bul: O(N) tarama, ilkini hariç tut
- Üçüncü boş entry'yi bul: O(N) tarama, ilk ikisini hariç tut

Bu yaklaşım hem alan hem de zamanlama açısından maliyetlidir.

##### Neden Bu Tasarım?

##### Neden geleneksel free list yetersiz?

- **Donanım Maliyeti:** 3 bağımsız priority encoder, her biri 32-64 bit
- **Critical Path:** Birinci sonuç ikinciye, ikinci üçüncüye bağımlı
- **Karmaşıklık:** Misprediction recovery için tüm allocation'ları track etmek gereklidir

### Çözüm: Index-as-Value Circular Buffer

Bu tasarımda, circular buffer'in her entry'sinin değeri kendi indeksine eşittir:

```

1 // Buffer initialization
2 for (int i = 0; i < BUFFER_DEPTH; i++) begin
3     buffer[i] = i; // Entry[0]=0, Entry[1]=1, ..., Entry[31]=31
4 end

```

Listing 4.7: Index-as-value circular buffer yapısı

**Temel Fikir** Buffer, gerçek veri depolamaz. Sadece hangi indekslerin “kullanılabilir” olduğunu yönetir:

- `read_ptr`: Bir sonraki allocation'ın yapılacak pozisyon
- `write_ptr`: Deallocation yapıldığında kullanılacak pozisyon
- `count`: Mevcut kullanılabilir entry sayısı

**Allocation (Okuma)** Allocation, `read_ptr`'dan okuma ile yapılır:

```

1 // 3 parallel reads
2 assign read_data_0 = read_ptr;           // Allocated ID = read_ptr
3 assign read_data_1 = read_ptr + 1;        // Next ID
4 assign read_data_2 = read_ptr + 2;        // Next+1 ID
5
6 // Advance pointer by number of successful allocations
7 always_ff @(posedge clk) begin
8     if (read_en_0 || read_en_1 || read_en_2)
9         read_ptr <= read_ptr + read_count;
10 end

```

Listing 4.8: 3-port paralel allocation

**Deallocation (Yazma)** Deallocation, `write_ptr`'a yazma ile yapılır (değer zaten sabit):

```

1 // 3 parallel writes (from commit)
2 always_ff @(posedge clk) begin
3     if (write_en_0 || write_en_1 || write_en_2)
4         write_ptr <= write_ptr + write_count;
5 end

```

Listing 4.9: 3-port paralel deallocation

## Neden Bu Tasarım?

### Neden bu tasarım üstün?

- **O(1) Complexity:** Priority encoder yok, sadece pointer aritmetiği
- **Paralel Erişim:** 3 allocation aynı anda, bağımsız olarak
- **Sıfır Depolama:** Gerçek veri saklanmaz, sadece pointer'lar
- **Basit Recovery:** Pointer reset ile tüm allocation'lar geri alınır

## Free List Yönetimi (ROB Allocation)

ROB allocation için 32 entry'lik circular buffer kullanılır:

```

1 circular_buffer_3port free_address_buffer(
2     .clk(clk),
3     .rst_n(reset),
4     .redo_last_alloc(|branch_mispredicted_o),
5     .read_en_0(need_alloc_0),
6     .read_en_1(need_alloc_1),
7     .read_en_2(need_alloc_2),
8     .read_data_0(first_free),
9     .read_data_1(second_free),
10    .read_data_2(third_free),
11    .read_valid_0(found_first),
12    .read_valid_1(found_second),
13    .read_valid_2(found_third),
14    .write_en_0(commit_valid[0]),
15    .write_en_1(commit_valid[1]),
16    .write_en_2(commit_valid[2]),
17    .set_read_ptr_en(free_addr_set_en),
18    .set_read_ptr_value(free_addr_set_value)
19 );

```

Listing 4.10: Free address buffer instantiation

**ROB Allocation neden RAT'ta?** Bu tasarımda, *fiziksel register = ROB indeksi* eşitliği kullanılır:

- Mimari register'lar (x0-x31): Fiziksel register 0-31 (RF'te)
- ROB entry'leri (0-31): Fiziksel register 32-63 (ROB'da)

RAT zaten register renaming yapıyor. Yeni hedef için ROB ID allocation doğal olarak renaming sürecinin parçasıdır.

## LSQ Index Allocation

Load/store komutları için ayrı bir circular buffer kullanılır:

```

1 circular_buffer_3port #(.BUFFER_DEPTH(32)) lsq_address_buffer(
2   .clk(clk),
3   .rst_n(reset),
4   .redo_last_alloc(|branch_mispredicted_o),
5   .read_en_0(need_lsq_alloc_0),
6   .read_en_1(need_lsq_alloc_1),
7   .read_en_2(need_lsq_alloc_2),
8   .write_en_0(lsq_commit_0),
9   .write_en_1(lsq_commit_1),
10  .write_en_2(lsq_commit_2),
11  .set_read_ptr_en(lsq_flush_valid_i),
12  .set_read_ptr_value(first_invalid_lsq_idx_i)
13 );

```

Listing 4.11: LSQ address buffer instantiation

### Neden Bu Tasarım?

#### Neden ayrı LSQ buffer?

LSQ allocation sadece load/store komutları için gerekli. Ayrı buffer tutmak:

- ROB ve LSQ yaşam döngülerini bağımsız yönetir
- Her yapı kendi hızında dolup boşalabilir
- Misprediction recovery ayrı ayrı yapılabilir

## Misprediction Recovery

Misprediction durumunda, yanlış yolda yapılan allocation'lar geri alınmalıdır. İki mekanizma kullanılır:

**1. Pointer Reset (`set_read_ptr_en`)** Misprediction tespit edildiğinde, `read_ptr` mispredicting instruction'in allocation noktasına reset edilir:

```

1 always_comb begin
2   if (brat_resolved_0 && brat_mispredicted_0) begin
3     free_addr_set_en = 1'b1;
4     free_addr_set_value = brat_resolved_phys_0 + 1;
5   end else if (brat_resolved_1 && brat_mispredicted_1) begin
6     free_addr_set_en = 1'b1;
7     free_addr_set_value = brat_resolved_phys_1 + 1;
8   end else ...

```

```
9 end
```

Listing 4.12: Misprediction pointer reset

### Neden Bu Tasarım?

#### Neden +1?

Mispredicting branch'in kendi allocation'ı geçerlidir. Sadece ondan sonraki allocation'lar geri alınmalı. Bu yüzden yeni `read_ptr = branch'in fiziksel register'i + 1.`

**2. Redo Last Allocation (`redo_last_alloc`)** Misprediction aynı çevrimde tespit edilirse, o çevrimdeki allocation'lar henüz commit edilmemiştir. Bu sinyal, son allocation'ı geri alır:

```
1 always_ff @(posedge clk) begin
2     if (redo_last_alloc) begin
3         read_ptr <= read_ptr - last_alloc_count;
4     end
5 end
```

Listing 4.13: Redo last allocation

### Buffer Doluluk Kontrolü

Allocation'a hazır olup olmadığını belirleyen sinyaller:

```
1 // ROB allocation ready
2 assign rename_ready = (free_count >= 3) ? 3'b111 :
3                         (free_count == 2) ? 3'b011 :
4                         (free_count == 1) ? 3'b001 : 3'b000;
5
6 // LSQ allocation ready
7 assign lsq_alloc_ready = (lsq_free_count >= 3) ? 3'b111 :
8                         (lsq_free_count == 2) ? 3'b011 :
9                         (lsq_free_count == 1) ? 3'b001 : 3'b000;
```

Listing 4.14: Rename ready sinyalleri

Bu sinyaller, issue stage'e kaç komutun kabul edilebileceğini bildirir.

## Circular Buffer Özeti Tablosu

Tablo 4.5: Circular buffer özellikleri

| Özellik       | Free List (ROB)    | LSQ Buffer          |
|---------------|--------------------|---------------------|
| Derinlik      | 32 entry           | 32 entry            |
| Port Sayısı   | 3 read, 3 write    | 3 read, 3 write     |
| Allocation    | Issue aşamasında   | Load/store issue'da |
| Deallocation  | ROB commit'te      | LSQ commit'te       |
| Reset Kaynağı | BRAT misprediction | BRAT misprediction  |

### 4.4.7 Branch Resolution Alias Table (BRAT)

Bu bölümde, spekülatif dal tahmini recovery'si için kullanılan BRAT mekanizması detaylı olarak açıklanmaktadır.

#### Problem: Geleneksel Misprediction Recovery

Geleneksel Tomasulo tabanlı işlemcilerde, misprediction recovery şu şekilde çalışır:

1. Dal komutu execute edilir, misprediction tespit edilir
2. Dal komutu ROB başına ulaşana kadar beklenir
3. ROB başında recovery başlar: RAT sıfırlanır, pipeline flush edilir
4. Doğru yoldan fetch yeniden başlar



Şekil 4.2: Geleneksel recovery: Dal ROB head'e ulaşmalı

#### Neden Bu Tasarım?

##### Neden geleneksel yaklaşım yavaş?

Mispredicting dal ROB'un ortasındaysa, önündeki tüm komutların commit olması beklenir. 32 entry'lik ROB'da, dal 16. pozisyondaysa, 15 commit beklenir. Her commit 1 çevrimde 3 komut işlene bile, bu 5+ çevrim gecikme demektir. Spekülatif dallar için bu gecikme kabul edilemez.

## Çözüm: BRAT ile Eager Recovery

BRAT, her dal komutu için RAT'ın anlık görüntüsünü (snapshot) saklar. Misprediction tespit edildiğinde, ROB başı beklenmeden anında geri yükleme yapılır.



Şekil 4.3: BRAT: Snapshot tabanlı anında recovery

## BRAT Entry Yapısı

Her BRAT entry'si şu alanları saklar:

Tablo 4.6: BRAT entry alanları

| Alan             | Boyut             | Açıklama                                   |
|------------------|-------------------|--------------------------------------------|
| branch_phys      | 6 bit             | Branch'in fiziksel register ID'si (ROB ID) |
| rat_snapshot     | $32 \times 6$ bit | Tüm RAT mapping'inin kopyası               |
| resolved         | 1 bit             | Branch execute edildi mi?                  |
| mispredicted     | 1 bit             | Tahmin yanlış mıydı?                       |
| correct_pc       | 32 bit            | Doğru hedef PC                             |
| is_jalr          | 1 bit             | Branch mi JALR mı?                         |
| pc_at_prediction | 32 bit            | Predictor update için orijinal PC          |
| global_history   | 8+ bit            | Branch predictor history                   |
| ras_tos          | 3 bit             | RAS checkpoint pointer                     |

### Neden Bu Tasarım?

#### Neden bu kadar veri saklanıyor?

Recovery sadece RAT restore değildir. Misprediction sonrası:

- RAT restore edilmeli (snapshot)
- Fetch doğru PC'ye yönlendirilmeli (correct\_pc)
- Branch predictor güncellenmeli (pc\_at\_prediction, global\_history)
- RAS restore edilmeli (ras\_tos)
- JALR predictor güncellenmeli (is\_jalr)

Tüm bilgileri tek yerde tutmak, tek çevrimde recovery sağlar.

### BRAT Operasyonları

**1. Push (Dal Issue Edildiğinde)** Yeni dal komutu issue edildiğinde, BRAT'a entry eklenir:

```

1 always_comb begin
2     brat_push_en[0] = decode_valid[0] && branch_0 && !brat_full && !
3         brat_restore_en;
4     brat_push_en[1] = decode_valid[1] && branch_1 && !brat_full && !
5         brat_restore_en;
6     brat_push_en[2] = decode_valid[2] && branch_2 && !brat_full && !
7         brat_restore_en;
8
9     // Push snapshots - Store RAT state AFTER the branch instruction
10    brat_push_snapshot_0 = rat_after_inst0;
11    brat_push_snapshot_1 = rat_after_inst1;
12    brat_push_snapshot_2 = rat_after_inst2;
13 end

```

Listing 4.15: BRAT push mantığı

### Neden Bu Tasarım?

#### Neden “daldan sonraki” RAT state saklanıyor?

Snapshot, dalın kendi allocation’ını içermelidir. Misprediction durumunda:

- Dalın kendisi geçerlidir (doğru yolun parçası)
- Daldan *sonraki* komutlar geçersizdir

Bu yüzden snapshot, dalın allocation’ını içeren RAT state’ı saklar.

**2. Execute Result Yazma** Dal execute edildiğinde, sonuç BRAT'a yazılır:

```

1 // Execute result write interface
2 .exec_valid_0(exec_branch_valid_i[0]),
3 .exec_rob_id_0(exec_rob_id_0_i),
4 .exec_mispredicted_0(exec_mispredicted_i[0]),
5 .exec_correct_pc_0(exec_correct_pc_0_i),

```

Listing 4.16: Execute result matching

BRAT, gelen ROB ID'yi tüm entry'lerle karşılaştırır. Eşleşen entry'nin `resolved` ve `mispredicted` alanları güncellenir.

**3. In-Order Resolution Output** BRAT, dal sonuçlarını program sırasında çıkarır:

```

1 // BRAT ensures in-order branch resolution outputs
2 assign branch_resolved_o = {brat_resolved_2, brat_resolved_1,
   brat_resolved_0};
3 assign branch_mispredicted_o = {brat_mispredicted_2,
   brat_mispredicted_1, brat_mispredicted_0};

```

Listing 4.17: In-order resolution çıkışı

### Neden Bu Tasarım?

#### Neden in-order resolution kritik?

Dollar out-of-order execute edilebilir. Ancak misprediction işleme sırası önemlidir:

- Branch A (eski) ve Branch B (genç) aynı anda mispredicted olsun
- B, A'nın spekülatif yolunda olabilir
- A'nın misprediction'ı düzelttilirse, B zaten geçersiz
- B'yi önce işlemek gereksiz çalışma olur

BRAT, circular buffer yapısıyla doğal olarak oldest-first sıralama sağlar.

**4. Combinational Bypass** En düşük recovery latency için, dal execute edildiği çevrimde resolution çıkmalıdır:

```

1 // Same-cycle resolution using bypass
2 always_comb begin
3     if (exec_valid_0 && (exec_rob_id_0 == head_branch_phys)) begin
4         // Bypass: use incoming execute result directly
5         branch_resolved_o_0 = 1'b1;
6         branch_mispredicted_o_0 = exec_mispredicted_0;
7         correct_pc_o_0 = exec_correct_pc_0;

```

```

8     end else begin
9         // Use stored value
10        branch_resolved_o_0 = head_resolved;
11        branch_mispredicted_o_0 = head_mispredicted;
12        correct_pc_o_0 = head_correct_pc;
13    end
14 end

```

Listing 4.18: Combinational bypass

### Neden Bu Tasarım?

#### Neden combinational bypass?

Bypass olmadan akış:

1. Cycle N: Execute sonucu gelir, BRAT'a yazılır
2. Cycle N+1: BRAT'tan okunur, diğer modüllere iletilir
3. Cycle N+2: Fetch yeni PC'den başlar

Bypass ile:

1. Cycle N: Execute sonucu gelir, AYNI ANDA çıkışa iletilir
2. Cycle N+1: Fetch yeni PC'den başlar

1 çevrim kazanç, yüksek misprediction oranlarında önemli performans farkı yaratır.

### 5. Commit Update

ROB commit olduğunda, BRAT snapshot'ları güncellenir:

```

1 // For each commit, update ALL snapshots that point to this ROB entry
2 for (int i = 0; i < BRAT_DEPTH; i++) begin
3     if (commit_valid && snapshot[i][arch_addr] == rob_idx) begin
4         snapshot[i][arch_addr] <= rf_mapping; // Point to RF instead
5         of ROB
6     end
7 end

```

Listing 4.19: Commit update mantığı

## Neden Bu Tasarım?

### Neden commit update gereklidir?

Snapshot alındığında, bazı register'lar ROB'a işaret eder. ROB commit olduğunda:

- Değer ROB'dan RF'e kopyalanır
- ROB entry yeniden kullanılabilir

Snapshot güncellenmezse, restore sırasında:

- Geçersiz ROB pointer kullanılır
- Yanlış veri okunur

Bu yüzden commit, tüm snapshot'larda ilgili mapping'i RF'e günceller.

## 6. RAT Restore

Misprediction tespit edildiğinde, RAT snapshot'tan restore edilir:

```

1 always_ff @(posedge clk) begin
2     if (brat_restore_en) begin
3         for (int i = 0; i < ARCH_REGS; i++) begin
4             // Handle same-cycle commit
5             if (commit_valid[0] && commit_addr_0 == i &&
6                 commit_rob_idx_0 == brat_restore_snapshot[i][4:0])
7                 rat_table[i] <= {1'b0, commit_addr_0};
8             end else begin
9                 rat_table[i] <= brat_restore_snapshot[i];
10            end
11        end
12    end
13 end

```

Listing 4.20: RAT restore

## RAS Checkpoint/Restore

BRAT, Return Address Stack için de checkpoint tutar:

```

1 .push_ras_tos_0(push_ras_tos_i),
2 .ras_restore_valid_o(ras_restore_valid_o),
3 .ras_restore_tos_o(ras_restore_tos_o)

```

Listing 4.21: RAS checkpoint

Misprediction durumunda RAS pointer da restore edilir, böylece fonksiyon dönüş tahminleri doğru kalır.

## BRAT Özeti Tablosu

Tablo 4.7: BRAT özellikleri

| Özellik              | Değer/Açıklama                                    |
|----------------------|---------------------------------------------------|
| Derinlik             | 16 entry (maksimum in-flight branch)              |
| Snapshot Boyutu      | $32 \times 6 \text{ bit} = 192 \text{ bit/entry}$ |
| Toplam Depolama      | $16 \times (250 \text{ bit}) = 4 \text{ Kbit}$    |
| Push Genişliği       | 3-wide (her cycle 3 branch)                       |
| Resolution Genişliği | 3-wide (her cycle 3 resolution)                   |
| Recovery Latency     | 0 cycle (combinational bypass)                    |

## 4.4.8 RAT Özeti Tablosu

Tablo 4.8: RAT özellikleri

| Özellik                | Değer/Açıklama                           |
|------------------------|------------------------------------------|
| Mapping Genişliği      | 32 arch $\rightarrow$ 64 phys            |
| Rename Genişliği       | 3-wide (her cycle 3 komut)               |
| Lookup Genişliği       | 6-wide ( $3 \times rs1 + 3 \times rs2$ ) |
| Same-Cycle Forwarding  | Destekleniyor                            |
| Misprediction Recovery | BRAT snapshot restore                    |
| Commit Update          | RF mapping restore                       |

## 4.5 Issue Stage Akışı

### 4.5.1 Normal Operasyon

#### 1. Cycle N - Komut Alımı:

- Instruction buffer'dan 3 komut okunur
- Decode valid sinyalleri kontrol edilir

#### 2. Cycle N - Decode (Kombinasyonel):

- 3 decoder paralel çalışır
- Kontrol sinyalleri ve register adresleri çıkarılır

#### 3. Cycle N - Renaming (Kombinasyonel):

- RAT lookup: rs1, rs2 için fiziksel register

- Allocation: rd için yeni fiziksel register
- Same-cycle forwarding: komutlar arası bağımlılık

#### 4. Cycle N - BRAT Push (Kombinasyonel):

- Dal komutu ise RAT snapshot hazırla
- BRAT'a entry ekle

#### 5. Cycle N+1 - Pipeline Register:

- Tüm bilgiler dispatch stage'e ilettilir
- RAT tablosu güncellenir

### 4.5.2 Misprediction Durumu

1. Execute stage'den misprediction sinyali gelir
2. BRAT, oldest mispredicted branch'i tespit eder
3. RAT, BRAT snapshot'tan restore edilir
4. Free list pointer reset edilir
5. Issue stage, `internal_flush` ile mevcut işlemleri iptal eder

```

1 logic internal_flush;
2 assign internal_flush = !branch_mispredicted_o;
```

Listing 4.22: Internal flush sinyali

## 4.6 Dispatch Interface

Issue stage, decode edilmiş ve rename edilmiş komutları dispatch stage'e iletir:

```

1 interface issue_to_dispatch_if;
2   logic valid;
3   logic [DATA_WIDTH-1:0] pc;
4   logic [DATA_WIDTH-1:0] immediate;
5   logic [25:0] control_word;
6   logic [2:0] branch_sel;
7   logic branch_prediction;
8
9   // Renamed operands
10  logic [PHYS_ADDR_WIDTH-1:0] rs1_phys;
11  logic [PHYS_ADDR_WIDTH-1:0] rs2_phys;
12  logic [PHYS_ADDR_WIDTH-1:0] rd_phys;  // = ROB ID
```

```

13   logic [ARCH_ADDR_WIDTH-1:0] rd_arch;
14
15   // LSQ allocation
16   logic lsq_alloc_valid;
17   logic [2:0] alloc_tag;
18 endinterface

```

Listing 4.23: Issue-to-Dispatch interface

## 4.7 Issue Stage Özeti

Tablo 4.9: Issue stage özellikleri

| Özellik               | Değer/Açıklama           |
|-----------------------|--------------------------|
| Issue Genişliği       | 3 komut/çevrim           |
| Decoder Sayısı        | 3 (paralel)              |
| RAT Boyutu            | 32 entry × 6 bit         |
| BRAT Derinliği        | 16 entry                 |
| Free List             | 32 entry circular buffer |
| LSQ Allocation        | Ayrı circular buffer     |
| Misprediction Latency | 0 cycle (combinational)  |

# Bölüm 5

## Dispatch Stage

Dispatch stage, Tomasulo algoritmasının operand resolution ve instruction issue mekanizmalarını içerir. Bu bölümde, Reservation Station (RS), Reorder Buffer (ROB), Common Data Bus (CDB) ve Load Store Queue (LSQ) detaylı olarak açıklanmaktadır.

### 5.1 Genel Bakış

Dispatch stage, issue stage'den gelen rename edilmiş komutları alır ve:

1. Fiziksel register file/ROB'dan operand değerlerini okur
2. Operandlar hazır değilse tag-based bekleme yapar
3. Tüm operandlar hazır olduğunda functional unit'e gönderir
4. CDB üzerinden sonuçları yayınlar ve ROB'u günceller



Şekil 5.1: Dispatch stage blok diyagramı

### 5.1.1 Dispatch Stage Bileşenleri

Tablo 5.1: Dispatch stage modülleri

| Modül               | Dosya                                    | Görev                                      |
|---------------------|------------------------------------------|--------------------------------------------|
| Dispatch Stage      | <code>dispatch_stage.sv</code>           | Üst seviye koordinasyon                    |
| Reservation Station | <code>reservation_station.sv</code>      | Operand bekleme ve issue<br>( $\times 3$ ) |
| Reorder Buffer      | <code>reorder_buffer.sv</code>           | In-order commit, spekülatif<br>değer       |
| Register File       | <code>multi_port_register_file.sv</code> | Commit edilmiş değerler                    |
| LSQ                 | <code>lsq_simple_top.sv</code>           | Memory operasyonu yönetimi                 |

## 5.2 Fiziksel Register Alanı

64 fiziksel register iki bölgeye ayrılr:

Tablo 5.2: Fiziksel register alanı

| Adres Aralığı | MSB | Kaynak                         |
|---------------|-----|--------------------------------|
| 0-31          | 0   | Register File (commit edilmiş) |
| 32-63         | 1   | ROB (spekülatif, in-flight)    |

```

1 // MSB determines source: RF (0) or ROB (1)
2 assign inst_0_read_data_a = inst_0_read_addr_a[5] ?
3     rob_0_read_data_a : reg_file_read_data_a_0;
4
5 // Tag from ROB (may not be ready), or ready if from RF
6 assign inst_0_read_tag_a = inst_0_read_addr_a[5] ?
7     rob_0_read_tag_a : 3'b111; // RF data always ready

```

Listing 5.1: Fiziksel adres decode

### Neden Bu Tasarım?

#### Neden iki ayrı kaynak?

Register File (RF), commit edilmiş değerleri tutar - garantiyi doğru. ROB, henüz execute edilmemiş komutların sonuçlarını tutacaktır.

RAT, her register için “en güncel” kaynağını gösterir:

- Değer commit edilmişse → RF’i gösterir (adres 0-31)
- Değer in-flight ise → ROB’u gösterir (adres 32-63)

Bu sayede hem spekülatif hem de kesinleşmiş değerler tek sistemde yönetilir.

## 5.3 Reservation Station

Her issue slot için bir Reservation Station (RS) bulunur. RS, operandlar hazır olana kadar komutu tutar ve CDB’yi izler.

### 5.3.1 RS Yapısı

Tablo 5.3: Reservation Station entry alanları

| Alan              | Boyut  | Açıklama                  |
|-------------------|--------|---------------------------|
| occupied          | 1 bit  | Entry dolu mu?            |
| control_signals   | 11 bit | ALU/memory kontrol        |
| pc                | 32 bit | Komut adresi              |
| rd_phys_addr      | 6 bit  | Hedef fiziksel register   |
| operand_a_data    | 32 bit | Operand A değeri veya tag |
| operand_a_tag     | 3 bit  | Operand A producer tag    |
| operand_b_data    | 32 bit | Operand B değeri veya tag |
| operand_b_tag     | 3 bit  | Operand B producer tag    |
| store_data        | 32 bit | Store için rs2 değeri     |
| branch_prediction | 1 bit  | Tahmin edilen yön         |

### 5.3.2 Tag Sistemi

Tomasulo’nun temel mekanizması olan tag sistemi, producer-consumer ilişkisini izler:

Tablo 5.4: Tag değerleri ve anlamları

| Tag    | Anlam                                 |
|--------|---------------------------------------|
| 3'b000 | ALU 0'dan bekliyor                    |
| 3'b001 | ALU 1'den bekliyor                    |
| 3'b010 | ALU 2'den bekliyor                    |
| 3'b011 | LSQ'dan bekliyor (ROB ID ile eşleşme) |
| 3'b111 | Hazır (değer geçerli)                 |

### Neden Bu Tasarım?

#### Neden tag tabanlı bekleme?

Klasik yaklaşımında, bağımlı komut producer'ın bitmesini bekler (stall). Tag sistemiyle:

- Producer henüz execute edilmemiş olsa bile, RS dolu olabilir
- RS, CDB'yi izleyerek producer sonucunu yakalar
- Producer bittiği çevrimde consumer da issue edilebilir

Bu, “pipeline forwarding”in out-of-order versiyonudur.

### 5.3.3 CDB İzleme ve Operand Resolution

RS, CDB'yi sürekli izler ve bekleyen operandları çözer:

```

1 always_comb begin
2     // Check if stored operand A can be resolved from CDB
3     operand_a_valid_from_stored = occupied && (
4         (stored_operand_a_tag == TAG_READY) ||
5         (cdb_if_port.cdb_valid_0 && stored_operand_a_tag == 3'b000) ||
6         (cdb_if_port.cdb_valid_1 && stored_operand_a_tag == 3'b001) ||
7         (cdb_if_port.cdb_valid_2 && stored_operand_a_tag == 3'b010) ||
8         // LSQ matching: tag=011 AND data matches ROB ID
9         (cdb_if_port.cdb_valid_3_0 && stored_operand_a_tag == 3'b011
10        &&
11            stored_operand_a_data == cdb_if_port.cdb_dest_reg_3_0)
12    );
13 end

```

Listing 5.2: CDB izleme mantığı

### Neden Bu Tasarım?

#### Neden LSQ için özel eşleştirme?

ALU sonuçları tek bir CDB kanalından gelir (ALU başına 1). Ancak LSQ'dan 3 ayrı sonuç gelebilir. Tag=011 sadece "LSQ bekliyor" demektir, hangi LSQ entry'sinden geleceğini belirtmez.

Bu yüzden LSQ için ek ROB ID eşlestirmesi yapılır: `stored_operand_a_data == cdb_dest_reg_3_x`

### 5.3.4 Operand Seçimi

Operandlar birden fazla kaynaktan gelebilir:

```

1 always_comb begin
2     // Priority: 1) Stored ready, 2) CDB ALU0, 3) CDB ALU1, 4) CDB
3     // ALU2, 5) CDB LSQ
4     if (stored_operand_a_tag == TAG_READY) begin
5         final_operand_a_data = stored_operand_a_data;
6     end else if (cdb_if_port.cdb_valid_0 && stored_operand_a_tag == 3'b000) begin
7         final_operand_a_data = cdb_if_port.cdb_data_0;
8     end else if (cdb_if_port.cdb_valid_1 && stored_operand_a_tag == 3'b001) begin
9         final_operand_a_data = cdb_if_port.cdb_data_1;
10    end else if (cdb_if_port.cdb_valid_2 && stored_operand_a_tag == 3'b010) begin
11        final_operand_a_data = cdb_if_port.cdb_data_2;
12    end else begin
13        // LSQ data
14        final_operand_a_data = cdb_if_port.cdb_data_3_x;
15    end
16 end

```

Listing 5.3: Operand veri seçimi

### 5.3.5 Issue Koşulu

Komut ancak her iki operand da hazır olduğunda issue edilir:

```

1 assign should_issue = (occupied && operand_a_valid && operand_b_valid)
2     ||
3     (decode_if.dispatch_valid && operand_a_ready && operand_b_ready);

```

Listing 5.4: Issue koşulu

İki durum vardır:

1. **Stored issue:** RS'de bekleyen komut, CDB'den operand aldı

2. **Direct issue:** Yeni gelen komut, operandları zaten hazır

### 5.3.6 Eager Misprediction Flush

RS, misprediction durumunda spekülatif komutları temizler:

```

1  always_comb begin
2      // Calculate ROB distance from head
3      if (stored_rob_idx >= rob_head_ptr_i) begin
4          stored_rob_distance = stored_rob_idx - rob_head_ptr_i;
5      end else begin
6          stored_rob_distance = 32 - rob_head_ptr_i + stored_rob_idx;
7      end
8
9      // Flush if: after mispredicted branch in program order
10     should_flush_rs = occupied && eager_misprediction_i &&
11         (stored_rob_distance > mispredicted_distance_i);
12 end
```

Listing 5.5: RS flush mantığı

#### Neden Bu Tasarım?

##### Neden distance karşılaştırması?

ROB circular buffer olduğu için basit indeks karşılaştırması yetmez. Mispredicted branch ROB[25]'te, RS'deki komut ROB[3]'te olabilir.

Distance hesabı:

- Head= 20, Branch= 25 → Branch distance= 5
- Head= 20, RS= 3 → RS distance= 32 - 20 + 3= 15
- 15 > 5 → RS komutu spekülatif, flush edilmeli

## 5.4 Reorder Buffer (ROB)

ROB, out-of-order execution ile in-order commit arasındaki köprüdür. Spekülatif sonuçları tutar ve program sırasında commit eder.

### 5.4.1 ROB Entry Yapısı

```

1  typedef struct packed {
2      logic [DATA_WIDTH-1:0] data;           // Result value
3      logic [TAG_WIDTH-1:0] tag;            // Producer tag (111 = ready)
4      logic [ADDR_WIDTH-1:0] addr;          // Architectural register
      address
```

```

5   logic executed;           // Execution completed?
6   logic exception;         // Misprediction/exception?
7   logic is_branch;          // Branch instruction?
8   logic is_store;           // Store instruction?
9 } rob_entry_t;

```

Listing 5.6: ROB entry yapısı

### 5.4.2 ROB Portları

Tablo 5.5: ROB port sayıları

| Port Tipi  | Sayı | Kullanım                            |
|------------|------|-------------------------------------|
| Allocation | 3    | Issue stage'den gelen komutlar      |
| Read       | 6    | RS operand okuması ( $3 \times 2$ ) |
| CDB Write  | 6    | ALU (3) + LSQ (3) sonuçları         |
| Commit     | 3    | RF'e yazma ve serbest bırakma       |

### 5.4.3 Allocation

Issue stage'den gelen her komut için ROB entry allocate edilir:

```

1 always_ff @(posedge clk) begin
2   if (alloc_enable_0) begin
3     buffer[alloc_idx_0].addr <= alloc_addr_0;
4     buffer[alloc_idx_0].tag <= alloc_tag_0; // Producer ALU tag
5     buffer[alloc_idx_0].executed <= 1'b0;
6     buffer[alloc_idx_0].exception <= 1'b0;
7     buffer[alloc_idx_0].is_store <= alloc_is_store_0;
8   end
9 end

```

Listing 5.7: ROB allocation

### 5.4.4 CDB Sonuç Yazma

Execute tamamlandığında, sonuç ROB'a yazılır:

```

1 always_ff @(posedge clk) begin
2   if (cdb_valid_0) begin
3     buffer[cdb_addr_0].data <= cdb_data_0;

```

```

4     buffer[cdb_addr_0].tag <= 3'b111; // Mark as ready
5     buffer[cdb_addr_0].executed <= 1'b1;
6     buffer[cdb_addr_0].exception <= cdb_exception_0;
7     buffer[cdb_addr_0].is_branch <= cdb_is_branch_0;
8   end
9 end

```

Listing 5.8: CDB sonuç yazma

#### 5.4.5 In-Order Commit

ROB head'den itibaren, sırasıyla en fazla 3 komut commit edilir:

```

1 // Commit valid only if: executed AND not exception
2 assign commit_valid_0 = buffer[head].executed && !flush_pending;
3 assign commit_valid_1 = commit_valid_0 && buffer[head+1].executed;
4 assign commit_valid_2 = commit_valid_1 && buffer[head+2].executed;
5
6 // Commit data and address
7 assign commit_data_0 = buffer[head].data;
8 assign commit_addr_0 = buffer[head].addr;

```

Listing 5.9: Commit mantığı

#### Neden Bu Tasarım?

##### Neden in-order commit kritik?

Out-of-order execution, komutların farklı sırada bitmesine izin verir. Ancak:

- Exception handling: Sadece “önceki” komutlar kesinleşmeli
- Misprediction: Spekülatif komutlar geri alınabilmeli
- Memory consistency: Store'lar program sırasında görünmeli

In-order commit, architectural state'in her zaman tutarlı olmasını sağlar.

#### 5.4.6 Store Permission

Store komutları, ROB head'e ulaşana kadar memory'ye yazamaz:

```

1 assign store_can_issue_0 = buffer[head].is_store && buffer[head].
2   executed;
2 assign allowed_store_address_0 = head;

```

Listing 5.10: Store permission

## 5.5 Common Data Bus (CDB)

CDB, execution sonuçlarını tüm bekleme noktalarına yayınlar.

### 5.5.1 CDB Kanalları

Tablo 5.6: CDB kanalları

| Kanal   | Kaynak                  |
|---------|-------------------------|
| CDB 0   | ALU 0 sonunu            |
| CDB 1   | ALU 1 sonunu            |
| CDB 2   | ALU 2 sonunu            |
| CDB 3_0 | LSQ port 0 (load/store) |
| CDB 3_1 | LSQ port 1              |
| CDB 3_2 | LSQ port 2              |

### 5.5.2 CDB Sinyalleri

Her CDB kanalı şu sinyalleri taşır:

```

1 interface cdb_if;
2   // ALU channels
3   logic cdb_valid_0, cdb_valid_1, cdb_valid_2;
4   logic [DATA_WIDTH-1:0] cdb_data_0, cdb_data_1, cdb_data_2;
5   logic [PHYS_ADDR_WIDTH-1:0] cdb_dest_reg_0, cdb_dest_reg_1,
6   cdb_dest_reg_2;
7   logic cdb_misprediction_0, cdb_misprediction_1,
8   cdb_misprediction_2;
9   logic cdb_is_branch_0, cdb_is_branch_1, cdb_is_branch_2;
10
11  // LSQ channels
12  logic cdb_valid_3_0, cdb_valid_3_1, cdb_valid_3_2;
13  logic [DATA_WIDTH-1:0] cdb_data_3_0, cdb_data_3_1, cdb_data_3_2;
14  logic [PHYS_ADDR_WIDTH-1:0] cdb_dest_reg_3_0, cdb_dest_reg_3_1,
15  cdb_dest_reg_3_2;
16 endinterface

```

Listing 5.11: CDB interface

## 5.6 Dispatch Stage Özeti

Tablo 5.7: Dispatch stage özellikleri

| Özellik            | Değer/Açıklama       |
|--------------------|----------------------|
| Dispatch Genişliği | 3 komut/çevrim       |
| RS Sayısı          | 3 (her biri 1 entry) |
| ROB Derinliği      | 32 entry             |
| RF Boyutu          | $32 \times 32$ bit   |
| CDB Kanalları      | 6 (3 ALU + 3 LSQ)    |
| Commit Genişliği   | 3 komut/çevrim       |
| Tag Genişliği      | 3 bit                |

# Bölüm 6

## Execute Stage

Execute stage, komutların gerçek hesaplamalarının yapıldığı pipeline aşamasıdır. Bu bölümde, 3 paralel functional unit, ALU operasyonları, dal çözümleme ve misprediction tespiti detaylı olarak açıklanmaktadır.

### 6.1 Genel Bakış

Execute stage, reservation station'lardan gelen komutları alır ve:

1. ALU/shifter operasyonlarını gerçekleştirir
2. Dal koşullarını değerlendirir
3. Misprediction tespit eder
4. Sonuçları CDB üzerinden yayınlar



Sekil 6.1: Execute stage blok diyagramı

### 6.1.1 Execute Stage Bileşenleri

Tablo 6.1: Execute stage modülleri

| Modül           | Dosya              | Görev                          |
|-----------------|--------------------|--------------------------------|
| Execute Stage   | execute_stage.sv   | Üst seviye koordinasyon        |
| ALU             | alu.sv             | Aritmetik/mantık operasyonları |
| Arithmetic Unit | arithmetic_unit.sv | ADD, SUB, SLT, SLTU            |
| Logical Unit    | logical_unit.sv    | XOR, OR, AND                   |
| Shifter         | shifter.sv         | SLL, SRL, SRA                  |
| Branch Unit     | functional_unit.sv | Dal koşulu değerlendirme       |

## 6.2 Functional Unit Yapısı

Her functional unit (FU), tam RV32I ALU ve dal işleme kapasitesine sahiptir:

```

1 // Functional unit signals for FU0
2 logic [DATA_WIDTH-1:0] fu0_data_a, fu0_data_b;
3 logic [3:0] fu0_func_sel;
4 logic [DATA_WIDTH-1:0] fu0_result;
5 logic fu0_carry_out, fu0_overflow, fu0_negative, fu0_zero;
6 logic fu0_busy;
7
8 // Branch control signals
9 logic fu0_mpc, fu0_jalr;
10 logic fu0_misprediction;
11 logic [DATA_WIDTH-1:0] fu0_correct_pc;
```

Listing 6.1: FU sinyal tanımları

### 6.2.1 Operand Bağlantısı

```

1 // Operand assignment from RS to FU
2 assign fu0_data_a = rs_to_exec_0.data_a;
3 assign fu0_data_b = rs_to_exec_0.data_b;
4
5 // Function select from control signals [10:7]
6 assign fu0_func_sel = rs_to_exec_0.control_signals[10:7];
```

Listing 6.2: RS'den FU'ya operand aktarımı

## 6.3 ALU Operasyonları

ALU, aritmetik ve mantıksal operasyonları gerçekleştirir:

Tablo 6.2: ALU fonksiyon seçimi

| func_sel | Operasyon | Açıklama                 |
|----------|-----------|--------------------------|
| 3'b000   | ADD       | Toplama                  |
| 3'b001   | SUB       | Çıkarma                  |
| 3'b010   | SLT       | Set Less Than (signed)   |
| 3'b011   | SLTU      | Set Less Than (unsigned) |
| 3'b100   | XOR       | Bitwise XOR              |
| 3'b101   | OR        | Bitwise OR               |
| 3'b110   | AND       | Bitwise AND              |
| 3'b111   | Reserved  | —                        |

### 6.3.1 ALU Yapısı

ALU, aritmetik ve mantıksal birimlerden oluşur:

```

1 module alu #(parameter size = 32)(
2     input logic [size-1:0] data_a,
3     input logic [size-1:0] data_b,
4     input logic [2:0] func_sel,
5     output logic [size-1:0] data_result,
6     output logic carry_out, overflow, zero, negative
7 );
8
9     logic [size-1:0] arithmetic_out;
10    logic [size-1:0] logical_out;
11
12    arithmetic_unit arithmetic(
13        .data_a(data_a), .data_b(data_b),
14        .func_sel(func_sel[1:0]), // ADD, SUB, SLT, SLTU
15        .data_result(arithmetic_out),
16        ...
17    );
18
19    logical_unit logical(
20        .data_a(data_a), .data_b(data_b),
21        .func_sel(func_sel[1:0]), // XOR, OR, AND
22        .data_result(logical_out)
23    );
24
25    // Select based on func_sel[2]

```

```

26     assign data_result = func_sel[2] ? logical_out : arithmetic_out;
27 endmodule

```

Listing 6.3: ALU iç yapısı

### Neden Bu Tasarım?

#### Neden ayrı arithmetic ve logical unit?

- Paralel hesaplama: Her iki sonuç aynı anda hesaplanır
- Basit multiplexer: Sadece MSB ile seçim
- Timing: Critical path kısaltılır
- Modülerlik: Bağımsız test ve optimizasyon

## 6.4 Dal Çözümleme

Execute stage, dal komutlarının sonuçlarını hesaplar ve tahminle karşılaştırır.

### 6.4.1 Branch Condition Evaluation

Tablo 6.3: Branch koşulları

| branch_sel | Komut     | Koşul                    |
|------------|-----------|--------------------------|
| 3'b000     | NO_BRANCH | Dallanma yok             |
| 3'b001     | BEQ       | rs1 == rs2               |
| 3'b010     | BNE       | rs1 != rs2               |
| 3'b011     | BLT       | rs1 < rs2 (signed)       |
| 3'b100     | BGE       | rs1 >= rs2 (signed)      |
| 3'b101     | BLTU/BGEU | Unsigned karşılaştırma   |
| 3'b110     | JAL       | Koşulsuz atlama          |
| 3'b111     | JALR      | Register indirect atlama |

### 6.4.2 Misprediction Tespiti

```

1 // Branch misprediction: actual outcome != prediction
2 // mpc = branch condition result (taken/not-taken)
3 assign fu0_misprediction = fu0_jalr ?

```

```

4 // JALR: target address mismatch
5 (fu0_result != rs_to_exec_0.pc_value_at_prediction) :
6 // Branch: direction mismatch
7 (fu0_mpc ^ rs_to_exec_0.branch_prediction);

```

Listing 6.4: Misprediction detection

### Neden Bu Tasarım?

#### Neden JALR için özel kontrol?

Branch komutları için sadece yön (taken/not-taken) tahmini yapılır. JALR için hem yön hem de hedef adres tahmini yapılır.

JALR misprediction:

- Tahmin edilen hedef: pc\_value\_at\_prediction
- Gerçek hedef: fu0\_result ( $rs1 + imm$ )
- İkisi farklısa → misprediction

### 6.4.3 Correct PC Hesaplama

```

1 // Correct PC for recovery
2 assign fu0_correct_pc = fu0_jalr ?
3     // JALR: use calculated address (align to 4)
4     {fu0_result[31:2], 2'b00} :
5     // Branch: use current PC (next instruction)
6     {rs_to_exec_0.pc[31:2], 2'b00};

```

Listing 6.5: Correct PC calculation

## 6.5 Sonuç Seçimi

Execute stage, farklı komut tipleri için farklı sonuçlar üretir:

```

1 // Result selection based on instruction type
2 // control_signals[5] = save PC (JAL/JALR)
3 assign fu0_corrected_result = rs_to_exec_0.control_signals[5] ?
4     {rs_to_exec_0.pc[31:2], 2'b00} : // Link address
5     fu0_result;                  // ALU result
6
7 // Final result: branch returns prediction PC, others return ALU
8 assign rs_to_exec_0.data_result = rs_to_exec_0.is_branch ?
9     rs_to_exec_0.pc_value_at_prediction :
10    fu0_corrected_result;

```

Listing 6.6: Result selection

Tablo 6.4: Komut tipine göre sonuç

| Komut Tipi          | Sonuç                    |
|---------------------|--------------------------|
| ALU (ADD, SUB, ...) | ALU hesaplama sonucu     |
| Load/Store          | Adres hesaplama sonucu   |
| JAL/JALR            | Link adresi ( $PC + 4$ ) |
| Branch (BEQ, ...)   | Tahmin edilen PC         |

## 6.6 Memory Address Calculation

Load/Store komutları için adres hesaplaması:

```

1 // Memory address calculation detection
2 // control_signals[4] = load, control_signals[3] = memory op
3 assign rs_to_exec_0.mem_addr_calculation =
4     rs_to_exec_0.control_signals[4] ||
5     (rs_to_exec_0.control_signals[3] && !rs_to_exec_0.control_signals
[6]);

```

Listing 6.7: Memory address calculation flag

Bu flag, LSQ'ya adres hesaplamasının tamamlandığını bildirir.

## 6.7 Branch Predictor Update

Execute stage, dal sonuçlarını branch predictor'a geri bildirir:

```

1 // Update predictor only for conditional branches
2 assign update_predictor_0 = rs_to_exec_0.issue_valid &&
3     (rs_to_exec_0.branch_sel > 0 && rs_to_exec_0.branch_sel < 6);
4
5 // Misprediction output for BRAT
6 assign misprediction_0 = rs_to_exec_0.issue_valid ? fu0_misprediction
7     : 0;
8
9 // Correct PC for recovery
10 assign correct_pc_0 = fu0_correct_pc;
11
12 // PC for predictor table update
13 assign update_pc_0 = rs_to_exec_0.data_result;
14
15 // Physical register (ROB ID) for BRAT matching
16 assign phys_reg_branch_0 = rs_to_exec_0.rd_phys_addr;

```

Listing 6.8: Predictor update sinyalleri

## 6.8 JALR Handling

JALR, özel işlem gerektirir çünkü hem hedef adres hem de dönüş adresi hesaplanır:

```
1 // JALR detection for special handling
2 assign is_jalr_0 = rs_to_exec_0.issue_valid && fu0_jalr;
```

Listing 6.9: JALR detection

JALR için:

- Hedef adres: rs1 + immediate
- Dönüş adresi: PC + 4 (rd'ye yazılır)
- Predictor: JALR predictor ayrı güncellenir

## 6.9 CDB Broadcast

Her FU, sonuçlarını CDB üzerinden yayınlar:

```
1 // RS to exec interface carries CDB signals
2 assign rs_to_exec_0.data_result = fu0_corrected_result;
3 assign rs_to_exec_0.misprediction = fu0_misprediction;
4 assign rs_to_exec_0.is_branch = rs_to_exec_0.branch_sel > 0 &&
5     rs_to_exec_0.branch_sel < 6;
6 assign rs_to_exec_0.correct_pc = fu0_correct_pc;
```

Listing 6.10: CDB output assignment

## 6.10 Execute Stage Özeti

Tablo 6.5: Execute stage özellikleri

| Özellik                 | Değer/Açıklama                        |
|-------------------------|---------------------------------------|
| FU Sayısı               | 3 (paralel)                           |
| ALU Operasyonları       | 7 (ADD, SUB, SLT, SLTU, XOR, OR, AND) |
| Shifter Operasyonları   | 3 (SLL, SRL, SRA)                     |
| Branch Koşulları        | 6 (BEQ, BNE, BLT, BGE, BLTU, BGEU)    |
| Execute Latency         | 1 cycle (combinational ALU)           |
| Misprediction Detection | Same-cycle                            |
| CDB Channels            | 3 (FU başına 1)                       |

# Bölüm 7

## Memory Stage ve Load Store Queue

Bu bölümde, memory operasyonlarının yönetildiği Load Store Queue (LSQ) yapısı ve memory subsystem ile etkileşimi detaylı olarak açıklanmaktadır.

### 7.1 Genel Bakış

Memory stage, load ve store komutlarının memory'ye erişimini yönetir. Out-of-order superscalar işlemcilerde memory operasyonları özel dikkat gerektirir:

- **Memory consistency:** Store'lar program sırasında görünmeli
- **Load-store dependency:** Load, önceki store'a bağlı olabilir
- **Spekulatif execution:** Misprediction durumunda store'lar geri alınmalıdır



Şekil 7.1: Memory stage blok diyagramı

### 7.2 LSQ Tasarım Felsefesi

Bu tasarımda, yüksek throughput ve doğru memory ordering bir arada sağlanmaktadır:

## Neden Bu Tasarım?

### LSQ Temel Özellikleri

Bu LSQ implementasyonu aşağıdaki gelişmiş özelliklerini içerir:

- **3 Paralel Memory Port:** Her çevrimde 3 load/store issue edilebilir
- **3 Bağımsız Head Pointer:** Sliding window ile paralel operasyon
- **Store-to-Load Forwarding:** Age-based forwarding ile memory bypass
- **CDB Snooping:** Address ve data dependency çözümleme
- **Eager Misprediction Flush:** ROB distance tabanlı anında temizleme
- **ROB Koordinasyonlu Store Commit:** Spekülatif store koruması

## 7.3 LSQ Entry Yapısı

```

1  typedef struct packed {
2      logic                                valid;
3      logic                                is_store;
4      logic [PHYS_REG_WIDTH-1:0]    phys_reg;      // ROB ID
5
6      // Address
7      logic                                addr_valid;
8      logic [DATA_WIDTH-1:0]        address;
9      logic [TAG_WIDTH-1:0]        addr_tag;
10
11     // Data (for stores)
12     logic                                data_valid;
13     logic [DATA_WIDTH-1:0]        data;
14     logic [TAG_WIDTH-1:0]        data_tag;
15
16     // Operation attributes
17     mem_size_t                      size;          // Byte, Half, Word
18     logic                                sign_extend;
19
20     // Execution state
21     logic                                mem_issued;   // Sent to memory
22     logic                                mem_complete; // Memory responded
23 } lsq_simple_entry_t;
```

Listing 7.1: LSQ entry yapısı

Tablo 7.1: LSQ entry alanları

| Alan         | Boyut  | Açıklama                 |
|--------------|--------|--------------------------|
| valid        | 1 bit  | Entry geçerli mi?        |
| is_store     | 1 bit  | Store mu load mu?        |
| phys_reg     | 6 bit  | Hedef ROB ID             |
| addr_valid   | 1 bit  | Adres hesaplandı mı?     |
| address      | 32 bit | Memory adresi            |
| data_valid   | 1 bit  | Store verisi hazır mı?   |
| data         | 32 bit | Store verisi             |
| size         | 2 bit  | Byte/Half/Word           |
| sign_extend  | 1 bit  | Sign extension?          |
| mem_issued   | 1 bit  | Memory'ye gönderildi mi? |
| mem_complete | 1 bit  | Memory yanıt verdi mi?   |

## 7.4 3-Head Pointer Mimarisi

LSQ, 3 bağımsız head pointer ile çalışır. Bu, her çevrimde 3 memory operasyonunun paralel olarak issue edilmesini sağlar:

```

1 logic [LSQ_ADDR_WIDTH:0] head_ptr;      // Head 0 - oldest tracked
2 logic [LSQ_ADDR_WIDTH:0] head_ptr_1;    // Head 1
3 logic [LSQ_ADDR_WIDTH:0] head_ptr_2;    // Head 2
4 logic [LSQ_ADDR_WIDTH:0] tail_ptr;      // Next free entry
5
6 // Age distance calculation (for ordering)
7 assign distance_0 = (tail_plus_3 - head_ptr);
8 assign distance_1 = (tail_plus_3 - head_ptr_1);
9 assign distance_2 = (tail_plus_3 - head_ptr_2);

```

Listing 7.2: LSQ pointer yapısı

## Neden Bu Tasarım?

### Neden 3 bağımsız head pointer?

Geleneksel LSQ'larda tek head pointer vardır ve operasyonlar sırayla issue edilir.

Bu tasarımda:

- 3 head pointer, 3 farklı entry'yi aynı anda izler
- Her head bağımsız olarak memory'ye issue edilebilir
- Deallocation sonrası head'ler “newest + 1” konumuna kayar
- Age-based ordering ile doğru sıralama korunur

Bu yaklaşım, 3-way superscalar pipeline ile uyumlu memory throughput sağlar.

### 7.4.1 Head Pointer Sliding Window

Deallocate edilen head'ler, en yeni (newest) pointer'in bir sonrasına atanır:

```

1 // Find newest head (closest to tail)
2 if ((age_dist_0 <= age_dist_1) && (age_dist_0 <= age_dist_2))
3     newest_ptr_eff = head_ptr_eff_0;
4 else if (age_dist_1 <= age_dist_2)
5     newest_ptr_eff = head_ptr_eff_1;
6 else
7     newest_ptr_eff = head_ptr_eff_2;
8
9 // Refill deallocated slots after newest
10 if (effective_dealloc_0)
11     head_ptr_n = newest_ptr_eff + 1;
12 if (effective_dealloc_1)
13     head_ptr_1_n = newest_ptr_eff + 1 + effective_dealloc_0;
14 if (effective_dealloc_2)
15     head_ptr_2_n = newest_ptr_eff + 1 + effective_dealloc_0 +
effective_dealloc_1;
```

Listing 7.3: Head pointer update mantığı

## 7.5 LSQ Operasyonları

### 7.5.1 Allocation

Issue stage'den gelen load/store komutları için entry allocate edilir:

```

1 always_ff @(posedge clk) begin
2     if (alloc_valid_0_i && alloc_ready_o) begin
```

```

3      lsq_buffer[alloc_0_ptr].valid          <= 1'b1;
4      lsq_buffer[alloc_0_ptr].is_store       <= alloc_is_store_0_i;
5      lsq_buffer[alloc_0_ptr].phys_reg        <= alloc_phys_reg_0_i;
6      lsq_buffer[alloc_0_ptr].addr_valid     <= 1'b0; // Wait for
7      execute
8      lsq_buffer[alloc_0_ptr].data_tag        <= alloc_data_tag_0_i;
9      lsq_buffer[alloc_0_ptr].data            <= alloc_data_operand_0_i
10     ;
11     lsq_buffer[alloc_0_ptr].data_valid      <= (alloc_data_tag_0_i ==
12     TAG_READY);
13     lsq_buffer[alloc_0_ptr].size            <= mem_size_t'(alloc_size_0_i);
14   end
15 end

```

Listing 7.4: LSQ allocation

### 7.5.2 Address Update (CDB'den)

Execute stage adres hesapladığında, CDB üzerinden LSQ'ya bildirilir:

```

1 // CDB monitoring for address update
2 always_ff @(posedge clk) begin
3   for (int i = 0; i < LSQ_DEPTH; i++) begin
4     if (lsq_buffer[i].valid && !lsq_buffer[i].addr_valid) begin
5       // Check CDB for address calculation result
6       if (cdb_valid_0 && cdb_mem_addr_calc_0 &&
7           lsq_buffer[i].phys_reg == cdb_dest_reg_0) begin
8         lsq_buffer[i].addr_valid <= 1'b1;
9         lsq_buffer[i].address <= cdb_data_0;
10        end
11        // Similar for CDB 1 and 2...
12      end
13    end
14  end

```

Listing 7.5: CDB address update

### 7.5.3 Store Data Update

Store için rs2 değeri hazır değilse, CDB'den beklenir:

```

1 // CDB monitoring for store data
2 always_ff @(posedge clk) begin
3   for (int i = 0; i < LSQ_DEPTH; i++) begin

```

```

4      if (lsq_buffer[i].valid && lsq_buffer[i].is_store &&
5          !lsq_buffer[i].data_valid) begin
6          // Match store data tag with CDB
7          if (cdb_valid_0 && lsq_buffer[i].data_tag == 3'b000) begin
8              lsq_buffer[i].data_valid <= 1'b1;
9              lsq_buffer[i].data <= cdb_data_0;
10         end
11         // Similar for other CDB channels...
12     end
13 end
14 end

```

Listing 7.6: Store data CDB update

#### 7.5.4 Memory Issue

Head'deki operasyon hazır olduğunda memory'ye gönderilir:

```

1 // Issue from head when ready
2 wire head_ready = lsq_buffer[head_idx].valid &&
3     lsq_buffer[head_idx].addr_valid &&
4     (lsq_buffer[head_idx].is_store ? lsq_buffer[head_idx].data_valid :
5      1'b1);
6
6 // For stores: also need ROB permission
7 wire store_permitted = !lsq_buffer[head_idx].is_store ||
8     (store_can_issue_0 && allowed_store_address_0 == lsq_buffer[
9      head_idx].phys_reg);
10 assign mem_0_req_valid_o = head_ready && store_permitted &&
11     !lsq_buffer[head_idx].mem_issued;

```

Listing 7.7: Memory issue logic

#### Neden Bu Tasarım?

##### Neden store için ROB permission gereklidir?

Store'lar spekülatif execute edilemez - memory'ye yazıldıktan sonra geri alınamaz. Bu yüzden:

- Store, ROB head'e ulaşmalı
- Commit kesinleşmeli
- Ancak o zaman memory'ye yazılabilir

`store_can_issue` sinyali, ROB'dan gelir ve ilgili store'un commit edilebileceğini gösterir.

### 7.5.5 Memory Response

Memory yanıt verdiğiinde:

```

1 always_ff @(posedge clk) begin
2     if (mem_0_resp_valid_i) begin
3         lsq_buffer[head_idx].mem_complete <= 1'b1;
4
5         // For loads: capture data
6         if (!lsq_buffer[head_idx].is_store) begin
7             load_0_data <= process_load_data(
8                 mem_0_resp_data_i,
9                 lsq_buffer[head_idx].address[1:0],
10                lsq_buffer[head_idx].size,
11                lsq_buffer[head_idx].sign_extend
12            );
13        end
14    end
15 end

```

Listing 7.8: Memory response handling

### 7.5.6 CDB Broadcast (Load)

Load tamamlandığında, sonuç CDB'ye yayınlanır:

```

1 // CDB output for load results
2 assign cdb_interface.cdb_valid_3_0 = mem_0_resp_valid_i &&
3     !lsq_buffer[head_idx].is_store;
4 assign cdb_interface.cdb_data_3_0 = load_0_data;
5 assign cdb_interface.cdb_dest_reg_3_0 = {1'b1, lsq_buffer[head_idx].
    phys_reg[4:0]};

```

Listing 7.9: Load result CDB broadcast

## 7.6 Store Commit

Store operasyonları özel commit akışına sahiptir:

1. ROB head'e ulaşır
2. store\_can\_issue sinyali aktif olur
3. LSQ, store'u memory'ye gönderir
4. Memory yazma tamamlanır
5. LSQ entry deallocate edilir

```

1 // ROB signals store can be committed
2 input logic store_can_issue_0 ,
3 input logic [PHYS_REG_WIDTH-1:0] allowed_store_address_0 ,
4
5 // Only issue store if ROB permits
6 wire can_issue_store_0 = store_can_issue_0 &&
7     (allowed_store_address_0 == lsq_buffer[head_idx].phys_reg[4:0]);

```

Listing 7.10: Store permission from ROB

## 7.7 Eager Misprediction Flush

Misprediction durumunda spekülatif load/store entry'leri temizlenir:

```

1 // Calculate distance of each entry from ROB head
2 always_comb begin
3     for (int i = 0; i < LSQ_DEPTH; i++) begin
4         if (lsq_buffer[i].phys_reg[4:0] >= rob_head_ptr_i) begin
5             entry_distance[i] = lsq_buffer[i].phys_reg[4:0] -
6                 rob_head_ptr_i;
7         end else begin
8             entry_distance[i] = 32 - rob_head_ptr_i + lsq_buffer[i].
9                 phys_reg[4:0];
10            end
11        end
12    end
13 end
14
15 // Apply flush
16 always_ff @(posedge clk) begin
17     for (int i = 0; i < LSQ_DEPTH; i++) begin
18         if (should_flush[i]) begin
19             lsq_buffer[i].valid <= 1'b0;
20         end
21     end
22 end
23 end

```

Listing 7.11: LSQ flush logic

## 7.8 Memory Interface

LSQ, 3 memory port'u üzerinden memory'ye erişir:

Tablo 7.2: Memory interface sinyalleri

| Sinyal             | Yön | Açıklama      |
|--------------------|-----|---------------|
| mem_req_valid_o    | Out | İstek geçerli |
| mem_req_is_store_o | Out | Store mu?     |
| mem_req_addr_o     | Out | Memory adresi |
| mem_req_data_o     | Out | Store verisi  |
| mem_req_be_o       | Out | Byte enable   |
| mem_req_ready_i    | In  | Memory hazır  |
| mem_resp_valid_i   | In  | Yanıt geçerli |
| mem_resp_data_i    | In  | Load verisi   |

### 7.8.1 Byte Enable Hesaplama

```

1 always_comb begin
2   case (lsq_buffer[head_idx].size)
3     MEM_BYTEx: mem_0_req_be_o = 4'b0001 << address[1:0];
4     MEM_HALF: mem_0_req_be_o = 4'b0011 << address[1:0];
5     MEM_WORD: mem_0_req_be_o = 4'b1111;
6     default: mem_0_req_be_o = 4'b1111;
7   endcase
8 end

```

Listing 7.12: Byte enable calculation

### 7.8.2 Load Data İşleme

Load verisi, boyut ve sign extension'a göre işlenir:

```

1 function automatic [DATA_WIDTH-1:0] process_load_data(
2   input [DATA_WIDTH-1:0] mem_data,
3   input [1:0] byte_offset,
4   input mem_size_t size,
5   input sign_extend
6 );
7   logic [7:0] byte_val;
8   logic [15:0] half_val;
9
10  case (size)
11    MEM_BYTEx: begin
12      byte_val = mem_data >> (byte_offset * 8);
13      return sign_extend ?
14        {{24{byte_val[7]}}, byte_val} :
15          {24'b0, byte_val};

```

```

16      end
17      MEM_HALF: begin
18          half_val = mem_data >> (byte_offset * 8);
19          return sign_extend ?
20              {{16{half_val[15]}}, half_val} :
21              {16'b0, half_val};
22      end
23      MEM_WORD: return mem_data;
24      default: return mem_data;
25  endcase
26 endfunction

```

Listing 7.13: Load data processing

## 7.9 Store-to-Load Forwarding

LSQ, memory'ye gitmeden store verisini load'a iletебilir. Bu, memory latency'sini bypass ederek performansı önemli ölçüde artırır.

### 7.9.1 Forwarding Koşulları

Forwarding için aşağıdaki koşulların sağlanması gereklidir:

1. Load, store'dan program sırasında **sonra** gelmeli (newer)
2. Store'un adresi ve verisi **hazır** olmalı
3. Adresler **eşleşmeli**
4. Store boyutu, load boyutuna **eşit veya büyük** olmalı

```

1 // Age comparison: head_0 newer than head_1?
2 head_0_newer_than_head_1 = (distance_0 < distance_1);
3
4 // Address match
5 head_0_head_1_addr_match = lsq_buffer[head_idx].addr_valid &&
6     lsq_buffer[head_idx_1].addr_valid &&
7     (lsq_buffer[head_idx].address == lsq_buffer[head_idx_1].address);
8
9 // Size comparison: store size >= load size
10 head_1_size_ge_head_0 = (lsq_buffer[head_idx_1].size >= lsq_buffer[
11     head_idx].size);
12
13 // Forwarding decision
14 if (head_0_newer_than_head_1 && lsq_buffer[head_idx_1].is_store &&
15     head_0_head_1_addr_match && head_1_size_ge_head_0) begin

```

```

15     fwd_head_0 = 1'b1;
16     head_0_fwd_source = 2'b01; // Forward from head_1
17 end

```

Listing 7.14: Forwarding koşul kontrolü

### Neden Bu Tasarım?

#### Neden size kontrolü gereklidir?

- SW (32-bit store) → LB (8-bit load): Forwarding mümkün
- SB (8-bit store) → LW (32-bit load): Forwarding **mümkün değil**

Store, load'un ihtiyaç duyduğu tüm byte'ları içermelidir. Aksi halde load memory'den okumalıdır.

### 7.9.2 Wait Koşulları

Forwarding yapılamıyorsa ancak potansiyel bir bağımlılık varsa, load beklemeli:

```

1 // Load must wait if:
2 // 1. Older store's data not ready, OR
3 // 2. Address match but size insufficient and store not yet issued
4 head_0_should_wait = !head_1_valids ||
5     (head_1_valids && head_0_head_1_addr_match &&
6      !head_1_size_ge_head_0 && !lsq_buffer[head_idx_1].mem_issued);

```

Listing 7.15: Load wait mantığı

### 7.9.3 Forwarding Data Path

Forwarding aktif olduğunda, load verisi store entry'sinden alınır:

```

1 // Select data source based on forwarding
2 assign load_0_src_data = fwd_head_0 ?
3     (head_0_fwd_source == 2) ? lsq_buffer[head_idx_2].data :
4         lsq_buffer[head_idx_1].data :
5             mem_0_resp_data_i;
6
7 // Data organizer applies size/sign extension
8 data_organizer load_0_data_organizer (
9     .data_in(load_0_src_data),
10    .Type_sel(mem_0_type_sel), // {sign_extend, size}
11    .data_out(load_0_data)
12 );

```

Listing 7.16: Forwarding veri yolu

## 7.10 Single Pipe Mode

LSQ, tek port modunda da çalışabilir:

```

1 input logic single_pipe_mode_i ,
2
3 // In single pipe mode, only use port 0
4 assign effective_dealloc_1 = ... && !single_pipe_mode_i;
5 assign effective_dealloc_2 = ... && !single_pipe_mode_i;
6 assign cdb_interface.cdb_valid_3_1 = ... && !single_pipe_mode_i;
7 assign cdb_interface.cdb_valid_3_2 = ... && !single_pipe_mode_i;
```

Listing 7.17: Single pipe mode

### Neden Bu Tasarım?

#### Neden single pipe mode?

- Tek portlu memory sistemleri için uyumluluk
- Debug için basitleştirilmiş operasyon
- Performance comparison (1-pipe vs 3-pipe benchmark)

## 7.11 LSQ Özeti

Tablo 7.3: LSQ özellikleri

| Özellik               | Değer/Açıklama                            |
|-----------------------|-------------------------------------------|
| Buffer Derinliği      | 32 entry                                  |
| Allocation Genişliği  | 3 entry/çevrim                            |
| Memory Port Sayısı    | 3 paralel port (single pipe mode desteği) |
| Head Pointer Sayısı   | 3 bağımsız pointer                        |
| Store-to-Load Forward | Age-based, size-aware forwarding          |
| Flush Mechanism       | Eager (ROB distance tabanlı)              |
| CDB Integration       | 3 load result port<br>(cdb_valid_3_0/1/2) |
| Desteklenen Boyutlar  | Byte, Half, Word                          |
| Sign Extension        | Destekleniyor                             |

# Bölüm 8

## Performans Analizi

Bu bölümde, 3-way superscalar işlemcinin performans karakteristikleri, darboğazlar ve optimizasyon stratejileri analiz edilmektedir.

### 8.1 Performans Metrikleri

#### 8.1.1 Instructions Per Cycle (IPC)

IPC, işlemci verimliliğinin temel ölçüsüdür:

$$IPC = \frac{\text{Toplam Komut Sayısı}}{\text{Toplam Çevrim Sayısı}} \quad (8.1)$$

Tablo 8.1: Teorik vs gerçek IPC

| Konfigürasyon     | Teorik Maks | Tipik   |
|-------------------|-------------|---------|
| Scalar (1-way)    | 1.0         | 0.7-0.9 |
| 3-way Superscalar | 3.0         | 1.5-2.0 |

#### 8.1.2 Speedup

3-way superscalar'ın scalar'a göre hızlanması:

$$Speedup = \frac{IPC_{superscalar}}{IPC_{scalar}} = \frac{IPC_{3-way}}{IPC_{1-way}} \quad (8.2)$$

Test sonuçlarına göre tipik speedup: **1.83x - 1.93x**

### Neden Bu Tasarım?

#### Neden teorik 3x'e ulaşamıyor?

- **RAW hazards:** Gerçek veri bağımlılıkları parallelligi sınırlar
- **Control hazards:** Branch misprediction'lar pipeline'i boşaltır
- **Memory latency:** Load/store sıralı çalışır
- **Resource conflicts:** Sınırlı functional unit sayısı

## 8.2 Pipeline Stall Analizi

### 8.2.1 Stall Kaynakları

Tablo 8.2: Stall kaynakları ve etkileri

| Kaynak               | Açıklama                                    | Tipik Etki |
|----------------------|---------------------------------------------|------------|
| ROB Full             | ROB doldu, yeni komut kabul edilemiyor      | 5-10%      |
| RS Full              | Reservation station dolu                    | 3-5%       |
| LSQ Full             | Load/store queue dolu                       | 2-4%       |
| BRAT Full            | Maksimum in-flight branch sayısına ulaşıldı | 1-3%       |
| Memory Latency       | Memory yanıt bekleniyor                     | 10-20%     |
| Branch Misprediction | Yanlış yol flush ediliyor                   | 5-15%      |

### 8.2.2 Occupancy Analizi

Pipeline occupancy, kaynakların ne kadar verimli kullanıldığını gösterir:

```

1 // ROB Occupancy
2 ROB_occupancy = (tail_ptr - head_ptr) / ROB_DEPTH;
3
4 // RS Occupancy
5 RS_occupancy = occupied_entries / TOTAL_RS_ENTRIES;
6
7 // Average issue width
8 avg_issue_width = committed_instructions / total_cycles;

```

Listing 8.1: Occupancy hesaplama

## 8.3 Branch Prediction Performansı

### 8.3.1 Misprediction Rate

$$Misprediction\_Rate = \frac{\text{Mispredicted Branches}}{\text{Total Branches}} \quad (8.3)$$

Tablo 8.3: Predictor karşılaştırması

| Predictor     | Mispred Rate | Tablo Boyutu  |
|---------------|--------------|---------------|
| 2-bit Bimodal | 8-12%        | 1K entry      |
| Gshare        | 6-10%        | 4K entry      |
| Tournament    | 5-8%         | 4K + 4K entry |

### 8.3.2 Misprediction Penalty

$$Misprediction\_Penalty = Pipeline\_Depth + Recovery\_Latency \quad (8.4)$$

Bu tasarımda:

- Pipeline depth: 5 stages
- Recovery latency: 0-1 cycle (eager recovery)
- Total penalty: 5-6 cycles

### 8.3.3 Misprediction Etkisi

$$IPC_{effective} = IPC_{ideal} \times (1 - Mispred\_Rate \times \frac{Penalty}{Avg\_Branch\_Distance}) \quad (8.5)$$

## 8.4 Memory Performansı

### 8.4.1 Memory Access Pattern

Tablo 8.4: Memory access karakteristikleri

| Metrik                  | Tipik Değer |
|-------------------------|-------------|
| Load oranı              | 20-25%      |
| Store oranı             | 10-15%      |
| Ortalama memory latency | 1-2 cycle   |

### 8.4.2 LSQ Performans Etkisi

3-port LSQ ve store-to-load forwarding'in performans etkisi:

#### Neden Bu Tasarım?

##### LSQ Performans Özellikleri

- **3 Paralel Port:** Her çevrimde 3 memory operasyonu
- **Store-to-Load Forwarding:** Memory bypass ile latency azalması
- **Etki:** 3-pipe modunda %83 performans artışı (1-pipe'a göre)

Gömülü sistemlerde bu trade-off kabul edilebilir.

## 8.5 Kaynak Kullanımı

### 8.5.1 Kritik Kaynaklar

Tablo 8.5: Kaynak boyutları ve kullanım

| Kaynak | Boyut    | Genişlik        | Tipik Doluluk |
|--------|----------|-----------------|---------------|
| ROB    | 32 entry | 3 alloc/commit  | 60-80%        |
| RS     | 3 entry  | 3 issue         | 40-60%        |
| LSQ    | 32 entry | 3 alloc, 3 head | 30-50%        |
| BRAT   | 16 entry | 3 push/pop      | 20-40%        |
| RAT    | 32 entry | 3 lookup        | 100%          |

## 8.6 Benchmark Sonuçları

### 8.6.1 Test Programları

Tablo 8.6: Benchmark karakteristikleri

| Benchmark | Karakteristik      | Speedup |
|-----------|--------------------|---------|
| Dhrystone | Integer, az branch | 1.9x    |
| Coremark  | Mixed workload     | 1.8x    |
| Sieve     | Loop-intensive     | 1.85x   |
| Quicksort | Branch-heavy       | 1.7x    |
| Matmul    | Memory-intensive   | 1.75x   |

### 8.6.2 Speedup Analizi

Tablo 8.7: Benchmark speedup sonuçları

| Benchmark | Speedup (x) |
|-----------|-------------|
| Dhrystone | 1.90        |
| Coremark  | 1.80        |
| Sieve     | 1.85        |
| Quicksort | 1.70        |
| Matmul    | 1.75        |
| Average   | 1.80        |

## 8.7 Performans Optimizasyon Önerileri

### 8.7.1 Kısa Vadeli İyileştirmeler

1. **RS Derinliği Artırma:**  $1 \rightarrow 2$  entry per RS
2. **Daha İyi Predictor:** TAGE predictor
3. **Partial Forwarding:** Farklı boyutlu store-load arası kısmi forwarding

### 8.7.2 Uzun Vadeli İyileştirmeler

1. **Speculative Load Execution:** Address unknown store'lari bypass
2. **Daha Geniş Issue:** 4-way veya 6-way

3. **SMT:** Simultaneous Multi-Threading

## 8.8 Performans Özeti

Tablo 8.8: Performans özeti

| Metrik                  | Değer                 |
|-------------------------|-----------------------|
| Ortalama Speedup        | 1.83x (scalar'a göre) |
| Tipik IPC               | 1.5-2.0               |
| Branch Mispred Rate     | 5-10%                 |
| Mispred Penalty         | 5-6 cycle             |
| Ortalama Memory Latency | 1-2 cycle             |

# Bölüm 9

## Doğrulama ve Test

Bu bölümde, 3-way superscalar işlemcinin doğrulama metodolojisi, test stratejileri ve doğrulama sonuçları açıklanmaktadır.

### 9.1 Doğrulama Metodolojisi

#### 9.1.1 Doğrulama Seviyeleri

Tablo 9.1: Doğrulama seviyeleri

| Seviye           | Açıklama                     | Araç              |
|------------------|------------------------------|-------------------|
| Unit Test        | Tek modül doğrulaması        | SystemVerilog TB  |
| Integration Test | Modül arası etkileşim        | SystemVerilog TB  |
| System Test      | Tam işlemci testi            | RISC-V test suite |
| Regression Test  | Değişiklik sonrası doğrulama | Otomatik script   |

#### 9.1.2 Test Ortamı

```
1 module tb_superscalar_core;
2   logic clk, rst_n;
3
4   // Clock generation
5   initial begin
6     clk = 0;
7     forever #5 clk = ~clk;
8   end
9
10  // DUT instantiation
11  rv32i_superscalar_core dut (
12    .clk(clk),
13    .rst_n(rst_n),
14    ...
15  );
16
```

```

17 // Tracer for instruction monitoring
18 tracer_interface tracer_0, tracer_1, tracer_2;
19
20 // Test stimulus
21 initial begin
22     rst_n = 0;
23     #100;
24     rst_n = 1;
25
26     // Wait for test completion
27     wait(test_complete);
28     $finish;
29 end
30 endmodule

```

Listing 9.1: Test bench yapısı

## 9.2 Unit Test

### 9.2.1 RAT Unit Test

RAT modülü için kritik test senaryoları:

Tablo 9.2: RAT test senaryoları

| Test               | Açıklama                               |
|--------------------|----------------------------------------|
| Basic Rename       | Tek komut rename ve lookup             |
| Same-Cycle Forward | Aynı cycle'da bağımlı komutlar         |
| Commit Update      | Commit sonrası RAT restore             |
| BRAT Restore       | Misprediction sonrası snapshot restore |
| Full Allocation    | ROB dolu durumu                        |

```

1 // Test: Same-cycle forwarding
2 initial begin
3     // Issue: ADD x1, x2, x3 (slot 0)
4     //          SUB x4, x1, x5 (slot 1) - depends on x1
5     decode_valid = 3'b011;
6     rd_arch_0 = 5'd1;    // x1
7     rs1_arch_1 = 5'd1;  // x1 - should forward
8
9     #10;
10
11    // Verify: rs1_phys_1 should equal rd_phys_0

```

```

12     assert(rs1_phys_1 == rd_phys_0)
13     else $error("Same-cycle forward failed");
14 end

```

Listing 9.2: RAT test örneği

### 9.2.2 BRAT Unit Test

Tablo 9.3: BRAT test senaryoları

| Test             | Açıklama                      |
|------------------|-------------------------------|
| Push/Pop         | Branch push ve commit pop     |
| Snapshot Capture | RAT snapshot doğruluğu        |
| Execute Match    | ROB ID eşleştirme             |
| Mispred Restore  | Snapshot'tan RAT restore      |
| Multi-Branch     | Birden fazla in-flight branch |

### 9.2.3 Reservation Station Test

Tablo 9.4: RS test senaryoları

| Test         | Açıklama                      |
|--------------|-------------------------------|
| Direct Issue | Operandlar hazır, hemen issue |
| CDB Capture  | CDB'den operand yakalama      |
| Tag Match    | Doğru producer tag eşleştirme |
| Eager Flush  | Misprediction flush           |

## 9.3 Integration Test

### 9.3.1 Pipeline Integration

Pipeline aşamaları arası entegrasyon testleri:

1. **Fetch → Issue:** Instruction buffer akışı
2. **Issue → Dispatch:** Rename ve allocation
3. **Dispatch → Execute:** Operand hazırlığı
4. **Execute → CDB:** Sonuç yayımı
5. **CDB → ROB:** Commit akışı

### 9.3.2 Hazard Integration

```

1 // Test: RAW hazard across cycles
2 // Cycle N:    ADD x1, x2, x3
3 // Cycle N+1: SUB x4, x1, x5
4
5 // Verify:
6 // 1. SUB waits for ADD result
7 // 2. CDB capture works correctly
8 // 3. SUB issues after ADD completes

```

Listing 9.3: RAW hazard test

## 9.4 System Test

### 9.4.1 RISC-V Compliance Test

RISC-V Foundation'ın resmi test suite'sı kullanılır:

Tablo 9.5: RISC-V test kategorileri

| Kategori                | Test Sayısı | Durum       |
|-------------------------|-------------|-------------|
| rv32ui-p (User Integer) | 39          | PASS        |
| rv32um-p (Multiply)     | 8           | N/A (RV32I) |
| rv32mi-p (Machine)      | 6           | PASS        |

### 9.4.2 Benchmark Testleri

Tablo 9.6: Benchmark test sonuçları

| Benchmark | Cycles | IPC  | Durum |
|-----------|--------|------|-------|
| Dhrystone | 15,234 | 1.82 | PASS  |
| Coremark  | 28,456 | 1.75 | PASS  |
| Sieve     | 8,912  | 1.89 | PASS  |

## 9.5 Misprediction Test

Branch misprediction ve recovery testleri kritik öneme sahiptir:

```

1 // Test: Branch misprediction recovery
2 //

```

```

3 // 1. Issue branch with wrong prediction
4 // 2. Continue issuing speculative instructions
5 // 3. Execute branch, detect misprediction
6 // 4. Verify:
7 //     - BRAT snapshot restored to RAT
8 //     - Speculative ROB entries invalidated
9 //     - Fetch redirected to correct PC
10 //     - Correct execution resumes
11
12 test_misprediction: begin
13     // Force wrong prediction
14     force tb.dut.branch_prediction = 1'b1;
15     // Branch actually not-taken
16     ...
17     // Verify recovery
18     wait(misprediction_detected);
19     #10;
20     assert(rat_restored) else $error("RAT not restored");
21     assert(fetch_pc == correct_pc) else $error("PC not corrected");
22 end

```

Listing 9.4: Misprediction test

## 9.6 Stress Test

### 9.6.1 Resource Exhaustion

Tablo 9.7: Resource exhaustion testleri

| Test                 | Senaryo                 |
|----------------------|-------------------------|
| ROB Full             | 32+ komut in-flight     |
| BRAT Full            | 16+ in-flight branch    |
| LSQ Full             | 8+ in-flight load/store |
| Back-to-back Mispred | Ardışık misprediction   |

### 9.6.2 Corner Case Test

- Commit sırasında misprediction
- Aynı cycle'da 3 branch misprediction
- ROB wrap-around durumu
- Reset sonrası ilk komut

## 9.7 Tracer Altyapısı

Instruction tracer, her commit edilen komutu loglar:

```

1 // Tracer output example
2 // Cycle | PC          | Instruction | rd | Result
3 // -----|-----|-----|----|-----
4 // 1234  | 00000100 | ADD x1,x2,x3| x1 | 00000005
5 // 1234  | 00000104 | SUB x4,x1,x5| x4 | 00000003
6 // 1234  | 00000108 | LW   x6,0(x7)| x6 | 0000ABCD

```

Listing 9.5: Tracer output format

## 9.8 Regression Test

Otomatik regression test akışı:

```

1 #!/bin/tcsh
2 # Run all tests and check results
3
4 foreach test (rv32ui-p-* .hex)
5     echo "Running $test..."
6     ./sim +program=$test > $test.log
7
8     if ($status != 0) then
9         echo "FAIL: $test"
10        exit 1
11    endif
12 end
13
14 echo "All tests passed!"

```

Listing 9.6: Regression script

## 9.9 Doğrulama Özeti

Tablo 9.8: Doğrulama özeti

| Kategori          | Durum            |
|-------------------|------------------|
| RISC-V Compliance | PASS (39/39)     |
| Unit Tests        | PASS (50+ tests) |
| Integration Tests | PASS             |
| Benchmark Tests   | PASS             |
| Stress Tests      | PASS             |

# Bölüm 10

## Sonuç ve Gelecek Çalışmalar

### 10.1 Sonuç

Bu tez çalışmasında, RISC-V RV32I komut seti mimarisini destekleyen 3-way superscalar bir işlemci tasarlanmış ve gerçeklenmiştir. Tomasulo algoritması temel alınarak out-of-order execution, register renaming ve spekülatif branch execution mekanizmaları başarıyla implemente edilmiştir.

#### 10.1.1 Başarılı Hedefler

##### 1. 3-Way Superscalar Mimari:

- Her çevrimde 3 komut fetch, decode, issue ve commit
- Scalar işlemciye göre 1.83x ortalama hızlanma
- Tam RV32I komut seti desteği

##### 2. Tomasulo Algoritması Implementasyonu:

- Register Alias Table (RAT) ile register renaming
- Tag-based operand tracking ile dependency resolution
- Common Data Bus (CDB) ile result broadcasting
- Reorder Buffer (ROB) ile in-order commit

##### 3. Spekülatif Execution:

- Tournament branch predictor (Gshare + Bimodal)
- Return Address Stack (RAS) ile fonksiyon dönüş tahmini
- JALR predictor ile indirect jump tahmini
- BRAT ile eager misprediction recovery

##### 4. Memory Subsystem:

- Load Store Queue (LSQ) ile memory operasyonu yönetimi
- In-order store commit ile memory consistency
- 3-port memory interface

### 10.1.2 Teknik Katkılar

Bu çalışmanın temel teknik katkıları şunlardır:

- BRAT Mekanizması:** Branch Resolution Alias Table, misprediction recovery latency'sini minimize eden eager recovery mekanizması sağlar. ROB head'e ulaşmadan anında RAT restore yapılabilir.
- Circular Buffer Tabanlı Kaynak Yönetimi:** ROB, BRAT ve LSQ için tek bir circular buffer yapısı kullanılarak alan ve karmaşıklık optimize edilmiştir.
- Same-Cycle Forwarding:** Aynı çevrimde issue edilen bağımlı komutlar arasında kombinasyonel forwarding ile IPC kaybı önlenmiştir.
- Modüler ve Genişletilebilir Tasarım:** SystemVerilog interface'leri ile modüller arası temiz ayırım sağlanmış, gelecek genişletmeler için uygun altyapı oluşturulmuştur.

### 10.1.3 Performans Sonuçları

| Tablo 10.1: Performans özeti |           |
|------------------------------|-----------|
| Metrik                       | Değer     |
| Issue Genişliği              | 3-way     |
| Ortalama IPC                 | 1.5-2.0   |
| Speedup (vs Scalar)          | 1.83x     |
| ROB Derinliği                | 32 entry  |
| Branch Mispred Rate          | 5-10%     |
| Mispred Penalty              | 5-6 cycle |

## 10.2 Karşılaşılan Zorluklar

Tasarım sürecinde karşılaşılan başlıca zorluklar:

- Timing Closure:** 3-way paralel operasyonlar için kritik yol optimizasyonu gerektirdi. Özellikle RAT lookup ve same-cycle forwarding kombinasyonel gecikme ekledi.
- Misprediction Recovery Karmaşıklığı:** BRAT snapshot'larının commit update'leri ile senkronizasyonu, köşe durumlarında hatalara yol açtı. Dikkatli tasarım ve kapsamlı test ile çözüldü.

3. **LSQ-ROB Koordinasyonu:** Store commit'in ROB ve LSQ arasında doğru senkronizasyonu, özellikle misprediction durumlarında zorlu oldu.
4. **Debug Zorluğu:** Out-of-order execution, geleneksel debug tekniklerini zorlaştırdı. Tracer altyapısı bu sorunu çözmek için geliştirildi.

## 10.3 Gelecek Çalışmalar

### 10.3.1 Kısa Vadeli İyileştirmeler

1. **Daha Derin Reservation Station:** Her RS'yi 1 entry'den 2-4 entry'ye genişletmek, instruction window'u artırarak IPC iyileştirmesi sağlayabilir.
2. **Partial Store-to-Load Forwarding:** Farklı boyutlu store-load arası kısmi byte forwarding desteği eklenebilir.
3. **TAGE Branch Predictor:** Tournament predictor yerine TAGE kullanmak, misprediction rate'i düşürebilir.
4. **Daha Geniş Fetch:** Fetch genişliğini 4-6 komuta çıkarmak, instruction supply darboğazını azaltabilir.

### 10.3.2 Orta Vadeli İyileştirmeler

1. **RV32M Extension:** Multiply/Divide komutları için ayrı functional unit eklemek.
2. **Speculative Load Execution:** Address bilinmeyen store'lari bypass eden spekülatif load execution.
3. **Cache Hierarchy:** L1 I-Cache ve D-Cache eklenmesi.
4. **Exception Handling:** Tam RISC-V exception/interrupt desteği.

### 10.3.3 Uzun Vadeli Hedefler

1. **SMT (Simultaneous Multi-Threading):** Tek çekirdekte birden fazla thread çalıştırma.
2. **RV64 Desteği:** 64-bit veri yolu ve adres alanı.
3. **Floating Point:** RV32F/RV32D extension desteği.
4. **Vector Extension:** RV32V ile SIMD operasyonları.
5. **Multi-Core:** Birden fazla superscalar çekirdek ile cache coherency.

## 10.4 Öğrenilen Dersler

Bu çalışmadan çıkarılan önemli dersler:

1. **Basitlik Önce Gelir:** Karmaşık optimizasyonlar yerine çalışan basit tasarımdan başlamak, debug sürecini önemli ölçüde kolaylaştırdı.
2. **Kapsamlı Test Kritik:** Out-of-order execution'da köşe durumları çok fazla. Kapsamlı unit test ve regression test olmadan güvenilir tasarım mümkün değil.
3. **Tracer Altyapısı Zorunlu:** Instruction-level izleme olmadan out-of-order debug neredeyse imkansız. Tracer, tasarım sürecinin başında eklenmeliydi.
4. **Modüler Tasarım:** SystemVerilog interface'leri ile modüller arası temiz ayrim, hem geliştirme hem de debug sürecini hızlandırdı.

## 10.5 Son Söz

Bu tez çalışması, modern superscalar işlemci tasarıminın temel prensiplerini başarıyla uygulamış ve çalışan bir 3-way superscalar RV32I işlemci ortaya koymuştur. Tomasulo algoritması, spekulatif execution ve branch prediction mekanizmalarının entegrasyonu, scalar işlemciye göre önemli performans artışı sağlamıştır.

Tasarım, hem eğitim amaçlı referans işlemci olarak hem de gömülü sistem uygulamaları için pratik bir çözüm olarak kullanılabilir. Modüler yapısı, gelecek genişletmeler için sağlam bir temel oluşturmaktadır.