

- FPGA Trends

△先進製程與規模：目前最先進技術採用 7nm FinFET + 製程每 300mm 晶圓 (ex. Xilinx Versal 平台)  
主要針對車輛中心的 FPGA 加速卡

△Virtex UltraScale + VU19P：採用 16nm 製程，擁有 350 億個電晶體，由 4 個晶片透過中介層 (Interposer) 連接，擁有約 900 萬個邏輯單元，是目前世界上最大的 FPGA

△成本效應：邏輯閘成本大幅下降：1990 年的 1 美元/gate 降至 2020 年的 0.01 美元/gate

△雲端應用：AWS 自 2018 年起採用 FPGA 實例，目前佔比已超過 50%

△異質硬體加速：整合了 ARM CPU 與高頻寬 ADC/DAC，適用於多種用途，如 ADAS 和 SDR

- FPGA 架構演進史

1. FPGA (Since 1980):

- 架構：主要由 Logic blocks 組成，含少量 Block RAM 和 PLL

- 特質：使用 HDL (Verilog / VHDL) 進行硬體加速，並行處理能力強，但編程靈活性低

2. SOPC FPGA (2004 - 2012):

- 架構：傳統 FPGA 配置 Soft Core (如 Nios, MicroBlaze)

- 特質：結合硬體加速與 C 語言編程，實現軟體協同設計，但速度受限於軟核 CPU 的效能

3. SOC FPGA (2012 - 2017):

- 架構：整合實體 32-bit CPU Core (ARM Cortex A9/A8) 與 FPGA 架構

- 特質：CPU 速度 (600 MHz - 1 GHz) 不再受 FPGA 邏輯速度限制，且高於 FPGA，Linux 嵌入式系統整合更容易

4. CloudFPGA (2019 - Today):

- 架構：針對伺服器市場的虛擬實例

- 特質：能源效率優於 CPU/GPU，支援使用 C/C++ or OpenCL 寫加速代碼 (如 Intel DevCloud)

5. MPSOC FPGA (2017 - Today):

- 架構：多核心 SoC FPGA，整合 64-bit ARM Cores, GPU 與即時處理器

- 特質：支持複雜處理，獨立的 RTPU 允許系統進入低功耗休眠模式

6. RF FPGA / RFSoC (2017 - Today)

- 架構：整合 RF-sampling 數據轉換器 (ADC / DAC) 的適應性平台

- 特質：取代外部轉換器，減少 50% 功耗並佔用空間，將大部分 RF 訊號處理移至收發領域

### • Multiple Core FPGA

核心概念：多核心處理器 + FPGA 用於 AI、機器學習、模式識別、ADAS 和 SDR

廠商對比：  
△ MPSoC = Xilinx + ARM vs Intel + Altera (Xeon Phi)

△ RFSoC = Xilinx + ARM + ADC vs Intel RF FPGA

雲端範例 (Data Center Acceleration) =

△ 應用於影像識別、鑑定加密、大數據壓縮

△ 透過整合 (CPU + FPGA)，可降低總體擁有成本 (TCO) 並提升 2 倍效能

### • Heterogeneous Computing FPGA

核心觀點：異質 SoC FPGA 潛力巨大，但要釋放其全部效能需要極其廣泛的專業知識

技能需求層級：

1. 基礎層：基頻邏輯設計、基板支援包設計

2. 軟體層：協定軟體設計、嵌入式軟體設計

3. 類比 / 射頻層：類比系統設計、射頻系統設計

4. 頂層：整合與最佳化 —— 這是最關鍵但也最具挑戰性的部分

### • 優化技術 - Optimization I: Loop Unrolling

利用迴圈迭代的平行性

運作方式：實例化更多硬體資源，讓多個計算同時執行，而非排隊執行

### • HLS 實戰結果 - QRD 實驗設計

開發時間：HLS 展現巨大優勢，從 12 週縮短到 1 週

效能：HLS 版本 (21ms) 優於手寫版本 (37ms)

資源消耗：HLS 在記憶體使用上顯著較少，暫存器與邏輯元的使用量也更低  
結論：使用 HLS 能節省大量工程時間，且不犧牲效能

### • HLS 實戰成果 - 霧氣移除系統 (DCP Fog)

不同配置 (Profiles)：比較 Profile 1 至 Profile 6 的效能差異

關鍵數據：介面寬度：從 64-bit 提升至 256-bit

FPS (幀率)：Profile 1 僅 10 FPS，優化後的 Profile 6 高達 529 FPS

代價：隨著效能提升，LUT 與 FF 的資源使用率也遞增

能效比：Profile 6 雖然功耗較高，但能效表現最佳

### • High-Level Synthesis, HLS (高階合成技術)

△ 定義：將高階語言 (C/C++ / System C) 編譯轉換為 RTL 电路

△ 優勢：降低硬體設計門檻

降低設計成本

△ 流程：輸入 C Code 及 Directives → Vivado HLS 進行控制與資料流萃取 → 輸出 Verilog / VHDL 實作

△ 靈活性：透過不同的 Directives，同一份程式碼可產生多種不同的硬體實作 (如面積最小化 or 速度最佳化)

## • PYNN Heterogeneous Hardware Acceleration

△名稱含義： Python + ZYNQ

△目標：利用 Python 的高生產力來開發 Zynq 嵌入式系統

△架構堆疊 (Stack)： 軟件層：使用 Jupyter Notebooks, Python 函式庫  
API 与驅動層：負責軟體與硬體溝通

硬體層 (Overlay)：FPGA 由 Bitstream，可視為可載入的硬體函式庫

△優點：讓不熟悉底层硬體描述語言的軟體工程師，也能輕鬆調用 FPGA 加速功能

## • Optimization I - Loop Unrolling

△利用空間換取時間來開發迴圈的平行性

△運作原理：預設 (Standard HLS) = 迴圈拆疊，硬體資源共用，依序執行。耗時 4 Cycles

展開 (Unrolling)：複制多份運算元，同時執行計算。耗時 1 Cycle

△程式碼：`for (i=3; i>=0; i--)` 通過展開指令，讓硬體一次做完 4 次加法

## • Optimization II - Array Partition

split arrays to improve memory bandwidth



Divided into blocks:  
 $N-1 / \text{factor elements}$



Divided into blocks:  
1 word at a time  
(like "dealing cards")



Individual elements:  
Break a RAM into  
registers (no "factor" supported)

## • Optimization III - Resources

△Allocation directive constrains resources

• Operations

Number of adders instantiated RTL

Can Save a lot of area

△Specify implementation

• Tag operator

• Select core for this Mult

`thisMult = b[i] * c[i];`

`a[i] = thisMult`

| Core  | Description            |
|-------|------------------------|
| Mul   | Combinational mult     |
| Mul3s | 3-Stage pipelined mult |
| MulnS | HLS determine stages   |

- Optimization IV: Loop Pipelining



- Optimization IV: Loop Pipelining

  - △ Iteration Interval (II)

    - Cycles loop must before next iteration

  - △ II = 1 cannot be implemented

    - Part cannot be read at the same time

    - Similar effect with other resource limitations

- Lightweight Dehazer Circuit System Design for Robot Vision

  - △ Naturally, fog causes degraded vision in imaging

  - △ Degrades performance of Robot Vision using Machine Learning, like yolo or ViT models

    - Object detection
    - Classification
    - Tracking
    - Segmentation

- Main Objective

  - △ Develop a ultra dehazing (defog, derain, low light, under water) algorithm that performs better or on-par with current works

  - △ Eliminate or minimize the drawbacks of existing method

  - △ Minimizing computation requirements

  - △ Implementation in FPGA as an IP using HLS

  - △ Integrate into HDMI pipelining

- Dehaze Method
  - △ Dark channel extraction
  - △ Bright channel extraction
  - △ Transmission map estimation
  - △ Scene recovery



- Dehazing Results
  - △ Eliminates color shifting from original DCP
  - △ Preserves image naturalness
- Dehazing Metrics on RESIDE
  - △ Tested on MATLAB R2024b using CPU-only process
  - △ High PSNR and SSIM compared to conventional method
  - △ Higher throughput compared to other methods

- Dehazing Result on Computer Vision
  - △ Detection test using YOLO v7-tiny pretrained model
  - △ Up to 7.9% mAP improvement on very dense haze

- FPGA Video Pipelining
  - △ Ping-Pong buffer implementation
  - △ 2 frames latency on 1920 x 1080 30 FPS
  - △ Adjustable tuning parameters on-the-fly

- Resources Utilization
  - △ Utilization reports from Vitis and Vivado toolchain
  - △ Minimum resources utilization footprint
- Undergoing Work:
  - △ Run segmentation, detection, and classification with YOLO v7, v12
  - △ Object Detection: Locate and classify multiple objects
  - △ Object Segmentation: Provide pixel-level masks for instance/semantic segmentation
  - △ Image Classification: Assign a global label to an image (scene or object category)