



**מכון טכנולוגי חולון**  
Holon Institute of Technology

הפקולטה להנדסת חשמל ואלקטרוניקה - מערכות מושבצות מחשב  
ספר פרויקט בנושא :

## **מימוש אלגוריתם למידת מכונה לעיבוד תמונה על גבי FPGA**

**Implementation of a machine learning algorithm for  
image processing on FPGA**

נאור דוד

מנהל  
מר שמואל מעודה

## תוכן עניינים

|          |                                          |
|----------|------------------------------------------|
| 4 .....  | תקציר                                    |
| 5 .....  | Abstract                                 |
| 6 .....  | Executive Summary                        |
| 11 ..... | רישימת איורים                            |
| 13 ..... | רישימת משוואות                           |
| 14 ..... | קיצורים ומונחים                          |
| 15 ..... | פרק 1 - מבוא                             |
| 15 ..... | 1.1 רקע כללי                             |
| 15 ..... | 1.2 תיאור הבעיה                          |
| 16 ..... | 1.3 מטרת הפרויקט                         |
| 16 ..... | 1.4 מבנה הספר                            |
| 17 ..... | פרק 2 - רקע תיאורטי                      |
| 17 ..... | 2.1 CPU                                  |
| 17 ..... | 2.2 Python                               |
| 18 ..... | 2.3 FPGA                                 |
| 19 ..... | 2.4 VHDL                                 |
| 21 ..... | 2.5 עיבוד תמונה דיגיטלי                  |
| 22 ..... | 2.6 למידת מכונה                          |
| 22 ..... | 2.6.1 סוגים בעיות בלמידת מכונה           |
| 23 ..... | 2.6.2 רשת נוירונים מלאכותית              |
| 24 ..... | 2.6.3 רשת Fully Connected Neural Network |
| 26 ..... | 2.6.4 מושגים בלמידת מכונה                |
| 27 ..... | 2.7 פתרונות קיימים בשוק                  |
| 27 ..... | 2.7.1 HLS/OpenCL                         |
| 27 ..... | 2.7.2 ALAMO RTL מודולרי                  |
| 28 ..... | 2.8 יתרונות מימוש אלגוריתם ב-FPGA        |
| 29 ..... | פרק 3 - מימוש הפרויקט                    |

|    |                                              |
|----|----------------------------------------------|
| 29 | 3.1 כל תכנון וסביבת הפיתוח                   |
| 29 | 3.1.1 בחירת לוח פיתוח DE2-115                |
| 31 | 3.1.2 סביבת פיתוח חומרה                      |
| 31 | 3.1.3 סביבת אימון ותוכנה                     |
| 32 | 3.2 בחירת האלגוריתם ומימושו                  |
| 32 | 3.2.1 בחירת האלגוריתם                        |
| 33 | 3.2.2 אופן פעולה מודל רשת הנוירונים          |
| 34 | 3.2.3 מימוש מודל רשת הנוירונים בסביבת תוכנה  |
| 38 | 3.2.4 הכתנת מודל רשת הנוירונים למימוש חומרתי |
| 41 | 3.2.5 מימוש מודל רשת הנוירונים בסביבת חומרה  |
| 69 | <b>פרק 4 - תוצאות</b>                        |
| 69 | 4.1 ניצול משאבים (Resource Utilization)      |
| 70 | 4.2 ניתוח זמן (Timing Analysis)              |
| 72 | 4.3 אימות חומרתי ותוצאות ריצה                |
| 72 | 4.3.1 הריצה ראשונה                           |
| 74 | 4.3.2 הריצה שנייה                            |
| 76 | 4.3.3 הריצה שלישיית                          |
| 78 | <b>פרק 5 - מסקנות</b>                        |
| 78 | 5.1 מסקנות                                   |
| 78 | 5.2 הצעות עבודה להמשך                        |
| 79 | <b>ביבליוגרפיה</b>                           |

## תקציר

הפרויקט עוסק במימוש חומרתי של אלגוריתם למידת מכונה על גבי רכיב FPGA, במטרה להציג את יתרונות המימוש המקבילי בחומרה לעומת מימוש סדרתי על גבי CPU. האלגוריתם שנבחר הוא מודל ספירותי שלרשת מלאה (Fully Connected Neural Network) ממסד הנתונים MNIST.

בשלב הרקע נスクרו יסודות טכנולוגיית-HD�-ה-FPGA והעקרונות המרכזיים בלמידת מכונה, לצד סקירה של פתרונות קיימים למימוש חומרה של אלגוריתמים, הממחישים גישות שונות להאצת חישובים על פלטפורמות מתקדמות.

בשלב האפיון התוכנתי, המודל אומן בסביבת Python (PyTorch) על גבי Google Colab, תוך חילוקת מאגר הנתונים לקבוצות אימון, ולייציה ובדיקה. לאחר האימון והערכת הביצועים, נשמר המודל המאמן והומר לייצוג Fixed-Point, המותאם למימוש ייעיל בחומרה.

בהמשך הופקו קבצי זיכרון ייעודיים (MIF) ותוכנה ארכיטקטורתית חומרתית-ב-VHDL. הארכיטקטורת כוללת רכיבי זיכרון (ROM/BRAM), רכיב MAC המשלב 10 יחידות חישוב מקבילות, מכונת מצבים (FSM), בлок ArgMax, ורכיבים נוספים למדידת זמן ריצה והצגת התוצאה על גבי תצוגת 7-Segment.

הפרויקט מדגים את הפוטנציאל של FPGA בתחום למידת מכונה, תוך הדגשת יתרונות כגון ניצול ייעיל של משאבים, מקביליות גבוהה וזמן ריצה קצרים בהשוואה למימוש תוכנתי.

# Abstract

This project focuses on the hardware implementation of a machine learning algorithm on an FPGA device, aimed at demonstrating the advantages of parallel execution in hardware compared to serial execution on a CPU. The chosen algorithm is a Fully Connected Neural Network for classifying handwritten digits from the MNIST dataset.

In the background stage, the fundamentals of FPGA technology and the core principles of machine learning were reviewed, alongside a survey of existing hardware implementations, illustrating different approaches to accelerating computations on advanced platforms.

In the software design stage, the model was trained in Python (PyTorch) on Google Colab, with the dataset divided into training, validation, and test subsets. After training and performance evaluation, the trained model was saved and converted into a Fixed-Point representation, making it suitable for efficient hardware deployment.

Subsequently, dedicated memory initialization files (MIF) were generated, and a hardware architecture was designed in VHDL. The architecture includes memory blocks (ROM/BRAM), a MAC unit featuring 10 parallel computation units, a finite state machine (FSM), an ArgMax block, and additional components for cycle counting and displaying the result on a 7-segment display.

The project demonstrates the potential of FPGA in machine learning, emphasizing advantages such as efficient resource utilization, high parallelism, and reduced execution time compared to software implementations.

# Executive Summary

## Introduction and Objectives

This project demonstrates a hardware implementation of a machine learning (ML) algorithm on an FPGA (Field-Programmable Gate Array) and evaluates the benefits of parallel, deterministic execution in hardware versus sequential execution on a conventional CPU. The selected workload is a handwritten-digit classifier for the MNIST dataset based on a compact Fully Connected Neural Network (FCNN/MLP).

The objectives are:

- To establish a clear, verifiable proof-of-concept for end-to-end ML inference on FPGA.
- To quantify resource utilization, timing closure, and latency.
- To compare the achieved inference performance against a software baseline (CPU implementation).

## Background and Rationale

ML—particularly artificial neural networks—has become a core enabler for image processing tasks. While CPUs offer programming flexibility, their fixed microarchitectures and sequential execution often limit real-time performance and energy efficiency in embedded scenarios. FPGAs, by contrast, allow designers to tailor the underlying micro-architecture to the model’s dataflow and exploit massive fine-grained parallelism. The project survey reviewed two dominant implementation paths:

- Automated High-Level Synthesis (HLS/OpenCL) flows that accelerate development cycles.
- Handcrafted RTL (e.g., modular pipelines in works such as ALAMO) that maximize hardware efficiency at the expense of engineering effort.  
Handcrafted RTL (e.g., modular pipelines in works such as ALAMO) that maximize hardware efficiency at the expense of engineering effort.

## Methodology Overview

The development followed a software-to-hardware workflow:

- **Model training (software):** The Fully Connected Neural Network (single-layer FCNN) was trained in Python/PyTorch on Google Colab using the standard MNIST split (train/validation/test). After training, the model was validated on the test set to ensure generalization and then exported.
- **Hardware preparation (quantization & packaging):** We folded normalization into the parameters, quantized weights to 8-bit integers and biases to 32-bit fixed-point, and generated Memory Initialization Files (MIF) for inputs, weights, and biases.
- **Hardware implementation (RTL in VHDL):** The inference datapath and control were implemented as modular RTL blocks on a Terasic DE2-115 board (Intel/Altera Cyclone IV E EP4CE115). The design integrates on-chip ROM/BRAM, a 10-lane MAC engine, an ArgMax unit, a cycle counter, and a finite state machine (FSM) controller. The top-level maps to board I/O for observability (7-segment display, LEDs) and repeatability.

## Model and Dataflow

The classifier consumes a  $28 \times 28$  grayscale image that is flattened into a 784-element vector. A single fully connected layer maps the input directly into logits for 10 classes (digits 0–9), the final decision is the argmax index.

The hardware mirrors this dataflow:

- **Parallel MACs:** Ten multiply-accumulate lanes process the feature stream in lockstep - one pixel per cycle per lane - accumulating partial sums for all classes concurrently.
- **Fixed-point arithmetic:** 8-bit weights and 8-bit inputs feed into 32-bit accumulators, striking a practical balance between classification accuracy and efficient use of FPGA hardware resources.
- **Deterministic control:** An FSM sequences ROM reads, MAC accumulation across 784 cycles, bias addition, and argmax selection. A one-cycle done pulse marks inference completion. The cycle counter exposes end-to-end latency in clock cycles.

## Implementation Details

- **Toolchain:** Quartus handled synthesis, fitting, and on-board programming, ModelSim was used for unit-level and subsystem simulation (e.g., bias load, accumulator updates, argmax correctness, FSM sequencing).
- **Memory packaging:** Three MIFs provide:
  - 784-byte input image (XQ).
  - 784 words of 80-bit packed weights (one 8-bit weight per class).
  - A single 320-bit word for ten 32-bit biases.Packing improves read bandwidth and simplifies ROM addressing.
- **Top-level integration:** The design is wrapped in a board-level shell that directly drives user I/O: HEX0 shows the predicted digit, LEDR reflects the cycle counter for direct empirical latency readings at 50 MHz.

## Verification and Evaluation

- **Functional validation:** The RTL blocks (ROMs, MAC10, ArgMax10, Controller FSM, cycle counter, and 7-segment decoder) were unit-tested and then integrated. Waveform inspection confirmed correct initialization, bias/accumulator behavior, and maximum-index selection across representative test vectors.
- **Accuracy baseline:** In software, the trained MLP achieved test accuracy in the range 92-93%, with confusion-matrix analysis and per-class accuracy plots highlighting typical digit confusions (e.g., {4,9} and {3,5}). This baseline informed the acceptable precision targets for fixed-point deployment.
- **Resource utilization:** On EP4CE115, the design used a tiny fraction of available resources (logic elements, registers, on-chip RAM, multipliers/DSPs), leaving ample headroom for deeper models, batching, or I/O extensions.
- **Timing closure and operating margin:** With a board clock of 50 MHz, static timing closed comfortably, worst-case slack remained strongly positive, and the computed Fmax exceeded the operating point, providing margin for future extensions or modest frequency scaling.
- **Latency and throughput:** One image inference completes in a fixed number of cycles dominated by 784 MAC cycles plus control/epilogue steps. On-board cycle-counter readings confirmed sub-millisecond latency at 50 MHz.

## Results (Representative Highlights)

- **End-to-end latency:** ~800 cycles per inference at 50 MHz ( $\approx 16 \mu\text{s}$ ), measured on hardware via the cycle counter and visualized on LEDs, HEX0 displayed the predicted digit for each run.
- **Software accuracy:** ~92–93% test accuracy (software baseline) with stable loss convergence, per-class analysis reflects common handwritten digit confusions.
- **FPGA vs. CPU:** The FPGA achieved a speedup of roughly  $12\times$ – $16\times$  compared to a software inference of  $\approx 0.2$  ms on the Colab CPU, the observed average speedup was  $\sim 14\times$  across runs.
- **Utilization:** <1% of logic elements, modest on-chip memory usage (~2%), and ~2% of DSP/multiplier blocks - leaving substantial capacity for scaling.
- **Timing:** Positive worst-case slack at 50 MHz, tool-reported Fmax near 78 MHz, indicating healthy timing margin.

## Discussion

The design validates the central premise: even simple, single-layer fully connected networks map naturally to FPGA fabrics. Packing weights and using a 10-lane MAC pipeline delivered single-image inference with constant latency, while fixed-point arithmetic provided an excellent accuracy-efficiency trade-off. The resulting footprint is extremely light, so deeper MLPs, early-exit branches, or even shallow convolutional front-ends could be added without exhausting resources. Compared to HLS-based approaches, handwritten RTL required more upfront design discipline but granted precise control over datapath width, schedule, and memory layout, which directly translated to predictable timing and resource usage.

## Limitations

- **Model compactness:** The model is intentionally compact and optimized for clarity and determinism rather than SOTA accuracy. CNNs would typically outperform a simple single-layer fully connected network on MNIST.
- **Single-image processing:** The prototype ingests one image at a time, the design does not yet exploit inter-image parallelism (batching) nor DMA-assisted streaming from external sources.
- **Energy measurements:** Energy measurements were out of scope. While fixed-point FPGAs are typically energy-efficient, a full power/energy comparison versus GPU/CPU would strengthen the argument.

## Conclusions

This project delivers a complete, reproducible demonstration of FPGA-based ML inference: from training and quantization through RTL implementation, timing closure, and on-board validation. The FPGA solution met timing with margin at 50 MHz, achieved sub-millisecond ( $\approx 16 \mu\text{s}$ ) deterministic latency per image, and exhibited an order-of-magnitude speedup versus a CPU software baseline - all while consuming a very small fraction of the device resources. The results substantiate the case for FPGAs as practical, efficient ML inference engines in embedded, real-time contexts.

## Future Work

- **Model expansion:** Implementing deeper neural networks - through multiple fully connected layers or by adding convolutional layers - would likely improve classification accuracy and capture richer image features.
- **Multi-input support:** Extending the design to process multiple images in parallel (batch processing) would make better use of FPGA parallelism and increase throughput.
- **External communication interfaces:** Integrating UART, Ethernet, or PCIe would allow real-time data input from external systems and direct transmission of inference results back.
- **Cross-platform comparisons:** Conducting experiments on additional hardware platforms, such as GPUs or SoCs with ARM cores, would provide a broader perspective on the trade-offs between different machine learning deployment technologies.

## רשימת איורים

|                                                              |    |
|--------------------------------------------------------------|----|
| איור 1 - ארכיטקטורת ה-FPGA                                   | 19 |
| איור 2 - הגדרת ישות $b$ -andgate VHDL                        | 20 |
| איור 3 - מימוש ארכיטקטורת Behavioral לישות AND Gate          | 20 |
| איור 4 - ייצוג RTL של שער AND לאחר סינטזה                    | 20 |
| איור 5 - תרשים סכמטי של ANN                                  | 23 |
| איור 6 - תרשים סכמטי של MLP                                  | 25 |
| איור 7 - לוח הפיתוח DE2-115                                  | 30 |
| איור 8 - תרשים זרימה של מודל רשת הנוירונים                   | 33 |
| איור 9 - מודל רשת הנוירונים                                  | 34 |
| איור 10 - גרפ' ירידת ה-Loss לאורך הה-epochs                  | 35 |
| איור 11 - גרפ' עלילית ה-Accuracy                             | 35 |
| איור 12 - Final Test Accuracy                                | 36 |
| איור 13 - Confusion Matrix                                   | 36 |
| איור 14 - דיאגרמת Per-class Accuracy                         | 37 |
| איור 15 - דוגמאות לתמונות                                    | 37 |
| איור 16 - תרשים בולוקים של הארכיטקטורה הכללית למימוש החומרתי | 41 |
| איור 17 - קוד חבילת types_pkg בשפת VHDL                      | 42 |
| איור 18 - קוד חבילת pack_utils בשפת VHDL                     | 42 |
| איור 19 - סכמת RTL חיצונית של רכיב xq_rom8                   | 44 |
| איור 20 - סכמת RTL פנימית של רכיב xq_rom8                    | 44 |
| איור 21 - סכמת RTL חיצונית של רכיב wq_rom80                  | 46 |
| איור 22 - סכמת RTL פנימית של רכיב wq_rom80                   | 46 |
| איור 23 - סכמת RTL חיצונית של רכיב bstar_rom320              | 48 |
| איור 24 - סכמת RTL פנימית של רכיב bstar_rom320               | 48 |
| איור 25 - סכמת RTL חיצונית של רכיב mac10                     | 50 |
| איור 26 - סכמת RTL פנימית של רכיב mac10                      | 50 |
| איור 27 - סימולציה של טעינת Bias                             | 53 |
| איור 28 - סימולציה של טעינת ערכי האוגרים (acc)               | 53 |
| איור 29 - סכמת RTL חיצונית של רכיב argmax10                  | 54 |
| איור 30 - סכמת RTL פנימית של רכיב argmax10                   | 54 |
| איור 31 - סימולציה של קבלת הערך המקסימלי                     | 56 |
| איור 32 - סכמת RTL חיצונית של רכיב controller_fsm            | 57 |
| איור 33 - סכמת RTL פנימית של רכיב controller_fsm             | 57 |
| איור 34 - דיאגרמת מכונת מצבים                                | 58 |
| איור 35 - סימולציה של FSM                                    | 60 |
| איור 36 - סכמת RTL חיצונית של רכיב cycle_counter             | 61 |
| איור 37 - סכמת RTL פנימית רכיב cycle_counter                 | 61 |
| איור 38 - סימולציה של ספירת המוחזרים                         | 62 |

|                                                                                       |    |
|---------------------------------------------------------------------------------------|----|
| איור 39 - סכמת RTL חיצונית של רכיב decoder_4to7                                       | 63 |
| איור 40 - סכמת RTL פנימית של רכיב decoder_4to7                                        | 63 |
| איור 41 - מיפוי קווי האוטות בין תצוגת HEX0 לרכיב ה-HEX                                | 64 |
| איור 42 - סכמת RTL חיצונית של רכיב top_mnist_fc                                       | 65 |
| איור 43 - סכמת RTL פנימית של רכיב top_mnist_fc                                        | 65 |
| איור 44 - סכמת מעטפת של הרכיב top_mnist_fc למיפוי אוטות אל משקי הקלט/פלט בלוח DE2-115 | 68 |
| איור 45 - דוח הסינטזה                                                                 | 69 |
| איור 46 - דוח ה-Timing Analyzer Summary                                               | 70 |
| איור 47 - דוח ה-Multicorner Timing Analysis Summary                                   | 70 |
| איור 48 - דוח ה-Fmax                                                                  | 71 |
| איור 49 - מצב האיפוס בלוח DE2-115 : תצוגת 7-Segment מציגה,0,ונוריות ה-LED כבויות      | 71 |
| איור 50 - תמונה ספרה 2 מתוך קבוצת Test של מסד הנתונים MNIST                           | 72 |
| איור 51 - מצב ביצוע לאחר הרצאה 1 : תצוגת 7-Segment מציגה את הספרה 2                   | 72 |
| איור 52 - קוד הרצאה ובדיקה זמן חייזי (Inference) של המודל המאומן ב-Python             | 73 |
| איור 53 - תמונה ספרה 7 מתוך קבוצת Test של מסד הנתונים MNIST                           | 74 |
| איור 54 - מצב ביצוע לאחר הרצאה 2 : תצוגת 7-Segment מציגה את הספרה 7                   | 74 |
| איור 55 - קוד הרצאה ובדיקה זמן חייזי (Inference) של המודל המאומן ב-Python             | 75 |
| איור 56 - תמונה ספרה 1 מתוך קבוצת Test של מסד הנתונים MNIST                           | 76 |
| איור 57 - מצב ביצוע לאחר הרצאה 3 : תצוגת 7-Segment מציגה את הספרה 1                   | 76 |
| איור 58 - קוד הרצאה ובדיקה זמן חייזי (Inference) של המודל המאומן ב-Python             | 77 |

## **רשימת משוואות**

|         |                                             |
|---------|---------------------------------------------|
| 24..... | משוואה 1 - נוסחת Artificial Neuron Equation |
| 26..... | משוואה 2 - נוסחת Gradient Descent           |
| 26..... | משוואה 3 - נוסחת Softmax                    |

## **קיצורים ומונחים**

CPU - Central Processing Unit

GPU - Graphical Processing Unit

FPGA - Field Programmable Field Array

RTL - Register Transfer Level

HDL - Hardware Description Language

VHDL - VHSIC Hardware Description Language

VHSIC - Very High-Speed Integrated Circuit

GPIO - General-Purpose Input/Output

USB - Universal Serial Bus

ML - machine learning

NN - Neural Networks

ANN - Artificial Neural Network

CNN - Convolutional Neural Networks

RNN - Recurrent Neural Networks

AI - Artificial Intelligence

MLP - Multilayer Perceptron

DSP - Digital Signal Processing

ADC - Analog to Digital Converter

JPEG - Joint Photographic Experts Group

HLS4ML - High Level Synthesis For Machine Learning

HPS - Hard Processor System

DDR-SDRAM - Double Data Rate Synchronous Dynamic Random-Access Memory

HLS - High-Level Synthesis

MIF - Memory Initialization File

## פרק 1 - מבוא

### 1.1 רקע כללי

תחום הבינה המלאכותית ולמידת המחשבה (Machine Learning - ML) עבר בעשור האחרון מהפכה של ממש. אלגוריתמים חישוביים, ובעיקר רשותות עצביות מלאכותיות (Artificial Neural Networks - ANN), מאפשרים למערכות לבצע משימות שבבר נחשבו מורכבות במיוחד, כגון זיהוי דיבור, עיבוד תמונה, זיהוי פנים, והסקה חכמה מנתוני חישוניים. אחד התחומיים המרכזיים בהם מיושמת רשותות עצביות הוא עיבוד תמונה (Image Processing), ובפרט זיהוי ספרות מתוך מאגרי מידע סטנדרטיים כגון MNIST, המהווה בסיס לבחינת יכולות סיוג חזותי.

היישום של אלגוריתמים אלו מתרחש לרוב על גבי מעבדים מרכזיים (CPU). אמנים פלטפורמות אלו מציאות גמישות תכניתית רבה, אך הן מאופיינות בצריכת הספק גבוהה ובביטויים שאינם תמיד מותאמים לישומי זמן אמיתי (Real-Time). כאשר נדרש לישם אלגוריתמים בסביבות מוגבלות משאביים - לדוגמה מערכות משובצות (Embedded Systems), רכיבים ניידים או מערכות IoT - נדרש פתרון ייעיל יותר הן מבחינה ביצועי חישוב והן מבחינה צריכה אנרגיה.

בנקודה זו נכנסים לתמונה רכיבי FPGA (Field Programmable Gate Array). בניגוד ל-CPU בהם הארכיטקטורה קבועה מראש, FPGA מאפשרות מחדש של מבנה החומרה הפנימית בהתאם לאלגוריתם הרצוי. הדבר מאפשר ביצוע מקבילי (Parallelism), ניצול טוב יותר של משאבי החומרה, וה坦מה יעודית לצורכי היישום. יכולות אלו הפכו את ה-FPGA לפלטפורמה מועדפת בימוש אלגוריתמים עתירי חישוב, ובפרט בתחום עיבוד אותות ותמונה.

### 2.2 תיאור הבעה

אלגוריתמי למידת מכונה, ובעיקר רשותות קוונטולוציה, מצריכים פעולות כפל וחיבור רבות המבוצעות על מטריצות גדולות. כאשר אלגוריתמים אלו מיושמים על גבי CPU, זמן הריצה עלול להיות ארוך באופן יחסית, ובמקרים רבים הוא מונע שימוש בזמן אמיתי.

במערכות משובצות (Embedded) או במערכות ניידות - לדוגמה רחפנים, רובוטים, מערכות חכםות לניטור סביבתי - נדרשת פלטפורמה חסכונית, יעילה ובעל זמן תגובה קצר. לפיכך, הבעה המרכזית הניצבת היא כיצד למש אלגוריתם למידת מכונה בצורה יעילה בחומרה, כך שניתן יהיה להדגים יתרון ממשי בביטויים ובצריכת ההספק לעומת IMPLEMENTATION על גבי CPU.

### **1.3 מטרת הפרויקט**

מטרת פרויקט הגמר היא להציג הוכחת תכנן (Proof of Concept) למימוש אלגוריתם למדידת מכונה על FPGA ולהדגים את יתרונות הפלטפורמה החומרתית ביחס ל-CPU.

בפרויקט נבחר אלגוריתם בסיסי לזיהוי ספרות מתוך מאגר MNIST, המבוסס על רשות Fully Connected פשוטה ומסוג濂ינאי. המימוש יבוצע בשני שלבים מרכזיים :

שלב האימון - הרשות תאומן בסביבת Google Colab באמצעות שפת Python וספריית PyTorch עד להשגת מודל מובוסס משקלים המאומן על סט הנתונים.

שלב ההסעה (Inference) - המודל המאומן יומר לייצוג חומרתי, וימומש על גבי FPGA באמצעות שפת תיאור חומרה VHDL. שלב זה מאפשר לבחון אתיעילות החומרה בהשוואה למימוש תוכנה (Software) על גבי CPU.

באמצעות יישום זה תודגס יכולת ה-FPGA להציג אלגוריתמי למדידת מכונה של עיבוד תמונה לשמש פלטפורמה חלופית ויעילה למימושי CPU במקרים של דרישות זמן אמת או מגבלות צריכת אנרגיה.

### **1.4 מבנה הספר**

פרק 1 - מבוא : מציג רקע כללי, תיאור הבעה ומטרות הפרויקט.

פרק 2 - רקע תיאורטי : סוקר את הספרות והבסיס התיאורטי הנדרש, כולל עקרונות למדידת מכונה, עיבוד תמונה, מבנה FPGA והבדלים מול CPU, פתרונות קיימים.

פרק 3 - מימוש הפרויקט : תיאור האלגוריתם שנבחר (Fully Connected MNIST, סביבת האימון (Google Colab) והבדיקה, סביבת המימוש (Quartus, FPGA) מימוש האלגוריתם.

פרק 4 - תוצאות : מציג את תוצאות המימוש וההרצות שבוצעו.

פרק 5 - מסקנות : מנתח את התוצאות שהוצעו בפרק 4 ומציע כיווני עבודה להמשך.

בסוף הספר תופיע רשימתביבליוגרפיה.

## פרק 2 - רקע תיאורטי

בפרק זה נפרוש את היסודות התיאורטיים הדרושים להבנת הפרויקט. תחום מימוש אלגוריתמי למידת מכונה לעיבוד תמונה על גבי חומרה.

### CPU 2.1

ýchidot uibud merkziot (CPU - Central Processing Units) mahoot at libat meuricot ha-machshav zeh ushorot shanim, vohn achraiot ul bizeu rachif shel set horot ha-mogdrot b-tocnha [8]. ha-mubad mbe'atz tocniyah ba-open sderati (liniari) v'lken hova' opfimali ubor yishomim b-hem nederch chisuv chad tahlili (single process) ba-ul rachf peulot boror. Um zat, l-CPU kiymat megalah b-ikolt miyosh makbiliot rchba (Massive Parallelism), ha-mubad mbe'atz otzo le-pachot yael b-mishimot yihudiyot utirrot chisuv - ldoga, dhisot v-yadao ha-nedrasht le-uibud ntonim behikf gdol ao b-zman amta.

mbna ha-chomra ha-pnimi shel ha-mubad nkebu ul ydi hicran v'aino nitnu le-shinui ul ydi ha-meshthems, v'lken ha-shimush bo nshar cali v-shtandarti. gisha zo ma-afsharit l-CPU la-hariz megoon rchb shel ponkzitot v-tocnوت, akh ha-pfekh otzo le-pachot yael b-mishimot yihudiyot utirrot chisuv - ldoga, dhisot v-yadao ao ha-pfuktah reshetot ozbiot, asher dorshot ha-chomra yuodiyot v-makbiliot [8].

la-achor skirtat ma-afiyini CPU v-habnat mogalotyo b-bezou'i chisuv makbiliim, nziig at shfat Python, ha-mashust keli merkzi li-piut v-aimon modlim b-lmidat mcowna.

### Python 2.2

Python hiya shfat tbcnot dinamit mahnpozot bi-yoter ciom, zochta le-hcraha b-zocot ha-kriyot ha-gboha shel ha-kod v-hembnitim ha-fshutim shahia matzua. ha-shfa tocenna ck sttafshar b-itovi shel tocniot morakkbot b-zora tamzitit v-borura, tonk shmirah ul pshutot ha-chozkutit. b-cck, Python mtsliha le-shab bin ngishot v-yidudiyot lemashust le-bin yuilot chisuvit ha-msafket munha li-yishomim ha-nedsiim v-maduim matkdimim.

bekheit Python, Machine Learning tpsah makom merkzi hodot megoon rchb shel spriot yuodiyot:

- TensorFlow 2 - Spriya chofshiit b-kod ptach le-lmidat mcowna, um dgesh ul aimon v-hesket reshutot ozbiot umokhot. ha-arcikitutora ha-gmisha shlah ma-afsharit yuosh algoriytim ul megoon pltfurmot - ha-chal mmubdim (CPU) drz maiacim grafim (GPU) v-ed muvdi TPU yuodiyim, v-bkna midha ha-nu mmachshavim aishiyim v-ed ashcolot shartim v-mchshirim niyidim.
- PyTorch - Spriya b-kod ptach ha-mpothch ul ydi Facebook AI Research, shnchabt la-achot ha-pltfurmot ha-npozot bi-yoter ciom le-machkar v-liyoshomim muashim b-lmidat mcowna [11]. hiya matafiyint bgmishot, pshutot tpeul, v-tmicha dinamit b-geprim chisubiyim, v'lken meshust rodot b-machkar akadmi v-gem b-yishomi tushya.

- NumPy - ספרייה מתמטית בסיסית המאפשרת עבודה יעילה עם מערכים רב-ממדיים, לצד מגוון רחב של פונקציות מתמטיות, והיא מהוות רכיב יסוד כמעט בכל פרויקט של למידת מכונה ב-Python.
- OpenCV - ספרייה לעיבוד תמונה וראייה ממוחשבת, המאפשרת עבודה עם תמונות ווידאו, פילוחים, זיהוי תבניות ועוד. היא מהוות כלי משלימים חשוב לישומים המשלבים עיבוד תמונה עם למידת מכונה.

מעבר לספריות אלו קיימות גם ספריות נוספות (כגון Scikit-learn, Pandas), אולם הכלים שהזוכרו לעיל מהווים את התשתית העיקרית שעלייה מבוססים מרבית שימושי Deep Learning וה-Machine Learning בפועל.

עם זאת, בעוד Python מספקת סביבת פיתוח ואמון נוחה וგמישה לאלגוריתמים של למידת מכונה, שלב המימוש החומרתי דורש פלטפורמות ייעודיות וניתנות להתקאה. אחת המרכזיות שבהן היא ה-FPGA, אשר תוצג בסעיף הבא.

## FPGA 2.3

FPGA (Field Programmable Gate Array) הוא שבב דיגיטלי המורכב ממערך רחב של יחידות לוגיות ניתנות לתכנות, אשר מקשורות ביניהן באמצעות רשת חיבורים גמישה. המשמש יכול להגדיר מחדש את תפקידן של יחידות אלו בהתאם לצרכים ספציפיים, ובכך לקבל פתרון חומרתי מותאם ליישום הנבחר [8]. יתרון מרכזי של רכיבי FPGA הוא יכולתו לבצע עיבוד מקביל: במקום להריץ סדרה של פעולות באופן טורי (כפי שמתארח ב-CPU), ניתן לפרק את המשימה במספר תתי פעולה המבוצעות במקביל, וכך להשיג שיפור ניכר בBITS וזמן הריצה.

הגדרת הפונקציונליות של ה-FPGA מתבצעת באמצעות שפת תיאור חומרה (HDL), כגון VHDL או Verilog. סביבת הפיתוח (פרויקט זה - Quartus) ממיר את הקוד הכתוב בשפת HDL דרך שלבי סינטזה ו-Place & Route למימוש פיזי של שערים לוגיים ומבני חיבור ביניהם. למעשה, תהליך זה מתרגם קוד טקסטואלי לייצוג חומרתי אמייתי המבוסס על שערים לוגיים ומבני זיכרון פנימיים [10].

בפרויקט זה נבחר להשתמש ב-FPGA כבסיס למימוש שלב ההסתקנה (Inference) של האלגוריתם, זאת בשל יתרונו המובהק בBITS חישובים מקבילים. תכונה זו מאפשרת חלוקת פעולה רציפה ייחודית למספר פעולות עצמאיות בו-זמנית, ובכך קיצור זמן חישוב לעומת BITS מימוש על גבי CPU בלבד. תרשימים סכמטיים של מבנה פנימי טיפוסי של FPGA מוצג באIOR 1.



איור 1 - ארכיטקטורת ה-FPGA

עם זאת, על מנת לנצל את יכולות ה-FPGA ולממש עליו אלגוריתם ייעודי, יש צורך בשפת תיאור חומרה (HDL) שתאפשר לתאר את פעולות הרכיב בرمאה לוגית וلتרגם את האלגוריתם למבנה חומרתי אמיתי. אחת השפות המרכזיות והנפוצות בתחום זה היא VHDL, אשר תשמש גם בפרויקט הנוכחי.

## VHDL 2.4

בעשור האחרון התפתחה באופן משמעותי תעשיית הרכיבים המתוכננים בצפיפות גבוהה (Programmable Logic Devices) מה שהוביל לעלייה ניכרת בשימוש בשפות תיאור חומרה שפות אלו מהוות נדבך עיקרי בתכנון מערכות דיגיטליות מודרניות, בהגדלת ארכיטקטורות מורכבות, וביצוע סימולציות ובדיקות מקיפות [10].

(VHDL – VHSIC Hardware Description Language) היא אחת השפות הנפוצות והיעילות ביותר בתחום, וזאת במספר סיבות עיקריות:

- יכולת לתאר התנהלות מערכת מורכבת באמצעות לטפל בתכנונים הכוללים מיליון שערים בצורה ייילה.
- תכnon בשפת VHDL הינו מודולרי, דבר המקל על תחזקה ושדרוג של מערכות קיימות.
- פשוטות ומהירות הפיתוח בשפה מצמצמות עלויות וסיכוןים בפיתוחים מורכבים.
- היותה תקנית מאפשרת יישום ת欢迎您ות תכnon מגוונות, תוך ביצוע סינטזה וסימולציה מתקדמת.
- כל הפיתוח התומכים ב-VHDL כוללים ספריות יצרן המאפשרות אופטימיזציה וביצועים גבוהים.

לימוד השפה נחassoc מהיר יחסית ומאפשר השגת תוצאות משמעותיות כבר בשלבים מוקדמים של הפרויקט. בנוסף, קיימים מגוון רחב של ספרות מקצועית, מדריכים ואתרים ברשות, מה שמקל על מהנדסים ופתחנים להעמיק את הידע ולמצוא פתרונות לביעות בזמן אמת.

תהליך הפיתוח באמצעות VHDL מתבצע בהתאם לעקרונות התכנון הספרתי המקובל: בנייה ארכיטקטורתית למערכת, הגדרת יחס גומלין בין יחידות מבצעות ובקורות, כתיבת קוד, סימולציה, ובסיום סינטזה לייצור המעגל הפיזי. לדוגמה, ניתן להגדיר ישות פשוטה (Entity) שמופיעה באIOR 2 המיצגת שער לוגי AND ההגדירה כוללת את מבנה הכניסות והיציאות (I/O Ports) לאחר מכן מימוש ארכיטקטורת הרכיב (Architecture) שמופיעה באIOR 3 המתארת את התחנוגות - ככלומר חיבור הכניסות כך שביציאה יתקבל הפלט הלוגי A AND B.

לאחר תהליך הקומpileציה, סביבת הפיתוח למשל Quartus מימושת את הקוד בתצורה חומרתית אמיתית, ומציגו אותו במבנה (RTL) (Register Transfer Level) שמופיע באIOR 4 הממחיש כיצד ההגדירה הטקסטואלית הופכת למעגל לוגי ממשי המבוסס על שערים.

שלבים :

```
entity andgate is
  port( A: in std_logic;
        B: in std_logic;
        F: out std_logic
      );
end andgate;
```

איור 2 - הגדרת ישות כ-*gate* VHDL

```
architecture Behavioral of andgate is
begin
  F <= A and B;
end Behavioral
```

איור 3 - מימוש ארכיטקטורת *Behavioral* לשער AND Gate



איור 4 - ייצוג RTL של שער AND באמצעות סינטזה

## 2.5 עיבוד תמונה דיגיטלי

עיבוד תמונה דיגיטלי הוא תחום במדעי ההנדסה העוסק בשימוש במחשב דיגיטלי לצורך עיבוד, שיפור וניתוח של תמונות. מדובר בתת תחום של עיבוד אותות דיגיטליים, אשר מציע יתרונות רבים על פני עיבוד תמונה אנלוגי שהיה מקובל בעבר [9].

תהליך העיבוד מתחילה בהמרת התמונה מהמישור האנלוגי (אות רצף) למישור הדיגיטלי באמצעות ממיר אנלוגי דיגיטלי (ADC) לאחר ההמרה, התמונה מיוצגת כטבלה דו-ממדית של פיקסלים, כאשר כל פיקסל מייצג ערך מספרי המתאר את עצמת הבחרות או הצלע. ייצוג זה מאפשר חילת מגוון רחב של אלגוריתמים מתמטיים וחישובים על גבי התמונה [9].

במהלך העיבוד ניתן לבצע שורה של פעולות כגון סינון (Filter) באמצעות קונבולוציות, הסרת רעשים, חיזוק קצוט ושיפור איכות התמונה. כמו כן, ניתן לאחסן את התוצר הסופי בפורמטים דיגיטליים סטנדרטיים כגון JPEG או PNG מה שמאפשר ניתוח חזק, השוואות לתמונות אחרות, או שימושים מתקדמים יותר כגון זיהוי תבניות, סיוג אובייקטים או מעקב אחר תנועה.

התפתחות התחום נובעת משלושה גורמים מרכזיים :

- התקדמות טכנולוגית במחשב - מעבדים מהירים וחומרה ייעודית כגון GPU ו- FPGA מאפשרים עיבוד בזמן אמיתי של תמונות באיכות גבוהה.
- שיפורים מתמטיים ואלגוריתמיים - פיתוח שיטות חדשות בעיבוד אותות, סטטיסטיקה ולמידת מכונה, המאפשרות את אלגוריתמי העיבוד.
- הביקוש הגובר ליישומים - תחום עיבוד התמונה נמצא בשימוש נרחב בתחוםים מגוונים, החל ברפואה וחקלאות, דרך תעשיית הביטחון והמדע, ועד מערכות חכמות מבוססות בינה מלאכותית.

השילוב של שלושת הגורמים הללו הפך את עיבוד התמונה דיגיטלי לכלי מרכזי בעולם ההנדסה והמחקר, וمبיסס את מקומו כתשתית טכנולוגית למערכות מתקדמות רבות.

שימוש תמונה דיגיטלי מספק את הכלים ההנדסיים הבסיסיים לייצוג ולשיפור תמונות, אך בשנים האחרונות הועצים תחומי זה באמצעות שילוב של טכניקות למידת מכונה. בעוד שעיבוד קלסי מותבסס על פילטרים ואלגוריתמיים מתמטיים מוגדרים מראש, למידת מכונה מאפשרת מערכות ללמידה דפוזים מתוך הדата עצמה ובוצע משימות מתקדמות כגון סיוג ספרות, זיהוי עצמים ומעקב אחר תנועה בדיקת רב ובזמן אמיתי.

## 2.6 למידת מכונה

למידת מכונה (Machine Learning) היא תת-תחום בביונה מלאכותית (Artificial Intelligence) המתמקד בפיתוח אלגוריתמים ומודלים המאפשרים למחשב ללמידה מתוך נתונים ולשפר את ביצועיו ללא צורך בהוראות מפורשות לכל שימושה. בשונה מתוכנה קלאסית, המבוססת על סט הוראות מוגדר מראש, בלמידת מכונה המערכת מפתחת מודל מתמטי על בסיס דוגמאות (Data), ומסוגלת לבצע חיזוי, סיוג או זיהוי של דפוסים חדשים שלא נצפו בעבר.

תהליך הלמידה כולל לרוב שני שלבים מרכזיים :

- אימון (Training) - בשלב זה המודל נחשף לנ נתונים רבים ולומד את הקשרים הסטטיסטיים ביניהם באמצעות שיטות אופטימיזציה שונות.
- הסקה (Inference) - בשלב זה המודל המאומן מיישם את הידע שרכש על דוגמאות חדשות, ומספק תשובות או חיזויים בזמן קצר ובדיוק גבוהה.

למידת מכונה מהוות חיים בסיס למגוון רחב של יישומים מתקדמים - מזיהוי דיבור ותמונה, דרך מערכות המלצה מותאמות אישית, ועד יישומי רפואי, תחבורה חכמה ובראה תעשייתית.

### 2.6.1 סוגים בעיות בלמידת מכונה

בלמידת מכונה ניתן לזהות מספר סוגים בעיות מרכזיות, אשר לכל אחת מהן מטרות וגישות חישוב שונות :

- רgression (gression) - בעיה שמתארת חיזוי ערך מסווני רציף על בסיס נתונים קלט. דוגמאות שכיחות הן חיזוי מחירי נדלין על פי מאפייני דירה או תחזית טמפרטורת בהתבסס על נתונים עבר [7].
- אשכולות (Clustering) - בעיה בה מבוצעת חלוקה של הדאטה לקבוצות על פי דמיון פנימי, מבליל לדעת מראש את מספר המחלקות. יישומים אפשריים כוללים קיבוץ לקוחות לפי דפוסי קנייה או גילוי תת-קיימות גנטיות נתונים ביולוגיים [7].
- סיוג (Classification) - בעיה שבה המחשב נדרש לנבא את המחלקה (קטגוריה) שאליה שייך קלט חדש. דוגמאות לכך הן זיהוי ספרות, סיוג תמונות לפי אובייקטים, או סיינון מיללים בספרם לעומת מיללים לגיטימיים. בפרויקט נתמקד בסוג בעיה זה באמצעות סיוג ספרות מתוך מאגר MNIST [11].

## 2.6.2 רשת נוירונים מלאכותית

רשת נוירונים מלאכותית (Artificial Neural Network - ANN) המופיעה באיור 5 היא מודל חישובי המנסה לחקות את אופן פעולה המוח האנושי, ובפרט את אופן העיבוד של נוירונים ביולוגיים. ברשת כזו קיימות שכבות של יחידות חישוביות (נוירונים מלאכותיים), כאשר כל יחידה מבצעת פעולה מתמטית פשוטה: חיבור משוקלל של הקלטים והעברת התוצאה דרך פונקציית הפעלה לא ליניארית.

הארQUITטורה הבסיסית של רשת נוירונים כוללת שלושה רכיבים עיקריים :

- שכבת קלט (Input Layer) - מקבלת את נתונים הגלם (למשל, ערכי הפיקסלים בתמונה).
- שכבות חבויות (Hidden Layers) - מבצעות את עיקר החישוב באמצעות חיבורים משוקללים בין הנוירונים, ובכך מאפשרות לרשת למדוד ייצוגים מורכבים של הנתונים.
- שכבת פלט (Output Layer) - מפיקה את התוצאה הסופית, לדוגמה הקטגוריה שאליה שייך הקלט.

בתהליך האימון (Training), משקלות החיבורים בין הנוירונים מותאמות בהדרגה באמצעות אלגוריתם אופטימיזציה (בדרך כלל Gradient Descent), כך שהרשת תלמד לモען את פונקציית השגיאה (Loss Function). לאחר סיום האימון, הרשת עוברת לשלב הסקה (Inference) שבו היא מיישמת את הידע שנרכש על דוגמאות חדשות.

יתרונו של רשתות נוירונים הוא ביכולתן לבצע למידה לא ליניארית מורכבת, ולזוזות דפוסים שקשה להגדיר באמצעות אלגוריתמים קלאסיים. למעשה זה הופך אותן לכלי עוצמתי במיוחד בעיות של סיוג תמונה, זיהוי דבר, עיבוד אותות וברית מערכות.

בפרויקט זה נתמקד ברשת פשוטה מסוג **Fully Connected Neural Network**, המתאימה לשימושים סיוג בסיסיים כגון זיהוי ספרות כתוב יד מתוך מאגר **MNIST**.



איור 5 - תרשים סכמטי של ANN

### 2.6.3 רשת Fully Connected Neural Network

המודעה באירור 6 היא אחת הארכיטקטורות הבסיסיות ביותר בעולם הרשות הנוירוניים המלאכותיות. מדובר ברשת בה כל נוירון בשכבה מחובר לכל הנוירונים בשכבה העוקבת, וכך היא נקראת **Fully Connected**.

הרשת מורכבת משלשה חלקים עיקריים :

- שכבה קלט - מקבלת את הנתונים בצורה וקטור תכונות.
- שכבות חבוית - מעבירות את המידע באמצעות חיבורים משקללים ופונקציות הפעלה לא ליניאריות.
- שכבה פלט - מחזירה את התוצאה הסופית, לרובה בצורה של הסתברות או קטgorיה.

הчисוב בכל נוירון ניתן לתיאור מתמטי באמצעות :

$$y = f(\sum_{i=1} w_i x_i + b)$$

משוואה 1 - מסחת Artificial Neuron Equation

כאשר :

$x_i$  - ערכי הקלטים (features).

$w$  - משקלים הנלמדים בתהליך האימון.

$b$  - פרמטר הביאס (Bias) שמאפשר גמישות נוספת בפונקציה.

$f$  - פונקציית הפעלה (Activation Function).

$y$  - הפלט של הנוירון, המועבר לשכבה הבאה ברשת.

באופן זה, כל נוירון מהוועה ייחידת חישוב פשוטה, אך כאשר רבים מהם מקושרים יחד במספר שכבות, נוצר מודל חישובי עצמאי המסוגל ללמידה ייצוגים מורכבים של נתונים ולבצע משימות כגון סיוג, חיזוי ויזיהו תבניות.



אייר 6 - תרשים סכמטי של MLP

היחוד של MLP טמון ביכולת שלה ללמידה קשרים לא ליניאריים מתוך הדאטה, דבר שהופך אותה לכלי בסיסי למגוון רחב של בעיות למידת מכונה - ובעיקר לביעות סיוג. בשל הפשטות המבנית שלה, MLP משמשת לעיתים קרובות כמודל כניסה ללמידה ולישום עקרונות למידת מכונה, וכבסיס תאוריטי למודלים מתקדמים יותר כמו CNN או RNN.

רשתות נוירוניים קוונטולוציוניות (CNN) הן הארכיטקטורה הנפוצה ביותר כיום לביעות עיבוד תמונה, שכן הן מאפשרות הפחיתה משמעותית במספר הפרמטרים לצד למידה יעילה של תכונות מקומיות בתמונה.

עם זאת, בפרויקט זה לא נעשה שימוש ב-CNN, אלא נבחר מבנה Fully Connected - מקרה פרטי פשוט של MLP - אשר מספק פתרון מספק לביעיה הנבחרת, סיוג ספרות ממגר MNIST, ומאפשר הדגמה ישירה וברורה של מימוש תהליך ההසקה על גבי FPGA.

#### 2.6.4 מושגים בלמידת מכונה

בפרויקט זה נעשה שימוש במספר מונחים בסיסיים מעולם למידת המכונה, אשר יוצגו להלן כוצרך אחידות והבנת התוכן :

- Dataset (מערך נתונים) : אוסף הדוגמאות (Samples) שעליו מתבצע תהליך הלמידה.
- במרבית המקרים הדאטה מחולק לשט אימון (Training Set), סט ולידציה (Test Set) וסט בדיקה (Validation Set).
- Feature (תכונה) : מאפיין מסוים של הדוגמה, המהווה את הקלט לאלגוריתם הלמידה.
- לדוגמה, ערכי פיקסלים בתמונה.
- Label (תווית) : הפלט המצוופה (Ground Truth) המשויך לדוגמה מסוימת. במאגר MNIST מדובר בספרה 0-9.
- Epoch : מעבר אחד מלא על כל הדאטהסט במהלך האימון. בכל Epoch המודל מעדכן את המשקלים בהתאם לדוגמאות שעובדו.
- Loss Function (פונקציית שגיאה) : פונקציה מתמטית שמודדת את הפער בין הפלט שהמודל הפיק לבין הפלט הרצוי (Label). מטרת תהליכי האימון היא למזער פונקציית שגיאה זו.
- Optimizer (אופטימייזר) : אלגוריתם לעדכון המשקלים במודל כך שה-Loss יצטמצם. בפרויקט נעשה שימוש באלגוריתם Adam.
- Gradient Descent (ירידת מפל) : אלגוריתם חישובי לחיפוש נקודת המינימום של פונקציית השגיאה.

$$\text{העדכון מתבצע על-פי הנוסחה : } w \leftarrow w - \alpha \nabla_i L_i(w)$$

#### משוואה 2 - נוסחת Gradient Descent

- $w$  - מייצג את משקל המודל.
- $\alpha$  - קצב הלמידה (Learning Rate).
- $\nabla_i L_i(w)$  - נגזרת (Gradient) של פונקציית השגיאה ביחס למשקל.
- Activation Function (פונקציית הפעלה) : פונקציה לא ליניארית המוחלת על הנוירונים, ומאפשרת לרשת למדוד ייצוגים מורכבים (Sigmoid).
- Softmax : פונקציה מתמטית הממירה וקטור ערכים רציפים (logits) לוקטור הסתברויות, כך שכל ערך נמצא בתחום [0,1] וסכום כל ההסתברויות שווה ל-1. פונקציה זו מאפשרת הפרש את הפלט של המודל כסתירות להשתיקות לכל אחת מהמחלקות.

$$\text{הנוסחה היא : } \frac{e^{z_i}}{\sum_{i=1}^n e^{z_i}}$$

#### משוואה 3 - נוסחת Softmax

- $z_i$  - הערך עבור מחלקת  $i$ .
- $n$  - מספר המחלקות הכוללות.
- Inference (הסקה) : השלב שבו מודל מאומן מקבל דוגמאות חדשות וספק תחזית או סיווג (Prediction).

## 2.7 פתרונות קיימים בשוק

### HLS/OpenCL 2.7.1

אחת הגישות המרכזיות למימוש אלגוריתמי למידה عمוקה על גבי FPGA מבוססת על שימוש ב-  
מודלים מאומנים בפורמטים פתוחים, כגון (ONNX) Open Neural Network Exchange, (HLS) High-Level Synthesis ו-  
המרგנס באופן אוטומטי ליישום חומרתי באמצעות כל (C/C++/OpenCL), ולאחר מכן מיפוי  
זה כולל תרגום המודל המאומן לקוד ברמת תיאור גבואה (Pipeline), וכן זרימת הנתונים בתוך  
ארQUITטורת חומרה באמצעות כלים ייעודיים. במסגרת המיפוי מתבצעת בנייה צנרת  
(BRAM), חלוקה וניצול של יחידות DSP ו-  
.FPGA-ה.

במחקרדים שונים הוגם כי ניתן לבצע ייצור אוטומטי של kernels CNN המואחסנים  
בפורמט פתוח, באופן שמקוצר משמעותית את המרחק בין תיאור המודל ברמת עיבוד גבואה לבין  
לית FPGA ברמת מיפוי [2]. בנוסף, מימושים מבוססי OpenCL הցנו יכולת לבצע מעבר מהיר  
מתוכנה לחומרה במודלים אלגוריתמיים שונים - כגון אלגוריתם K-Means - תוך אינטגרציה  
נוחה עם כל הפיתוח של יצירני FPGA [4].

לסביר זה מספר יתרונותבולטים: קיצור משמעותי של זמן הפיתוח, עקומת למידה נוחה יחסית  
למפתחים המגיעים מעולם התוכנה, וכי יכולת מעבר טבעית מסביבות פיתוח של ML ו-Python  
ליישום חומרתי. עם זאת, קיימות גם מוגבלות – יכולות ניצול המשאים והשחיתת החישוב תלויות  
באופן ישיר באיכות האופטימיזציות שמבצע כל ה-HLS, ולעיתים נופלות ביעילותן בהשוואה  
لمימוש RTL ייעודי המתוכנן ידנית.

### ALAMO 2.7.2

ALAMO (Acceleration of deep Learning Algorithms with a Modularized RTL compiler)  
היא מסגרת פיתוח שהוצעה בשנים האחרונות לצורכי מימוש עיליל של רשות למידה عمוקה על  
גבי FPGA. בשונה מזרימות פיתוח ברמה גבוהה ALAMO (HLS/OpenCL) מבצעת פירוק של  
המודול העילי ליחידות חישוב בסיסיות (פרימיטיבים) – כגון פעולות מכפלה חיבור (MAC),  
קונבולוציה או pooling – ולאחר מכן מפנה אותן באופן ישיר ל-RTL מודולרי. גישה זו מאפשרת  
ליקור קוד Verilog/VHDL מותאם לשימה, אשר ניתן לסייעו ישירות על גבי ה-FPGA.

במחקר שבוצע על ידי Ma ועמיתיו [1], הוגם כי ALAMO משיגה שיפור משמעותי ב-  
throughput בהשוואה לזרימות כלליות מבוססות HLS. החוקרים מימשו שתי רשות CNN  
עתירות חישוב, שככל אחת מהן דרשה מעל מיליארד פעולות לכל תמונה קלט, והראו כי הפירוק  
המודולרי והשליטה המלאה בcntr (pipelining), במיפוי ל-DSP ובניהול הזיכרון מאפשרים  
ניצול מיטבי של משאבי ה-FPGA.

היתרון המרכזי של ALAMO טמון בכך שהיא משלבת בין גישות תכנונית – הוגם למבנה  
מודולרי הנitin להתקאה למשימות שונות – לבין יכולות חומרתיות גבוהות שמקורה במימוש  
 ישיר. יחד עם זאת, החיסרונו הוא זמן פיתוח ארוך יותר בהשוואה ל-HLS, וכן דרישת לרמה  
 גבוהה יותר של ידע בארכיטקטורת FPGA ותוכנו RTL.

## 2.8 יתרונות מימוש אלגוריתם ב-FPGA

רכיב FPGA מציעים יתרונות מהותיים במימוש אלגוריתמי למידת מכונה בהשוואה למעבדים כלליים (CPU) או למאיצים גרפיים (GPU). ראשית, היכולת להגדיר מחדש את מבנה החומרה מאפשרת התאמה מלאה של הארכיטקטורה לאלגוריתם הספציפי, ובכך מתקבלת עילوت גבוהה יותר לעומת ארכיטקטורות קבועות מראש CPU או GPU [8]. גמישות זו מאפשרת יישום מותאם ממשימה, תוך שיפור ביצועים והפחיתת זמני השהיה.

יתרון מרכזי נוסף הוא עיבוד מקבילי נרחב: בעוד שמעבד כללי מבצע את החישוב באופן סדרתי, רכיב FPGA מסוגל לפרוס את החישובים במקבילים גבוהה ולבצע פעולות מכפלה חיבור (MAC) רבות בו-זמנית. יכולת זו הוגדרה במספר עבודות מחקר, בהן נמצא כי מימוש FPGA מצליחים להציג באופן שימושתי את תהליכי ההסקה ברשותן עצביות בהשוואה למימושים רכיבים [1], [3].

בנוסף, נמצא כי FPGA יתרון בצריכת הספק נמוכה. שימוש בגישה כמו קוונטייזציה וייצוג Fixed-Point מאפשר להקטין את רוחב המיליה של המשקלים והאקטיבציות, ובכך להפחית את הדרישה למשאבי DSP וזיכרנו פנימי - תוך שמירה על דיקון חישובי מסוים [5], [6]. מחקרים מצביעים כי גישה זו הופכת את ה-FPGA למתאים במיוחד לישומי זמן אמת במערכות משובצות, שבן מגבלת ההספק היא קריטית.

יתרון נוסף הוא גמישות תכנון ופיתוח: בעזרת כלים מודרניים כמו OpenCL או HLS ניתן ל凱ץ משמעותית את זמני הפיתוח ולגשר בין רמת התוכנה לרמת החומרה. עם זאת, מחקרים מראים כי שימוש ב-RTL מותאם אישית עדין מספק ניצול מיטבי של משאבי הרכיב [2], [4]. גישה זו מאפשרת איזון בין פשוטות הפיתוח לבין מקסום הביצועים בפועל.

לסיכום, מימוש אלגוריתמי למידת מכונה על גבי FPGA מעניק שילוב ייחודי של ביצועים גבוהים, צריכת הספק נמוכה, ופתרונות הנדסיים, מה שהופך אותו לפתרון אטרקטיבי במיוחד לישומי זמן אמת הדורשים האצה חישובית לצד מגבלות משאביים.

## פרק 3 - מימוש הפרויקט

### 3.1 כלי תכנון וסביבת הפיתוח

#### 3.1.1 בחרת לוח פיתוח DE2-115

לצורך מימוש הפרויקט נבחר לוח הפיתוח DE2-115 של חברת Terasic, המוצג באIOR 7. הלוח מבוסס על רכיב FPGA מדגם EP4CE115F29C7N מסדרת Cyclone® IV E של חברת Altera (כיום Intel).

לוח זה נבחר מאחר שהוא מספק שילוב של משאבי חומרה נרחבים לצד אפשרויות קלט/פלט מגוונות, אשר מתאימים לצרכים של מימוש רשת נוירונית מלאכותית (MLP) לצורך סיווג ספרות ממגר MNIST. כפי שניתן לראות באIOR 7, הלוח כולל ממתקי משתמש, זיכרונות חיצוניים ורכיבי עוז התומכים בתהליך הפיתוח.

מאפייני רכיב FPGA:

- 114,480 אלמנטים לוגיים (Logic Elements - LEs).
- זיכרון פנימי בנפח 3.888 Mbit.
- ארבעה רכיבי PLL פנימיים להכפלת תדרי שעון ולניהול סync'.
- 528 פורטי קלט/פלט (I/O pins) למשחק משתמש ולהיבורים חיצוניים.

רכיבי חומרה נוספים בלוח DE2-115:

- כורב מובנה לרכיב ה-JTAG/USB Blaster.
- זיכרונות חיצוניים מסוגים שונים: SRAM, Flash, EEPROM, ותמיכה בכרטיסי SD.
- ממשקי משתמש בסיסיים: 4 לחצנים, 18 מפסקים, 9 נורות ירוקות, 18 נורות אדומות ו-7 Segment Displays.
- רכיב קידוד/פענוח שמע עם יציאות קול ייעודיות.
- תצוגת LCD בגודל 2x16 תווים.
- ממשק HSMC לחיבור כרטיסי הרחבה נוספים.
- יציאת וידאו VGA עם ממיר DAC (4 ביט לכל צבע - RGB).
- יציאת RS232 לתקשורת UART עם ה-FPGA.
- חיבור PS/2 למקלדת/עכבר (תקנים ותיקים).
- יציאות USB היכולת לשמש גם כ-Host וגם כ-Device, מחוברות ישירות לרכיב ה-FPGA.

## nymok lechirah :

השימוש ב-DE2-115 מאפשר עבודה בסביבת פיתוח מוכרת (Quartus, ModelSim), תוך ניצול משאבים לוגיים ויזכرون פנימי בהיקף רחב. בנוסף, מגוון הממשקים על הלוח מאפשר בוחינה עתידית של הרחבות. בכך מתאפשר איזון בין יכולות חומרה גבוהות לבין נגישות וכלי פיתוח נתמכים, המבטיחים מימוש יעיל ויישם של שלב ההתקה על גבי FPGA.



אייר 7 - לוח הפיתוח DE2-115

### 3.1.2 סביבת פיתוח חומרה

לצורך פיתוח, מימוש ובדיקה רכיבי החומרה בפרויקט נעשה שימוש בשני כלים מרכזיים:

- תוכנה זו משמשת כפלטפורמה העיקרית לתכנון ומימוש רכיבי FPGA באמצעות Quartus תיאור חומרה (HDL). מאפשרת תהליכי מלא של סינזה, אופטימיזציה וצריבה של התוכן אל רכיב ה-FPGA עצמו. בין יכולותיה העיקריות: הפקת שרטוטי RTL לצורכי ניתוח מבנה פנימי, ייצור דיאגרמות של מכונות מצבים (FSM), ניהול תהליכי הצריבה בלוחות פיתוח תואמים כדוגמת DE2-115. כדי זה מהווה את הלבוה של זרימת העבודה, החל מכתיבת קוד ה-VHDL ועד לאיומו על גבי החומרה.

- תוכנה זו נועדה לביצוע סימולציות פונקציונליות ולוגיות לקוד ה-HDL שנכתב בפרויקט. ModelSim מאפשרת הדמיה ברמתאות, בדיקה של תגובת המערכת לקלטים שונים, וכן מדידת זמני השהיה ובחינת עמידה בדרישות זמן. בנוסף, היא מאפשרת צפייה באוטומטיים ואנלוגיים במגוון פורמטים וקידודים, לרבות Waveforms מפורטים. שילוב הסימולציה ב-ModelSim טרם מימוש החומרה בפועל מצמצם משמעותית את הסיכון לשגיאות תכנן וمبטיח תהליכי פיתוח אמין ויעיל.

### 3.1.3 סביבת אימון ותוכנה

בנוסף לכלי הפיתוח החומרתיים, נעשה בפרויקט שימוש בסביבת תוכנה ייעודית לאימון ולבחינה האלגוריתם טרם המרתו ל-FPGA. לשם כך נבחרה שפת Python, הנחשבת לשפה המרכזית בתחום ה-Machine Learning. יחד עם ספריות ייעודיות כגון NumPy ו-PyTorch.

האימון של המודל בוצע בסביבת Google Colab, המאפשרת הרצת קוד Python על גבי שרתים ענן עם תמיכה ב-TPU, GPU, CPU ואף CPU. סביבת Colab נבחרה בזכות נגשתה, היכולת להציג חישובים בעזרת חומרה מתתקדמת, וכן בזכות הממשק היידוייסטי בסגנון Notebook התומך בשילוב קוד, תוצאות וגרפים בצורה אינטראקטיבית.

באמצעות שילוב זה של Colab ו-Python בוצעו שלבים מרכזיים בתהליכי הפיתוח: טעינה ועיבוד מאגר הנתונים MNIST, בניית ארכיטקטורת רשת Fully Connected Neural Network, ביצוע שלבי Training ו-Validation תוך תיעוד תוצאות Loss ו-Accuracy, ולבסוף הפקת גרפים לאנליה של תהליכי האימון.

## 3.2 בחירת האלגוריתם ומימושו

### 3.2.1 בחירת האלגוריתם

בפרויקט זה נבחר מודל של רשת נוירונים מלאכותית מסווג Fully Connected Neural Network לצורך סיווג ספרות ידניות ממגר הנתונים MNIST.

בחירה זו נבעה משיקולים הנדסיים ו邏輯יים כאחד:

- פשוטות יחסית - רשותות לארכיטקטורה בסיסית בעולם למדת המכונה, והן מתאימות במיוחד לביעות סיווג קלאסיות. הדבר מאפשר תהליכי מימוש ישיר יותר בהשוואה לרשותות מורכבות כדוגמת CNN הדורשת חישובי קונבולוציה עתיריהם.
- התאמת לבעה הנבחנת - מסד הנתונים MNIST הכולל ספרות ידניות בגודל  $28 \times 28$  פיקסלים, מהוות דוגמה מובהקת לבעה של Classification(סיווג).
- רשות Fully Connected מספקת מענה מספק לבעה זו ברמת דיוק גבוהה, תוך שימירה על מורכבות חישובית נמוכה יחסית.
- ישימות חומרנית - מבנה הרשות מותבסס על חישובי מכפלה חיבור (MultiplyAccumulate), אותם ניתן ליישם בצורה טبيعית על גבי FPGA באמצעות יחידות MAC ייעודיות. בכך מתאפשרת הזדמנות להציג את יתרונות החומרה המקבילות של FPGA לעומת מעבד CPU.

הרשת שנבחרה בפרויקט כוללת:

- שכבת קלט בגודל 784 נוירונים (התאמת ל- $28 \times 28$  פיקסלים).
- שכבת Fully Connected יחידה המקשרת ישירות בין הקלט לפלט.
- שכבת פלט הכוללת 10 נוירונים, המייצגים את ההסתברות לשיזוק התמונה לכל אחת מהספרות 0-9. בשימוש בפועל מתקבלים ערכי Logits, אשר מומרים להסתברויות על ידי פונקציית loss-Loss.

בשלב האימון, שבוצעו בסביבת Google Colab על גבי Python (PyTorch), נלמדו המשקלים וההטיות (Weights & Biases) של הרשות על בסיס عشرות אלפי דוגמאות ממגר MNIST. תהליך זה אפשר בניית מודל המסוגל לבצע Inference (הסקה) מדויק על דוגמאות חדשות שלא נראו קודם.

הבחירה בארכיטקטורה זו מייצרת איזון מיטבי בין פשוטות מימוש חומרתי, יעילות חישובית, ויכולת הדגמה ברורה של יתרונות מימוש FPGA לעומת מעבד CPU.

### 3.2.2 אופן פעולה מודל רשת הנוירונים

תהליך הפעולה של מודל רשת הנוירונים המופיע באירור 8 מתבצע אופן הבא :

1. קלט (Input Layer) - תמונה ספרה בגודל  $28 \times 28$  פיקסלים מתוך מאגר MNIST ממורנת לוקטור חד-ממדי באורך 784 רכיבים. כל רכיב מייצג את ערך הפיקסל המתאים (בגוני אפור).
  2. שכבה חישוב של סכום משוקלל של הקלטים עם משקלים והחטיות, פלט השכבה הוא וקטור בגודל 10, שבו כל רכיב מייצג את הנטייה של המודל לשיער את התמונה למחלקה מסוימת.
  3. שכבה פלט (Output Layer) - הפלט המתתקבל הוא וקטור logits באורך 10 (ערכיהם לא מנורמליים), שבו כל ערך מתאים לאחת מהמספרות האפשרות 0–9.
  4. שלב ArgMax - על וקטור logits מופעלת פונקציית ArgMax, הבוחרת את האינדקס בעל הערך הגבוה ביותר. אינדקס זה מייצג את הספרה שהמערכת מסובגת כתשובה הסופית. שלב זה אינו מכיל שכבה נוירונית אלא שלב חישובי פשוט לאחר הפלט.
- באופן זה מתקיים תהליך מלא של מיפוי תמונה מספרית לקלט דיגיטלי, באופן המתאים לעיבית סיווג הספרות מתוך מאגר MNIST.



אייר 8 - תרשימים זרימה של מודל רשת הנוירונים

### 3.2.3 מימוש מודל רשת הנוירונים בסביבת תוכנה

בשלב הראשון בוצע מימוש של מודל הרשת בסביבה (PyTorch, Python, על גבי פלטפורמת Google Colab. מטרת שלב זה הייתה לבחון את הארכיטקטורה הנבחרת, לאמן את המודל על בסיס הנתונים MNIST, ולהשיג תוצאות שימושו בסיס להמשך המימוש בחומרה.

שלבי העבודה :

- עיבוד מקדים נתונים - כל תמונה בגודל  $28 \times 28$  פיקסלים הומרה לוקטור חד-ממדי באורך 7,84, ולאחר מכן בוצע נרמול לעריכים בטוח סטנדרטי (באמצעות ממוצע וסטיית תקן של מאגר MNIST), כדי לשפר את יציבות האימון.
- חלוקת הדאטאסט - מאגר הנתונים MNIST כולל 70,000 תמונות ספרות ידניות בגודל  $28 \times 28$  פיקסלים (בגוני אפור), המחולקות לשתי קבוצות עיקריות:
  - 60,000 דוגמאות - מיועדות לאימון המודל (Training).
  - 10,000 דוגמאות - מיועדות מראש לבדיקת המודל (Test).לצורך האימון בפרויקט זה בוצעה חלוקה פנימית של 60,000 דוגמאות האימון:
  - 55,000 דוגמאות - קבוצה אימון (Training set).
  - 5,000 דוגמאות - קבוצה ולידציה (Validation set), שמשה לניטור ביצועי המודל ולזיהוי Overfitting.קבוצת Test (10,000 תמונות נפרדות) נשמרה בצד, ולא נעשה בה שימוש במהלך האימון או כוונון ההיפר פרמטרים. היא שימשה אך ורק להערכת הכללה הסופית של המודל.
- בנית המודל המופיע באיוור 9 - הוגדרה רשת Fully Connected פשוטה: שכבת קלט בגודל 784, שכבת Fully Connected יחידה המחברת את הקלט לשירות לפלאט, ושכבה פלאט עם 10 נוירונים (Logits) המייצגים את עשרת המחלקות (הספרות 0-9). החלטה הסופית התקבלה באמצעות שלב ArgMax.

```
# Step 3: model (linear 784->10)
class SimpleFC(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(28*28, 10) # single layer with bias

    def forward(self, x):
        x = x.view(x.size(0), -1)      # flatten
        return self.fc1(x)             # logits

model = SimpleFC().to(device)
```

איור 9 - מודל רשת הנוירונים

- אימון המודל - בוצע אימון באמצעות אלגוריתם Adam (ראשוני Learning Rate) משקל דעיכה (e-41) ובשימוש בפונקציית עלות Cross-Entropy Loss, הכוללת חישוב פנימי של SoftMax ומתחילה לבעיית סיווג. האימון התרחש על 55k תמונות, תוך שימוש ב-Validation Set של 5k דוגמאות. בוצעו 12 Epochs ובכל אחד מהם נמדד ערך Loss ו- Accuracy עבור קבוצות האימון והולידציה.

- בדיקות ולידציה - במקביל לאימון חושב ביצוע המודל על קבוצת הולידציה, כדי לנטר .ReduceLROnPlateau ולהתאים את ה-Learning Rate-Overfitting

- תוצאות וגרפים - במהלך האימון נאספו נתונים והוצגו בגרפים :
  - גרפ ירידת LOSS לאורך ה-epochs Mol Train (Validation Loss) המופיע באירוע 10, ירידת יציבה ב-train\_loss והתייצבות של val\_loss, פער קטן בין העקומות מעיד על הכללה טובה והיעדר Overfitting חריג.



אירוע 10 - גרפ ירידת LOSS לאורך ה-epochs

- גרפ עלית Accuracy עד להתייצבות סביבה 92-93% המופיע באירוע 11,



אירוע 11 - גרפ עלית Accuracy

- הערכתה סופית על קבוצת הבדיקה (Test) - לאחר סיום תהליכי האימון והכיוונו, המודל הוערך על קבוצת Test שכלה 10,000 דוגמאות שלא נעשה בהן שימוש קודם. התוצאות הראו דיקט סופי (Final Test Accuracy) של כ-92%-93% עם ערך Loss נמוך כפי שופיע באיור 12, דבר המצביע על יכולת הכללה טובה של המודל מעבר לדוגמאות שראה באימון.

Final test accuracy: 92.67% (loss=0.2636)

אייר 12 Final Test Accuracy

בנוסף להצגת ממד הדיקוק הכולל (Accuracy), נבנתה מטריצה בלבול (Confusion Matrix) המופיעה באיור 13 אשר מאפשרת ניתוח מפורט של טעויות הסיווג. מהמטריצה ניתן לראות כי ברוב המקרים הספרות זיהוי בהצלחה גבוהה, אולם קיימת נטייה לבלבול בין ספרות בעלות דמיון צורני. לדוגמה:

- הספרות 4 ו-9, שנוטות להופיע בצורה דומה בכתב יד מסוימים.
- الספרות 3 ו-5, אשר במקרים מסוימים מציגות קווים עגולים דומים.



אייר 13 Confusion Matrix

חישוב דיוק לפי מחלקה (Per-class Accuracy) המופיע באירור 14 חיזק את הממצא זהה, כאשר רוב הספרות הוצגו בדיק שמעל 90%, בעוד מחלקות מסוימות הציגו דיוק נמוך יותר באופן יחסית.



אייר 14 - דיאגרמת



אייר 15 - דוגמאות לתמונות

ניתוח זה מספק תובנה חשובה: גם באמצעות מודל פשוט יחסית - רשת **Fully Connected** חד שככתי - ניתן להגיע לרמת ביצועים גבוהה בסיווג ספרות ידניות. המודל שהוגדר בפירוש השיג דיוק של כ-93%-92% על קבוצת-test. עבור מודל חד שככתי, תוצאה זו נחשבת לסטנדרט מקובל במחקר ובהוראה. תוצאה זו ממחישה כי גם ארכיטקטורה בסיסית, המבוססת על שכבות קלט, שכבה חבויה אחת ושכבה פלט, מסוגלת להתמודד בהצלחה עם בעיית סיווג סטנדרטית, ולספק בסיס איתן להמשך הרחבות ושיפורים עתידיים בארכיטקטורה או בימוש החומרתי.

### 3.2.4 הכנת מודל רשת הנוירונים למימוש חומרתי

לאחר תהליכי האימון והערכת הביצועים, נשמר המודל המאומן לקובץ בפורמט `.pth`. לצורך שימוש עתידי. שבירת המודל מאפשרת הטמעה חוזרת של הפרמטרים שנלמדו - Inference (Weights & Biases) (Weights & Biases) מבליל צורך לבצע אימון מחדש. בשלב הבא בוצע תהליך Test - הפעלת המודל המאומן על דוגמאות חדשות מוקבצת ה-Test. תהליך זה שימש לאימונות היכולת של המודל להתחמודד עם נתונים שלא נצפו במהלך האימון, ומהווה שלב מעבר חוני ממודל מחקרי למודל יישום.

בהמשך, בוצע שלב נוסף שטטרתו להכין את הפרמטרים למימוש חומרתי על גבי FPGA. שלב זה כולל:

- שליפת פרמטרים מהמודל המאומן - משקלים שכבת הפלט (`fc1.weight`) וההטיות (`fc1.bias`) NumPyhomero למערכות של נתונים.
- ביטול פועלות הנרמול (Un-Normalization) - לאחר שהאימון בוצע על נתונים מנורמליים, בוצע "קיפול" (Folding) של פועלות הנרמול לתוך המשקלים וההטיות, כך שהם מותאמים לקלט המקורי של התמונות.
- כימות (Quantization) - המשקלים כומתו לפורמט `int8` בטוחה [127, -128] תוך שימוש בפקטור סקליל (Scale Factor), וההטיות כומתו לפורמט `int32`. כימות זה מאפשר שימוש יעיל ב-FPGA: רכיבי החומרה מותאמים באופן טבעי יותר לאריתמטיקה בפורמט Fixed-Point Floating-Point מאשר חישוכו במשאים ועלייה במקביליות החישובים.
- כתיבה לקבצי זיכרון (MIF - Memory Initialization File) - נוצרו שלושה קבצים:
  - `bq_image.mif` - מייצג תמונת קלט (784 פיקסלים, כל פיקסל ב-8 סיביות).
  - `bq80.mif` - מכיל את המשקלים ( $10 \times 784$ ), נארזים כ-80 ביט לכל פיקסל ( $10 \times 8$  ביט).
  - `bstar320.mif` - מכיל את ההטיות (10 הטיות, כל אחת 32 ביט, נארזות ל-320 ביט).

פירוט מבנה הקבצים :

: (Input Image - קלט xq\_image.mif

- מייצג תמונת ספרה אחת בגודל  $28 \times 28$  סה"כ 784 פיקסלים.
- כל פיקסל עבר כימות ל-8 סיביות (8/n8/int) אחרי נרמול וסקליל.
- הקובץ מכיל 784 שורות, כשבכל שורה כתובות (addr) וערך הקוד ההקסדצימלי של הפיקסל.
- הפורמט :

```
WIDTH=8;  
DEPTH=784;  
ADDRESS_RADIX=UNS;  
DATA_RADIX=HEX;  
CONTENT BEGIN  
0 : 3F;  
1 : 12;  
...  
783 : 7A;  
END;
```

: (Weights - משקלים wq80.mif

- המטריצה המקורית של המשקלים היא בגודל  $784 \times 10$  (10 מחלקות  $\times$  784 פיקסלים).
- לאחר כימות, כל משקל מיוצג ב-8 בית (int8).
- לצורך ייעול הקריאה בחומרה, נארזים כל 10 המשקלים המתאימים לפיקסל נתון יחדיו למילה אחת ברוחב 8 בית, באופן שבו מיקום כל 8 סיביות במילה מוגדר מראש למחלקה מסוימת:
  - [7: 0] - המשקל של מחלקה 0
  - [15: 8] - המשקל של מחלקה 1
  - ...
  - [79: 72] - המשקל של מחלקה 9
- הקובץ מכיל 784 שורות (עומדה אחת לכל פיקסל), בכל שורה מילה אחת של 80 בית (מיוצגת כ-20 תווים הקסדצימליים).

- הפורמט :

```
WIDTH=80;  
DEPTH=784;  
ADDRESS_RADIX=UNS;  
DATA_RADIX=HEX;  
CONTENT BEGIN  
0 : 00FF80...;  
...  
783 : 1122AA...;  
END;
```

: (Biases - הטוות bstar320.mif

- לכל אחת מ-10 המחלקות יש הטיה (Bias) ב-32 סיביות (int32).
- כל הטוות נארזות יחד למילה אחת של 320 ביט, כך שכל 32 סיביות במילה מייצגות את הטיה של מחלוקת אחת:
  - 0 Bias - [31: 0] למחלוקת 0
  - 1 Bias - [63: 32] למחלוקת 1
  - ...
  - 9 Bias - [319: 288] למחלוקת 9
- עומק הקובץ הוא 1 בלבד, שכן מדובר בסט ייחיד של 10 הטוות.
- הפורמט :

```
WIDTH=320;  
DEPTH=1;  
ADDRESS_RADIX=UNS;  
DATA_RADIX=HEX;  
CONTENT BEGIN  
00 : 0AABBCC...FFEEDD;  
END;
```

### 3.2.5 מימוש מודל רשת הנוירונים בסביבת חומרה

בשלב זה בוצע מימוש חומרתי של שלב ההסתה (Inference) על גבי רכיב ה-FPGA. המימוש התבוסס על עקרונות הפעולה של המודל המאומן, תוך התאמתו לייצוגים בדידים (Fixed-Point) ולמבנה מקבילי האופייני ל-FPGA.

התכנון בוצע במבנה מודולרי, כאשר כל רכיב פותח כמנוע עצמאי, נבדק בסימולציה (ModelSim) ולאחר מכן שולב במערכת המלאה. גישה זו מאפשרת לוודא את נכונות הפעולה של כל בלוק עוד לפני אינטגרציה מלאה, ולפנות את תהליך הדיבוג.

באיור 16 מוצג תרשים בלוקים סכמטי של הארכיטקטורה הכללית של המערכת, המתאר את רכיבי הליבה ואת הקשרים ביניהם. בהמשך מפורטים הרכיבים השונים :

- **רכיבי זיכרון (ROM/BRAM)** - שלושת קבצי-h-MIF (קלט, משקלים, הטוות) נתונים לזכרון פנימי ומספקים נתונים קלט לחישובים.
- **רכיב MAC** - ייחדות Multiply-Accumulate למימוש החישוב המשוקל עבור כל נוירון מחולקה.
- **רכיב FSM** - מכונת מצבים לניהול רצף הפעולות : קריית קלט, חישוב MAC והוספה, בבחירה פלט, Bias.
- **רכיב ArgMax** - בלוק לבחירת המחלקה בעלת הערך הגבוה ביותר מתוך עשרה הנוירונים בשכבה הפלט .
- **רכיב Counter** - רכיב לספירת מחזורי שעון וזמן הביצוע הכלול של תהליך ההסתה.
- **רכיב Decoder 7-Segment** - ממיר את ערך הפלט הסופי (0-9) לקוד תואם תצוגת 7 ומאפשר הצגת התוצאה בזמן אמיתי על לוח ה-FPGA.



איור 16 - תרשים בלוקים של הארכיטקטורת הכללית למימוש החומרתי

### 3.2.5.1 VHDL (Packages)

במערכת הוגדרו שתי חבילות VHDL ייעודיות, שמטרתן לארגן את ההגדרות והפונקציות המשותפות לכל רכיבי המימוש:

- חבילת types\_pkg המופיעה באיוור 17- מרכזת את ההגדרות הבסיסיות:
  - קבועים (כגון מספר המחלקות וגודל הקלט).
  - תת-טיפוסים (Unsigned 8-bit, Signed 8-bit, Unsigned 32-bit, Signed 32-bit).
  - טיפוסים וקטורים (וקטור משקלים באורך 10, וקטור Accumulator באורך 10).

```

package types_pkg is
    constant CLASSES : integer := 10;
    constant PIXELS : integer := 784; -- 28*28

    subtype x_t is unsigned(7 downto 0); -- input pixel: 0..255
    subtype w_t is signed(7 downto 0); -- weight: -128..127 (int8)
    subtype acc_t is signed(31 downto 0); -- accumulator (int32)

    type w_vec_t is array (0 to CLASSES-1) of w_t;
    type acc_vec_t is array (0 to CLASSES-1) of acc_t;

end package;

package body types_pkg is end package body;

```

אייר 17 - קוד חבילת types\_pkg בשפת VHDL

- חבילת pack\_utils המופיעה באיוור 18- מרכזת פונקציות עזר (Utilities) לניטוח ופרשנות של נתונים הזיכרון:

- פונקציה slv80\_to\_wvec - ממירה מילה אחת של 80 ביט ( $10 \times 8$ ) לוקטור משקלים שלם.
- פונקציה slv320\_to\_accvec - ממירה מילה אחת של 320 ביט ( $32 \times 10$ ) לוקטור החטיות.

פונקציות אלו מפשטות את הקוד ברכיבי המימוש, בכך שכל רכיב ניגש ישירות לערכאים מבלי לעסוק בפירוק מחרוזות ביטים.

```

package pack_utils is
    function slv80_to_wvec(s : std_logic_vector(79 downto 0)) return w_vec_t;
    function slv320_to_accvec(s : std_logic_vector(319 downto 0)) return acc_vec_t;
end;

package body pack_utils is
    -- [8*i+7 : 8*i] = weight of class i, i=0..9
    function slv80_to_wvec(s : std_logic_vector(79 downto 0)) return w_vec_t is
        variable r : w_vec_t;
    begin
        for i in 0 to 9 loop
            r(i) := signed(s(8*i+7 downto 8*i));
        end loop;
        return r;
    end;

    -- [32*i+31 : 32*i] = bias of class i, i=0..9
    function slv320_to_accvec(s : std_logic_vector(319 downto 0)) return acc_vec_t is
        variable r : acc_vec_t;
    begin
        for i in 0 to 9 loop
            r(i) := signed(s(32*i+31 downto 32*i));
        end loop;
        return r;
    end;
end;

```

אייר 18 - קוד חבילת pack\_utils בשפת VHDL

#### יתרונות השימוש בחבילות :

- מודולריות ואחדות : כל הרכיבים במערכת משתמשים באותו טיפוסים והגדירות.
- פשוטות תחזקה : שינוי ברוחב יציג או במספר המחלקות דרוש עדכון במקום אחד בלבד.
- קוד קרייא ומסודר : הפונקציות מושתנות בחבילה, והרכיבים עצם נראים "נקאים" ופשוטים יותר.

#### שילוב החבילות בארכיטקטורה :

החבילות אינן רכיבי חומרה פיזיים בפני עצמן, אלא משמשות כשכבה תשתיית לוגית התומכת בכלל המערכת ("Library Layer")

- מבטיחה אחדות פורמטים לכל הרכיבים types\_pkg
- מאפשרת לרכיבים, בעיקר זיכרון ו-MAC, לפרש נתונים גולמיים מקבצי ה-.MIF pack\_utils

### 3.2.5.2 רכיב xq\_rom8

شرطוט RTL:



איור 19 - סכמת RTL חיצונית של רכיב xq\_rom8



איור 20 - סכמת RTL פנימית של רכיב xq\_rom8

מטרת הרכיב בארכיטקטורה:

הרכיב משמש לאחסון תמונות הקלט (784 פיקסלים בגודל  $28 \times 28$ ). הפיקסלים מאוחסנים מראש בקובץ זיכרון מסווג `xq_imag.mif` ומסופקים לרכיב ה-MAC ליפוי כתובות הנדרשת בכל מחזור שעון.

כניות ויציאות:

לרכיב 2 כניות ויציאה 1.

הכניות הן :

- clk - אות שעון, המשמש לקריאה נתוניים סינכרוניים.
- addr - כתובת (10 ביט, 0-783) המיצג את אינדקס הפיקסל הרצוי.

היציאה היא :

q - יציאת נתון (8 ביט) המכילה את ערך הפיקסל שנקרא מהזיכרון.

## לוגיקת הרכיב:

- הזיכרון מוגדר כסוג `z_mem`, מערך של 784 תאים, כל אחד ברוחב 8 ביט.
- ייחוס לattribut `ram_file_init` מאפשר את טיעינת התוכן מקובץ `hq_imag.mif` בזמן סינטזה/צריבה.
- הקריאה מתבצעת באופן סינכרוני : בכל חזית עולה של השעון (`(clk)`) הערך המתאים לכנתובת הנוכחית (`addr`) נתען לרגיסטר פנימי (`r_q`).
- היציאה `q` מקבלת את הערך הרשום ברגיסטר, ולכן קיימת השהיה של מחזור שעון אחד (`latency = 1`).

בשימושי FPGA, רכיבי זיכרון פנימיים (BRAM/ROM) יכולים להיות מאותחלים מראש באמצעות קבצי MIF. גישה זו מאפשרת להגדיר את תוכן הזיכרון כבר בשלב הסינטזה, כך שזמן טיעינת ה-bitstream אל ה-FPGA, בלוקי הזיכרון הפנימיים מאותחלים באופן אוטומטי.

במערכת זו, תמונה הקלט נעה מראש מקובץ `mif.q` אל תוך זיכרון פנימי מסונכרן (Sync ROM). כתוצאה לכך, הרכיב מסוגל לספק לכל מחזור שעון את ערך הפיקסל המתאים לפי הכתובת שנשלחת אליו, מוביל להזדקק לתקשורת חיצונית או לבקר זיכרון נוספים.

## יתרונות שיטה זו :

- **יעילות חומרתית** - שימוש במשאבי BRAM ייעודיים של ה-FPGA במקום בלוגיקה כללית.
- **נגישות מיידית** - הנתונים זמינים כבר עם תחילת הפעולה של המערכת, ללא צורך בתהיליך טיענה בזמן ריצה.
- **קביעות (Determinism)** - התוכן קבוע מראש, מה שמאפשר בדיקות חוזרות ונשנות בתנאים זהים.
- **ביצועים** - קריאת נתונים מתבצעת בקצב השעון של ה-FPGA, עם השהיה קבועה של מחזור אחד בלבד.

באופן זה, רכיב הזיכרון מהוועה שכבת בסיס במערכת : הוא מספק את נתונים הקלט לרכיב ה-MAC בדיק ובהירות, תוך הסתמכות על התשתייה הפנימית של ה-FPGA לטיעינת נתונים מראש.

### 3.2.5.3 רכיב Rom80

شرطוט RTL:



איור 21 - סכמת RTL חיצונית של רכיב Rom80



איור 22 - סכמת RTL פנימית של רכיב Rom80

מטרת הרכיב בארכיטקטורה:

הרכיב משמש לאחסון מטיריצת המשקלים של המודל המאומן. לכל אחד מ-784 הפיקסלים יש וקטור משקלים בגודל 10 (אחד לכל מחלקה), כאשר כל משקל מיוצג ב-8 ביט. כדי ליעיל את הקרייה בחומרה, הוקטור כולם נארז למילה אחת ברוחב 80 ביט ( $10 \times 8$ ). הרכיב מספק בכל מחזור שעון את הוקטור המתאים כתובות הנדרשת.

כניות ויציאות:

לרכיב 2 כניות ויציאה 1.

הכניות הן:

- clk - אות שעון, המשמש לקריאת נתונים סינכרונית.
- addr - כתובת (10 ביט, 3-783) המייצגת את אינדקס הפיקסל.

היציאה היא:

- q - יציאה (80 ביט) המכילה את כל עשרה המשקלים של הפיקסל הנבחר, באריזה צפופה ( $w_0!...w_9$ ).

לוגיקת הרכיב:

- הזיכרון מוגדר כסוג `z_mem`, מערך של 784 תאים, כל אחד ברוחב 8 ביט.
- יחש לattribut `ram_init_file` מאפשר את טיעינת התוכן מקובץ `h-q80.mif` בזמן סינטזה/צריבה.
- קראיה מתבצעת באמצעות סינכרוני: בכל חזית עולה של השעון (`rising_edge(clk)`) הערך המתאים לכנתובת הנוכחית (`addr`) נטען לרегистר פנימי (`r_q`).
- הייצאה `q` מקבלת את הערך הרשום ברגיסטר, ולכן קיימת השהיה של מחזור שעון אחד (`latency = 1`).

טיענת זיכרון משקלים:

השימוש בזכרון פנימי (BRAM/ROM) מאפשר לאחסן מראש את כל המשקלים הSTATIC של המודול המאומן. מבנה האריזה ( $10 \times 8$  ביט  $\rightarrow$  80 ביט) נבחר כדי להתאים למימוש מקבילי: ברגע קריאת פיקסל, כל המשקלים הדרושים לעשר המחלקות זמינים בו-זמנית לריבב MAC. בכך נחסך הצורך בגישה סדרתית או במבנה בקרה מורכב, והמערכת משיגה יעילות גבוהה בזמן ריצה.

### 3.2.5.4 רכיב bstar\_rom320

شرطוט RTL:



אייר 23 - סכמת RTL חיצונית של רכיב bstar320



אייר 24 - סכמת RTL פנימית של רכיב bstar320

מטרת הרכיב בארכיטקטורה:

הרכיב משמש לאחסון הטעיות (Biases) של המודל המאומן. קיימת הטיה אחת לכל מחלוקת (סה"כ 10 מחלוקת), כאשר כל הטיה מיוצגת ב-32 ביט. כל הטעיות נארזות יחד למיליה אחת ברוחב 320 ביט ונסמורות בקובץ ויכרין `bstar320.mif`. הקריאה מתבצעת פעם אחת בלבד, והוקטור המלא של הטעיות מסופק במקביל לרכיב ה-MAC לצורך השלמת חישוב הפלט.

כניות ויציאות:

לרכיב כניסה 1 ויציאה 1.

הכניסה היא:

- `clk` - אות שעון, המשמש לקריאה סינכרונית.

היציאה היא:

- `q` - יציאה (320 ביט) המכילה את כלל הטעיות ( $10 \times 32$  ביט), מסודרות באריזה אחת.

לוגיקת הרכיב:

- הזיכרון מוגדר כמערך בגודל 1 (t\_mem), מכיוון שכל ההיוט מואחסנות במלה בודדת ברוחב 320 ביט.
- שימוש באטריבוט ram\_init\_file מאפשר טעינה אוטומטית של התוכן מקובץ ה-.bstar320.mif בזמן סינטזה/צריבה.
- קריאה מתבצעת באמצעות סינכרוני: בכל חזית עולה של השעון (rising\_edge(clk)), הערך מאוחסן ברגיסטר פנימי (z\_q) ומוזרם ליציאה q.
- היציאה q מקבלת את הערך הרשום ברגיסטר, ולכן קיימת השהיה של מחזור שעון אחד (latency = 1).

טעינת זיכרון : Biases

באופן זה, כל ההיוט זמיןות בו-זמנית ל-10 המחלקות השונות. זה מאפשר הוספה מקבילה של h-Bias לכל וקטור תוצאה שהצטבר ברכיב ה-MAC. הבחירה באפשרות של כל ההיוט למילוי אחת ברוחב 320 ביט משקפת את הגישה המקבילה של ה-FPGA וmpshtat את משקל הקריאה מהזיכרון.

### mac10 רכיב 3.2.5.5

شرطוט RTL



איור 25 - סכמת RTL חיצונית של רכיב mac10



איור 26 - סכמת RTL פנימית של רכיב mac10

מטרת הרכיב ארכיטקטורה :

הרכיב מלהווה את הליבה החישובית של המערכת, ובאמצעותו מבצע חישוב סכום משוקל של הפיקסלים עם המשקלים, כולל הטוות.

הרכיב אחראי לבצע את חישובי המכפלה חיבור (MAC) עבור כל עשרה הנוירונים בשכבה הפלט של הרשת.

בכל מחזור שעון מוזן פיקסל יחיד ( $q_x$ ), מוכפל בעשרה המשקלים המתאימים לו ( $w_q$ ), ותוצאת המכפלה מצטברת לאוגרי הביניים (Accumulators).  
בנוסף, בתחילת התהליך ניתן לטען את ערכי ההטיות ( $b_{star}$ ) ישירות לאוגרים.

כניות ויציאות :

לרכיב 7 כניות ויציאה 1.

הכניות הן :

- $clk$  - אות שעון, המשמש לקריאת נתונים סינכרוניים.
- $rst_n$  - איפוס סינכרוני פעיל נМОך.
- $load_bias$  - אות בקרה המורה לטען את ערכי ההטיות לאוגרים.
- $en$  - אות בקרה המפעיל חישוב MAC עבור פיקסל בודד.
- $q_x$  - ערך הפיקסל הנוכחי (8 ביט).
- $w_q$  - וקטור של 10 משקלים תואמים לפיקסל ( $10 \times 8$  ביט).
- $b_{star}$  - וקטור ההטיות ( $10 \times 32$  ביט).

היציאות הן :

- $acc\_out$  - וקטור של 10 אוגרים (Accumulators), כל אחד ברוחב 32 ביט, המכילים את הסכום המצטבר.

לוגיקת הרכיב :

- בעת איפוס ( $rst_n = 0$ ), כל האוגרים מאוחלים ל-0.
- כאשר  $load\_bias=1$ ,  $acc\_out$ ,  $w_q$  מטענים ערכי ההטיות ( $b_{star}$ ) ישירות אל האוגרים.
- כאשר  $en=1$ :
  - ערך הפיקסל ( $q_x$ ) מומר ל-16 ביט signed.
  - כל משקל ( $w_q$ ) מומר ל-16 ביט signed.
  - מבוצעת מכפלה ( $(q_x * w_q)$  המורחבת ל-32 ביט).
  - התוצאה מצטברת לערך הקודם באוגר ( $acc$ ).

- כל פעולה MAC מתחכמת במחזורי שעון יחיד. בסיום 784 מחזוריים (מספר הפיקסלים בתמונה), מתקבל בוקטור האוגרים ( $out\_acc$ ) הסכום המשוקל הסופי עבור כל אחת מעשר המחלקות.

**משמעות חישובית :**

לאחר 784 מחזורי שעון, מתקבל וקטור Logits ברוחב 10, כאשר כל תא מייצג את "ציון הסיווג" עבור מחלוקת מסוימת. שלב זה משלים למעשה את חישוב שכבת הפלט של רשת הנירונים במימוש חומרתי.

**יתרונות המימוש :**

- **מקביליות :** כל 10 המכפלות מתחכמות באותו מחזור שעון, מה שמנצל היבט את היכולות המקבילות של ה-FPGA.
- **מודולריות :** רכיב עצמאי, ניתן לשלב אותו בארכיטקטורות אחרות של MLP.
- **יעילות :** ייצוג Fixed-Point int8 ( עבור משקלים, int32 עבור סכימה) חוסך משאבים לעומתFloating-Point.

**אימות וסימולציה :**

**מטרה :**

לאמת את פעולה רכיב ה-MAC10 כולל 10 נתבי חישוב מקבילים, ולודא נכונות הצבירות הערכים תחת תרחישים שונים.

**תרחישי בדיקה :**

- **איפוס -** בדיקה שככל האוגרים מאותחלים ל-0.
- **טעינת Bias -** בדיקה שככל ערכי ההטייה נטענים לאוגרים במחזור בודד.
- **חישוב מצטבר -** בדיקה שפיקסל מוכפל בכל אחד מהמשקלים, וההתוצאה מצטברת נכון לאוגרים.
- **תנאי קצה -** ערכים קבועים ( $x=255, q=0, משקל \pm 127$ ) כדי לוודא פועלה תקינה ללא חריגות.

בכל התרחישים הפלטים תאמו במדוקיק לערכים הצפויים. נצפה עיכוב של מחזור אחד (latency=1), והצבירות הערכים התחכעה כמצופה לכל 10 הנתבים במקביל.

בສימולציה ניתן לראות כי בתחילת האותות מופיעים כבלתי מאוחלים (U, מסומן באדום), מצב זה תקין ונובע מכך שהאוגרים עדין לא עברו את חול. לאחר הפעלת האיפוס וטיענת ערכי-h-Bias, מתקבלת יציבות באותות. באיור 27 ניתן לראות את שלב טיענת ההטיות (Bias) אל תוך האוגרים, ואילו באיור 28 מחוור שעון לאחר מכן - ניתן לראות כי ערכי האוגרים (acc) אכן הוענו בהצלחה מתוך זיכרונו ההטיות.



אייר 27 - סימולציה של טיענת Bias



אייר 28 - סימולציה של טיענת ערכי האוגרים (acc)

### רכיב 3.2.5.6 argmax10

شرطוט RTL



איור 29 - סכמת חיצונית של רכיב *RTL* argmax10



איור 30 - סכמת פנימית של רכיב *RTL* argmax10

מטרת הרכיב ארכיטקטורתית:

הרכיב אחראי לבחירת התוצאה הסופית של הסיווג - ככלומר, לאתר את האינדקס של הנוירון בעל הערך הגבוה ביותר מתחום וקטור הפלט ( $in\_acc$ ). אינדקס זה מייצג את הספרה (0-9) שסופה על ידי המערכת.

כניות ויציאות:

לרכיב 4 כניות ויציאות 2.

הכניות הן:

- $clk$  - אות שעון, המשמש לקריאת נתונים סינכרונית.
- $in\_rst$  - איפוס סינכרוני פעיל נמוך.
- $start$  - פולס בקרה בן מחזור אחד, מתחילה את תהליך החיפוש.
- $acc\_in$  - וקטור של 10 ערכים חתומים (32bit), תוצאות המתקבלות מהרכיב MAC.

היציאות הן:

- $done$  - פולס בקרה בן מחזור אחד, מאותת שהתוצאה מוכנה.
- $digit\_idx$  - אינדקס (4 ביט) של הערך המקסימלי, כלומר הספרה שסופה.

לוגיקת הרכיב:

- בעת איפוס ( $rst\_n=0$ ) מאופסים כל האוגרים הפנימיים.
- כאשר  $start=1$  והרכיב פנווי ( $busy=0$ ), מתחילה סריקה: הערך הראשון ( $in(0)$ ) נשמר כערך מקסימום ראשוני.
- בכל מחזור שעון נבדק ערך נוסף מ- $(i+1)_{in\_acc}$  מול הערך המקסימלי הנוכחי:
  - אם הערך החדש גדול יותר הוא נבחר כ- $max$  ומעודכן האינדקס.
  - אם הערך שווה נשמר הערך הראשון ("First Max Wins").
- לאחר סריקת כל 10 הערכים, הפלט  $digit\_idx$  נרשם, ויוצא פולס  $done$  למחזור אחד.

משמעות חישובית:

- לאחר 10 מחזוריים (מספר הכניות = 10),  $digit\_idx$  מכיל את הספרה הסופית שסופה.
- רכיב זה למעשה מממש את שלב ArgMax שבציעם בסוף כל רשת נוירונים לצורך המרת  $logits$  לתווית ( $label$ ).

יתרונות המימוש :

- פשוטות ויעילות : הרכיב סורק את הערכים באופן סדרתי לאורך 10 מוחזרים בלבד.
- התאמה לארכיטקטורה : מאפשר חיבור ישיר לוקטור הפלט של רכיב ה-MAC, ומוציאה תוצאה נקייה לשלב התצוגה (Decoder 7-Segment).

אימות וסימולציה :

מטרה :

לאמת את פעולה רכיב ה-argmax10 שבודח את הערך המקסימלי מתוך עשרה הערכים (acc\_in) ולודא שהאינדקס המוחזר (digit\_idx) ואות הסיום (done) תקין.

תרחישי בדיקה :

- איפוס - בדיקה שכל הערכים מאותחלים, והפלט digit\_idx חזר ל-0.
- מקסימום ייחודי - כאשרعروץ אחד גדול מכלם (למשל  $index=1$ ), נבדק שהפלט מוחזר את אותו אינדקס.
- ערכים שליליים - נבדק שהרכיב מזהה נכון את הערך ה"פחות שלילי" כמקסימום (למשל  $index=-3$ ).
- מדרג עולה - סדרה 0..9, נבדק שהפלט הוא  $index=9$ , הערך הגבוה ביותר.
- שוויון ערכים (tie) - בדיקה עם ערכים זהים ביותר מערוץ אחד, ונבדק שהמדיניות אכנן מיושמת והאינדקס הנמוך יותר נבחר.

בסימולציה באירור 31 ניתן לראות כי בתבילה האותיות מופיעים במצב בלתי מאותחל (U, באדום) תופעה תקינה הנובעת מכך שהאוגרים טרם עברו איפוס. לאחר הפעלת אותן האיפוס וטעינת ערכי Bias, מתקבלת יציבות באוטות. בשל זה הוזנו לכניסה מוו acc\_in כערך 101...00000000000000000000000000000000, כאשר הערך המקסימלי הוגדר באינדקס 1. לאחר סריקה מלאה של כל עשרה הערכים, בתום 10 מוחזורי שעון, ניתן לראות כי הפלט digit\_idx מתיצב על הערך 1, ואות done מונף ל-1 למשך מחזור שעון יחיד - דבר המਸמן שהתוצאה זמינה ומאשר כי הרכיב פועל כמצופה.



אייר 31 - סימולציה של קבלת הערך המקסימלי

### רכיב controller\_fsm

شرطוט RTL



אייר 32 - סכמת חיצונית של רכיב RTL controller\_fsm



אייר 33 - סכמת פנימית של רכיב RTL controller\_fsm

מוכנת מצבים :



איור 34 - דיאגרמת מוכנת מצבים

מטרת הרכיב בארכיטקטורה :

רכיב ה-Controller FSM משמש כיחידת הבקרה המרכזית של המערכת. הוא מותזמן את הפעולות של כל שאר הרכיבים (ROM, MAC, ArgMax) ומנהל את רצף שלב ההසקה (Inference) מתחילה ועד סוף.

באמצעות מוכנת מצבים סופית (FSM - Finite State Machine), הרכיב מוודא שכל שלב מתבצע בסדר הנכון : טיענת התיוות, עיבוד הפיקסלים, ובסוף בחירת המחלקה בעלת הערך הגבוה ביותר.

כניסות ויציאות :

לרכיב 4 כניסה ויציאה 5.

הכניסות הן :

- clk - אות שעון סינכרוני לכל פעולות הבקרה.
- rst\_n - איפוס סינכרוני פעיל נמוך, מחזיר את ה- FSM למצב התחלתי.
- start\_in - פולס ייחד לפתיחת ריצת אינפראנס חדשה.
- arg\_done - אות מה-ArgMax שמודיע שהחישוב הושלם.

היציאות הן :

- addr - כתובת לקריאת פיקסלים מזיכרון הקלט.
- load\_bias - פולס חד-פעמי בתחלת התהילה לטעינת התיוות.
- en - אות בקרה להפעלת יחידת MAC עבור כל פיקסל.
- arg\_start - פולס חד-פעמי להתחלה פעולה ה-ArgMax לאחר סיום סריקת הפיקסלים.
- done\_out - אות סיום גלובלי, מסמן שהמערכת סיימה מחזור מלא של אינפראנס.

לוגיקת הרכיב:

הרכיב מבוסס על FSM עם המצבים הבאים:

|                    |            |    |
|--------------------|------------|----|
| .start_in          | S_IDLE     | .1 |
| .S_LOAD_BIAS       | S_IDLE     | .2 |
| .ROM               | S_PRIME    | .3 |
| .S_STREAM          | S_PRIME    | .4 |
| .ArgMax            | S_ARG_KICK | .5 |
| .ArgMax (arg_done) | S_ARG_WAIT | .6 |
| .done_out          | S_IDLE     | .7 |
|                    | S_DONE     |    |

: S\_STREAM

במצב זה מתבצעת קריאה סדרתית של כל פיקסל התמונה המאוחסנים בזיכרון הקלט (ROM). בכל מחזור שעון אותן הכתובות (addr) מוגדל ביחידת אחת, כך שנראה הפיקסל הבא מתוך התחום 0-783 (סה"כ 784 פיקסלים). באופן זה נוצר רצף נתונים סינכרוני: בכל מחזור מזמן ערך פיקסל חדש לרכיב ה-MAC, במקביל לעשרות המשקלים המתאים לו. קריאה סדרתית זו מבטיחה כי כל הפיקסלים יעברו תהליך חישוב מלא, כך שבסיסים הזורמים יכולים אוגרי הצבירה (Accumulators) את הסכום המשוקל הסופי עבור כל אחת מעשר המחלקות.

משמעות חישובית:

הרכיב מבטיח שכל שלבי תהליך ה-Inference יתבצעו בצורה מותזנת:

- כל פיקסל מזמן בדוק במחזור המתאים.
- התיוות נתונות רק פעם אחת בתחילת החישוב.
- ה-ArgMax מושפע רק אחרי שכל הנתונים עובדו.
- מקבלת שליטה מלאה על תהליך הסיווג, עם סינכרון בין כל הרכיבים.

יתרונות המימוש :

- מודולריות: כל יחידת חישוב (ROM, MAC, ArgMax) עובדת עצמאית, וה-FSM מחבר ביניהן.
- בקלה פשוטה: כל המצבים מוגדרים בבירור ומקלים על דיבוג בסימולציה.
- התאמה לחומרה: FSM הוא מגנון סטנדרטי לניהול זרימה בארכיטקטורות FPGA.

אימות וסימולציה :

מטרה :

לאמת את פועלת רכיב ה-fsm האחראי על ניהול רצף החישוב : טעינת ה-Bias, קריאת הפיקסלים מה-ROM, הפעלת ה-MAC, והעברת הבקרה לבlok ה-ArgMax.

תרחישי בדיקה :

- איפוס - בדיקה שהמצב ההתחלתי הוא S\_IDLE, הכתובת מאותחלת ל-0, ואין אותן בקרה פעילים.
- טעינת Bias - בדיקה שאות load\_bias מונף למחוזר בודד מיד לאחר קבלת אות start\_in.
- שלב STREAM - בדיקה שאות en נשאר במצב פעיל במשך כל מחזורי הזרימה, ושהכתובת (addr) עולה ברצף מ-0 ועד DEPTH-1.
- מעבר ל-ArgMax - בתום קריאת כל הפיקסלים, נבדק שה-FSM מפיק פולט בקרה arg\_start למשך מחוזר אחד בלבד.
- סיום - לאחר קבלת אות arg\_done מהרכיב ArgMax, נבדק שה-FSM מעלה את אות done\_out, ומוחזר את המערכת למצב S\_IDLE,.done\_out

בסימולציה באירור 35 ניתן לראות כי לאחר מתן פולט התחלת (start\_in), ה-FSM פועל לפי כל שלבי הבקרה שהוגדרו : תחילת מופק פולט load\_bias לטעינת החטיות, לאחר מכן מתחלש שלב STREAM שבו האות en נשאר פעיל לאורך כל הקראיה. במקביל, הכתובת (addr) עולה ברצף מ-0 ועד לערך הסופי (במקרה זה DEPTH=8). עם סיום הפעולה מופק פולט ייחיד של arg\_start, ולאחר קבלת arg\_done מונף האות done\_out, המסמך את סיום התהליך.

התוצאה מראה שהאותות הופיעו בבדיקה במוחורי השעון הצפויים, כל שלבי הרץ בסדר הנכון, והרכיב חזר למצב S\_IDLE בסיום הפעולה.



אייר 35 - סימולציה של FSM

### 3.2.5.8 רכיב cycle\_counter

شرطוט RTL:



איור 36 - סכמת RTL חיצונית של רכיב cycle\_counter



איור 37 - סכמת RTL פנימית ורכיב cycle\_counter

מטרת הרכיב בארכיטקטורה:

הרכיב משמש למדידת זמן הביצוע של שלב ההסעה (Inference) על גבי ה-FPGA. הוא סופר את מספר מחזורי השעון העוברים בין תחילת התהליך (Start) לסיומו (Done). נטו זה מאפשר להעריך את יעילות המימוש החומרתי מבחן זמן ריצה והשוואה מול מימוש תוכני.

כניות ויציאות:

לרכיב 4 כניות ויציאה 1.

הכניות הן:

- clk - אות שעון, המשמש כסנסורון למספרה.
- rst\_n - איפוס סינכרוני פעיל-نمוך, מאפס את המונה ואת מצב הספירה.
- start\_in - פולס של מחזור אחד, מסמן את תחילת המדידה.
- done\_in - פולס של מחזור אחד, מסמן את סיום המדידה.

היציאה היא:

- led\_o[17..0] - וקטור פلت (18 ביט) המציג את מספר מחזורי השעון שנספרו, בהמשך באמצעות לדים פיזיים על גבי הלוח.

## לוגיקת הרכיב:

- כאשר  $t_{rst} = 0$ , המונה מותאמת והספרה נעצרת.
- כאשר מתקבל פולס  $t_{start\_in}$ , מופעל מצב ספירה (counting=1), והמונה מאותחל ל-0.
- כל עוד  $t_{counting} = 1$  :
  - אם מתתקבל פולס  $t_{done\_in}$ , הספרה נעצרת ( $t_{counting} = 0$ ).
  - אחרת, המונה גדל ב-1 בכל חזית עולה של השעון.
- היציאה  $t_{led\_o}$  משקפת תמיד את ערך המונה הנוכחי.

## משמעות חישובית:

הערך הסופי של המונה מייצג את זמן הריצה (Latency) של כל תהליך ה-Inference ביחידות של מחזורי שעון. באמצעות ערך זה ניתן להעריך את ביצועי הארכיטקטורה בפועל, להשוות בין תצורות שונות, ולכמת את היתרון של יישום החומרה לעומת המימוש התוכני.

## אימות וסימולציה:

### מטרה:

לאמת את פעולת רכיב ה-`cycle_counter`, שמודד את מספר מחזורי השעון בין האותות  $t_{start\_in}$  ו- $t_{done\_in}$ , ולודא שהספרה נכונה והפלט  $t_{led\_o}$  תואם למספר המוחזרים בפועל.

### תרחישי בדיקה:

- איפוס - בדיקה שהמונה מאותחל ל-0 כאשר  $t_{rst} = 0$ .
- ספירה בסיסית - הפעלת  $t_{start\_in}$ , המתנה למספר ידוע של מחזורי שעון (למשל 10), ולאחר מכן הפעלת  $t_{done\_in}$ . נבדק שהפלט  $t_{led\_o}$  שווה למספר המוחזרים שחלפו.
- דיווק עצירה - אימוטה שהמחזור שבו  $t_{done\_in}$  מתקיים אינו נספר (כפי שמוגדר במפרט).
- בדיקת יציבות - בדיקה שהמונה נשאר קבוע לאחר  $t_{done\_in}$  ואינו ממשיך לספור.

בסימולציה באירור 38 ניתן לראות כי לאחר הפעלת אותן האיפוס ( $t_{rst}$ ), המונה מאותחל ל-0. עם מתן פולס התחילה ( $t_{start\_in}$ ), המונה החל למספר מחזורי שעון. לאחר 10 מחזורים הוזן פולס סיום ( $t_{done\_in}$ ), ובעקבותיו נעצרה הספרה והפלט  $t_{led\_o}$  הציג את הערך 10, בדיקות כמפורטה. תוצאה זו מאשרת שהרכיב סופר מחזורי שעון בצורה נכונה ומפסיק את הספרה ברגע קבלת אות הסיום.



אייר 38 - סימולציה של ספירת המוחזרים

### decoder\_4to7 רכיב 3.2.5.9

שרטוט RTL:



אייר 39 - סכמת RTL חיצונית של רכיב 7



אייר 40 - סכמת פנימית של רכיב 7 RTL

מטרת הרכיב בארכיטקטורה:

הרכיב משמש כמודול תצוגה סופי, אשר ממיר את הפלט המספרי (9-0) שהתקבל מרכיב ה-ArgMax לקוד מתאים עבור תצוגת 7-Segment. בדומה זו, ניתן להציג באופן חזותי על גבי הלווח את הספרה שסועגת על ידי רשות הנוירונים.

כניסות ויציאות :

לרכיב כניסה 1 ויציאה 1.

הכניסה היא :

- A - כניסה קוד בינארי ברוחב 4 ביט (unsigned), מייצגת את האינדקס שנבחר על ידי רכיב ה-ArgMax.(0-9).

היציאה היא :

- Y - יציאת קוד ברוחב 7 ביט, מייצגת את הדלקת/כיבוי הסגמנטים של התצוגה ה-7-Segment.

לוגיקת הרכיב :

- המימוש מבוסס על case statement :
  - כל ערך אפשרי של A ("0000" עד "1001") מוגדר פלט Y מתאים אשר מדליק את הסגמנטים הדרושים להציג הספרה המתאימה (0-9).
  - כאשר מקבל ערך שאינו בתחום התקין, הפלט Y מוגדר כ-"1111111" (מצב BLANK, כולם כיבוי מלא של התצוגה).

לדוגמה :

- עבור "A=""0000", Y=""1000000" - מוצגת הספרה 0.
- עבור "A=""0001", Y=""1111001" - מוצגת הספרה 1.
- עבור "A=""0010", Y=""0100100" - מוצגת הספרה 2.



Figure 4-10 Connections between the 7-segment display HEX0 and Cyclone IV E FPGA

אייר 4-41 - מיפוי קווי האותנות בין תצוגת HEX0 לבין רכיב ה-Cyclone IV E FPGA

משמעות חישובית :

רכיב זה אינו משפיק על חישוב הסיווג עצמו, אלא מהווע שכבת משק למשתמש (Output Interface). באמצעותו ניתן לוודא בזמן אמיתי שהפלט של המערכת החומרנית אכן توأم את התוצאה הצפואה, בצורה פשוטה ונגישה לעין.

top\_mnist\_fc 3.2.5.10

شرط : RTL



איור 42 - סכמת *RTL* חיצונית של רכיב *fc*



איור 43 - סכמת *RTL* פנימית של רכיב *top\_mnist\_fc*

## מטרת הרכיב בארכיטקטורה:

הרכיב מהווה את הלבת המרכזית של המערכת כולה. הוא משלב בתוכו את כל רכיבי המשנה (Inference) (ROMs, MAC, ArgMax, FSM, Counter, Decoder) ויציר את שרשרת ההසקה (FPGA). המלאה על גבי ה-FPGA.

כניסות ויציאות :

לרכיב 2 כניסה ויציאה 3.

הכניסות הן :

- `clk` - אות השעון הראשי של המערכת, המשמש לסyncron פועלת כל הרכיבים.
- `ch_rst` - אות איפוס סינכרוני, פעיל נמוך. כאשר האות במצב '0', כל הרכיבים מאותחלים לערכי ברירת מחדל, והמערכת מוכנה להתחלה מחדש.

היציאות הן :

- `done_out` - פולס בקרה בודד (One-Cycle Pulse) המופק עם סיום תהליך ההסקה, ומסמן שהמערכת סיימה לבצע את התמונה הנוכחיית. (Inference).
- `cycles_out` - וקטור בגודל 18 ביט המשמש כמדד מחזורי שעון (Cycle Counter). ערך זה מייצג את משך הזמן (במחזורי שעון) שנדרש למבצע לביצוע מלא של תהליך ההסקה.
- `hex` - וקטור בקרה (6 ביט) עבור תצוגת 7-Segment המובנית בלוח הפיתוח. הפלט מייצג את הספרה (0-9) שס夙גה על ידי המערכת, ומאפשר הצגה ויזואלית בזמן אמיתי.

לוגיקת הרכיב :

- אתחול והתחלה : (Start Pulse Generator)  
קיים מגננון פנימי לייצור פולס תחיליה היחיד (Start Pulse) מיד לאחר שחרור האיפוס. המנגנון מזהה את המעבר של אות האיפוס ממצב פעיל (נמוך) למצב לא פעיל (גבוה), ומפיק פולס בקרה של מחזור שעון אחד בלבד. פולס זה מעבר למוכנות המ מצבים (FSM) ומציין את תחילת תהליכי ההסקה. שימוש בפולס ייחיד מבטיח התחלת מסונכנת ומוונת התנועות כפולות של המערכת.

- טעינת נתונים מה-ROM :  
רכיב ה-FSM מספק בכל מחזור את הכתובת (`addr`) לשלוות רכיבי ה-ROM (קלט, משקלים, הטיות). הזיכרונות מחזירים את ערך הփיקסל הנוכחי, את עשרה המשקלים המותאים לו, ואת וקטור ההיוטות השלם.

- חישוב משוקל (MAC) :  
בכל מחזור שעון מוזן פיקסל ייחידי ליחידות ה-MAC.
  - כל 10 המכפלות (פיקסל × משקל) מבוצעות במקביל.
  - התוצאות מוצטבות באוגרי הבניינים (Accumulators).
  - בתחילת התהליכי נתונויות ההיוטות ישירות אל האוגרים, כך שההתוצאה הסופית משקפת סכום משוקל מלא (פיקסלים × משקלים + Bias).

- בחירת מחלוקת (ArgMax) :  
עם סיום עיבוד כל 784 הפיקסלים, ה-FSM מפעיל את רכיב ArgMax. רכיב זה سورק את עשרת האוגרים, מזזה את הערך המקסימלי, ומפיק את האינדקס המתאים לו. אינדקס זה מייצג את הספרה שסועה בפועל.
- מדידת ביצועים (Cycle Counter) :  
במקביל לביצוע ההסקה, רכיב-h-Cycle Counter מודד את מספר מחזורי השעון שהלפו בין תחילת התהליך לבין סיוםו. הערך המתקבל מוצג על גבי נוריות הלוח, ומהווה ממד ישיר ליעילות המימוש החומרתי.
- הצגת התוצאה (7-Segment Decoder) :  
האינדקס שנבחר מועבר לרכיב-h-Decoder, אשר ממיר אותו למבנה תואמת להצגה על גבי תצוגת 7-Segment. כך מוצגת בזמן אמת הספרה שסועה על ידי המערכת.

#### משמעות חישובית :

הרכיב מהווה את השכבה האינטגרטיבית של המימוש החומרתי כולם. הוא מאפשר לבצע תהליכי הסקה מלא עבור תמונות MNIST בודדות: החל מקריאת נתוני הקלט ועד להצגת הספרה שסועה בזמן אמת על גבי תצוגת h-7-Segment.

#### יתרונות המימוש :

- מודולריות : כל רכיב במערכת פותח ונבדק בנפרד, ושולב כחלק מהרכיב העליון.
- מדידות ביצועים : מונה המחזוריים מאפשר להעריך את הייעילות החומרתית בפועל.
- נגישות למשתמש : התוצאה מוצגת מיידית בלוח החומרה, ללא צורך במשקדים חיוניים.

### 3.2.5.11 top\_level רכיב

RTL שרטוט :



איור 44 - סכמת מעטפת של הרכיב *top\_mnist\_fc* למיפוי אותה אל משקי הקלט/פלט בלוח DE2-115

מטרת הרכיב בארכיטקטורה :

רכיב זה מהווה את שכבת החיבור (Wrapper) בין המימוש החומרתי של רשת הנוירונים (top\_mnist\_fc) לבין רכיבי הקלט/פלט הפיזיים של לוח הפיקוח (DE2-115). הוא אינו מבצע חישוב לוגי נוסף, אלא אחראי על מיפוי האותות אל משקי המשמש בלוח (כפורותים, נויריות, ותצוגת 7-Segment).

כניות ויציאות :

לרכיב 2 כניות ויציאות 3.

הכניות הן :

- CLOCK\_50 - שעון מערכת בתדר MHz 50 של הלוח.
- KEY(0) - לחץ Reset, המשמש לאיפוס סינכרוני פעיל נמוך.

היציאות הן :

- LEDG(0) - נוירית ירוקה, מהבהבת כאשר מקבל אות Done (סיום תהליך ההסקה).
- HEX0 - תצוגת 7-Segment המציג את הספרה שסועגת.
- LEDR(17 downto 0) - מערך נויריות אדומות, מציג את מונה המוחזרים (Cycle Counter) בזמן אמת.

לוגיקת הרכיב :

- הרכיב *top\_mnist\_fc* משולב כאן כאינסטנסיה פנימית (*U\_CORE*).
- האותות KEY(0) ו-CLOCK\_50 משמשים כקלטים ל-FPGA ומMOVים ישירות ל-*clk* ו-*rst\_n* של הרכיב.
- היציאות LEDR, LEDG, HEX0, done\_out, hex0, cycles\_out ומופות פיזית ל-*clk* ו-*rst\_n* בלוח.

## פרק 4 - תוצאות

לאחר שבפרק 3 הוצגו הארכיטקטורה, הרכיבים וסימולציות ברמת רכיב (Unit Tests), בוצעה הרצתה של המערכת השלמה על גבי לוח ה-FPGA. בשלב זה הושלם תהליך הסינטזה ובוצעה בדיקת ניצול משאבים וזמן (Timing) לכל המערכת.

### 4.1 ניצול משאבים (Resource Utilization)

כפי שניתן לראות באירור 45, המציג את דוח ההיינטזה לאחר הצריבה, התכנן הורץ על גבי רכיב מסוג Cyclone IV E FPGA דגם EP4CE115F29C7, ניצול המשאבים בפועל היה נמוך מאוד ביחס לקיבולת הכלולה של הרכיב:

- 694 Logic Elements בלבד, המהווים פחות מ אחוז אחד מסך המשאבים.
- 414 Registers בשימוש.
- 68,992 ביטים מותוך בלוקי הזיכרון הפנימיים, שהם כ-2% מהנפח הזמין.
- 10 יחידות Multiplier/DSP, שהן כ-2% מהקיבולת הכלולה.
- משאבי ה-PLLs לא נוצלו כלל.

המצאים מראים כי השימוש החומרתי צורץ רק חלק קטן מאוד מהמשאבים של הרכיב, ומותר גמישות משמעותית להרחבות עתידיות או לשילוב פונקציונליות נוספת במסגרת אותה פלטפורמה.

| Flow Summary                       |                                             |
|------------------------------------|---------------------------------------------|
| Flow Status                        | Successful - Sat Sep 27 22:40:17 2025       |
| Quartus Prime Version              | 20.1.1 Build 720 11/11/2020 SJ Lite Edition |
| Revision Name                      | top_level                                   |
| Top-level Entity Name              | top_level                                   |
| Family                             | Cyclone IV E                                |
| Device                             | EP4CE115F29C7                               |
| Timing Models                      | Final                                       |
| Total logic elements               | 694 / 114,480 (< 1 %)                       |
| Total registers                    | 414                                         |
| Total pins                         | 28 / 529 (5 %)                              |
| Total virtual pins                 | 0                                           |
| Total memory bits                  | 68,992 / 3,981,312 (2 %)                    |
| Embedded Multiplier 9-bit elements | 10 / 532 (2 %)                              |
| Total PLLs                         | 0 / 4 (0 %)                                 |

אייר 45 - דוח ההיינטזה

## 4.2 ניתוח תזמון (Timing Analysis)

לאחר יצירת קובץ ההגדרות (SDC) והגדרת אותו השעון הראשי בתדר 50 MHz (מחוזר 20 ns), בוצעה בדיקת תזמון מלאה באמצעות כלי Timing Analyzer המובנה בסביבת הפיתוח Quartus. כלי זה מהוות מנגנון פנימי של המערכת, המאפשר לאמת את עמידת התיכון בדרישות התזמון לאחר סינטזה ו-Place & Route, תחת מודלי תזמון שונים ובתרחישי עומס מקסימליים.

כפי שניתן לראות באירור 46, המציג את דוח ה-Timing Analyzer Summary לאחר הרכבה, התיכון הורץ על גבי רכיב FPGA מסוג EP4CE115F29C7, דגם Cyclone IV E, תחת מודל תזמון סופי (Final Timing Models) עם השהיות מושלבות (Combined Delay Model) ותמייה בעליות ונפילות אותן. נתונים אלו מאשרים שהתוכן נבדק תחת תנאי סימולציה מלאים בסביבת הפיתוח של Quartus.

| Timing Analyzer Summary |                                                     |
|-------------------------|-----------------------------------------------------|
| Quartus Prime Version   | Version 20.1.1 Build 720 11/11/2020 SJ Lite Edition |
| Timing Analyzer         | Legacy Timing Analyzer                              |
| Revision Name           | top_level                                           |
| Device Family           | Cyclone IV E                                        |
| Device Name             | EP4CE115F29C7                                       |
| Timing Models           | Final                                               |
| Delay Model             | Combined                                            |
| Rise/Fall Delays        | Enabled                                             |

אייר 46 - דוח ה-Timing Analyzer Summary

בהמשך, אייר 47 מציג את דוח ה-Multicorner Timing Analysis Summary. מהדו"ח ניתן לראות כי ערך ה-Worst-case Slack שהתקבל הוא 7.163 ns, נתון המצביע על עמידה מלאה בדרישות התזמון עבור תדר עבודה של 50 MHz (מחוזר שעון 20 ns). בנוסף, בדיקות ה-Setup וה-Hold נמצאו תקינות, ולא נצפו חריגות ברוחב פולסים מינימלי (Minimum Pulse Width). תוצאה זו מאשרת כי המימוש החומרתי יציב ועומד בדרישות התזמון של לוח ה-FPGA בתדר העבודה בפועל (50 MHz).

| Multicorner Timing Analysis Summary |                  |       |       |          |         |                     |
|-------------------------------------|------------------|-------|-------|----------|---------|---------------------|
|                                     | Clock            | Setup | Hold  | Recovery | Removal | Minimum Pulse Width |
| 1                                   | Worst-case Slack | 7.163 | 0.182 | N/A      | N/A     | 9.201               |
| 1                                   | CLOCK_50         | 7.163 | 0.182 | N/A      | N/A     | 9.201               |
| 2                                   | Design-wide TNS  | 0.0   | 0.0   | 0.0      | 0.0     | 0.0                 |
| 1                                   | CLOCK_50         | 0.000 | 0.000 | N/A      | N/A     | 0.000               |

אייר 47 - דוח ה-Multicorner Timing Analysis Summary

בהמשך כפי שניתן לראות בדוח ה-*Fmax* באירור 48, התדר המקסימלי המוחש של התוכן הוא 77.9 MHz. לאחר ותדר העבודה שנבחר בפרויקט הוא 50 MHz, הרי שהתוכן עומד בדרישות התזמון וכן מציג מרוזה ביטוחן של 28 MHz מעל תדר הפעלה. נתון זה מחזק את תקינות המימוש החומרתי ומאשר כי הלוגיקה מתווענת באופן יcient בסביבת ה-FPGA.

| Slow 1200mV 85C Model Fmax Summary |          |                 |            |      |
|------------------------------------|----------|-----------------|------------|------|
|                                    | Fmax     | Restricted Fmax | Clock Name | Note |
| 1                                  | 77.9 MHz | 77.9 MHz        | CLOCK_50   |      |

אייר 48 - דוח ה-*Fmax*

בשלב זה ניתן היה לעבור להרצות חומרה מלאות, בהן נבדקה התנויות המימוש בפועל על גבי לוח FPGA, תוך שימוש בקבצי הזיכרון (MIF) שהופקו בתהליך ההכנה. נציג את תוכאות ההרצה הפיזית, הכוללות סיוג של שלוש תמונות שונות מסדר הנתונים MNIST. התוצאות הוצגו בזמן אמיתי על גבי תצוגת 7-Segment של הלוח, ונמדדו במקביל גם על גבי ה-CPU.

כל אחת משלוש ההרצות נמדד גם זמן ריצה בחומרה באמצעות רכיב ה-Cycle Counter, תוך הרמת ספירת מחזורי השעון בזמן מוחלט לפי תדר העבודה שנקבע. נתונים אלה ישמשו להשוואה כמותית בין ביצועי החומרה ב-FPGA לבין ביצועי ה-CPU.

בתחילת נבחן מצב האיפוס לאחר הזריבה, בו ניתן היה לוודא כי לוח ה-FPGA אכן מואתח כראוי: תצוגת 7-Segment מציגה 0 וכל נורות ה-LED כבויות כפי שown פיע באירור 49.



אייר 49 - מעבד האיפוס בלוח 7-Segment : DE2-115 מציגה 0, וnitroit ה-LED כבויות

## 4.3 אימות חומרתי ותוצאות ריצה

### 4.3.1 הרצה ראשונה

באיור 50 מוצגת התמונה הראשונה שנבחנה מתוך קבוצת ה-Test של מסד הנתונים MNIST, בעלת תווית אמת (Ground Truth Label) 2.



אייר 50 - תמונה ספרה 2 מתוך קבוצת ה-Test של מסד הנתונים MNIST

תוצאות המימוש החומרתי ב-FPGA: המערכת קיבלת את התמונה כקלט וחליה בשלב הסיווג החומרתי: קריאת כל 784 הפיקסלים, ביצוע חישוב משוקל ברכיב ה-MAC, הוספת ערכי Bias, ולבסוף בחירת המחלקה באמצעות רכיב ArgMax. באיור 51 מוצגת התוצאה שהתקבל על גבי תצוגת ה-7-Segment ה-DE2-115, כאשר הספרה שהופיעה היא 2, תוצאה המתאמת את התווית האמיתית של התמונה.

בנוסף, נמדד זמן הריצה הכלול באמצעות רכיב ה-Cycle Counter, שותצתתו הוצאה על מערך הלדים האדומים. הערך שנמדד היה 0.01598 ms בתדר עבודה של 50 MHz. ב实物, המציג 798 מחזורי שעון. מכיוון שתכנון רכיב ה-Cycle Counter ב实物 הנוכחי אינו סופר את מחזור ה-done, נוספת התאמת של +1 מחזור לקבלת זמן הריצה הכלול. לפיכך, זמן הביצוע בפועל עומד על 799 מחזורי שעון - המקבילים ל-0.01598 ms בתדר עבודה של 50 MHz.



אייר 51 - מצלב ביצוע לאחר הרעה 1: תצוגת 7-Segment מוצינה את הספרה 2

תוצאות הרצה התוכניתית ב-CPU :

הרצה התוכניתית בוצעה על פלטפורמת Google Colab, תוך שימוש במעבד Intel Xeon @ 2.20GHz עם 2 ליביות לוגיות.

באיור 52 מוצגת תוצאה הרצה המקבילה שבוצעה במודל המאומן על גבי CPU באמצעות Python. גם כאן התוצאה/ssוגה היא הספרה 2. זמן הריצה שנמדד עבור אותה דגימה היה ms 0.204.

```
model.eval()
with torch.no_grad():
    t0 = time.perf_counter()
    logits = model(x_tensor.to(device))
    t1 = time.perf_counter()

pred = int(torch.argmax(logits, dim=1).item())
print(f"Prediction: {pred}")
print(f"Inference time: {(t1 - t0)*1e3:.3f} ms")

Prediction: 2
Inference time: 0.204 ms
```

אייר 52 - קוד הרצה ובדיקה זמן חיוי (Inference) של המודל המאומן ב-Python

#### 4.3.2 הרצאה שנייה

באיור 53 מוצגת התמונה הראשונה שנבחנה מתוך קבוצת h-Test של מסד הנתונים MNIST, בעלת תווית אמת (Ground Truth Label) 7.



איור 53 - תמונה ספרה 7 מתוך קבוצת h-Test של מסד הנתונים MNIST

תוצאות המימוש החומרתי ב-FPGA :

המערכת קיבלה את התמונה כקלט וחלקה בתהליך הסיווג החומרתי: קריאת כל 784 הפיקסלים, ביצוע חישוב משוקל ברכיב ה-MAC, הוספת ערכי Bias, ולבסוף בחירת המולקה באמצעות רכיב ה-ArgMax. באיור 54 מוצגת התוצאה שהתקבלה על גבי תצוגת h-7-Segment ה-7 בלוח ה-FPGA, כאשר הספרה שהופיעה היא 7, תוצאה המתאמת את התווית האמיתית של התמונה.

בנוסף, נמדד זמן הריצה הכלול באמצעות רכיב ה-Cycle Counter, שתוכאטו הוצגה על מערך הלדים האודומים. הערך שמדד היה 0.01598 ms בקצב שעון 50 MHz. מכיוון שתכננו רכיב ה-Cycle Counter במימוש הנוכחי אינו סופר את מחזור ה-done, נוספה התאמה של +1 לחזoor לקבלת זמן הריצה הכלול. לפיכך, זמן הביצוע בפועל עמד על 799 מחזורי שעון - המקבילים ל-50 MHz בתדר עבודה של 0.01598 ms.



איור 54 - מצלב ביצוע לאחר הרצאה 2 : תצוגת h-7 מיצינה את הספרה 7

תוצאות הרצה התוכניתית ב-CPU :

הרצה התוכניתית בוצעה על פלטפורמת Google Colab, תוך שימוש במעבד Intel Xeon @ 2.20GHz עם 2 ליבוט לוגיות.

באיור 55 מוצגת תוצאת הרצה המקבילה שבוצעה במודל המאומן על גבי CPU באמצעות Python. גם כאן התוצאה/ssוגה היא הסירה 7. זמן הריצה שנמדד עבור אותה דגימה היה ms 0.262

```
model.eval()
with torch.no_grad():
    t0 = time.perf_counter()
    logits = model(x_tensor.to(device))
    t1 = time.perf_counter()

    pred = int(torch.argmax(logits, dim=1).item())
    print(f"Prediction: {pred}")
    print(f"Inference time: {(t1 - t0)*1e3:.3f} ms")
```

Prediction: 7  
Inference time: 0.262 ms

אייר 55 - קוד הריצה ובדיקה בזמן חייזי (Inference) של המודל המאומן ב-Python

#### 4.3.3 הרצאה שלישית

באיור 56 מוצגת התמונה הראשונה שנבחנה מתוך קבוצת h-Test של מסד הנתונים MNIST, בעלת תווית אמת (Ground Truth Label) 1.



איור 56 - תמונה ספרה 1 מתוך קבוצת h-Test של מסד הנתונים MNIST

תוצאות המימוש החומרתי ב-FPGA :

המערכת קיבלת את התמונה כקלט ומחילה בתהליך הסיווג החומרתי: קריאת כל 784 הפיקסלים, ביצוע חישוב משוקל ברכיב MAC, Bias, ולבסוף בחירת המחלקה באמצעות רכיב ArgMax. באיור 57 מוצגת התוצאה שהתקבלת על גבי תצוגת h-7-Segment בלוח ה-FPGA, כאשר הספרה שהופיעה היא 1, תוצאה זהה לזו שפורסמה באפשרות של התמונה.

בנוסף, נמדד זמן הריצה הכלול באמצעות רכיב h-Cycle Counter, שתוצאתו הוצאה על מערך הלדים האדומים. הערך שנמדד היה 000000001100011110, המציג 798 מחזורי שעון. מכיוון שתוכנוון רכיב h-Cycle Counter במימוש הנוכחי אינו סופר את מחזור ה-done, נוספת התאמה של +1 לחזור לקבלת זמן הריצה הכלול. לפיכך, זמן הביצוע בפועל עמד על 799 מחזורי שעון - המקבילים ל-0.01598 ms בתדר עבודה של 50 MHz.



איור 57 - מצלב ביצוע לאחר הרצאה 3 : תצוגת h-7-Segment מציגה את הספרה 1

תוצאות הרצה התוכניתית ב-CPU :

הרצה התוכניתית בוצעה על פלטפורמת Google Colab, תוך שימוש במעבד Intel Xeon @ 2.20GHz עם 2 ליבוט לוגיות.

באיור 58 מוצגת תוצאה הרצה המקבילה שבוצעה במודל המאומן על גבי CPU באמצעות Python. גם כאן התוצאה שסוגה היא הספרה 1.

זמן הריצה שנמדד עבור אותה דגימה היה 0.199 ms.

```
model.eval()
with torch.no_grad():
    t0 = time.perf_counter()
    logits = model(x_tensor.to(device))
    t1 = time.perf_counter()

pred = int(torch.argmax(logits, dim=1).item())
print(f"Prediction: {pred}")
print(f"Inference time: {(t1 - t0)*1e3:.3f} ms")
```

---

```
Prediction: 1
Inference time: 0.199 ms
```

אייר 58 - קוד ריצה ובדיקה זמן חיזוי (Inference) של המודל המאומן ב-Python

## פרק 5 - מסקנות

### 5.1 מסקנות

הפרויקט הדגים בהצלחה מימוש חומרתי של שלב ה-Inference במודל רשת נוירונים על גבי רכיב FPGA.

מהבדיקות וההרצות שבוצעו עלות המסקנות הבאות:

- המימוש החומרתי סיפק פלט נכון ועקביו לכל הדוגמאות שנבדקו, תוך עמידה במפרט הפונקציונלי.
- זמן הריצה בחומרה היו קצרים משמעותית בהשוואה למימוש התוכני, בזכות מקביליות מלאה של פעולות ה-MAC. מדידות ההרצות הראו כי ה-FPGA ביצעה את החישובים מהר יותר בכ-12-16 פעמים לעומת ה-CPU, עם יחס ממוצע של פי 14. ככלומר, זמן הריצה של ה-FPGA היה קצר פי 14 מזה של ה-CPU.
- השימוש במשאים ב-FPGA היה נמוך, מה שמאפשר גמישות ורחבה עתידית לרשומות גדולות יותר או לשכבות נוספות.
- ניתוח התזמון (Timing Analysis) הצבע על עמידה בדרישות התזמון בתדר העבודה (50 MHz) וכך על מרוחה ביטחון נוסף.
- ההשוואה מול CPU הדגישה את היתרונות המרכזי של FPGA בלמידה מכונה - שילוב של ביצועים גבוהים עם ניצול משאיםיעיל.

### 5.2 הצעות עבודה להמשך

במהלך הפרויקט הושגו תוכאות חיוביות שהציגו את נכונות המימוש ויתרונות ה-FPGA. יחד עם זאת, קיימים מספר כיווני פיתוח אפשריים להמשך:

- הרחבת המודול - מימוש רשת עצבית عمוקה יותר (ריבוי שכבות Fully Connected או שילוב שכבות Convolutional) לצורך שיפור הדיקוק בסיווג.
- תמייה בכניות מרובות - הרחבת המימוש לטיפול במספר תМОנות במקביל (Batch Processing) לניצול טוב יותר של מקביליות ה-FPGA.
- ממשק תקשורת חיצוני - הוספת חיבור UART/Ethernet/PCIe לצורכי קבלת נתונים קלט בזמן אמת ממعرצת חיצונית והעברת תוצאות חזרה.
- השוואות נוספות - ביצוע ניסויים והשוואת ביצועים מול פלטפורמות חומרה נוספות (למשל GPU או SoC הcoliילים ליבוט ARM), במטרה לקבל תמונה מקיפה של יתרונות וחסרונות כל טכנולוגיה בימושו למידת מכונה.

לסיכום, ההצעות אלו עשויות להעמיק את המימוש ולהרחיב את תחומי היישום, ובכך לנצל את פוטנציאל ה-FPGA לא רק להדגמת יכולות בסיסיות, אלא גם לפיתוח מערכות מתקדמיות ובעלות ערך יישומי גבוה.

## ביבליוגרפיה

- [1] Y. Ma, N. Suda, Y. Cao, S. Vrudhula, and J.-S. Seo, “ALAMO: FPGA acceleration of deep learning algorithms with a modularized RTL compiler,” *Integration, the VLSI Journal*, vol. 62, pp. 14-23, Jan. 2018.
- [2] D. Danopoulos, C. Kachris, and D. Soudris, “Automatic generation of FPGA kernels from open format CNN models,” in *Proc. 28th IEEE Int. Symp. Field-Programmable Custom Computing Machines (FCCM)*, 2020.
- [3] E. Delaye, A. Sirasao, C. Dudha, and S. Das, “Deep learning challenges and solutions with Xilinx FPGAs,” in *Proc. IEEE Conf. on Field-Programmable Technology (FPT)*, 2017, pp. 908-913.
- [4] A. Thomas, A. Biswas, R. Mohan, and D. Bera, “Design and implementation of FPGA-based hardware acceleration for machine learning using OpenCL: A case study on the K-Means algorithm,” in *Proc. Int. Conf. VLSI Design and Embedded Systems (VLSID)*, 2021, pp. 29-34.
- [5] S. S. Lingala, S. Bedekar, P. Tyagi, P. Saha, and P. Shahane, “FPGA based implementation of neural network,” in *Proc. Int. Conf. Advances in Computing, Communication and Applied Informatics (ACCAI)*, 2022.
- [6] D. H. Noronha, P. H. W. Leong, and S. J. E. Wilton, “Kibo: An open-source fixed-point tool-kit for training and inference in FPGA-based deep learning networks,” in *Proc. IEEE Int. Parallel and Distributed Processing Symp. Workshops (IPDPSW)*, 2018, pp. 178-185.
- [7] M. Trigka and E. Dritsas, “A comprehensive survey of deep learning approaches in image processing,” *Sensors*, vol. 25, no. 531, pp. 1-46, Jan. 2025.
- [8] “FPGA vs. CPU - Understanding the key differences,” *FPGA Insights*, 2023. [Online]. Available: <https://fpgainsights.com/fpga/fpga-vs-cpu-understanding-the-key-differences>. [Accessed: Sep. 2025].
- [9] “Digital image processing tutorial,” *GeeksforGeeks*, 2024. [Online]. Available: <https://www.geeksforgeeks.org/electronics-engineering/digital-image-processing-tutorial>. [Accessed: Sep. 2025].

- [10] "VHDL terminology and concepts," *VHDL Whiz*, 2025. [Online]. Available: <https://vhdlwhiz.com/terminology>. [Accessed: Sep. 2025].
- [11] "Neural networks tutorial (PyTorch)," *PyTorch Official Documentation*, 2025. [Online]. Available: [https://docs.pytorch.org/tutorials/beginner/blitz/neural\\_networks\\_tutorial.html](https://docs.pytorch.org/tutorials/beginner/blitz/neural_networks_tutorial.html). [Accessed: Sep. 2025].
- [12] Terasic Technologies Inc., *DE2-115 User Manual*, 2013.

[13] אייל חביבר, שפט תיאור חומרה VHDL. שורש הוצאה לאור, 2007.