

This technical report is available in **English** as a PDF file named **Convolution\_Report\_English** along with the project files.

نام پروژه : پیاده‌سازی کانولوشن مبتنی بر FPGA (صفحه پروژه در گیت‌هاب)

نام طراح : میلاد زادرفیع

تاریخ ایجاد و نسخه پروژه : آبان ۱۴۰۴ - ورژن ۱.۰

نرمافزار و زبان طراحی : Xilinx ISE 14.7 – VHDL

راههای ارتباطی با طراح :

<https://www.linkedin.com/in/zadrafee>

<https://www.github.com/zadrafee>

این مستند بخشی از مجموعه پروژه‌های LogLab FPGA است که در وبسایت LogLab منتشر می‌شود. برای مشاهده سایر پروژه‌های مرتبط و مقالات فنی، به وبسایت رسمی من مراجعه کنید:

<http://www.LogLab.ir>

کد توصیف سخت‌افزار آورده شده در این مقاله به همراه تمامی فایل‌ها و پیوست‌ها که توسط نویسنده، میلاد زادرفیع، در گیت‌هاب، لینکدین و وبسایت LogLab منتشر شده است، صرفاً به منظور به اشتراک گذاشتن نمونه‌ای از پروژه‌هایی است که اینجانب انجام داده است و طراح کد هیچ گونه مسئولیت قانونی، مالی، فنی یا عملیاتی ناشی از استفاده، تغییر یا توزیع این کد را نمی‌پذیرد و استفاده از آن با مسئولیت خود کاربر است. **بازنثر و استفاده از محتوای این پروژه تنها با ذکر منبع مجاز است.**

## شرح فایل‌ها و فولدرهای اصلی پروژه

|                                |                         |                                        |
|--------------------------------|-------------------------|----------------------------------------|
| Convolution_MATLAB             | Compare.m               | ساخت ورودی و مقایسه خروجی MATLAB و ISE |
|                                | Convolution.slx         | شبیه‌سازی کانولوشن در Simulink         |
| Convolution_VHDL               | Convolution_VHDL.xise   | پروژه کانولوشن در ISE                  |
|                                | Convolution_Top.vhd     | تاپ ماژول کانولوشن در ISE              |
|                                | Convolution_VHDL_tb.vhd | تست بنچ کانولوشن در ISE                |
|                                | Multiply_Conjugate.vhd  | ماژول ضرب کننده مختلط و مزدوج کننده    |
| Convolution_Report_Persian.pdf |                         | گزارش فنی کانولوشن به زبان فارسی       |
| Convolution_Report_English.pdf |                         | گزارش فنی کانولوشن به زبان انگلیسی     |
| Convolution RTL.pdf            |                         | شماییک RTL طرح کانولوشن پیاده‌سازی شده |
| xfft_ds260.pdf                 |                         | دیتا‌شیت Native IP FFT نسخه ۷.۱        |

## چکیده

در این پروژه، عمل کانولوشن گسسته با استفاده از زبان VHDL و در محیط Xilinx ISE پیاده‌سازی شده است. این طراحی با هدف پردازش سریع داده‌ها بر روی FPGA انجام شده و می‌تواند به عنوان بخشی از سیستم‌های پردازش تصویر و سیگنال مورد استفاده قرار گیرد.

## مقدمه

کانولوشن یک عملگر ریاضی است که برای ترکیب دو سیگنال یاتابع استفاده می‌شود تا نشان دهد چگونه شکل یکی از آن‌ها روی دیگری تأثیر می‌گذارد.

به زبان ساده‌تر، کانولوشن یعنی یک سیگنال را روی سیگنال دیگر حرکت دهیم (شیفت بدھیم) و در هر موقعیت، میزان همپوشانی آن‌ها را محاسبه کنیم. نتیجه این فرایند، سیگنال جدیدی است که بیانگر میزان شباهت یا تأثیر متقابل دو سیگنال در طول زمان است. این تعریفی ساده از کانولوشن، به دور از محاسبات و اثبات‌های پیچیده ریاضی است. در حوزه پردازش سیگنال و تصویر، کانولوشن به ما کمک می‌کند تا عملیات‌هایی مثل فیلتر کردن، استخراج ویژگی، حذف نویز، تشخیص لبه‌ها، یا هموارسازی داده‌ها را انجام دهیم.

## توصیف کلی سیستم و IP FFT



در تصویر بالا شمای کلی سیستم کانولوشن پیاده‌سازی شده در این پروژه را مشاهده می‌کنید. نمونه اعمال شده به ورودی Input\_Data\_1 توسط نرمافزار MATLAB به کمک تابع rand تولید شده است که یک ۱۲۸ عددی است و همین طور نمونه اعمال شده به ورودی Input\_Data\_2 همان ۱۲۸ نمونه قبلی Vector بوده که به تعداد ۱۰ عدد شیفت پیدا کرده است. کد تولید این ورودی‌ها در فایل Compare در پوشه Convolution\_MATLAB موجود است.

روش کار دقیقاً همان اصولی است که در کتاب‌های سیگنال و سیستم آورده شده است. دو ورودی که هر کدام دارای ۱۲۸ نمونه هستند را به دو FFT با مشخصات یکسان می‌دهیم، البته بیان این نکته در اینجا حائز اهمیت است که استفاده از دو FFT جهت فهم راحت‌تر بوده در حالی که روش اصولی‌تر استفاده از یک FFT دو کاناله

است که باعث می‌شود منابع سخت افزاری کمتری نیز استفاده شود البته سرعت تولید خروجی هم به نسبت کمتر می‌شود. ورودی‌های اعمالی ما اعداد صحیح سه رقمی کوچکتر از ۲۰۰ هستند به همین خاطر می‌بایست Transform Length FFT مربوط به GUI باشد لذا در صفحه تنظیمات ۸ بیت باینری باشند. FFT Target Clock را بر روی ۱۲۸ تنظیم کنیم. در این پروژه فرض شده کلک مدار ما ۱۰۰Mhz است. پس Frequency را بر روی ۱۰۰Mhz تنظیم می‌کنیم.

در این پروژه از FFT نوع Native ۷.۱ استفاده شده است (دیتاشیت این FFT ضمیمه فایل‌های پروژه شده است)، لذا بدیهی است از این کد نمی‌توان به طور مستقیم برای FFT با پروتکل ارتباطی AXI4-Stream استفاده کرد و نیاز به برخی اصلاحات و تغییرات دارد البته اصول کار یکسان است فقط نیاز است با نحوه کارکرد پروتکل ارتباطی AXI4-Stream آشنا باشید تا تغییرات لازم را برای عملکرد صحیح بر روی کد اعمال کنید.



در بخش Implementation Options نوع معماری که FFT قرار است پیاده‌سازی کند را مشخص می‌کنیم. در جدول زیر تفاوت‌های هر کدام از انواع پیاده‌سازی را مشاهده می‌کنید.

| نوع معماری           | سرعت       | تاخیر | صرف منابع | کاربرد                  |
|----------------------|------------|-------|-----------|-------------------------|
| Pipelined, Streaming | بسیار بالا | کم    | زیاد      | پردازش زنده (Real-time) |
| Radix-4, Burst       | بالا       | متوسط | متوسط     | سیستم‌های نیمه‌زنده     |
| Radix-2, Burst       | متوسط      | زیاد  | کم        | سیستم‌های کوچک          |
| Radix-2 Lite, Burst  | کم         | زیاد  | خیلی کم   | کاربردهای کم‌هزینه      |

ما در این پروژه نوع پیاده‌سازی را بر روی Pipelined, Streaming تنظیم کردیم تا Throughput بالا و Latency پایین داشته باشیم. FFT ما در این پروژه  $4.7\mu s$  است.

در صورتی که پروژه شما به گونه‌ای باشد که نیاز داشته باشید طول تبدیل (تعداد نقاط FFT) را به صورت زنده تغییر دهید باید از بخش Transform Length Options کمک بگیرید و تیک گزینه Run Time Configurable Transform Length را بزنید.



در صفحه بعدی تنظیمات IP FFT می‌توانید نوع کوانتیزاسیون را مشخص کنید. در صورت انتخاب Fixed Point حداقل تعداد بیت با کمترین میزان خطا برای کلیه ورودی‌های اصلی و میانی در نظر گرفته می‌شود. با انتخاب گزینه Floating Point همه محاسبات با بالاترین میزان دقیق انجام می‌گیرد و البته که منابع بسیاری را استفاده می‌کند که مطلوب ما نیست. همان طور که پیشتر دلیل اش را گفتیم ورودی‌ها را ۸ بیتی انتخاب می‌کنیم. ضریب Phase Factor همان ضریب Butterfly Factor در Twiddle Factor است. انتخاب دقیق این ضریب نیاز به محاسبات دارد ولی به طور معمول آن را عددی برابر با تعداد ورودی‌ها انتخاب می‌کنند.

به تغییر محل نقطه باینری عمل Scaling گفته می‌شود ما با توجه به نیازمندی‌هایمان در این پروژه آن را بر روی Unscaled تنظیم می‌کنیم.

بخش Rounding Modes نوع کوتاه کردن عرض بیت سیگنال‌ها را مشخص می‌کند در صورتی که بر روی Truncation تنظیم شده باشد بخش کم ارزش بیت‌ها را بدون گرد کردن برش می‌دهد ولی حالت دیگر یعنی

علاوه بر برش دادن و کم کردن بیت‌ها برای ایجاد دقت بهتر آن را به صورت مناسب گرد هم می‌کند که پرواضح است باعث استفاده منابع سخت افزاری بیشتری می‌شود. انتخاب این گزینه بستگی به نوع پروژه شما و دقت مورد نیاز و همین طور منابع سخت افزاری موجود دارد. ما در این پروژه آن را بر روی Truncation تنظیم کردیم.

گزینه CE مختصر شده Clock Enable بوده و به منظور کنترل سیگنال کلاک مورد استفاده قرار می‌گیرد.

SCLR مختصر شده عبارت Synchronous Clear است و سیگنالی برای پاک کردن یا ریست همزمان (Synchronous Reset) کل هسته FFT در هنگام کار است، وقتی پین SCLR فعال (1) شود، تمام رجیسترهاي داخلی FFT پاک می‌شوند. شمارندها، بافرها و وضعیت درونی به حالت اولیه برمی‌گردند. این کار در لبه فعال کلاک (clk) انجام می‌شود به همین دلیل به آن Synchronous می‌گویند. و زمانی که سیگنال دوباره '0' شود، FFT از ابتدا آماده‌ی دریافت داده می‌شود.

## تفاوت ACLK با ARESET یا SCLR

همان طور که گفته شد SCLR نوع ریستاش Synchronous Reset است و فقط در لبه کلاک عمل می‌کند که معمولاً سطح فعال '1' دارد. ولی در IP های جدیدتر ACLK یا ARESETN نوع ریستشان بوده و بلافاصله بدون وابستگی به کلاک عمل می‌کند، و معمولاً سطح فعال '0' دارد.

در بخش Output Ordering نوع نمایش خروجی مشخص می‌شود که Bit/Digit Reversed Order باشد یا Natural Order ، در روش Natural Order خروجی‌ها به همان ترتیب طبیعی Index هایشان از FFT خارج می‌شوند. و اما در روش Bit/Digit Reversed Order FFT هسته برای سریع بودن از یه ساختار خاص به اسم Butterfly استفاده می‌کند. این ساختار باعث می‌شود ترتیب داده‌ها در ورودی یا خروجی، دیگر به ترتیب معمول (0,1,2,3,...) نباشند. به همین خاطر، در انتهای محاسبه FFT، داده‌ها به صورت «درهم‌ریخته» در می‌آیند یعنی index‌هایشان به ترتیب خاصی جایجا می‌شوند که به آن Bit-Reversed Order یا Digit-Reversed Order می‌گویند.

| عدد جدید | Bit-Reversed | باینری | طبیعی Index |
|----------|--------------|--------|-------------|
| 0        | 000          | 000    | 0           |
| 4        | 100          | 001    | 1           |
| 2        | 010          | 010    | 2           |
| 6        | 110          | 011    | 3           |
| 1        | 001          | 100    | 4           |
| 5        | 101          | 101    | 5           |
| 3        | 011          | 110    | 6           |

در این طرح چون مانیاز داریم خروجی‌ها به صورت مرتب شده بر اساس Index هایشان باشد از روش Natural Order استفاده می‌کنیم.

در بخش انتهایی این قسمت بخشی به نام Input Data Timing وجود دارد که مربوط به IP های FFT قدیمی No Offset با نسخه قبل از ۷ می باشد. در صورتی که از نسخه ۷ به بعد استفاده می کنید این گزینه را بر روی قرار دهید.



در صفحه انتهایی تنظیمات مربوط به حافظه وجود دارد که می توان نوع حافظه Data و Phase Factors را مشخص کرد که از نوع Block RAM باشد یا Distributed RAM ، معمولاً به دلیل اینکه حافظه های فضای زیادی از FPGA ما را اشغال می کنند و باعث کند شدن تراشه FPGA می شوند به صورت Default Block RAM بر روی تنظیم شده اند.

بخش انتهایی تنظیمات یعنی Optimize Options جهت بهینه سازی ضرب کننده های مختلط بوده و طبق توضیحات نوشته شده توسط شرکت Xilinx در زیر بخش Complex Multiplier گزینه دوم یعنی Use 3-multiplier structure به لحاظ منابع مصرفی گزینه بهینه ای است و گزینه سوم یعنی Use 4-multiplier structure به لحاظ عملکرد ( منظور Throughput و Latency ) نتایج بهتری را رقم می زند ولی منابع سخت افزاری بیشتری را مصرف می کند.

توضیح ماذول‌ها



عنوان مازول اصلی پروژه ما Convolution\_Top است، این مازول دارای ورودی‌های Clock (تک بیتی)، Input\_Data\_1 و Input\_Data\_2 (۸ بیتی)، Start\_Convolution (تک بیتی) و خروجی‌های Output\_Convolution (۳۳ بیتی) و Output\_Valid (تک بیتی) است. قلب تپنده پروژه ما IP FFT است که با Port های آن آشنا شویم. در جدول زیر با پایه‌های FFT به همراه توضیحاتشان آمده است.

| Port نام   | مختصر شده                    | توضیحات                                          |
|------------|------------------------------|--------------------------------------------------|
| clk        | Clock                        | سینکنال کلک                                      |
| start      | Start                        | شروع اجرای عملیات FFT                            |
| xn_re      | $X_{(n)}$ Real               | بخش حقیقی داده ورودی                             |
| xn_im      | $X_{(n)}$ Imaginary          | بخش موهومی داده ورودی                            |
| fwd_inv    | Forward/Inverse              | تعیین نوع تبدیل (IFFT=0 و FFT=1)                 |
| fwd_inv_we | Forward/Inverse Write Enable | فعال سازی ثبت مقدار fwd_inv                      |
| rfd        | Ready For Data               | وقتی ۱ شود یعنی ماذول آمده دریافت داده جدید است. |
| xn_index   | $X_{(n)}$ Index              | شماره (ایندکس) دادهای که باید ارسال شود.         |
| busy       | Busy                         | نشان می دهد FFT در حال پردازش است.               |
| edone      | Early Done                   | پایان زودتر از موعد برای همزمان سازی یا کنترل.   |
| done       | Done                         | عملیات FFT به طور کامل تمام شده.                 |
| dv         | Data Valid                   | داده خروجی معتبر و آمده خواندن است.              |
| xk_index   | $X_{(k)}$ Index              | شماره (ایندکس) نمونه خروجی FFT                   |
| xk_re      | $X_{(k)}$ Real               | بخش حقیقی خروجی FFT                              |
| xk_im      | $X_{(k)}$ Imaginary          | بخش موهومی خروجی FFT                             |

ورودی‌ها از طریق سیگنال‌های میانی تعریف شده به پورت‌های `xn_im` و `xn_re` متصل می‌شوند، پس از به پایان رسیدن کار FFT‌ها می‌بایست طبق شماتیکی که در ابتدای این مقاله آورده شد، خروجی FFT‌ها در یکدیگر ضرب مختلط شوند، قبل از اینکه خروجی‌ها در هم ضرب شوند می‌بایست خروجی یکی از FFT‌ها مزدوج شود یعنی بخش موهومی آن در یک منفی ضرب شود بعد عمل ضرب انجام شود. برای این منظور یک ماژول به نام `Multiply_Conjugate` طراحی گردیده است تا هم زمان هم عمل مزدوج کردن و هم ضرب مختلط را انجام دهد. سپس بعد از محاسبه حاصل ضرب که سیگنالی ۲۵ بیتی است (۲۵ بیت برای بخش حقیقی و ۲۵ بیت برای بخش موهومی) باید این مقدار را به FFT نهایی بدهیم و آن را در `Mode` معکوس تنظیم کنیم. سایر توضیحات راجب iFFT همانند توضیحات مراحل قبل است با این تفاوت که عرض بیت ورودی iFFT ۲۵ بیت است و ضریب `Twiddle Factor` یا همان `Phase Factor` را بر روی ۱۶ بیت تنظیم می‌کنیم و همین طور به سیگنال `fwd_inv` مقدار  $0^\circ$  می‌دهیم تا به صورت معکوس کار کند.

نکته: در کد VHDL، ما ورودی‌ها را به اندازه ۲ کلاک تاخیر داده‌ایم یا به عبارتی یک Delay Line دو کلاک ایجاد کرده‌ایم دلیل این امر چیست؟ به شکل زیر نگاه کنید:



با توجه به ساختار کد و نوع کدنویسی سیگنال Start FFT، Start FFT1\_Start FFT نشان می‌دهیم دو کلاک تاخیر دارد. به منظور جبران این دو کلاک تاخیر به ناچار مجبوریم سیگنال ورودی را نیز با دو کلاک تاخیر به FFT اعمال کنیم تا تمام نمونه‌ها از ابتدا به طور کامل منتقل شوند.

با توجه به اینکه پریود زمانی کلاک مدار ما ۱۰ns است و ۱۲۸ نمونه را باید به FFT اعمال کنیم و هر نمونه در یک کلاک اعمال می‌شود بدون در نظر گرفتن Propagation Delay ها ۱۲۸۰ns طول می‌کشد تا تمام ۱۲۸ نمونه به FFT اعمال شود. شروع تولید خروجی iFFT از زمان ۷۰۴۵ns بوده و در ۸۳۲۵ns تبدیل ۱۲۸ نمونه ما پایان یافته و به عبارتی خروجی iFFT ما کامل می‌شود، البته پر واضح است تست سخت افزاری این پروژه بر روی FPGA زمان‌های متفاوتی (بیشتر) از مقادیر ذکر شده در این مقاله نتیجه می‌دهد.

شکل موج شروع پاسخ iFFT در نرم افزار ISim



شکل موج بخش پایانی پاسخ iFFT در نرم افزار ISim



## نکات تكميلی

دقت داشته باشید برای عملکرد صحیح Test bench می‌بایست مسیر (آدرس) فایل‌های متغیر txt را مطابق با مسیر موجود در سیستم عامل خود تغییر دهید در غیر اینصورت با پیغام خطای خواهد شد.

در فایل‌های این پروژه فolderی به نام Convolution\_MATLAB وجود دارد که شامل فایل‌های تولید ورودی، مقایسه نتایج حاصل از ISE و MATLAB و فایل شبیه‌سازی در نرم افزار MATLAB آمده است. فایل شبیه‌سازی (Simulink) با نام Convolution دقیقا همین پروژه را در Simulink شبیه‌سازی می‌کند. هدف از شبیه‌سازی این طرح در نرم افزار MATLAB کوانتیزاسیون ورودی‌ها و عملگرها و بدست آوردن مدل Fixed point است.

براساس دیتاشیت IP FFT، این پروژه بر روی تراشه‌های سری Virtex-7, Kintex-7, Virtex-6, Virtex-5, Spartan-6, Spartan-3/XA, Spartan-3E/XA, Spartan-3A/3AN/3A DSP/XA پیاده‌سازی است. برای سری‌های جدیدتر تراشه‌های Xilinx می‌بایست از FFT با نسخه‌های جدیدتر استفاده کرد که پروتکل ارتباطی آنها از نوع AXI4-Stream است.

## نتایج و تحلیل عملکرد

در شکل زیر نمایی از محیط Simulink در نرم افزار MATLAB را مشاهده می کنید.



بخش بالایی تصویر فوق مدل Floating Point طرح کانولوشن را پیاده سازی کرده و بخش پایینی قسمت کانولوشن را مدل سازی Fixed Point کرده است.

خروجی حاصل از پیاده سازی کانولوشن به زبان VHDL در نرم افزار ISE را با خروجی حاصل از نرم افزار MATLAB مقایسه کرده ایم، نتیجه این مقایسه در شکل زیر آمده است:



خطوط آبی رنگ نتایج حاصل از شبیه سازی در نرم افزار MATLAB بوده و دایره های تو خالی قرمز رنگ نتایج حاصل از شبیه سازی در نرم افزار ISE که به زبان VHDL پیاده سازی شده است، همان طور که مشاهده می کنید. نتایج با دقت بالایی بر هم منطبق هستند.