



## توضیحات

- از هرگونه تقلب خودداری نمایید، چنین رفتاری رشت و ناپسند است.
- تمیزی و خوانایی جواب‌ها از اهمیت بالایی برخوردار می‌باشد. ممنون می‌شویم پاسخ‌ها را با دقت، خوانا و منظم بنویسید تا به دلیل ناخوانا بودن، حقی از شما ضایع نشود.
- لطفاً دقت داشته باشید که نام فایل آپلودی به فرمت HW?\_StudentNumber.pdf باشد برای مثال اگر شماره دانشجویی شما ۴۰۲۳۱۴۰۵ می‌باشد و تمرین یازدهم را آپلود می‌کنید نام فایل شما باید HW11\_40131405.pdf باشد.

مهلت تحویل این تمرین تا سه شنبه ۳۰ دی ساعت ۱۵ ظهر می‌باشد.



## سوال یک

اگر یک خط لوله (pipeline) سه ایستگاهی را به چهار ایستگاه تبدیل کنیم پریود ساعت از  $T$  به  $0.9T$  کاهش میابد فرض کنید ۳۰٪ دستورات پرش هستند دستور بعد از دستور پرش وارد لوله نمیشود تا اینکه دستور پرش به اتمام برسد نسبت زمان اجرا ۶ دستور در ساختار سه ایستگاهی به ساختار چهار ایستگاهی چقدر است؟

## سوال دو

سه پردازنده P3 تا P1 داریم که همگی یک مجموعه دستورالعمل (ISA) مشترک را پیاده‌سازی می‌کنند.  
این ISA شامل سه دسته دستورالعمل اصلی است:

نوع X: دستورالعمل‌های محاسباتی و منطقی (ALU operations)

نوع Y: دستورالعمل‌های دسترسی به حافظه (Load/Store)

نوع Z: دستورالعمل‌های کنترلی و پرش (Branch/Control Flow)

در طراحی هر سه پردازنده، یک محدودیت زمانی پایه و ثابت  $T_{limit}$  ناشی از مجموع زمان‌های آماده‌سازی (setup) و نگهداری (hold) در عناصر حیاتی مسیر بحرانی کلاک وجود داشته است که طراحان در هر سه نسل ملزم به رعایت آن بوده‌اند. افزایش سرعت کلاک در پردازنده‌های جدیدتر، از طریق بهینه‌سازی و کاهش تأخیر سایر بخش‌های مسیر داده حاصل شده است تا دوره تناوب کلی کلاک (که باید بزرگ‌تر یا مساوی  $T_{limit}$  به علاوه‌ی تأخیر سایر بخش‌ها باشد) کاهش یابد.

جزئیات هر پردازنده به شرح زیر است:



(1) پردازند P1 (طراحی اولیه):

فرکانس کاری: F مگاهرتز. (بالاترین فرکانس ممکن با توجه به  $T_{limit}$  و تأخیرهای مسیر در این طراحی).

تعداد چرخه ساعت لازم برای اجرای دستور نوع X: پنج چرخه.

تعداد چرخه ساعت لازم برای اجرای دستور نوع Y: ده چرخه.

تعداد چرخه ساعت لازم برای اجرای دستور نوع Z: سه چرخه.

(2) پردازند P2 (نسل بهبود یافته):

با بهینه‌سازی مسیر داده (ضمن ثابت ماندن  $T_{limit}$ )، فرکانس کاری پایدار به  $1.2F$  مگاهرتز افزایش یافته است. (20 درصد سریع‌تر از P1).

تعداد چرخه ساعت لازم برای اجرای دستور نوع X: سه چرخه.

تعداد چرخه ساعت لازم برای اجرای دستور نوع Y: هفت چرخه.

تعداد چرخه ساعت لازم برای اجرای دستور نوع Z: دو چرخه.

(3) پردازند P3 (نسل پیشرفته):

با بازنگاهی و بهینه‌سازی بیشتر (و همچنان با پایین‌دی به  $T_{limit}$ )، فرکانس کاری به  $1.5F$  مگاهرتز رسیده است. (50 درصد سریع‌تر از P1).

تعداد چرخه ساعت لازم برای اجرای دستور نوع X: دو چرخه.

تعداد چرخه ساعت لازم برای اجرای دستور نوع Y: پنج چرخه.

تعداد چرخه ساعت لازم برای اجرای دستور نوع Z: یک چرخه.



حال یک برنامه‌ی محک (benchmark) مشخص را روی این سه پردازنده اجرا می‌کنیم. نتایج اندازه‌گیری شده نشان می‌دهد که:

زمان اجرای کل برنامه روی پردازنده P2 به میزان ۱.۸ برابر کوتاه‌تر (یعنی ۱.۸ برابر سریع‌تر) از زمان اجرای آن روی پردازنده P1 است.

زمان اجرای کل برنامه روی پردازنده P3 به میزان ۱.۸۷۵ برابر کوتاه‌تر (یعنی ۱.۸۷۵ برابر سریع‌تر) از زمان اجرای آن روی پردازنده P2 است.

الف) با توجه به این اطلاعات، ترکیب درصد دستورالعمل‌های مورد استفاده در این برنامه‌ی محک چگونه است؟

ب) چند درصد کل دستورالعمل‌های اجرا شده در برنامه از نوع X، چند درصد از نوع Y و چند درصد از نوع Z هستند؟

ج) همچنین یک کران بالا برای  $T_{limit}$  ارائه دهید.



## سوال سه

فرض کنید پردازنده با نام P1 در اختیار داریم که دستورات load را در ۶ چرخه ، دستورات store را در ۶ چرخه، دستورات Arithmetic را در ۲ چرخه و دستورات Branch را در ۲ چرخه انجام میدهد برنامه A را در اختیار داریم که ۴۰٪ از دستورات آن را دستورات load و ۲۰٪ را دستورات store و ۳۰٪ را دستورات Arithmetic و ۱۰ باقی مانده را دستورات Branch تشکیل میدهد.

(الف) مقدار CPI برنامه A را زمانی که بر روی پردازنده P1 اجرا میشود، محاسبه کنید.

(ب) یک پردازنده جدید با نام P2 در اختیار داریم که فرکانس کلاک آن دو برابر فرکانس P1 است اما زمان اجرای همه دستورات به اندازه ۴ چرخه بیشتر شده است. اگر برنامه A را بر روی پردازنده P2 اجرا کنیم مقدار CPI چقدر می شود؟

(ج) استفاده از کدام پردازنده (P1) یا (P2) بهینه تر است؟ میزان تسريع را محاسبه کنید.

(د) فرض کنید که میخواهیم پردازنده P1 را بهبود ببخشیم بدون اینکه فرکانس کلاک آن را تغییر دهیم. از میان دو مورد زیر فقط میتوانیم یکی از آنها را انتخاب کنیم:

۱. ALU: از یک ALU بهبود یافته استفاده کنیم که تعداد چرخه دستورات Arithmetic و Branch را نصف می کند

۲. LSU: از یک واحد نامتقارن برای load-store استفاده کنیم که تعداد چرخه دستورات load را نصف اما تعداد چرخه دستورات store را دو برابر میکند.

کدام یک از موارد بالا را برای بهبود پردازنده P1 به منظور اجرای برنامه A ترجیح میدهید؟ دلیل انتخاب خود را توضیح دهید.

پایان نیمسال اول ۱۴۰۴-۱۴۰۵

باتشکر، تیم تدریسیاری