Atcold · thisistayeb · Oct 10, 2020 · Oct 10, 2020 · Oct 10, 2020 · Oct 16, 2020
diff --git a/docs/_config.yml b/docs/_config.yml
@@ -610,6 +610,7 @@ fa:
     - path: fa/week12/12.md
       sections:
         - path: fa/week12/12-1.md
+        - path: fa/week12/12-2.md
     - path: fa/week13/13.md
       sections:
         - path: fa/week13/13-1.md

diff --git a/docs/fa/week12/12-1.md b/docs/fa/week12/12-1.md
@@ -6,9 +6,7 @@ lecturer: Mike Lewis
 authors: Jiayu Qiu, Yuhong Zhu, Lyuang Fu, Ian Leefmans
 date: 20 Apr 2020
 translator: Tayeb Pourebrahim
-translation-date: 10 Oct 2020
 ---
-
 <!-----
 ## [Overview](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=44s)
 
@@ -214,7 +212,7 @@ We compute the same thing with different queries, values, and keys multiple time
 <!---
 One big advantage about the multi-headed attention is that it is very parallelisable. Unlike RNNs, it computes all heads of the multi-head attention modules and all the time-steps at once. One problem of computing all time-steps at once is that it could look at futures words too, while we only want to condition on previous words. One solution to that is what is called **self-attention masking**. The mask is an upper triangular matrix that have zeros in the lower triangle and negative infinity in the upper triangle. The effect of adding this mask to the output of the attention module is that every word  to the left has a much higher attention score than words to the right, so the model in practice only focuses on previous words. The application of the mask is crucial in language model because it makes it mathematically correct, however, in text encoders, bidirectional context can be helpful.
 --->
-یک مزیت بزرگ در مورد توجه چند سر این است که به صورت موازی بسیار قابل محاسبه است. برخلاف RNNها، که سرهای ماژول های توجه چند سر و همه مراحل گام را به طور همزمان محاسبه می کند. یک مشکل محاسبه همزمان همه مراحل زمانی این است که می تواند کلمات آینده را نیز بررسی کند، در حالی که ما فقط می خواهیم به کلمات قبلی شرط بگذاریم. یک راه حل برای آن چیزی است که ** پوشش خود-توجه ای ** نامیده می شود. پوشش یک ماتریس مثلثی فوقانی است که در مثلث پایین صفر و در مثلث بالایی بی نهایت منفی دارد. تأثیر افزودن این پوشش به خروجی ماژول توجه این است که هر کلمه به سمت چپ دارای نمره توجه بسیار بیشتری نسبت به کلمات به سمت راست است، بنابراین مدل در عمل فقط بر روی کلمات قبلی تمرکز دارد. استفاده از پوشش در مدل زبان بسیار مهم است زیرا آن را از نظر ریاضی صحیح می کند، با این حال، در رمزگذارهای متن، متن دو زبانه می تواند مفید باشد.
+یک مزیت بزرگ در مورد توجه چندسر این است که محاسبات آن را به راحتی می‌توان به صورت موازی انجام داد برخلاف RNNها، که سرهای ماژول های توجه چند سر و همه مراحل گام را به طور همزمان محاسبه می کند. یک مشکل محاسبه همزمان همه مراحل زمانی این است که می تواند کلمات آینده را نیز بررسی کند، در حالی که ما فقط می خواهیم به کلمات قبلی شرط بگذاریم. یک راه حل برای آن چیزی است که ** پوشش خود-توجه ای ** نامیده می شود. پوشش یک ماتریس مثلثی فوقانی است که در مثلث پایین صفر و در مثلث بالایی بی نهایت منفی دارد. تأثیر افزودن این پوشش به خروجی ماژول توجه این است که هر کلمه به سمت چپ دارای نمره توجه بسیار بیشتری نسبت به کلمات به سمت راست است، بنابراین مدل در عمل فقط بر روی کلمات قبلی تمرکز دارد. استفاده از پوشش در مدل زبان بسیار مهم است زیرا آن را از نظر ریاضی صحیح می کند، با این حال، در رمزگذارهای متن، متن دو زبانه می تواند مفید باشد.
 
 
 <!--
@@ -240,7 +238,7 @@ One detail to make the transformer language model work is to add the positional
 --->
 
 **چرا این مدل خوب است؟**
-۱. ارتباط مستقیمی بین هر جفت کلمه ایجاد می کند. هر کلمه می تواند مستقیماً به حالت های پنهان کلمات قبلی دسترسی پیدا کند و گرادیان های ناپدید شده را کاهش دهد. تابع پرهزینه ای را به راحتی یاد می‌گیرد.
+۱. ارتباط مستقیمی بین هر جفت کلمه ایجاد می کند. هر کلمه می تواند مستقیماً به حالت های پنهان کلمات قبلی دسترسی پیدا کند و مشکل گرادیان‌های ناپدیدشونده را برطرف می‌کند. تابع پرهزینه ای را به راحتی یاد می‌گیرد.
 ۲. تمام گام‌های زمانی به صورت موازی محاسبه می‌شود.
 ۳. خود-توجه‌ای درجه دوم است (تمام گام‌های زمانی می تواند به همه موارد دیگر مربوط شود)، محدود به حداکثر طول دنباله.
 
@@ -284,7 +282,7 @@ You could see that when transformers were introduced, the performance was greatl
 - برای دگرگون ساز بسیار مهم است
 
 
-### ترفند ۲: دست گرمی + برنامه زمانی آموزش ریشه مربع معکوس
+### ترفند ۲: دست گرمی + زمان بندی آموزش ریشه مربع معکوس
 
 - از برنامه زمانی نرخ یادگیری استفاده کنید: برای اینکه دگرگون سازها به خوبی کار کنند، باید سرعت یادگیری خود را از صفر تا هزار مرحله به صورت خطی کاهش دهید
 
@@ -369,7 +367,7 @@ It requires computing all possible sequences and because of the complexity of $O
 
 ### رمزگشایی حریص کار نمی کند
 
-ما محتمل ترین کلمه را در هر مرحله زمان می گیریم. با این وجود، هیچ تضمینی این محتمل ترین توالی ممکن باشد، زیرا اگر مجبور باشید در مرحله ای آن مرحله را انجام دهید، دیگر هیچ راهی برای پیگیری جستجوی خود برای پس‌گرد سایر نشست‌های قبلی ندارید.
+ما محتمل ترین کلمه را در هر مرحله زمان می گیریم. با این وجود،هیچ تضمینی برای این‌که این محتمل‌ترین توالی ممکن باشد وجود ندارد، زیرا اگر مجبور باشید در مرحله ای آن مرحله را انجام دهید، دیگر هیچ راهی برای پیگیری جستجوی خود برای پس‌گرد سایر نشست‌های قبلی ندارید.
 
 ### جستجوی خسته کننده نیز امکان پذیر نیست