

# 積體電路設計hw4 Report

B09901081 施伯儒

## a.Simulation

use RECURSIVE and minimum clock cycle = 7.8ns

```
=====
          Summary
=====
Clock cycle:      7.8 ns
Number of transistors: 3710
Total excution cycle: 2378
Correctness Score:   40.0
Performance Score:  68814564.0
=====
```

factor =



Critical Path 在  $fct5$  內部 (詳見  $fct5$ )



$/^0DPO = Detect\_Posedge$

功用：偵測  $i\_in\_valid$  由 posedge 來了沒



$i\_valid\_pre \rightarrow pre\_bar$



若  $pre\_bar = 1$  且  $valid$  為 1 表示偵測到



$2^0$  fcl2 = factor of 2



繼續串接此 Block，但是  $i-h\{i\}$  的  $i$  逐個遞減



$finish \rightarrow finish\_n$





$+1\text{器} = 4\text{bit 加} 1\text{器}$



原理：從第0位開始數遇到幾個0  
才遇到1，得到的數字就是  $o\_p2$

實作：用 12 個 FD2，當  $ctrl = 1$  時 ( $i\_in\_valid$  posedge)  
就會 load  $in[i]$ 。

等 clk 來時，會把上個 FD2 的值 load 進來  
如此可以逐一看過所有 bits in in  
而第 0 個 FD2 的 Q 即是當下看到的值  
若為 0，可被 2 整除， $\text{finish} = 0$   
再經過  $\Delta$  得到  $\text{finish\_n}$  加到  $O_{\text{FD}}$  上

$3^{\circ}$  fit3 (factor of 3)

ctrl (posedge of m\_valid)  
會把 in load 進來



$$\begin{matrix} Q[0] & \rightarrow & Q_{\text{bar}}[0] \\ \vdots & & \vdots \\ Q[11] & \rightarrow & Q_{\text{bar}}[11] \end{matrix}$$

若已 finish，則會  
繼續 load 原本的值

$$\begin{matrix} \text{remainder}[0][0] & \rightarrow & \text{remainder-bar}[0][0] \\ \vdots & & \vdots \\ \text{remainder}[0][1] & \rightarrow & \text{remainder-bar}[0][1] \end{matrix}$$

$$\text{remainder}[1][0] \rightarrow \text{remainder-bar}[1][0]$$

$$\begin{matrix} \text{remainder}[0][0] & \rightarrow & \text{remainder-bar}[0][0] \\ \vdots & & \vdots \\ \text{remainder}[0][1] & \rightarrow & \text{remainder-bar}[0][1] \end{matrix}$$

$$\text{remainder}[1][1] \rightarrow \text{remainder-bar}[1][1]$$



remainder<sub>0</sub>] [0] → AND → finish\_n  
 remainder<sub>0</sub>] [1] → AND → finish\_n

finish\_n → Do → finish → | FD2 → out\_valid  
 clk



$+1$  = 3bit add



原理: ex:



求出的 remainder  $(i)(0)$  若為 0 則 quotient load 回去  
remainder  $(i)(1)$  繼續除，並把 0-p3 加 1，反之則結束

□ 內使用 LUT 去求出下一個 remainder[i+1], [0]  
和 quotient[i]

$4^0 \text{ fit } 5$  (factor of 5)

同 fit3 的  
說明



$$Q[0] \rightarrow \neg Q_{\text{bar}}[0]$$

$$Q[1] \rightarrow \neg Q_{\text{bar}}[1]$$

$$\begin{matrix} \text{remainder}[0][0] \\ \vdots \\ \text{remainder}[0][9] \end{matrix} \rightarrow \neg \text{remainder-bar}[0][0]$$

$$\text{remainder}[1][0] \rightarrow \neg \text{remainder-bar}[1][0]$$

$$\begin{matrix} \text{remainder}[1][0] \\ \vdots \\ \text{remainder}[1][9] \end{matrix} \rightarrow \neg \text{remainder-bar}[1][0]$$

$$\text{remainder}[2][0] \rightarrow \neg \text{remainder-bar}[2][0]$$







finish-n → D0 → finish → | FD2 | → out\_valid  
 clk



$+1 \begin{smallmatrix} 0 \\ 0 \\ 0 \end{smallmatrix}$  = 3 bit add  $\begin{smallmatrix} 0 \\ 0 \\ 1 \end{smallmatrix}$



原理：同 factor of 3，只是除以 10  
有一些地方不一樣

- ① remainder 之門有  $\{0, 1, 2\}$  3 個 bits
- ②  內 LUT 的部分變成用 remainder  $\{i\}$  的 3 bits 和 被除數  $\{n\}$  去找出 quotient  $\{q\}$  和下個 remainder  $\{r_0, r_1, r_2\}$   
 $\Rightarrow$  化簡後可得上上頁的手寫圖  
中的電路

Critical Path 在



其餘部份和  $\div 3$  雷同  
故不重複

## c.Discussion

### 1.Introduce your design

⇒ 在b.部分已附上

### 2.How do you cut your pipelined or recursive design?

⇒ 我使用recursive, 並未使用pipelined register除了在output得依規定buffer以外, 其他的額外register會增加cycles, 所以不用

### 3.How do you improve your critical path and the number of transistors?

⇒ 使用較快的gate, 例如:NAND, 或者是除法器設計上使用部分的LUT(用交電教的化簡), 而非是用原汁原味的除法器, 有特別為除三除五去設計

### 4.How do you trade-off between area and speed?

⇒ 用萬用的除法器去跑, 雖然可以等除三做完再做除五, 面積可以少一半, 但同時也耗很多cycles。因此我使用兩個除法器同時除三和除五, 花比較多area, 但快很多, performance也更好

**5.Compare with other architectures you have designed (if any).**  
⇒ (discussion with B09901178)

54 / 101

## Division by Constants (2/2)

□  $\frac{1}{d} = \frac{m}{2^n - 1} = \frac{m}{2^n(1 - 2^{-n})} = \frac{m}{2^n}(1 + 2^{-n})(1 + 2^{-2n})(1 + 2^{-4n})\dots$

□ For example, for 24-bit precision:

$$d = 5, \Rightarrow m = 3, n = 4 \quad \text{Easy for hardware implementation}$$

$$\frac{z}{5} = \frac{3z}{2^4 - 1} = \frac{3z}{16(1 - 2^{-4})} = \frac{3z}{16}(1 + 2^{-4})(1 + 2^{-8})(1 + 2^{-16})$$

Next term ( $1+2^{-32}$ ) does not contribute anything to 24-bit precision

我實作的另一個架構是這個division by constants的架構，缺點是面積很大且會用到好幾個adders串接，導致cycle也很長，反而最直觀的除法器表現很好：)

附上很爛的performance：

| Summary                |             |
|------------------------|-------------|
| Clock cycle:           | 10.2 ns     |
| Number of transistors: | 6143        |
| Total execution cycle: | 2378        |
| Correctness Score:     | 40.0        |
| Performance Score:     | 149002150.8 |