

# 時序電路設計及應用

Homework 3

姓名：王品然

學號：113063572

Consider a design process for a duty-cycle corrector for a 1GHz input clock signal, denoted as  $clk\_in$ . The output clock signal is denoted as  $clk\_dcc$ . Once locked,  $clk\_dcc$  will have a duty cycle very close to 50%.

- (a) (20%) Draw a **block diagram** of your design and summarizing how you plan to achieve the duty-cycle correction with a paragraph.



使用如上所示的 block diagram 可以實現 duty cycle 的修正，上半部的電路架構如同 Delay Locked Loop (DLL)， $clk\_in$  訊號會經過兩個相同的 Tunable Delay Line (TDL)，且兩 TDL 由相同的 control code 所控制，從第二個 TDL 輸出的訊號( $clk\_fp$ )與  $clk\_in$  當作 Phase Detector (PD)的輸入訊號，PD 會比較出現在  $clk\_fp$  的 phase 是領先的或是落後的，並輸出 lead/lag 訊號做為指示 controller 做出 control code 變更的依據，在這個疊代的過程中， $clk\_in$  和  $clk\_fp$  的 phase error 會越來越小，直到 controller 鎖定 control code 確定  $clk\_fp$  是  $clk\_in$  延遲一個 cycle 的訊號。這裡需要特別注意一般的 DLL 可以鎖定在  $clk\_fp$  為  $clk\_in$  的整數倍周期的延遲，但這邊一定要是鎖定在一個週期，原因是讓  $clk\_hp$  剛好延遲半個週期。在 controller 做到以上工作後，讓  $clk\_in$  與  $clk\_hp$  分別經過一個 one shot circuit，以避免  $clk\_in$  的 duty cycle 過大造成輸入 active high SR-latch 時，出現兩個輸入都為 1 的不合理情況。如此一來在最後一級的 SR-latch 會出現規律的(S,R)=(1,0)和(S,R)=(0,1)，每隔半周期交替出現，並在剩餘期間維持(S,R)=(0,0)，也就是說每半周期 output(Q)會 toggle 一次並維持訊號直到下次 toggle，如此就完成了 duty cycle correction 的任務了。

- (b) (40%) **Realize the design as a synthesizable Verilog code.** (Your design can be a mixed format containing both netlists and RTL codes). (Hint: you may need Tunable Delay Lines, A Phase Detector, and a Controller, etc.) In this homework, we only need to use simple TDLs, e.g., path-selection-based TDLs, and some cell-based Phase Detector).
- Estimate your time resolution.

將(a)的 block diagram 中的子電路一一實現，以下展示電路圖或其架構，最後再附上 code：

(1) High-Active SR-Latch



(2) One Shot Based Oscillator



(3) Phase Detector



\*此電路圖截自講義\*

#### (4) Tunable Delay Line



最終規格如下：IN\_BUF 是 4 個 X1 的 CLKBUF 的 buffer chain；BC 是 2 個 X1 的 CLKBUF 的 buffer chain；TB 是一個 TBUFX4。

#### (5) Controller (FSM)

這次電路的起始狀態會在  $\lambda[7:0]=8'b0000_0001$  也就是  $x[2:0]=3'b000$  的情況，目的是為了讓 TDL 的 delay 先設定到最小，再慢慢(一次+1)尋找 lead/lag 訊號由 1 變 0 的時候，即為目標的 control code，得到  $clk_{hp}$  接近是  $clk_{in}$  的半周期延遲訊號，並在此時讓  $locked=1$ 。以此為中心思想，又因為考慮到輸入時脈訊號為 1GHz，不算低頻的訊號，為避免後續可能有 setup time violation，因此先想辦法讓每個 state 做的事越少越好，所以將 control code 的決定分成了兩個步驟，並且還加入了一個中間 state (下圖中的 L\_PRE)，目的是對即將轉變的通道做預先開啟的動作，以避免 unknown 的狀態發生，在上次作業中有較詳細解釋過理由。以下即是作為 controller 的 FSM 架構：



**INIT state:** DCC reset 後會到這個 state，主要負責設定電路內的初始值。

**COMP state:** 拉起 enable PD 的訊號，並等待 lead/lag 訊號穩定確定下來，接著在下一個 state 讀取。

**X\_CODE state:** 依據 lead/lag 訊號，決定  $x[2:0]$ ，並停下 PD。

**L\_PRE state:** 在更新  $\lambda[7:0]$  之前，先預先打開通道為未知節點做充放電，避免 unknown signal 的出現。

**L\_CODE state:** 將  $x[2:0]$  轉換成的 one-hot code 更新  $\lambda[7:0]$ 。

**DONE state:** 表示電路已經準備好完成 dcc 之 clock 訊號。

在驗證電路功能時發現 input clock 的 duty cycle 為 50% 時，還是功能正常的電路，如下圖：



到了 input clock 的 duty cycle 為 70% 時，卻發生 timing violation，波型圖與 error message 如下圖所示：



```
"/usr/cadtool/ee5216/CBDK_TSMC90GUTM_Arm_f1.0/CIC/Verilog/tsmc090.v", 11018: Timing violation in testbench.u_dcc.clk_hp_os_reg
$width( negedge CK && (flag == 1'b1):8351, : 8532, limit: 186 );
```

可以發現是因為  $clk\_fp$  為 0 的時間太短了，儘管已經選用 CLKBUF 作為 buffer，但還是因為經過許多 buffer 和 tri-state buufer 後 skew 得越來越嚴重，為解決此問題我選擇減少 buffer 數量，並同時調小 buffer 的尺寸，以獲得差不多的 delay time 但較少的 skew，最終規格是如上 TDL 架構時提過的數量及尺寸。

## TDL netlist:

```

1 module delay_buffer_chain ( out, in );
2   input in;
3   output out;
4   wire n1,n2,n3;
5   CLKBUFX1_U0 ( .A(in), .Y(n1) );
6   CLKBUFX1_U1 ( .A(n1), .Y(n2) );
7   CLKBUFX1_U2 ( .A(n2), .Y(n3) );
8
9   CLKBUFX1_U4 ( .A(n3), .Y(out) );
10
11 endmodule
12
13 module delay_buffer ( out, in );
14   input in;
15   output out;
16   wire n1;
17   CLKBUFX1_U0 ( .A(in), .Y(n1) );
18   CLKBUFX1_U4 ( .A(n1), .Y(out) );
19
20 endmodule
21
22
23
24 module tdl (clk_in, lambda, lambda_bar, clk_out);
25   input [7:0] lambda;
26   input [7:0] lambda_bar;
27   input clk_in;
28   output clk_out;
29   wire clk_1, clk_2, clk_3, clk_4, clk_5, clk_6, clk_7, clk_8,
30   clk_2_2, clk_3_2, clk_4_2, clk_5_2, clk_6_2, clk_7_2, clk_8_2, clk_out;
31
32
33 delay_buffer_chain bc1 ( .out(clk_1), .in(clk_in) );
34 delay_buffer bc2 ( .out(clk_2), .in(clk_1) );
35 delay_buffer bc3 ( .out(clk_3), .in(clk_2) );
36 delay_buffer bc4 ( .out(clk_4), .in(clk_3) );
37
38 delay_buffer bc5 ( .out(clk_5), .in(clk_4) );
39 delay_buffer bc6 ( .out(clk_6), .in(clk_5) );
40 delay_buffer bc7 ( .out(clk_7), .in(clk_6) );
41 delay_buffer bc8 ( .out(clk_8), .in(clk_7) );
42
43 TBUFX4 buf_1 (.A(clk_1), .Y(clk_out), .OE(lambda[0]));
44 TBUFX4 buf_2 (.A(clk_2), .Y(clk_2_2), .OE(lambda[1]));
45 TBUFX4 buf_2_2 (.A(clk_2_2), .Y(clk_out), .OE(lambda_bar[0]));
46 TBUFX4 buf_3 (.A(clk_3), .Y(clk_3_2), .OE(lambda[2]));
47 TBUFX4 buf_3_2 (.A(clk_3_2), .Y(clk_2_2), .OE(lambda_bar[1]));
48 TBUFX4 buf_4 (.A(clk_4), .Y(clk_4_2), .OE(lambda[3]));
49 TBUFX4 buf_4_2 (.A(clk_4_2), .Y(clk_3_2), .OE(lambda_bar[2]));
50 TBUFX4 buf_5 (.A(clk_5), .Y(clk_5_2), .OE(lambda[4]));
51 TBUFX4 buf_5_2 (.A(clk_5_2), .Y(clk_4_2), .OE(lambda_bar[3]));
52 TBUFX4 buf_6 (.A(clk_6), .Y(clk_6_2), .OE(lambda[5]));
53 TBUFX4 buf_6_2 (.A(clk_6_2), .Y(clk_5_2), .OE(lambda_bar[4]));
54 TBUFX4 buf_7 (.A(clk_7), .Y(clk_7_2), .OE(lambda[6]));
55 TBUFX4 buf_7_2 (.A(clk_7_2), .Y(clk_6_2), .OE(lambda_bar[5]));
56 TBUFX4 buf_8 (.A(clk_8), .Y(clk_8_2), .OE(lambda[7]));
57 TBUFX4 buf_8_2 (.A(clk_8_2), .Y(clk_7_2), .OE(lambda_bar[6]));
58
59
60 endmodule

```

## DCC RTL code:

```

1 `include "tdl.v"
2
3 module dcc (
4   output clk_dcc,
5   output locked,
6   input clk,
7   input rst_n
8 );
9
10 /////////////////
11 //DECLARATION
12 ///////////////
13 //TDL signals
14 wire clk_fp, clk_hp;
15 reg [7:0] lambda;
16 reg [7:0] lambda_bar;
17 reg [7:0] lambda_next, lambda_prenext;
18 wire [7:0] lambda_bar_next, lambda_bar_prenext;
19 reg [2:0] x;
20
21 //PD signals
22 wire direction;
23 reg clk_dff;
24 reg clk_fp_dff;
25 wire rst_pd;
26 wire rst_pd_flag;
27 wire pd_en;
28 wire pd_dummy;
29 wire racing_s, racing_r;
30 wire locker_s, locker_r;
31
32 //one shot circuit
33 reg clk_in_os, clk_hp_os;
34 wire rst_os1, rst_os2;
35 wire clk_b1, clk_b2;
36
37 //output SR latch
38 wire q, q_bar;
39
40 //state
41 localparam ST_INIT      = 3'b000;
42 localparam ST_X_CODE    = 3'b001;
43 localparam ST_L_PRE     = 3'b010;
44 localparam ST_L_CODE    = 3'b011;
45 localparam ST_COMP     = 3'b100;
46
47 localparam ST_DONE      = 3'b110;
48
49 reg [2:0] state;
50 reg [2:0] state_nx;
51
52 /////////////////
53 //FSM
54 ///////////////
55 //setting next state
56 always@(*posedge clk or negedge rst_n)begin
57   if(~rst_n) state <= ST_INIT;
58   else state <= state_nx;
59 end
60
61 //decision of next state
62 always@(*)begin
63   state_nx = state;
64   case(state)
65     ST_INIT : state_nx = ST_COMP;
66     ST_X_CODE :
67       begin
68         if(direction) state_nx = ST_L_PRE;
69         else state_nx = ST_DONE;
70       end
71     ST_L_PRE : state_nx = ST_L_CODE;
72     ST_L_CODE : state_nx = ST_COMP;

```

```

73     ST_COMP : state_nx = ST_X_CODE;
74
75     ST_DONE : state_nx = state;
76     default : state_nx = state;
77   endcase
78 end
79
80 //output controlled by FSM
81 assign locked = (state == ST_DONE);
82 assign pd_en = (state==ST_COMP); //for PD
83
84 /////////////////
85 //Searching process
86 /////////////////
87 //lambda code decision - x value
88 always@(posedge clk or negedge rst_n) begin
89   if(~rst_n)   x <= 3'b000;
90   else begin
91     case(state)
92       ST_INIT : x <= 3'b000;
93       ST_X_CODE :
94         begin
95           if(direction) x <= x + 1;
96           else x <= x; //or x-1
97         end
98       ST_L_PRE, ST_L_CODE, ST_COMP, ST_DONE : x <= x;
99       default : x <= x;
100    endcase
101  end
102 end
103
104 //lambda comb. logic
105 always@(*) begin
106   case(x)
107     3'b000: lambda_next = 8'b00000001;
108
109     3'b001: lambda_next = 8'b00000010;
110     3'b010: lambda_next = 8'b00000100;
111     3'b011: lambda_next = 8'b00001000;
112     3'b100: lambda_next = 8'b00010000;
113     3'b101: lambda_next = 8'b00100000;
114     3'b110: lambda_next = 8'b01000000;
115     3'b111: lambda_next = 8'b10000000;
116     default: lambda_next = 8'b00000010;
117   endcase
118 end
119
120 assign lambda_bar_next = ~ lambda_next;
121
122 always@(*) begin
123   case(x)
124     3'b000: lambda_prenext = 8'b00000001;
125     3'b001: lambda_prenext = 8'b00000011;
126     3'b010: lambda_prenext = 8'b00000110;
127     3'b011: lambda_prenext = 8'b00001100;
128     3'b100: lambda_prenext = 8'b00011000;
129     3'b101: lambda_prenext = 8'b00110000;
130     3'b110: lambda_prenext = 8'b01100000;
131     3'b111: lambda_prenext = 8'b11000000;
132     default: lambda_prenext = 8'b00000011;
133   endcase
134 end
135
136 assign lambda_bar_prenext = ~ lambda_prenext;
137
138
139 //lambda update
140 always@(posedge clk or negedge rst_n) begin
141   if(~rst_n) begin
142     lambda <= 8'b00000001;
143     lambda_bar <= 8'b11111110;
144   end
145
146   else begin
147     case(state)
148       ST_INIT      : begin
149         lambda <= 8'b00000001;
150         lambda_bar <= 8'b11111110;
151       end
152       ST_X_CODE, ST_COMP, ST_DONE : begin
153         lambda <= lambda;
154         lambda_bar <= lambda_bar;
155       end
156       ST_L_PRE : begin
157         lambda <= lambda_prenext;
158         lambda_bar <= lambda_bar_prenext;
159       end
160       ST_L_CODE : begin
161         lambda <= lambda_next;
162         lambda_bar <= lambda_bar_next;
163       end
164       default      : begin
165         lambda <= lambda;
166         lambda_bar <= lambda_bar;
167       end
168     endcase
169   end
170
171
172 ///////////////
173 //Phase Detector
174 ///////////////
175 //PD
176 always @(posedge clk_fp or negedge rst_pd) begin
177   if(~rst_pd) clk_fp_dff <= 0;
178   else clk_fp_dff <= 1;
179 end
180
181 always @(posedge clk or negedge rst_pd) begin
182   if(~rst_pd) clk_dff <= 0;
183   else clk_dff <= 1;
184 end
185
186 assign rst_pd_flag = ~ (clk_fp_dff & clk_dff);
187 assign pd_dummy = ~ (clk_dff & clk_fp_dff);
188 assign rst_pd = pd_en & rst_pd_flag;
189
190 //SR latch as racing circuit
191 assign racing_s = ~ (racing_r & clk_fp_dff);
192 assign racing_r = ~ (racing_s & clk_dff);
193
194 //SR latch as signal locker
195 assign locker_s = ~ (locker_r & racing_s);
196 assign locker_r = ~ (locker_s & racing_r);
197
198 //direction = 1 if clk_fp is faster, which means we need to tune a
199 assign direction = locker_s;
200
201 ///////////////
202 //One Shot Circuit
203 ///////////////
204 //one-shot-based osc. 1
205 always @(posedge clk or negedge rst_os1 or negedge rst_n) begin
206   if(~rst_n) clk_in_os <= 0;
207   else if(~rst_os1) clk_in_os <= 0;
208   else clk_in_os <= 1;
209 end
210
211 delay_buffer ub_1 (.out(clk_b1), .in (clk_in_os));
212 assign rst_os1 = ~clk_b1;
213
214 //one-shot-based osc. 2
215 always @(posedge clk_hp or negedge rst_os2 or negedge rst_n) begin
216   if(~rst_n) clk_hp_os <= 0;

```

```

217     else if(~rst_os2) clk_hp_os <= 0;
218     else clk_hp_os <= 1;
219 end
220
221 delay_buffer ub_2 (.out(clk_b2), .in (clk_hp_os));
222 assign rst_os2 = ~clk_b2;
223
224 /////////////////
225 //Tunable Delay Line
226 ///////////////////
227 //instantiate
228 tdl tdl_1 (
229     .clk_out (clk_hp),
230     .clk_in (clk),
231     .lambda (lambda),
232     .lambda_bar (lambda_bar)
233 );
234
235 tdl tdl_2 (
236     .clk_out (clk_fp),
237     .clk_in (clk_hp),
238     .lambda (lambda),
239     .lambda_bar (lambda_bar)
240 );
241 );
242
243 /////////////////
244 //Output Stage SR Latch
245 ///////////////////
246 assign q_bar = ~ (clk_in_os | q);
247 assign q = ~ (clk_hp_os | q_bar);
248
249 assign clk_dcc = q;
250
251
252 endmodule

```

### Time resolution estimation:

在模擬時可以看到當 lambda code 從 8'b0000\_0001 到 8'b0000\_0010，兩條 TDL 的 delay time 總和在兩個情況下相差 1141-679=462ps，波形如下圖：



對單條 TDL 做 gate-level simulation，得到波形如下圖：



局部放大圖：



可以發現當 lambda code 從 8'b0000\_0001 到 8'b0000\_0010，單條 TDL 的 delay time 在兩個情況下相差 579-348=231ps (兩條就會是 462ps)，與實際應用在 DCC 電路中的結果是相符的。之後的 lambda code 每增加 1 格，TDL 的 delay time 就會增加 230ps，篇幅關係就不貼上局部的波形圖。

因此結論是單個 TDL 的 time resolution 大約在 230 到 231ps 之間，若看兩個 TDL 則 time resolution 大約在 460 到 462ps 之間。

- (c) (15%) Try to use Design Compiler to **synthesize your design into standard-cell netlists**. Report the gate count of your netlist.

合成時使用的.tcl 檔：

```

1 set ref_cycle 1
2 set DESIGN_TOP dcc
3 #/*----- 1.Read files -----*/
4 #/*----- 2. Set design constraints -----*/
5 #/*----- 3.Check and Link Design -----*/
6 analyze -format verilog ../1.RTL_simulation/dcc.v}
7 elaborate $DESIGN_TOP
8 set_operating_conditions -min_library fast -min fast \
9           -max_library slow -max slow
10 #/*----- 4.Compile -----*/
11 #/*----- 5.Write out files -----*/
12 #/*
13 create_clock -name CLK -period $ref_cycle [get_ports clk]
14 set_dont_touch_network [get_ports clk]
15 set_fix_hold [get_clocks CLK]
16 # input drive / output load
17 set_drive 1 [all_inputs]
18 set_load [load_of slow/CLKBUFX20/A] [all_outputs]
19 #/*----- 2.5 保護 TDL (不要讓 DC 動裡面的 gate) -----*/
20 #/*----- 5. Write out files -----*/
21 #/*
22 set_dont_touch [get_designs tdl]
23 set_dont_touch [get_cells -hierarchical tdl_1]
24 set_dont_touch [get_cells -hierarchical tdl_2]
25 #/*----- 3.Check and Link Design -----*/
26 #/*----- 4.Compile -----*/
27 #/*
28 link
29 check_design
30 uniquify
31 set_fix_multiple_port_nets -all -buffer_constants
32 #/*----- 4.Compile -----*/
33 #/*----- 5. Write out files -----*/
34 #/*
35 # Setting DRC Constraint
36 set_max_fanout 20.0 $DESIGN_TOP
37 # Area Constraint
38 set_max_area 0
39 # before synthesis settings
40 set_case_analysis_with_logic_constants true
41 set_fix_multiple_port_nets -all -buffer_constants
42 set_clock_gating_style -max_fanout 10
43 compile -map_effort medium
44 # remove dummy ports
45 remove_unconnected_ports [get_cells -hierarchical *]
46 remove_unconnected_ports [get_cells -hierarchical *] -blast_buses
47 check_design
48 # rename / bus style
49 set_bus_inference_style {%s[%d]}
50 set_bus_naming_style {%s[%d]}
51 set_hdout_internal_busses true
52 set_verilogout_show_unconnected_pins true
53 #/*----- 5. Write out files -----*/
54 #/*----- 5. Write out files -----*/
55 #/*
56 report_area > ./dcc_syn.report
57 report_timing -path full -delay max >> ./dcc_syn.report
58 report_power >> ./dcc_syn.report
59 write -format verilog -hierarchy -output ./dcc_syn.v
60 write_sdf -version 2.1 -context verilog -load_delay cell ./dcc_syn.sdf
61 write_sdc ../3.Post_layout_Simulation/APR/design_data/dcc_syn.sdc
62 exit

```

合成出的 netlist 就不附上了，實在有點冗長。合成後的面積如下：

|                                |                                    |
|--------------------------------|------------------------------------|
| Number of ports:               | 76                                 |
| Number of nets:                | 249                                |
| Number of cells:               | 210                                |
| Number of combinational cells: | 133                                |
| Number of sequential cells:    | 56                                 |
| Number of macros/black boxes:  | 0                                  |
| Number of buf/inv:             | 57                                 |
| Number of references:          | 47                                 |
|                                |                                    |
| Combinational area:            | 497.448013                         |
| Buf/Inv area:                  | 162.993604                         |
| Noncombinational area:         | 643.507208                         |
| Macro/Black Box area:          | 0.000000                           |
| Net Interconnect area:         | undefined (No wire load specified) |
|                                |                                    |
| Total cell area:               | 1140.955220                        |

使用 total cell area  $1140.95522\mu m^2$ ，可以除以 2-input NAND gate 的面積  $2.82\mu m^2$ ，換算成 gate count 約為 404.6。

- (d) (15%) Verify the correctness of your design by running gate-level Verilog simulation using as accurate delay model as possible. Show the waveforms of `clk_in` and `clk_dcc`. Try the following input duty cycle samples for `clk_in` – {30%, 70%}. **Report the final duty cycle for each input samples.**

Testbench 的部分很簡單，只有給予 clk 和 rst\_n，並等待 locked 後結束模擬：

```

1 `timescale 100ps / 10ps
2 module testbench;
3
4 localparam period = 10;
5 localparam delay = 4;
6
7 reg    clk;
8 wire   clk_dcc;
9 reg    rst_n;
10 wire   locked;
11
12 dclc u_dcc (
13     .clk_dcc(clk_dcc),
14     .locked(locked),
15     .clk(clk),
16     .rst_n(rst_n)
17 );
18
19 initial begin
20     $sdf_annotate("./dcc_syn.sdf", u_dcc);
21     $fsdbDumpfile("../4.Simulation_Result/dcc_syn.fsdb");
22     $fsdbDumpvars;
23 end
24 |
25
26 initial begin
27     clk = 1;
28     forever begin
29         #(3) clk = 0;
30         #(7) clk = 1;
31     end
32 end
33 |
34 initial begin
35     rst_n = 1;
36     #(delay) rst_n = 0;
37     #(period) rst_n = 1;
38     wait(locked);
39
40     #(period * 6) $finish;
41
42 // Automatically finish
43 initial begin
44     #30000;
45     $finish;
46 end
47
48
49 endmodule

```

輸入時脈訊號 duty cycle 為 30% 的模擬結果：



可以看到 `clk_dcc` 在 DCC 鎖定後的  $duty\ cycle = \frac{523\ ps}{1000\ ps} = 52.3\%$ 。

輸入時脈訊號 duty cycle 為 70% 的模擬結果：



可以看到 `clk_dcc` 在 DCC 鎖定後的  $duty\ cycle = \frac{523\ ps}{1000\ ps} = 52.3\%$ 。