

# Chapter4. The Processor

[통계](#) [수정](#) [삭제](#)

wnwlcks123 · 2022년 8월 21일

0

CS



CS

▼ 목록 보기

3/4



## ==== 4장 1,2강 =====

### Introduction

컴퓨터구조

- CPU performance factors
  - Instruction count
    - Determined by ISA and compiler
  - CPI and Cycle time
    - Determined by CPU hardware
- We will examine two MIPS implementations
  - A simplified version
  - A more realistic pipelined version
- Simple subset, shows most aspects
  - Memory reference: lw, sw
  - Arithmetic/logical: add, sub, and, or, slt
  - Control transfer: beq, j



# Instruction Execution

컴퓨터구조

- PC → instruction memory, fetch instruction
- Register numbers → register file, read registers
- Depending on instruction class
  - Use ALU to calculate
    - Arithmetic result
    - Memory address for load/store
    - Branch target address
  - Access data memory for load/store
  - PC ← target address or PC + 4



## CPU 구조

## CPU Overview

컴퓨터구조



# Control



# Logic Design Basics

- Information encoded in binary
  - Low voltage = 0, High voltage = 1
  - One wire per bit
  - Multi-bit data encoded on multi-wire buses
- Combinational element
  - Operate on data
  - Output is a function of input
- State (sequential) elements
  - Store information



- Combinational element : 인풋에 의해서 아웃풋이 결정된다.
- State (sequential) elements : 가지고 있는 정보에 따라 다음 state값이 변한다. (register, cach..등등)

# Combinational Elements

- AND-gate
  - $Y = A \& B$



- Multiplexer
  - $Y = S ? I_1 : I_0$



- Adder
  - $Y = A + B$



- Arithmetic/Logic Unit
  - $Y = F(A, B)$



# Sequential Elements

- Register: stores data in a circuit
  - Uses a clock signal to determine when to update the stored value
  - Edge-triggered: update when Clk changes from 0 to 1



- Edge-trigger 라고 표현하기도 한다.
- Rising edge 일경우 값이 업데이트가 된다.

# Sequential Elements

- Register with write control
  - Only updates on clock edge when write control input is 1
  - Used when stored value is required later



- 클락이 rising edge이면서 Write이 1일때 값이 업데이트 된다.

# Clocking Methodology

- Combinational logic transforms data during clock cycles
  - Between clock edges
  - Input from state elements, output to state element
  - Longest delay determines clock period



- Combinational logic : 하나의 클락사이클 동안 어떤 연산이 다 끝나야 하는것.

### 4.3 Building a Datapath



## Building a Datapath

- Datapath
  - Elements that process data and addresses in the CPU
    - Registers, ALUs, mux's, memories, ...
  - We will build a MIPS datapath incrementally
    - Refining the overview design



- Datapath : 데이터를 처리하거나 데이터와 address를 cpu에서 처리해주는 elements

# Instruction Fetch

컴퓨터구조



- Instruction Fetch : 명령어를 실행할 때 첫번째로 실행하는 일.

## R-Format Instructions

컴퓨터구조

- Read two register operands
- Perform arithmetic/logical operation
- Write register result



a. Registers

b. ALU



- 레지스터간의 연산

- 두개의 레지스터에서 값을 읽어서 연산을 해서 그 결과를 결과 레지스터에 적는다.

# Load/Store Instructions

- Read register operands
- Calculate address using 16-bit offset
  - Use ALU, but sign-extend offset
- Load: Read memory and update register
- Store: Write register value to memory



1. 레지스터값을 읽는다.

2.

# Branch Instructions

- Read register operands
- Compare operands
  - Use ALU, subtract and check Zero output
- Calculate target address
  - Sign-extend displacement
  - Shift left 2 places (word displacement)
  - Add to PC + 4
    - Already calculated by instruction fetch



1. 레지스터의 값을 읽어와야한다.

2. operands값을 계산한다. : ALU, subtract 후 Zero output을 만들어냄

3. 동시에 target address를 계산
4. 16비트를 32비트로 바꿈.
5. 왼쪽으로 2비트 움직임 ( $\times 4$  왜냐하면 32비트이기 때문)
6. PC + 4

## Branch Instructions

컴퓨터구조



컴퓨터구조

## Composing the Elements

- First-cut data path does an instruction in one clock cycle
  - Each datapath element can only do one function at a time
  - Hence, we need separate instruction and data memories
- Use multiplexers where alternate data sources are used for different instructions

- First-cut data path : 명령어를 하나 실행하는데 한사이클 걸리는 것.
  - 각 시간의 데이터 패스한 컴포넌트들이 한 오퍼레이션만 한다.
  - 데이터 메모리와 instruction 메모리를 나눠야 한다.
- 적당한 곳에 MUX를 사용한다.

## R-Type/Load/Store Datapath

컴퓨터구조



## Full Datapath

컴퓨터구조



퀴 즐

“Combinational element”의 정의는?

- 아웃풋이 인풋의 function으로 결정이 되는 것.

## ALU Control

- ALU used for
  - Load/Store:  $F = \text{add}$
  - Branch:  $F = \text{subtract}$
  - R-type:  $F$  depends on funct field

| ALU control | Function         |
|-------------|------------------|
| 0000        | AND              |
| 0001        | OR               |
| 0010        | add              |
| 0110        | subtract         |
| 0111        | set-on-less-than |
| 1100        | NOR              |

- Load/Store : 더하기
- Branch : 빼기
- R-type : 그외

# ALU Control

컴퓨터구조

- Assume 2-bit ALUOp derived from opcode

- Combinational logic derives ALU control

| opcode | ALUOp | Operation        | funct  | ALU function     | ALU control |
|--------|-------|------------------|--------|------------------|-------------|
| lw     | 00    | load word        | XXXXXX | add              | 0010        |
| sw     | 00    | store word       | XXXXXX | add              | 0010        |
| beq    | 01    | branch equal     | XXXXXX | subtract         | 0110        |
| R-type | 10    | add              | 100000 | add              | 0010        |
|        |       | subtract         | 100010 | subtract         | 0110        |
|        |       | AND              | 100100 | AND              | 0000        |
|        |       | OR               | 100101 | OR               | 0001        |
|        |       | set-on-less-than | 101010 | set-on-less-than | 0111        |



## The Main Control Unit

컴퓨터구조

- Control signals derived from instruction



- 모든 Control signal은 해당 명령어로 부터 만들어진다.

# Datapath With Control



# Load Instruction



# Branch-on-Equal Instruction



# Implementing Jumps



- Jump uses word address
- Update PC with concatenation of
  - Top 4 bits of old PC
  - 26-bit jump address
  - 00
- Need an extra control signal decoded from opcode

- Jumps 명령어의 이식

# Datapath With Jumps Added



## 퍼포먼스 이슈

### Performance Issues

- Longest delay determines clock period
  - Critical path: load instruction
  - Instruction memory → register file → ALU → data memory → register file
- Not feasible to vary period for different instructions
- Violates design principle
  - Making the common case fast
- We will improve performance by pipelining

- 가장 긴 딜레이가 clock period를 결정한다.
- Load 명령어가 가장 오래 걸린다.
- 각각의 명령어에 따라서 다른 clock period를 사용하는 것은 현재의 기술로 힘들다.

- Common case 를 빠르게 하기 어렵다. 따라서 파이프라인 이라는것을 적용할 것이다.

## 4.5 An Overview of Pipelining



- Pipelining Analogy : 스텝의 병렬화

## MIPS Pipeline

- Five stages, one step per stage
  1. IF: Instruction fetch from memory
  2. ID: Instruction decode & register read
  3. EX: Execute operation or calculate address
  4. MEM: Access memory operand
  5. WB: Write result back to register



- MIPS의 Pipeline은 5스텝으로 이루어져 있다.

1. IF : Instruction을 메모리로부터 읽어오는것.
2. ID : Instruction을 decode하고 register를 읽는것.
3. EX : ALU 연산을 하는것.
4. MEM : 메모리에 액세스 하는것.
5. WB : 결과를 실제 레지스터에 쓰는것.

컴퓨터구조

## Pipeline Performance

- Assume time for stages is
  - 100ps for register read or write
  - 200ps for other stages
- Compare pipelined datapath with single-cycle datapath

| Instr    | Instr fetch | Register read | ALU op | Memory access | Register write | Total time |
|----------|-------------|---------------|--------|---------------|----------------|------------|
| lw       | 200ps       | 100 ps        | 200ps  | 200ps         | 100 ps         | 800ps      |
| sw       | 200ps       | 100 ps        | 200ps  | 200ps         |                | 700ps      |
| R-format | 200ps       | 100 ps        | 200ps  |               | 100 ps         | 600ps      |
| beq      | 200ps       | 100 ps        | 200ps  |               |                | 500ps      |



컴퓨터구조

## Pipeline Performance



# Pipeline Speedup

- If all stages are balanced
  - i.e., all take the same time
  - Time between instructions<sub>pipelined</sub>  

$$= \frac{\text{Time between instructions}_{\text{nonpipelined}}}{\text{Number of stages}}$$
- If not balanced, speedup is less
- Speedup due to increased throughput
  - Latency (time for each instruction) does not decrease



- Pipeline Speedup : 파이프라인을 사용했을때 얼만큼의 성능 향상을 얻는가
- 모든 스테이지가 다 균등하다는 가정하에 :
  - 파이프라인의 한 스테이지 값은 전체의 파이프라인 시간에 비례하고 스테이지의 수에 반비례 한다.
- 균등하지 않다는 가정하에 : 성능향상이 줄어든다.
- Throughput을 향상 시켜서 성능 향상을 얻는다.
  - 하나의 명령어를 실행하는데 시간은 줄어들지 않는다(오히려 늘어날 수도 있다.)

# Pipelining and ISA Design

- MIPS ISA designed for pipelining
  - All instructions are 32-bits
    - Easier to fetch and decode in one cycle
    - c.f. x86: 1- to 17-byte instructions
  - Few and regular instruction formats
    - Can decode and read registers in one step
  - Load/store addressing
    - Can calculate address in 3<sup>rd</sup> stage, access memory in 4<sup>th</sup> stage
  - Alignment of memory operands
    - Memory access takes only one cycle



- MIPS의 ISA는 pipelining에 꽤 적합하다.
  - 모든 명령어가 32비트이다.
  - 명령어의 포맷도 작다.
  - Load/store addressing이다.
  - memory operands이다.

퀴즈

다음 중 MIPS의 pipeline stage가 아닌 것은?

- ① Instruction Fetch
- ② Instruction decode & register read
- ③ Execute operation or calculate address
- ④ Disk Access



# ==== 4장 3,4강 ====

## - 파이프 라인에 대해

컴퓨터구조

### 1차시

#### 4.5 An Overview of Pipelining



컴퓨터구조

### Hazards

- Situations that prevent starting the next instruction in the next cycle
- Structure hazards
  - A required resource is busy
- Data hazard
  - Need to wait for previous instruction to complete its data read/write
- Control hazard
  - Deciding on control action depends on previous instruction



- Hazards : 다음 사이클의 다음 명령어를 실행하지 못하는 상황 (어떠한 이유에 대해서 던간에)

### 1. Structure hazards

어떠한 명령어를 실행할 때 다른 명령어가 실행하고 있어서 리소스를 사용하지 못할 때.

### 2. Data hazard

Data dependency 앞의 명령어의 결과가 나오지 않아 뒤의 명령어가 실행되지 못할 때.

### 3. Control hazard

앞의 명령어에 의해 후의 명령어의 결과값이 달라질 때.

## Structure Hazards

### Structure Hazards

컴퓨터구조

- Conflict for use of a resource
- In MIPS pipeline with a single memory
  - Load/store requires data access
  - Instruction fetch would have to *stall* for that cycle
    - Would cause a pipeline “bubble”
- Hence, pipelined datapaths require separate instruction/data memories
  - Or separate instruction/data caches



- 리소스의 사용의 충돌이 일어날 때.
- 앞의 로드 명령어가 로드 명령어를 액세스 할 때 까지 기다려야 한다. Hazard 발생
- 파이프라인 데이터패스에선, 명령어 메모리와 데이터 메모리를 구분한다.
- 해결법 : 리소스를 추가한다.(메모리 추가)

## Data Hazards

# Data Hazards

- An instruction depends on completion of data access by a previous instruction
  - add \$s0, \$t0, \$t1
  - sub \$t2, \$s0, \$t3



- 전의 데이터값을 후의 데이터가 사용하기 위해 전의 데이터연산이 끝날 때 까지 기다리는것.

## Data Hazards를 해결하는 다른 방법

### Forwarding (aka Bypassing)

- Use result when it is computed
  - Don't wait for it to be stored in a register
  - Requires extra connections in the datapath



- 포워딩(바이패싱) : 어떤 결과값을 계산했을 때 그 결과값을 바로 사용하는 것.
- 데이터 패스에 추가적인 커넥션이 필요하다.

## Load-Use Data Hazard

### Load-Use Data Hazard

컴퓨터구조

- Can't always avoid stalls by forwarding
  - If value not computed when needed
  - Can't forward backward in time!



- Load-Use Data Hazard : 로드 명령어에 의해서 발생하는 Hazard

# Code Scheduling to Avoid Stalls

- Reorder code to avoid use of load result in the next instruction
- C code for  $A = B + E; C = B + F;$



- Hazard를 막기 위해서 코드를 reschedule 하는것이 필요하다.

## Control Hazards

- Branch determines flow of control
  - Fetching next instruction depends on branch outcome
  - Pipeline can't always fetch correct instruction
    - Still working on ID stage of branch
- In MIPS pipeline
  - Need to compare registers and compute target early in the pipeline
  - Add hardware to do it in ID stage



- Branch의 결과의 값에 따라서 다음 명령어가 결정이 된다.

# Stall on Branch

- Wait until branch outcome determined before fetching next instruction



- 다음명령어를 fetching 하기 전까지 기다려야 한다.

## Branch Control Hazards를 해결하는 방법

### Branch Prediction

- Longer pipelines can't readily determine branch outcome early
  - Stall penalty becomes unacceptable
- Predict outcome of branch
  - Only stall if prediction is wrong
- In MIPS pipeline
  - Can predict branches not taken
  - Fetch instruction after branch, with no delay



- Branch Prediction : 브랜치의 결과를 예측한다.  
: 브랜치를 예측해서 맞으면 진행 아니면 진행하지 않는다.
- MIPS에서는 Branch가 발생하지 않는다고 생각하고 진행한다.

## MIPS with Predict Not Taken

컴퓨터구조



- 맞으면 진행 아니면 X

## More-Realistic Branch Prediction

컴퓨터구조

- Static branch prediction
  - Based on typical branch behavior
  - Example: loop and if-statement branches
    - Predict backward branches taken
    - Predict forward branches not taken
- Dynamic branch prediction
  - Hardware measures actual branch behavior
    - e.g., record recent history of each branch
  - Assume future behavior will continue the trend
    - When wrong, stall while re-fetching, and update history

- Branch Prediction은 크게 두 종류로 나눈다
  - 1.Static branch prediction  
branch prediction의 결과가 고정되어 있다.(항상 값이 고정되어 있다고 예측한다.)
  - 2. Dynamic branch prediction  
branch prediction의 결과가 동적으로 바뀐다.  
최근 branch 결과값을 사용하기 때문에 메모리 공간이 필요하다.

## Pipeline Summary

컴퓨터구조

### The BIG Picture

- Pipelining improves performance by increasing instruction throughput
  - Executes multiple instructions in parallel
  - Each instruction has the same latency
- Subject to hazards
  - Structure, data, control
- Instruction set design affects complexity of pipeline implementation



- Pipeline은 throughput을 증가시켜 성능을 향상시킨다.  
여러개의 명령어를 동시에 수행해서 성능을 증가 시킨다.
- 어떤 Instruction set을 가지고 있느냐가 파이프라인 구현에 영향을 미친다.

퀴 즈

“Hazard”의 정의는?

## 2차시

### 4.6 Pipelined Datapath and Control



# Pipeline registers

- Need registers between stages
  - To hold information produced in previous cycle



- Pipeline registers : 각 스테이지마다 그 스테이지에서 나온 값을 저장하는곳.

# Pipeline Operation

- Cycle-by-cycle flow of instructions through the pipelined datapath
  - "Single-clock-cycle" pipeline diagram
    - Shows pipeline usage in a single cycle
    - Highlight resources used
  - c.f. "multi-clock-cycle" diagram
    - Graph of operation over time
- We'll look at "single-clock-cycle" diagrams for load & store

- Pipeline Operation 은 두가지 다이어 그램으로 표현한다.

1. Single-clock-cycle pipeline diagram : 특정한 한 사이클의 파이프라인의 상태를 보여준다
  - 어떤 리소스를 쓰는지 다 보여준다.

2. Multi-clock-cycle diagram : 여러 사이클에 걸쳐서 어떤식으로 실행이 되는지 보여주는것.



- Multi-Cycle Pipeline Diagram : 사이클의 시간에 지남에 따라 어떤 명령어들이 어떤 스테이지에서 각각 실행되는지 쉽게 이해 할 수 있다.

# Multi-Cycle Pipeline Diagram

- Traditional form



## Single-Cycle Pipeline Diagram

- State of pipeline in a given cycle



# Pipelined Control (Simplified)



# Pipelined Control

- Control signals derived from instruction
  - As in single-cycle implementation



# Pipelined Control



퀴  
즈

Pipelined processor에서 Forwarding의 정의는?

Use result when it is computed

- 결과가 계산이 됐을 때, 바로 그 값을 사용하는 것.

==== 4장 5,6강 =====

학  
습  
내  
용

- 4.1 Introduction
- 4.2 Logic Design Conventions
- 4.3 Building a Datapath
- 4.4 A Simple Implementation Scheme
- 4.5 An Overview of Pipelining
- 4.6 Pipelined Datapath and Control
- 4.7 Data Hazards: Forwarding vs. Stalling**
- 4.8 Control Hazards
- 4.9 Exceptions
- 4.10 Parallelism via Instructions
- 4.11 Real Stuff: The ARM Cortex-A8 and Intel Core i7 Pipelines
- 4.12 Instruction-Level Parallelism and Matrix Multiply
- 4.14 Fallacies and Pitfalls
- 4.15 Concluding Remarks



## 1차시

4.7 Data Hazards: Forwarding vs. Stalling



# Data Hazards in ALU Instructions

컴퓨터구조

- Consider this sequence:

```
sub $2, $1,$3  
and $12,$2,$5  
or $13,$6,$2  
add $14,$2,$2  
sw $15,100($2)
```



- We can resolve hazards with forwarding

- How do we detect when to forward?

영남대학교 - The Processor - 5



- 본 예시는 Data Hazard의 예.
- Forwarding을 사용하면 Data Hazard를 해결할 수 있다.

## Dependencies & Forwarding

컴퓨터구조

영남대학교 - The Processor - 6



- Dependencies & Forwarding

1. 두 번째 레지스터 \$2의 값은 ALU 연산 EX 스테이지가 끝나면 나온다. 그래서 끝나자마자 두 번째 연산에서 바로 forwarding

2. MEM 스테이지에서 또 forwarding

3.add 명령어에서도 레지스터 자체에서 사용하니 Hazard 자체가 발생하지 않는다.

4. 위와같이 Hazard를 forwarding으로 해결할 수 있다.

## Data Dependencies

- 네가지 경우가 발생.
  1. RAR (Read After Read)
  2. RAW (Read After Write) ☆
  3. WAR (Write After Read)
  4. WAW (Write After Write)

RAW가 Data Hazard가 발생(쓴 후에 읽는 것.)

: 항상 순서가 지켜져야 하기 때문

컴퓨터구조

### Detecting the Need to Forward

- Pass register numbers along pipeline
  - e.g., ID/EX.RegisterRs = register number for Rs sitting in ID/EX pipeline register
- ALU operand register numbers in EX stage are given by
  - ID/EX.RegisterRs, ID/EX.RegisterRt
- Data hazards when
  - 1a. EX/MEM.RegisterRd = ID/EX.RegisterRs }  
1b. EX/MEM.RegisterRd = ID/EX.RegisterRt }
  - 2a. MEM/WB.RegisterRd = ID/EX.RegisterRs }  
2b. MEM/WB.RegisterRd = ID/EX.RegisterRt }

The diagram illustrates the forwarding logic. It shows two sets of blue boxes labeled 'Fwd from EX/MEM pipeline reg' and 'Fwd from MEM/WB pipeline reg'. Arrows point from these boxes to specific register inputs in the EX and MEM stages of a pipeline. The EX stage has inputs for RegisterRs and RegisterRt, both of which can receive forwarded values. The MEM stage has inputs for RegisterRd, which also receives forwarded values from the EX stage.

• 영남대학교 - The Processor - 7

## Forwarding은 언제하는가 ?

- ID/EX : ID/EX에 있는 파이프라인 레지스터
- RegisterRs : 거기에 있는 소스 레지스터

- ALU operand register 넘버
  - ID/EX.RegisterRs(소스), ID/EX.RegisterRt(타겟)

- Data Hazard가 발생할때
  - 1a. EX/MEM.RegisterRd = ID/EX.RegisterRs  
: EX/MEM destiny register 넘버와 ID/EX source register 넘버와 같은경우
  - 1b. EX/MEM.RegisterRd = ID/EX.RegisterRt  
: EX/MEM destiny register 넘버와 ID/EX target register 넘버와 같은경우
- 1a와 1b는 EX/MEM 파이프라인 register로 부터 forwarding하게 됨.
  - o EX -> MEM
- 2a. MEM/WB.RegisterRd = ID/EX.RegisterRs  
: MEM/WB destiny register 넘버와 ID/EX source register 넘버와 같은경우
- 2b. MEM/WB.RegisterRd = ID/EX.RegisterRt  
: MEM/WB destiny register 넘버와 ID/EX target register 넘버와 같은경우
- MEM 스테이지가 끝난후에 Write Back하게됨.
- forwarding 할 수 있는 곳
  - 1.EX스테이지가 끝난 후.
  - 2.MEM스테이지가 끝난 후.
- 네가지 경우중 하나라도 만족한다면 Data Hazard 발생

## Detecting the Need to Forward

컴퓨터구조

- But only if forwarding instruction will write to a register!
  - EX/MEM.RegWrite, MEM/WB.RegWrite
- And only if Rd for that instruction is not \$zero
  - EX/MEM.RegisterRd ≠ 0,  
MEM/WB.RegisterRd ≠ 0



- forwarding instruction이 register에 쓰여지는 경우
  - : EX/MEM.RegWrite, MEM/WB.RegWrite

: Rd(Destiny register)가 zero register가 아니여야 한다.(zero register는 읽기용이기 때문 Read Only)

## Forwarding Paths

컴퓨터구조



영남대학교 The Processor--9



## Forwarding Conditions

컴퓨터구조

- EX hazard
  - if (EX/MEM.RegWrite and (EX/MEM.RegisterRd ≠ 0)  
and (EX/MEM.RegisterRd = ID/EX.RegisterRs))  
**ForwardA = 10**
  - if (EX/MEM.RegWrite and (EX/MEM.RegisterRd ≠ 0)  
and (EX/MEM.RegisterRd = ID/EX.RegisterRt))  
**ForwardB = 10**
- MEM hazard
  - if (MEM/WB.RegWrite and (MEM/WB.RegisterRd ≠ 0)  
and (MEM/WB.RegisterRd = ID/EX.RegisterRs))  
**ForwardA = 01**
  - if (MEM/WB.RegWrite and (MEM/WB.RegisterRd ≠ 0)  
and (MEM/WB.RegisterRd = ID/EX.RegisterRt))  
**ForwardB = 01**

영남대학교 The Processor--10



## Forwarding Conditions

- 웃 Forwarding Paths의 설명

## Double Data Hazard

- Consider the sequence:
 

```
add $1,$1,$2
      add $1,$1,$3
      add $1,$1,$4
```
- Both hazards occur
  - Want to use the most recent
- Revise MEM hazard condition
  - Only fwd if EX hazard condition isn't true



## Double Data Hazard

- 세 번째 add의 \$\$1은 항상 최신값을 써야한다.
- 위와 같은 것을 방지하기 위해 MEM hazard의 조건을 바꿔야 한다.  
: EX hazard의 condition이 true가 아닌 경우에만 MEM hazard에서 forwarding 해야 한다.

## Revised Forwarding Condition

- MEM hazard
  - if (MEM/WB.RegWrite and (MEM/WB.RegisterRd ≠ 0)
   
and not (EX/MEM.RegWrite and (EX/MEM.RegisterRd ≠ 0))
  
and (EX/MEM.RegisterRd = ID/EX.RegisterRs))
  
and (MEM/WB.RegisterRd = ID/EX.RegisterRs))
   
ForwardA = 01
  - if (MEM/WB.RegWrite and (MEM/WB.RegisterRd ≠ 0)
   
and not (EX/MEM.RegWrite and (EX/MEM.RegisterRd ≠ 0))
  
and (EX/MEM.RegisterRd = ID/EX.RegisterRt))
  
and (MEM/WB.RegisterRd = ID/EX.RegisterRt))
   
ForwardB = 01



- AND와 파란색으로 된 부분이 추가가 됨.

# Datapath with Forwarding

컴퓨터구조



영남대학교 The Processor—13

## Load-Use Data Hazard

컴퓨터구조



영남대학교 The Processor—14

## Load-Use Data Hazard

1. MEM 스테이지가 끝나야 값을 알 수 있다
2. 그 값이 두번째 ALU 연산(EX스테이지)에 사용된다. 바로 값을 참조할 수 없기 때문에 한 사이클 쉬어준다.

- Check when using instruction is decoded in ID stage
- ALU operand register numbers in ID stage are given by
  - IF/ID.RegisterRs, IF/ID.RegisterRt
- Load-use hazard when
  - ID/EX.MemRead and  
 $((ID/EX.RegisterRt = IF/ID.RegisterRs) \text{ or } (ID/EX.RegisterRt = IF/ID.RegisterRt))$
- If detected, stall and insert bubble



## Load-use Hazard를 방지하기

- Load-use hazard가 발생하는 경우
2. ID/EX.MemRead가 true이면서 (and)
- 2-1 ID/EX.RegisterRt = IF/ID.RegisterRs 이거나 (or) ID/EX.RegisterRt = IF/ID.RegisterRt
- : stall과 bubble을 추가한다 (한사이클 쉬어준다는 뜻)

## How to Stall the Pipeline

- Force control values in ID/EX register to 0
  - EX, MEM and WB do nop (no-operation)
- Prevent update of PC and IF/ID register
  - Using instruction is decoded again
  - Following instruction is fetched again
  - 1-cycle stall allows MEM to read data for 1w
    - Can subsequently forward to EX stage



# 어떻게 Stall을 Pipeline에서 구현하는가

1. ID/EX register의 모든 값을 0으로 만든다.  
: EX, MEM, WB은 아무런 연산도 하지 않는다.
2. Program Counter가 업데이트 되는것을 방지해야 한다. IF/ID register의 값이 업데이트 되는것을 방지해야 한다.
  - 같은 명령어를 decoding 한번 더 한다.
  - 다음 명령어를 fetch를 한번 더 한다.
  - 한사이클 stall이 발생한다 하더라도 MEM스테이지에서 data를 읽는것은 진행이 되어야한다  
: 한사이클 쉬어진 후에 EX stage에 forwarding 되게 해야한다.

## Stall/Bubble in the Pipeline

컴퓨터구조



# Datapath with Hazard Detection

컴퓨터구조



컴퓨터구조

## Stalls and Performance

### The BIG Picture

- Stalls reduce performance
  - But are required to get correct results
- Compiler can arrange code to avoid hazards and stalls
  - Requires knowledge of the pipeline structure



Stall은 퍼포먼스를 감소시킨다.

- 그때는 아무작업을 하지 않기 때문
- 하지만 정확한 값을 얻기 위해서는 필요하다
- 컴파일러는 hazard와 stall을 없애기 위해 code를 스케줄링한다.
- 컴파일러가 프로세스의 파이프라인 구조를 잘 알고 있어야 한다.

## 4.8 Control Hazards



## Branch Hazards

- If branch outcome determined in MEM



- Branch Hazard는 MEM스테이지에서 나와야 한다
- Branch의 결과가 MEM에서 알게 되면 3사이클 쉬어줘야 한다.

# Reducing Branch Delay

컴퓨터구조

- Move hardware to determine outcome to ID stage
  - Target address adder
  - Register comparator

- Example: branch taken

```
36: sub $10, $4, $8  
40: beq $1, $3, 7  
44: and $12, $2, $5  
48: or $13, $2, $6  
52: add $14, $4, $2  
56: slt $15, $6, $7  
  
72: lw $4, 50($7)
```



- Branch의 결과를 줄이기 위해선?

: ID스테이지에서 branch결과를 알 수 있게끔 하드웨어를 추가를 한다.

1. Target address 추가.
2. Register comparator 추가.

## Example: Branch Taken

컴퓨터구조



"Data Hazard"의 정의는?

● 영남대학교

10주 2차시로  
넘어갑니다.



- 앞의 데이터의 읽기쓰기에 대한 명령어의 실행을 끝날때까지 기다려야 하는것.  
앞의 데이터의 값을 뒤의 데이터가 사용해야하기 때문에 그사이에 발생하는 stall때문에  
기다림이 생기는것.

- 4.1 Introduction
- 4.2 Logic Design Conventions
- 4.3 Building a Datapath
- 4.4 A Simple Implementation Scheme
- 4.5 An Overview of Pipelining
- 4.6 Pipelined Datapath and Control
- 4.7 Data Hazards: Forwarding vs. Stalling
- 4.8 Control Hazards**
- 4.9 Exceptions**
- 4.10 Parallelism via Instructions
- 4.11 Real Stuff: The ARM Cortex-A8 and Intel Core i7 Pipelines
- 4.12 Instruction-Level Parallelism and Matrix Multiply
- 4.14 Fallacies and Pitfalls
- 4.15 Concluding Remarks

● 영남대학교



## Control hazard

## 2차시

### 4.8 Control Hazards

## Data Hazards for Branches

- If a comparison register is a destination of 2<sup>nd</sup> or 3<sup>rd</sup> preceding ALU instruction



- Can resolve using forwarding

- Branches를 위한 Data Hazard
- forwarding을 통해서 data hazard를 해결할 수 있었다.

# Data Hazards for Branches

- If a comparison register is a destination of preceding ALU instruction or 2<sup>nd</sup> preceding load instruction
  - Need 1 stall cycle



- branch명령어의 comparison에 관련된 레지스터가 바로 앞의 명령어에 destination register 이거나 두번 째 앞의 명령어의 load명령어인 경우
- 설명 :

- 1번레지스터값은 lw의 \$.1 4번레지스터값은 add의 \$.4, 4번 레지스터는 EX스테이지가 끝나고 값을 알 수 있다.
- 값은 branch명령어의 ID에서 사용해야 한다.
- load명령어는 MEM스테이지가 끝나고 forwarding 한다.
- 따라서 한사이클을 쉬어줘야 Data hazard가 발생하지 않는다.

## Data Hazards for Branches

- If a comparison register is a destination of immediately preceding load instruction
  - Need 2 stall cycles



- comparison register가 바로전의 load명령어의 destination register와 같은 경우.
- 설명 :

- beq \$1.의 값은 load명령어의 \$.1값
- load.명령어의 \$.1rkqtdms MEM명령어가 끝난 후에 알 수 있다. 그 후 ID스테이지와 맞춘다.
- 따라서 두 사이클을 쉬어줘야 한다.

## Dynamic Branch Prediction

- In deeper and superscalar pipelines, branch penalty is more significant
- Use dynamic prediction
  - Branch prediction buffer (aka branch history table)
  - Indexed by recent branch instruction addresses
  - Stores outcome (taken/not taken)
  - To execute a branch
    - Check table, expect the same outcome
    - Start fetching from fall-through or target
    - If wrong, flush pipeline and flip prediction



- Dynamic Branch Prediction
- deeper superscalar pipeline(후설)은 branch의 패널티가 점점 더 커진다.
- 그러한 패널티(부작용을) 줄이기 위해서 dynamic prediction을 사용한다.
  1. branch prediction buffer를 이용한다 : 최근의 사용한 branch의 결과값을 가지고 있는 buffer 또는 table
  2. 최근의 branch 명령어의 주소로 index된다.
  3. 최근에 실행한 branch의 결과(언제나 taken/not taken)
  4. branch를 실행하면 테이블의 저장돼있는 값을 예측한다.
  5. 그 예측한 값으로 branch를 실행한다
  6. 만약 예측한 값이 틀렸다면 지금까지 실행한 것을 무효화한다.
  7. branch prediction의 결과값을 제대로 된 값으로 바꾼다. 그리고 제대로된 명령어를 실행한다.

## 1-Bit Predictor: Shortcoming

컴퓨터구조

- Inner loop branches mispredicted twice!



- Mispredict as taken on last iteration of inner loop
- Then mispredict as not taken on first iteration of inner loop next time around



- 1-Bit Predictor : branch 명령어의 바로 전 값을 이용하는 것. : branch 명령어의 taken이면 taken으로 예측하고 not taken이면 not taken으로 예측한다.
- inner loop brache는 항상 오류를 범한다. : inner loop 결과가 taken -> out loop으로 들어감 taken 예측 실패 -> out loop 결과 not taken -> 다시 inner로 들어감 -> not taken 예측 실패

- Only change prediction on two successive mispredictions



Chapter 4 — The Processor —



- 2-Bit Predictor : 1-Bit의 오류를 해결 가능
- taken으로 예측했는데 taken이면 stay, 예측 못하면 옆 bit로 move

## Calculating the Branch Target

- Even with predictor, still need to calculate the target address
  - 1-cycle penalty for a taken branch
- Branch target buffer
  - Cache of target addresses
  - Indexed by PC when instruction fetched
    - If hit and instruction is branch predicted taken, can fetch target immediately

Chapter 4 — The Processor —



## Branch Target address 계산

- Branch predictor를 사용하더라도 Branch Target address를 매번 계산해야 한다.
- taken branch할 때 1사이클 패널티를 받는다(위에서 설명함.)

- Branch target buffer를 사용한다. : target address를 cacheing 한다.
- 명령어가 fetch될때, Program counter값(branch의 명령어가 있는 주소)으로 indexing이됨.
- hit이 되고, 명령어가 taken으로 예측이 된다면. 그때 바로 target address를 사용한다.

컴퓨터구조

#### 4.9 Exceptions



- Exception : 프로그램의 흐름을 바꾸는 정의 되지 않은 이벤트
- Exception은 CPU내부에서 발생한다.  
ex) opcode, overflow, syscall...등등
- Interrupt : 외부 장치에서 발생하는것.
- software Interrupt(다른말로 Trap) : 명령어에 의해서 발생하는것.
- 퍼포먼스를 실행시키지 않고 오류를 처리하는것은 아주 어렵다.

# Handling Exceptions

- In MIPS, exceptions managed by a System Control Coprocessor (CP0)
- Save PC of offending (or interrupted) instruction
  - In MIPS: Exception Program Counter (EPC)
- Save indication of the problem
  - In MIPS: Cause register
  - We'll assume 1-bit
    - 0 for undefined opcode, 1 for overflow
- Jump to handler at 8000 00180



- Exception 처리
  - MIPS에서 Exception은 System Control Coprocessor에서 관리된다.
1. Exception이 발생하면 발생한 Program Counter를 EPC라고하는 Exception Program Counter에 저장한다.
  2. Exception을 발생시킨 문제를 특정한 register에 저장한다.
  3. Handler가 지정된 메모리 주소로 jump 한다.
  4. 위의 1, 2, 3은 동시에 실행된다.

# An Alternate Mechanism

컴퓨터구조

- Vectored Interrupts
  - Handler address determined by the cause
- Example:
  - Undefined opcode: C000 0000
  - Overflow: C000 0020
  - ...: C000 0040
- Instructions either
  - Deal with the interrupt, or
  - Jump to real handler



- Vectored Interrupt : 오류를 원인에 따라 여러개로 등록한다. 즉. 오류에 따라 따로 관리한다.

## Handler Actions

컴퓨터구조

- Read cause, and transfer to relevant handler
- Determine action required
- If restartable
  - Take corrective action
  - use EPC to return to program
- Otherwise
  - Terminate program
  - Report error using EPC, cause, ...



- Handler의 역할
  1. 원인 찾기
  2. 그것에 관련된 Handler로 점프 후 Action을 취함.
  3. 재실행
  4. 오류가 회복이 안된다면 종료 후 report

# Exceptions in a Pipeline

컴퓨터구조

- Another form of control hazard
- Consider overflow on add in EX stage
  - add \$1, \$2, \$1
  - Prevent \$1 from being clobbered
  - Complete previous instructions
  - Flush add and subsequent instructions
  - Set Cause and EPC register values
  - Transfer control to handler
- Similar to mispredicted branch
  - Use much of the same hardware



- Pipeline은 대표적인 control hazard의 대표적인 형태
- branch를 misprediction 할 때와 유사하다.

## Pipeline with Exceptions

컴퓨터구조



# Exception Properties

컴퓨터구조

- Restartable exceptions
  - Pipeline can flush the instruction
  - Handler executes, then returns to the instruction
    - Refetched and executed from scratch
- PC saved in EPC register
  - Identifies causing instruction
  - Actually PC + 4 is saved
    - Handler must adjust



## Multiple Exceptions

컴퓨터구조

- Pipelining overlaps multiple instructions
  - Could have multiple exceptions at once
- Simple approach: deal with exception from earliest instruction
  - Flush subsequent instructions
  - "Precise" exceptions
- In complex pipelines
  - Multiple instructions issued per cycle
  - Out-of-order completion
  - Maintaining precise exceptions is difficult!



- 요약) 여러 Exception이 발생 했을 때 : 가장 많이 나타난 오류 먼저 순차적으로 처리한다.

실무에서 사용한 단어

- o Precise exception : 예측 가능한 오류
- o Imprecise exception : 예측 불가능한 오류
- o Out-of-order completion : 실행순서에서 오류가 발생, 뒤죽박죽



## 도로로

필승

다음 포스트

Chapter2. Instruction:Language of the Computer



이전 포스트

Chapter3. Arithmetic for computers



0개의 댓글

댓글을 작성하세요

댓글 작성

