

# G-DSP Engine

Implementación del Subsistema de Recepción

Fase 3 — Documentación Técnica del TFG

G-DSP Team

Febrero 2026

## Índice

|                                                                        |          |
|------------------------------------------------------------------------|----------|
| <b>1. Introducción al Subsistema de Recepción</b>                      | <b>2</b> |
| <b>2. Arquitectura del Receptor</b>                                    | <b>2</b> |
| <b>3. Filtro Acoplado (Matched Filter)</b>                             | <b>2</b> |
| 3.1. Justificación . . . . .                                           | 2        |
| 3.2. Compensación de ganancia . . . . .                                | 3        |
| <b>4. Recuperación de Temporización — Gardner TED</b>                  | <b>3</b> |
| 4.1. Algoritmo . . . . .                                               | 3        |
| 4.2. NCO de temporización . . . . .                                    | 3        |
| 4.3. Interpolación lineal . . . . .                                    | 4        |
| <b>5. Recuperación de Portadora — Costas Loop 16-QAM</b>               | <b>4</b> |
| 5.1. Limitación del Costas clásico con 16-QAM . . . . .                | 4        |
| 5.2. Solución implementada: detector dirigido por decisiones . . . . . | 4        |
| 5.3. Rotador de fase (NCO + LUT sin/cos) . . . . .                     | 5        |
| 5.4. Filtro de lazo PI con <i>gear shifting</i> . . . . .              | 5        |
| 5.5. Detector de enganche . . . . .                                    | 6        |
| <b>6. Presupuesto de Recursos DSP</b>                                  | <b>6</b> |
| <b>7. Resultados de Verificación</b>                                   | <b>6</b> |
| 7.1. Prueba funcional básica . . . . .                                 | 6        |
| 7.2. Prueba de estrés con offset de frecuencia . . . . .               | 7        |
| <b>8. Conclusiones de la Fase 3</b>                                    | <b>7</b> |

## 1. Introducción al Subsistema de Recepción

El subsistema de recepción (RX) del procesador banda base G-DSP Engine constituye la tercera fase funcional del módem 16-QAM, completando la cadena de comunicaciones implementada sobre la FPGA Gowin GW1NR-LV9QN88PC6/I5 (Tang Nano 9K). Su función es recuperar los símbolos transmitidos a partir de las muestras ruidosas entregadas por el modelo de canal AWGN (Fase 2), resolviendo simultáneamente la sincronización de tiempo de símbolo y la recuperación de fase de portadora.

La cadena de recepción implementada sigue la arquitectura canónica de un receptor QAM coherente:

$$r_{I,Q}[n] \rightarrow \text{FIR RRC (MF)} \rightarrow \text{Gardner TED} \xrightarrow{1 \times \text{sym}} \text{Costas DD-PLL} \rightarrow \hat{I}, \hat{Q} \quad (1)$$

Los módulos RTL que materializan esta cadena son:

1. `rrc_filter` ×2 — Filtro acoplado (matched filter) para los canales I y Q.
2. `gardner_ted` — Recuperación de temporización con NCO e interpolación lineal.
3. `costas_loop` — Recuperación de portadora mediante lazo de fase dirigido por decisiones (DD-PLL) para 16-QAM.
4. `rx_top` — Módulo de integración que conecta los tres bloques anteriores.

## 2. Arquitectura del Receptor

La Figura 1 muestra el diagrama de bloques del subsistema de recepción. La señal de entrada proviene del modelo de canal AWGN a tasa de muestreo ( $f_s = 27 \text{ MHz}$ , 4 muestras por símbolo), y la salida son los símbolos demodulados a tasa de símbolo ( $f_{\text{sym}} = 6,75 \text{ MHz}$ ) junto con un indicador de enganche (`demod_lock`).



Figura 1: Diagrama de bloques del subsistema de recepción. El filtro acoplado opera a  $f_s$ ; el Gardner TED decima a tasa de símbolo; el lazo de Costas corrige fase y frecuencia residual.

## 3. Filtro Acoplado (Matched Filter)

El filtro acoplado del receptor reutiliza el mismo módulo `rrc_filter` empleado en el transmisor (Fase 1), con coeficientes RRC de longitud  $L = 33$  taps y factor de *roll-off*  $\alpha = 0,25$ . Se instancian dos copias idénticas, una para cada canal (I y Q).

### 3.1. Justificación

En un sistema con conformación de pulso *split Nyquist*, la cascada de los filtros RRC de transmisión y recepción produce una respuesta total de coseno alzado (*raised cosine*), que satisface el primer criterio de Nyquist para interferencia intersimbólica (ISI) nula en los instantes óptimos de muestreo:

$$h_{\text{RC}}[n] = h_{\text{RRC}}[n] * h_{\text{RRC}}[n], \quad h_{\text{RC}}[kT_s] = \begin{cases} 1 & k = 0 \\ 0 & k \neq 0 \end{cases} \quad (2)$$

Además, el filtro acoplado maximiza la relación señal a ruido (SNR) a la salida, propiedad fundamental para la detección óptima en canales AWGN [1].

### 3.2. Compensación de ganancia

La cascada de dos filtros RRC discretos produce una ganancia de pico  $\|h_{\text{RRC}}\|^2 \approx 0,7095$  en lugar de la unidad teórica (debido a la discretización y truncamiento de los coeficientes a Q1.11). Para restaurar los niveles de constelación QAM a escala completa, el módulo `rx_top` aplica una etapa de compensación de ganancia:

$$y_{\text{comp}} = y_{\text{MF}} \times \frac{1443}{1024} \approx y_{\text{MF}} \times 1,4094 \approx \frac{y_{\text{MF}}}{0,7095} \quad (3)$$

Esta multiplicación emplea 2 multiplicadores DSP adicionales (uno por canal) a tasa de muestra.

## 4. Recuperación de Temporización — Gardner TED

La recuperación de temporización (*timing recovery*) es necesaria para identificar los instantes óptimos de muestreo dentro de cada período de símbolo. El módulo `gardner_ted` implementa el algoritmo de Gardner, un detector de error de temporización *non-data-aided* (NDA) que no requiere decisiones previas del demodulador [2].

### 4.1. Algoritmo

El error de temporización de Gardner para los canales I y Q se calcula como:

$$e[n] = (I[n-1] - I[n]) \cdot I_{\text{mid}} + (Q[n-1] - Q[n]) \cdot Q_{\text{mid}} \quad (4)$$

donde  $I[n]$ ,  $Q[n]$  son las muestras *prompt* (instante óptimo actual),  $I[n-1]$ ,  $Q[n-1]$  son los prompts del símbolo anterior, e  $I_{\text{mid}}$ ,  $Q_{\text{mid}}$  son las muestras en el punto medio entre ambos prompts.

La propiedad fundamental de este detector es que su valor esperado es cero cuando el muestreo está perfectamente alineado ( $e[n] = 0$  en media), y tiene un gradiente que permite al lazo de control converger al instante óptimo.

### 4.2. NCO de temporización

El control de fase temporal se implementa mediante un oscilador controlado numéricamente (NCO) de 16 bits. El acumulador de fase se incrementa por un paso nominal  $\Delta\phi = 2^{16}/\text{SPS} = 16384$  en cada muestra válida. Cuando el acumulador desborda (bit 16), se genera un pulso `sym_strobe` que indica el instante óptimo de muestreo.

El filtro de lazo PI ajusta el paso del NCO:

$$\Delta\phi_{\text{adj}} = \Delta\phi_{\text{nom}} - K_p \cdot e[n] - K_i \cdot \sum_k e[k] \quad (5)$$

con  $K_p = 2^{-8}$  y  $K_i = 2^{-16}$  (ganancias conservadoras implementadas como desplazamientos aritméticos).

### 4.3. Interpolación lineal

Para obtener la muestra *prompt* en el instante exacto indicado por el NCO (que generalmente no coincide con una muestra real), se emplea un interpolador lineal:

$$y(\mu) = x_{\text{curr}} + \mu \cdot (x_{\text{prev}} - x_{\text{curr}}), \quad \mu = \frac{\text{NCO}_{\text{overshoot}}}{2^{14}} \quad (6)$$

donde  $\mu \in [0, 1]$  es la fracción de muestra derivada de los bits inferiores del acumulador NCO.

**Justificación del interpolador lineal.** La Tang Nano 9K dispone de 20 multiplicadores DSP de  $9 \times 9$  bits. La interpolación lineal requiere solo 2 multiplicadores (uno por canal I/Q) para el producto  $\mu \times (x_{\text{prev}} - x_{\text{curr}})$ , frente a los 6–8 multiplicadores que precisaría un interpolador cúbico o de Farrow. Dado que el error de interpolación lineal afecta principalmente a las componentes de alta frecuencia (atenuadas por el filtro RRC con  $\alpha = 0,25$ ), la degradación de rendimiento es insignificante para nuestra aplicación.

## 5. Recuperación de Portadora — Costas Loop 16-QAM

La recuperación de portadora corrige cualquier desfase de fase y/o frecuencia residual entre el transmisor y el receptor. El módulo `costas_loop` implementa un lazo de fase enganchada (*PLL*) dirigido por decisiones (*Decision-Directed*, DD), adaptado específicamente para 16-QAM.

### 5.1. Limitación del Costas clásico con 16-QAM

El detector de fase del lazo de Costas clásico, utilizado habitualmente en BPSK y QPSK, calcula el error como:

$$e_{\text{QPSK}} = Q \cdot \text{sgn}(I) - I \cdot \text{sgn}(Q) \quad (7)$$

Este detector asume que la señal solo tiene *dos niveles por eje* ( $\pm 1$ ). En 16-QAM, con *cuatro niveles por eje* ( $\pm 1, \pm 3$  normalizados), el detector clásico falla porque:

- Los símbolos del anillo interior ( $\pm 1/\sqrt{10}$ ) producen un gradiente de error *ambiguo* respecto a los del anillo exterior ( $\pm 3/\sqrt{10}$ ).
- La función de error resultante (curva S) presenta ceros espurios que impiden la convergencia del lazo.

### 5.2. Solución implementada: detector dirigido por decisiones

En lugar del `sgn()`, se utiliza la salida del *decisor duro* (slicer) de 16-QAM para generar el error de fase mediante el producto cruzado:

$$e_{\text{DD}}[n] = \text{rot}_I \cdot \hat{Q} - \text{rot}_Q \cdot \hat{I} \quad (8)$$

donde  $\text{rot}_{I,Q}$  son las muestras tras la rotación del NCO, y  $\hat{I}, \hat{Q}$  son los niveles QAM más cercanos determinados por las decisiones del slicer (umbral en  $(|\text{QAM}_{+1}| + |\text{QAM}_{+3}|)/2 = 1296$  en Q1.11).

Este detector genera una curva S correcta con ceros estables a 0, 90, 180 y 270, y funciona para cualquier constelación QAM rectangular.

### 5.3. Rotador de fase (NCO + LUT sin/cos)

La rotación de la constelación se implementa mediante el producto complejo:

$$\text{rot}_I = \text{sym}_I \cdot \cos \theta - \text{sym}_Q \cdot \sin \theta \quad (9)$$

$$\text{rot}_Q = \text{sym}_I \cdot \sin \theta + \text{sym}_Q \cdot \cos \theta \quad (10)$$

donde  $\theta$  es la fase acumulada del NCO de 16 bits.

**LUT de cuarto de onda vs. CORDIC.** Los valores de  $\cos \theta$  y  $\sin \theta$  se obtienen de una LUT de cuarto de onda de 65 entradas en Q1.11, con plegado de cuadrante (*quadrant folding*) sobre los 2 bits superiores de la fase. Esta implementación se eligió frente al algoritmo CORDIC por las siguientes razones:

1. **Uso eficiente de DSP:** La LUT produce valores sin / cos en un ciclo de reloj, y las 4 multiplicaciones del rotador se realizan en multiplicadores DSP dedicados. La Tang Nano 9K dispone de 20 multiplicadores de  $9 \times 9$  bits (encadenables a  $18 \times 18$ ) que, en su mayoría, quedan sin usar después del filtro FIR. Aprovechar estos multiplicadores para el rotador ahorra lógica combinacional (LUTs) frente a la cadena de sumas y desplazamientos del CORDIC.
2. **Latencia reducida:** El rotador basado en LUT requiere solo 1–2 ciclos de *pipeline*, mientras que un CORDIC de 12 bits necesitaría 12 iteraciones (o un *pipeline* de 12 etapas).
3. **Memoria mínima:**  $65 \times 12 = 780$  bits de LUT, distribuibles en lógica sin consumir bloques BSRAM.

### 5.4. Filtro de lazo PI con *gear shifting*

El filtro de lazo es de tipo II (proporcional + integral), con ganancias implementadas como desplazamientos aritméticos para evitar multiplicadores adicionales. Se emplea una técnica de *gear shifting* [3] que utiliza ganancias diferentes durante la adquisición y el seguimiento:

Tabla 1: Ganancias del filtro de lazo (dual *gear shifting*).

| Parámetro | Adquisición            | Seguimiento              | Razón                          |
|-----------|------------------------|--------------------------|--------------------------------|
| $K_p$     | $2^{-8} \approx 1/256$ | $2^{-3} \approx 1/8$     | Fase: débil → fuerte           |
| $K_i$     | $2^{-7} \approx 1/128$ | $2^{-12} \approx 1/4096$ | Frecuencia: fuerte → congelado |

Durante la **adquisición** (primeros 200 símbolos), el integrador de frecuencia ( $\omega$ ) domina con un  $K_i$  elevado, permitiendo que  $\omega$  converja al offset de frecuencia real.  $K_p$  es débil para no «robar» error de fase al integrador.

Tras la **conmutación** a modo de seguimiento,  $K_i$  se reduce drásticamente (el integrador queda prácticamente congelado al valor adquirido), mientras que  $K_p$  se incrementa para corregir rápidamente el residuo de fase resultante de la cuantización entera de  $\omega$ .

Las ecuaciones de actualización del NCO son:

$$\omega[n+1] = \omega[n] + K_i \cdot e[n] \quad (\text{solo si } |e[n]| > \text{DEAD\_ZONE}) \quad (11)$$

$$\theta[n+1] = \theta[n] + \omega[n] + K_p \cdot e[n] \quad (\text{siempre activo tras holdoff}) \quad (12)$$

**Zona muerta.** El integrador emplea una zona muerta ( $|e| > 50$  LSBs) para evitar que el ruido de cuantización acumule una desviación sistemática en  $\omega$ . La ruta proporcional opera *sin* zona muerta (los errores pequeños se truncan naturalmente a  $K_p \cdot e = 0$ ).

**Corrección de truncamiento asimétrico.** El desplazamiento aritmético a la derecha ( $>$ ) en Verilog redondea hacia  $-\infty$ , lo que introduce un sesgo negativo:  $-69 \ggg 6 = -2$  pero  $+69 \ggg 6 = +1$ . Para evitar la deriva permanente del NCO, se implementa un truncamiento simétrico hacia cero:

$$\text{trunc}(x, s) = \begin{cases} x \ggg s & x \geq 0 \\ -((-x) \ggg s) & x < 0 \end{cases} \quad (13)$$

## 5.5. Detector de enganche

El detector de enganche calcula una media móvil exponencial (EMA) del valor absoluto del error de fase:

$$\bar{e}[n] = \bar{e}[n-1] + \frac{|e[n]| - \bar{e}[n-1]}{2^6} \quad (14)$$

Se declara enganche (`demod_lock = 1`) cuando  $\bar{e} < 150$  y han transcurrido al menos 100 símbolos (`holdoff` para evitar falsos enganches durante el transitorio inicial).

## 6. Presupuesto de Recursos DSP

La Tabla 2 resume la asignación de multiplicadores DSP del subsistema RX. Todos operan a tasa de símbolo (6,75 MHz) excepto los del filtro acoplado y la compensación de ganancia, que operan a tasa de muestra (27 MHz).

Tabla 2: Multiplicadores DSP utilizados por el subsistema RX.

| Módulo                | Mults.                      | Tasa    | Operación                                    |
|-----------------------|-----------------------------|---------|----------------------------------------------|
| Filtro RRC (I)        | $\leq 5$                    | muestra | MAC FIR (33 taps, doblado)                   |
| Filtro RRC (Q)        | $\leq 5$                    | muestra | MAC FIR                                      |
| Compensación ganancia | 2                           | muestra | $y \times 1443$                              |
| Interpolador Gardner  | 2                           | símbolo | $\mu \times \Delta x$                        |
| Error Gardner         | 2                           | símbolo | $(I_{\text{prev}} - I) \cdot I_{\text{mid}}$ |
| Rotador Costas        | 4                           | símbolo | $I \cos, Q \sin, \text{etc.}$                |
| Error Costas DD       | 2                           | símbolo | $I\hat{Q} - Q\hat{I}$                        |
| <b>Total RX</b>       | <b><math>\leq 22</math></b> |         |                                              |

Dado que los multiplicadores de tasa de símbolo pueden compartirse temporalmente con los de tasa de muestra (mediante *time-division multiplexing*), el consumo efectivo se mantiene dentro de los 20 bloques DSP disponibles en la GW1NR-9.

## 7. Resultados de Verificación

### 7.1. Prueba funcional básica

La primera validación ejecuta la cadena completa TX→Canal→RX sin offset de frecuencia (escenario ideal). Con ruido AWGN ( $M = 24$ , SNR  $\approx 20$  dB):

- Enganche alcanzado en el símbolo 205.
- Precisión post-enganche: 100 % (500/500 símbolos dentro de tolerancia  $\pm 300$  LSBs).
- Error máximo I/Q: 176/153 LSBs.
- NCO estable en 0x0000 (sin offset, no se requiere corrección).

## 7.2. Prueba de estrés con offset de frecuencia

Para validar que el lazo de Costas puede adquirir y seguir un offset de frecuencia real, se inyecta una rotación compleja a la salida del transmisor:

$$r_{\text{rot}}[n] = r_{\text{TX}}[n] \cdot e^{j \cdot 2\pi f_{\Delta} n / f_s} \quad (15)$$

con  $f_{\Delta} = 5$  kHz, equivalente a una rotación de  $\approx 0,27$  por símbolo.

Resultados de la prueba de estrés (AWGN  $M = 24 +$  CFO 5 kHz):

- Enganche alcanzado en el símbolo 326.
- Precisión post-enganche: 81 % (407/500), por encima del umbral mínimo del 80 %.
- $\omega$  (estimación de frecuencia del integrador): converge a -48 unidades NCO/símbolo, consistente con el valor teórico  $\omega_{\text{ideal}} = f_{\Delta} \cdot \text{SPS} \cdot 2^{16} / f_s \approx -48,6$ .
- NCO activo: la fase del NCO rota continuamente para compensar el offset inyectado.
- **Veredicto: Stress Test Passed: NCO active and correcting.**

La precisión del 81 % (frente al 100 % sin CFO) se debe a la cuantización entera de  $\omega$ : el valor -48 difiere del ideal -48,6 en  $\approx 1,2\%$ , generando un pequeño residuo de fase oscilante que la ruta proporcional corrige de forma cíclica. Este efecto es inherente a un NCO de 16 bits y podría eliminarse aumentando la anchura del acumulador a 24–32 bits, como se realiza en implementaciones comerciales.

## 8. Conclusiones de la Fase 3

Se ha implementado y verificado el subsistema de recepción completo del módem 16-QAM G-DSP Engine. Los principales logros son:

1. **Filtro acoplado:** Reutilización del módulo RRC existente con compensación de ganancia calibrada.
2. **Gardner TED:** Recuperación de temporización NDA con interpolación lineal, optimizada para los recursos limitados de la Tang Nano 9K.
3. **Costas DD-PLL:** Recuperación de portadora adaptada a 16-QAM, con LUT de cuarto de onda, lazo PI con *gear shifting*, truncamiento simétrico y detector de enganche.
4. **Verificación:** Prueba funcional (100 % de precisión sin CFO) y prueba de estrés (81 % con 5 kHz de offset) superadas satisfactoriamente, demostrando que el NCO responde activamente para compensar la rotación inyectada.

## Referencias

- [1] S. Haykin, *Communication Systems*, 5th ed. Hoboken, NJ: Wiley, 2014.
- [2] F. M. Gardner, “A BPSK/QPSK timing-error detector for sampled receivers,” *IEEE Trans. Commun.*, vol. COM-34, no. 5, pp. 423–429, May 1986.
- [3] H. Meyr, M. Moeneclaey, and S. A. Fechtel, *Digital Communication Receivers: Synchronization, Channel Estimation, and Signal Processing*. New York: Wiley, 1997.