Update readme

vnccgmv · vnccgmv · commit 215b35a7a421 · 2025-07-08T08:58:35.000+02:00
diff --git a/README.md b/README.md
@@ -5,11 +5,11 @@
 - Listado de **ids de las ontologías** involucradas en el mapeo.
 - Listado de **ids de las fuentes de datos** involucradas en el mapeo.
 
-Estos ids son los correspondientes identificadores dentro de la base de datos del backend de la web de _INESDATA-MAP mapper_, por lo que es necesario también conectarse a dicha BD, usando las siguientes variables de entorno:
+Estos ids son los correspondientes identificadores dentro de la base de datos del backend de la web de [_INESDATA-MAP mapper_](https://github.com/INESData/inesdata-map/tree/main), por lo que es necesario también conectarse a dicha BD, usando las siguientes variables de entorno:
 
-- `SPRING_DATASOURCE_URL`
-- `SPRING_DATASOURCE_USERNAME`
-- `SPRING_DATASOURCE_PASSWORD`
+- `SPRING_DATASOURCE_URL`: Cadena de conexión a la base de datos del backend de la web (e.g. `<db_driver>:<db_type>://<db-host>:<port>/<db_name>`).
+- `SPRING_DATASOURCE_USERNAME`: Usuario de la base de datos.
+- `SPRING_DATASOURCE_PASSWORD`: Contraseña de la base de datos.
 
 De esta forma, el módulo `gen_ai_mapping` se encarga de:
 
@@ -19,20 +19,23 @@ De esta forma, el módulo `gen_ai_mapping` se encarga de:
         1.3.1. Utilizar la columna del _path_ para obtener la ruta en disco donde está almacenada la fuente.
         1.3.2. Extraer el _esquema_ de cada fuente de datos, independientemente de su formato (XML, CSV, ...).
 2. **Rellenar el prompt template** con ontologías y esquemas de fuentes de datos.
-3. Llamada a la **inferencia del modelo LLM desplegado en KServe**: Para realizar este paso, se deben crear dos variables de entorno adicionales (`KUBEFLOW_LLM_ENDPOINT` y `KUBEFLOW_LLM_HOST`) para indicar las URL’s del endpoint y el host de KServe, respectivamente. Para hacer posible la conexión con el LLM desplegado en Kubeflow, son necesarias también las siguientes variables de entorno:
+3. Llamada a la **inferencia del modelo LLM desplegado en KServe**: Para hacer posible la conexión con el LLM desplegado en Kubeflow, son necesarias las siguientes variables de entorno:
 
-- `KUBEFLOW_USERNAME`
-- `KUBEFLOW_PASSWORD`
+- `KUBEFLOW_LLM_ENDPOINT`: URL del endpoint LLM de Kubeflow (e.g., `https://kubeflow.ai.inesdata-project.eu/openai/v1/completions`).
+- `KUBEFLOW_LLM_HOST`: URL del host de KServe (e.g., `mixtral87b.XXX.kserve.ai.inesdata-project.eu`).
+- `KUBEFLOW_USERNAME`: Usuario de Kubeflow.
+- `KUBEFLOW_PASSWORD`: Contraseña de Kubeflow.
+- `HF_TOKEN`: Token de usuario de [Hugging Face](https://huggingface.co/settings/tokens) para el modelo tokenizador (e.g. `hf_XXX`).
 
 **NOTA**. Si se desea probar otro modelo desplegado en otra nube (tenemos un ejemplo con **Azure OpenAI**):
-- Es necesario borrar la variable de entorno de Kubeflow `KUBEFLOW_LLM_ENDPOINT`.
-- Crear las nuevas variables `AZURE_LLM_ENDPOINT` y `AZURE_API_KEY` con las credenciales de Azure.
+- El modelo que se recomienda desplegar en Azure OpenAI, y con el que han sido realizadas las pruebas, es **`gpt-4o-mini`**, el cual aparece indicado en los parámetros `model` y `model-id` del archivo `gen_ai_mapping/azure_llm_params.json`.
+- Para que se conecte al modelo de Azure y no al de Kubeflow (modelo por defecto), es necesario borrar la variable de entorno de Kubeflow `KUBEFLOW_LLM_ENDPOINT`.
+- Y crear las nuevas variables de entorno:
+    - `AZURE_LLM_ENDPOINT`: URL del endpoint LLM de Azure OpenAI (e.g. `https://<azure-openai-url>.openai.azure.com/openai/deployments/`).
+    - `AZURE_API_KEY`: Credenciales de Azure.
 
-
-4. Para poder usar el modelo de tokenización, es necesario definir la variable de entorno `HF_TOKEN`, que contiene el token de Hugging Face para poder conectarse al modelo tokenizer. Para obtenerlo, es necesario registrarse en la página web y crear el token de acceso en https://huggingface.co/settings/tokens.
-
-
-5. Almacenamiento del **output resultante en disco**. Para ello es necesario la variable de entorno `APP_DATAPROCESSINGPATH`, que indica la ruta de guardado del output del paquete.
+4. Almacenamiento del **output resultante en disco**. Para ello es necesario la variable de entorno:
+- `APP_DATAPROCESSINGPATH`: Ruta de guardado del output del paquete.
 
 ## Uso ▶️
 
@@ -45,4 +48,4 @@ python3 -m gen_ai_mapping -ds [121] -o [40]
 Los argumentos son los siguientes:
 
 - `data_sources` [`-ds`]: parámetro _obligatorio_ con el listado de identificadores de las fuentes de datos almacenadas en la base de datos del backend de la web de _INESDATA-MAP mapper_.
-- `ontologies` [`-o`]: parámetro _obligatorio_ con el listado de identificadores de las ontologías almacenadas en la base de datos del backend de la web de _INESDATA-MAP mapper_.
+- `ontologies` [`-o`]: parámetro _obligatorio_ con el listado de identificadores de las ontologías almacenadas en la base de datos del backend de la web de _INESDATA-MAP mapper_.