Skip to content

Commit 215b35a

Browse files
committed
Update readme
1 parent ce0d878 commit 215b35a

File tree

1 file changed

+18
-15
lines changed

1 file changed

+18
-15
lines changed

README.md

Lines changed: 18 additions & 15 deletions
Original file line numberDiff line numberDiff line change
@@ -5,11 +5,11 @@
55
- Listado de **ids de las ontologías** involucradas en el mapeo.
66
- Listado de **ids de las fuentes de datos** involucradas en el mapeo.
77

8-
Estos ids son los correspondientes identificadores dentro de la base de datos del backend de la web de _INESDATA-MAP mapper_, por lo que es necesario también conectarse a dicha BD, usando las siguientes variables de entorno:
8+
Estos ids son los correspondientes identificadores dentro de la base de datos del backend de la web de [_INESDATA-MAP mapper_](https://github.com/INESData/inesdata-map/tree/main), por lo que es necesario también conectarse a dicha BD, usando las siguientes variables de entorno:
99

10-
- `SPRING_DATASOURCE_URL`
11-
- `SPRING_DATASOURCE_USERNAME`
12-
- `SPRING_DATASOURCE_PASSWORD`
10+
- `SPRING_DATASOURCE_URL`: Cadena de conexión a la base de datos del backend de la web (e.g. `<db_driver>:<db_type>://<db-host>:<port>/<db_name>`).
11+
- `SPRING_DATASOURCE_USERNAME`: Usuario de la base de datos.
12+
- `SPRING_DATASOURCE_PASSWORD`: Contraseña de la base de datos.
1313

1414
De esta forma, el módulo `gen_ai_mapping` se encarga de:
1515

@@ -19,20 +19,23 @@ De esta forma, el módulo `gen_ai_mapping` se encarga de:
1919
1.3.1. Utilizar la columna del _path_ para obtener la ruta en disco donde está almacenada la fuente.
2020
1.3.2. Extraer el _esquema_ de cada fuente de datos, independientemente de su formato (XML, CSV, ...).
2121
2. **Rellenar el prompt template** con ontologías y esquemas de fuentes de datos.
22-
3. Llamada a la **inferencia del modelo LLM desplegado en KServe**: Para realizar este paso, se deben crear dos variables de entorno adicionales (`KUBEFLOW_LLM_ENDPOINT` y `KUBEFLOW_LLM_HOST`) para indicar las URL’s del endpoint y el host de KServe, respectivamente. Para hacer posible la conexión con el LLM desplegado en Kubeflow, son necesarias también las siguientes variables de entorno:
22+
3. Llamada a la **inferencia del modelo LLM desplegado en KServe**: Para hacer posible la conexión con el LLM desplegado en Kubeflow, son necesarias las siguientes variables de entorno:
2323

24-
- `KUBEFLOW_USERNAME`
25-
- `KUBEFLOW_PASSWORD`
24+
- `KUBEFLOW_LLM_ENDPOINT`: URL del endpoint LLM de Kubeflow (e.g., `https://kubeflow.ai.inesdata-project.eu/openai/v1/completions`).
25+
- `KUBEFLOW_LLM_HOST`: URL del host de KServe (e.g., `mixtral87b.XXX.kserve.ai.inesdata-project.eu`).
26+
- `KUBEFLOW_USERNAME`: Usuario de Kubeflow.
27+
- `KUBEFLOW_PASSWORD`: Contraseña de Kubeflow.
28+
- `HF_TOKEN`: Token de usuario de [Hugging Face](https://huggingface.co/settings/tokens) para el modelo tokenizador (e.g. `hf_XXX`).
2629

2730
**NOTA**. Si se desea probar otro modelo desplegado en otra nube (tenemos un ejemplo con **Azure OpenAI**):
28-
- Es necesario borrar la variable de entorno de Kubeflow `KUBEFLOW_LLM_ENDPOINT`.
29-
- Crear las nuevas variables `AZURE_LLM_ENDPOINT` y `AZURE_API_KEY` con las credenciales de Azure.
31+
- El modelo que se recomienda desplegar en Azure OpenAI, y con el que han sido realizadas las pruebas, es **`gpt-4o-mini`**, el cual aparece indicado en los parámetros `model` y `model-id` del archivo `gen_ai_mapping/azure_llm_params.json`.
32+
- Para que se conecte al modelo de Azure y no al de Kubeflow (modelo por defecto), es necesario borrar la variable de entorno de Kubeflow `KUBEFLOW_LLM_ENDPOINT`.
33+
- Y crear las nuevas variables de entorno:
34+
- `AZURE_LLM_ENDPOINT`: URL del endpoint LLM de Azure OpenAI (e.g. `https://<azure-openai-url>.openai.azure.com/openai/deployments/`).
35+
- `AZURE_API_KEY`: Credenciales de Azure.
3036

31-
32-
4. Para poder usar el modelo de tokenización, es necesario definir la variable de entorno `HF_TOKEN`, que contiene el token de Hugging Face para poder conectarse al modelo tokenizer. Para obtenerlo, es necesario registrarse en la página web y crear el token de acceso en https://huggingface.co/settings/tokens.
33-
34-
35-
5. Almacenamiento del **output resultante en disco**. Para ello es necesario la variable de entorno `APP_DATAPROCESSINGPATH`, que indica la ruta de guardado del output del paquete.
37+
4. Almacenamiento del **output resultante en disco**. Para ello es necesario la variable de entorno:
38+
- `APP_DATAPROCESSINGPATH`: Ruta de guardado del output del paquete.
3639

3740
## Uso ▶️
3841

@@ -45,4 +48,4 @@ python3 -m gen_ai_mapping -ds [121] -o [40]
4548
Los argumentos son los siguientes:
4649

4750
- `data_sources` [`-ds`]: parámetro _obligatorio_ con el listado de identificadores de las fuentes de datos almacenadas en la base de datos del backend de la web de _INESDATA-MAP mapper_.
48-
- `ontologies` [`-o`]: parámetro _obligatorio_ con el listado de identificadores de las ontologías almacenadas en la base de datos del backend de la web de _INESDATA-MAP mapper_.
51+
- `ontologies` [`-o`]: parámetro _obligatorio_ con el listado de identificadores de las ontologías almacenadas en la base de datos del backend de la web de _INESDATA-MAP mapper_.

0 commit comments

Comments
 (0)