You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: README.md
+18-15Lines changed: 18 additions & 15 deletions
Original file line number
Diff line number
Diff line change
@@ -5,11 +5,11 @@
5
5
- Listado de **ids de las ontologías** involucradas en el mapeo.
6
6
- Listado de **ids de las fuentes de datos** involucradas en el mapeo.
7
7
8
-
Estos ids son los correspondientes identificadores dentro de la base de datos del backend de la web de _INESDATA-MAP mapper_, por lo que es necesario también conectarse a dicha BD, usando las siguientes variables de entorno:
8
+
Estos ids son los correspondientes identificadores dentro de la base de datos del backend de la web de [_INESDATA-MAP mapper_](https://github.com/INESData/inesdata-map/tree/main), por lo que es necesario también conectarse a dicha BD, usando las siguientes variables de entorno:
9
9
10
-
-`SPRING_DATASOURCE_URL`
11
-
-`SPRING_DATASOURCE_USERNAME`
12
-
-`SPRING_DATASOURCE_PASSWORD`
10
+
-`SPRING_DATASOURCE_URL`: Cadena de conexión a la base de datos del backend de la web (e.g. `<db_driver>:<db_type>://<db-host>:<port>/<db_name>`).
11
+
-`SPRING_DATASOURCE_USERNAME`: Usuario de la base de datos.
12
+
-`SPRING_DATASOURCE_PASSWORD`: Contraseña de la base de datos.
13
13
14
14
De esta forma, el módulo `gen_ai_mapping` se encarga de:
15
15
@@ -19,20 +19,23 @@ De esta forma, el módulo `gen_ai_mapping` se encarga de:
19
19
1.3.1. Utilizar la columna del _path_ para obtener la ruta en disco donde está almacenada la fuente.
20
20
1.3.2. Extraer el _esquema_ de cada fuente de datos, independientemente de su formato (XML, CSV, ...).
21
21
2.**Rellenar el prompt template** con ontologías y esquemas de fuentes de datos.
22
-
3. Llamada a la **inferencia del modelo LLM desplegado en KServe**: Para realizar este paso, se deben crear dos variables de entorno adicionales (`KUBEFLOW_LLM_ENDPOINT` y `KUBEFLOW_LLM_HOST`) para indicar las URL’s del endpoint y el host de KServe, respectivamente. Para hacer posible la conexión con el LLM desplegado en Kubeflow, son necesarias también las siguientes variables de entorno:
22
+
3. Llamada a la **inferencia del modelo LLM desplegado en KServe**: Para hacer posible la conexión con el LLM desplegado en Kubeflow, son necesarias las siguientes variables de entorno:
23
23
24
-
-`KUBEFLOW_USERNAME`
25
-
-`KUBEFLOW_PASSWORD`
24
+
-`KUBEFLOW_LLM_ENDPOINT`: URL del endpoint LLM de Kubeflow (e.g., `https://kubeflow.ai.inesdata-project.eu/openai/v1/completions`).
25
+
-`KUBEFLOW_LLM_HOST`: URL del host de KServe (e.g., `mixtral87b.XXX.kserve.ai.inesdata-project.eu`).
26
+
-`KUBEFLOW_USERNAME`: Usuario de Kubeflow.
27
+
-`KUBEFLOW_PASSWORD`: Contraseña de Kubeflow.
28
+
-`HF_TOKEN`: Token de usuario de [Hugging Face](https://huggingface.co/settings/tokens) para el modelo tokenizador (e.g. `hf_XXX`).
26
29
27
30
**NOTA**. Si se desea probar otro modelo desplegado en otra nube (tenemos un ejemplo con **Azure OpenAI**):
28
-
- Es necesario borrar la variable de entorno de Kubeflow `KUBEFLOW_LLM_ENDPOINT`.
29
-
- Crear las nuevas variables `AZURE_LLM_ENDPOINT` y `AZURE_API_KEY` con las credenciales de Azure.
31
+
- El modelo que se recomienda desplegar en Azure OpenAI, y con el que han sido realizadas las pruebas, es **`gpt-4o-mini`**, el cual aparece indicado en los parámetros `model` y `model-id` del archivo `gen_ai_mapping/azure_llm_params.json`.
32
+
- Para que se conecte al modelo de Azure y no al de Kubeflow (modelo por defecto), es necesario borrar la variable de entorno de Kubeflow `KUBEFLOW_LLM_ENDPOINT`.
33
+
- Y crear las nuevas variables de entorno:
34
+
-`AZURE_LLM_ENDPOINT`: URL del endpoint LLM de Azure OpenAI (e.g. `https://<azure-openai-url>.openai.azure.com/openai/deployments/`).
35
+
-`AZURE_API_KEY`: Credenciales de Azure.
30
36
31
-
32
-
4. Para poder usar el modelo de tokenización, es necesario definir la variable de entorno `HF_TOKEN`, que contiene el token de Hugging Face para poder conectarse al modelo tokenizer. Para obtenerlo, es necesario registrarse en la página web y crear el token de acceso en https://huggingface.co/settings/tokens.
33
-
34
-
35
-
5. Almacenamiento del **output resultante en disco**. Para ello es necesario la variable de entorno `APP_DATAPROCESSINGPATH`, que indica la ruta de guardado del output del paquete.
37
+
4. Almacenamiento del **output resultante en disco**. Para ello es necesario la variable de entorno:
38
+
-`APP_DATAPROCESSINGPATH`: Ruta de guardado del output del paquete.
-`data_sources`[`-ds`]: parámetro _obligatorio_ con el listado de identificadores de las fuentes de datos almacenadas en la base de datos del backend de la web de _INESDATA-MAP mapper_.
48
-
-`ontologies`[`-o`]: parámetro _obligatorio_ con el listado de identificadores de las ontologías almacenadas en la base de datos del backend de la web de _INESDATA-MAP mapper_.
51
+
-`ontologies`[`-o`]: parámetro _obligatorio_ con el listado de identificadores de las ontologías almacenadas en la base de datos del backend de la web de _INESDATA-MAP mapper_.
0 commit comments