/
TODO
78 lines (69 loc) · 6.28 KB
/
TODO
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
HECHO- Agregar disciplina por default (Escritura para Breve Diccionario).
HECHO- Hay que cambiar género a "Hombre" o "Mujer"
HECHO- Tengo que revisar la lista de países cargados en el sitio y usarla para la validación: Si el autor nació en un país no precargado en la taxonomía correspondiente, no se va a importar esa información y no nos vamos a enterar. Tengo tres opciones, en orden de mi preferencia: 1) activar opción autocrear en el importer (ya que el lugar de nacimiento es sometido a la validación de una lista de países válidos), 2) agregar más países a la taxonomía correspondiente, o 3) incorporar un paso extra de validación en el programa para que marque los países que no fueron precargados en la base.
HECHO- Cambiar separador de disciplinas: "|"
HECHO- Devolver código de subdisciplina (Eve tiene que confirmar si no cambiar nombre de subdisciplinas "otras").
HECHO- Mapear campo notas.
HECHO- Permitir múltiples opciones en título de enlace y enlace (ojo que campos asociados).
HECHO- Tengo que generar otro así accesible sólo para usuarios registrados que devuelva todos los campos (incluyendo campo notas): http://dominiopublico.org.ar/admin/structure/views/view/exportar/edit
HECHO- Export tiene que devolver una forma utilizable de subdisciplina (jerarquía completa o código), o hay que cambiar nombre de las subdisciplinas "otras" en toda la base.
HECHO- Tener en cuenta que export de la base usa comillas dobles para delimitar texto (no parece ser posible elegir).
HECHO- Ignorar acentos cuando busco en el diccionario de autores, o cambiar un poco el enfoque y buscar autores parecidos (en ese caso, debería avisar con una observación).
- Las variantes de nombre en el archivo resultados también se tendrían que considerar para buscar en el diccionario de variantes.
- Capaz podría hacer que las revisiones ocurran e paralelo en vez de en serie.
- Podría hacer que el mismo script transforme disciplinas.ods en disciplinas.csv sin intervención del usuario (ver http://python-example.blogspot.com.ar/2012/10/how-to-convert-ods-to-csv.html).
- También para búsqueda de variantes ignorar mayúsuclas, acentos, y flexibilizar.
HECHO- En autores.py, agregar nombre de la fuente.
HECHO- Corregir: Permitir al usuario especificar como argumento de autores.py el nombre del archivo de entrada y el de salida. Idem integrador.py.
HECHO- Advertir al usuario si el programa sobreescribirá un archivo.
HECHO- Manejar que el autor precargado tenga un enlace a Wikipedia (mismo enlace_titulo), pero diferente URL (distinto enlace_url, ejemplo con y sin https).
HECHO- Ajustar la búsqueda flexible de autores.
- En autores.py, agregar un identificador de errores cuando los autores no están ordenados alfabéticamente.
HECHO- En integrador agregar una serie de comprobaciones inciales: verificar el orden alfabético de los autores (señalar aquellos fuera del orden alfabético como posibles errores); tiene sentido hacerlo acá además de en el extractor porque en el futuro podrían usarse planillas cargadas manualmente.
HECHO- Otra comprobación inicial en el integrador: señalar las líneas que tengan observaciones sin remover señaladas por el extractor.
HECHO- Modificar el extractor para que devuelva una planilla de resultados en la que cada fila esté identificada con un número de orden. Así, será más fácil saber qué filas fueron removidas y modificadas más adelante.
HECHO- Indicar en las instrucciones de uso que los autores ausentes (es decir, en la fuente pero no en la planilla de resultados) deben volcarse a una planilla central.
HECHO- Corregir la función obtenerVariantes para que gestione correctamente nombres
con espacios entre nombre y apellido.
HECHO - Modificar autores e integrador para que planilla resultados incluya una
columna nid. Permitirá reemplazar la opción forzar_nuevo (nid=0) y más
importantemente permitirá forzar una coincidencia (por ejemplo, si hay dos
autores con mismo nombre y año de nacimiento).
Extractor:
HECHO- GRAVE: La función validar_lugar asigna "Capital Federal" si sitio de nacimiento es
"Buenos Aires". Sin embargo, si hubo un error de reconocimiento "Buenos
Ames", por ejemplo, no sería automáticamente identificado como "Capital
Federal", y sería reconocido como Provincia de Buenos Aires.
- Algo similar al punto anterior sucede con la remoción de "Provincia de". Si
hubo un error de OCR, no se va a remover adecuadamente y la validación de
la provincia podría no funcionar o funcionar mal.
HECHO- Estandarizar la salida csv de los scripts a dobles comillas como delimitador
de texto. Quizá podría sustituir todas las dobles comillas halladas en la
fuente original por comillas simples para no tener problemas.
HECHO- Integrador entiende D'Anna alfabéticamente anterior a Damiani. Corregir.
HECHO- Si sólo hay espacios en algún campo, integrador no debe intentar validarlo:
sólo espacios en campos ahora son removidos.
- Revisar que no haya conflictos de codificación si la planilla resultados se
edita en Windows.
HECHO- Marcar como conflicto múltiples enlaces con el mismo título de enlace.
HECHO- La base de datos crea un enlace vacío si el campo "enlace_titulo" tiene sólo
un espacio? Si no es así, ignorar espacios en la validación de este (y otros)
campo: sólo espacios en campos ahora son removidos.
- Diferenciar la rama para desarrollos de la rama master y crear ejecutables
para Windows.
- Ver si hay una manera de que el archivo taxonomia.csv se genere automática-
mente de la base.
HECHO- El script integrador podría preguntar al usuario si descargó la última verticales
sión de dbdump.csv y pedir que lo haga.
HECHO- Observar "ERROR" si el usuario fuerza un match con un NID inexistente.
HECHO- Agregar campos 'enlaces_titulo' y 'enlaces_url' a planilla resultados. Enton-
ces, deberían estar todos los campos de la planilla importame, más algunos
adicionales (confianza, número de página, etc)
HECHO- Verificador de orden alfabético debe considerar "de Sosa", "del Río" y
"de la Fuente" como una unidad, pero "Álvarez Jonte" como unidades separadas.
***
Catálogo de autoridades
***
- Incluir información obtenida de catálogos de autoridades:
* http://viaf.org/viaf/data/
* http://catalogo.bn.gov.ar/F/C9F9SDGS2EDB3191SLNMKDFG3FKYG2H7QMB8XPCQB99KG7JEKX-42082?func=find-b-0