New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Propuesta de lección: Uso de las colecciones del HathiTrust para el análisis de textos literarios en R #579
Comments
Acuso recibo del borrador de la lección de parte de @jose-eduardo. Como ME voy a darle una primera vuelta para asegurarme de que el markdown y demás son correctos para que funcione la previsualización. En los próximos días pasaré los archivos a @anisa-hawes y estarán listos para que @JoshuaGOB dé inicio a la edición y revisión de la lección. |
Notas para que @JoshuaGOB tenga en cuenta:
|
Hola @jenniferisasi, Puedes encontrar los archivos clave aquí:
Y puedes revisar la vista previa de la lección aquí: |
¡Gracias @anisa-hawes! Con esto, queda en manos de @JoshuaGOB para que inicie el proceso de edición y después de revisión por pares. |
Ahora me doy cuenta de tantos errores. La "table" salió mal-- mi inexperiencia con Markdown es el culpable en este caso. Gracias! |
Apologies, @jose-eduardo. I missed that, but I have fixed it now! -- Mis disculpas, @jose-eduardo. Se me pasó, ¡pero ya lo he arreglado! |
@jenniferisasi, si necesitas revisores para esta lección yo estoy disponible 👀 |
@anisa-hawes the R file "obtener_tokens.r" (for those using Windows) should be included in "assets" --I guess I forgot to include a link to that in the tutorial (sorry) |
Dear @jose-eduardo. Apologies – I wrote myself a note to ask Jenn about this. I've uploaded the file 878562a and also added a link from line 457 73286d5. (Is this the right place for the link?) |
Thank you @anisa-hawes! Yes, that is the correct placement on the link :) |
Saludos @jose-eduardo, Quiero felicitarte por esta excelente lección. Es un aportación importantísima para el estudio de literatura a gran escala. Ya terminé la primera pasada y la semana que viene debo tener las sugerencias finales. Aquí apunto los detallitos que encontré en esta versión. ¡Gracias por su ayuda, @jenniferisasi y @anisa-hawes ! Estoy utilizando los números de párrafos que se encuentran en la previsualización de la lección
tidyverse, readr, readxl y stringr y, por último, necesitas tener instalado pero no cargado el paquete de plyr. ggplot2, tmap, rnaturalearth, y sf.
|
Gracias por las correcciones @JoshuaGOB . Solo una pregunta, después que terminen con las correcciones, ¿cómo se procede?--¿yo hago las correcciones y les envío una copia por email? |
Hola @jose-eduardo, We invite you to make the adjustments to the file, which is here: /es/borradores/originales/uso-las-colecciones-hathitrust-mineria-textual-R.md. We don't use the Pull Request system during this Phase of the workflow, rather authors can make direct changes to their lesson. GitHub's agility for capturing successive versions of a file is a great asset to us in this Phase: Joshua will be able to review exactly what has been edited in the file's commit history. Please ask me if you have any questions or uncertainties – I'm more than happy to help. |
Made all the necessary changes. Not sure if there is anything else I need to do here. |
Hola @jose-eduardo, Thank you for your edits in response to Joshua's feedback. The next step is for @JoshuaGOB to review the revised version, then identify two peer reviewers who we will invite to respond to your lesson. Very best wishes, |
Hola @jose-eduardo Después de incorporar estas últimas sugerencias, la lección estaría lista para las revisoras.
Desde la línea 338 a 370, considera añadir comandos para ilustrar los datos antes y después de los cambios:
Tan pronto estés listo, presentamos a las revisoras. Es una excelente lección y me encantó aprender tanto de R como de HathiTrust. |
Ya está todo. He añadido además unos consejos en la última sección para los usuarios que estén trabajando con cientos y cientos de datos y el Rstudio no tenga la capacidad para manejar eso. |
¡Súper, @jose-eduardo! Gracias por hacer los cambios sugeridos por @JoshuaGOB. @JoshuaGOB, me dices si te puedo echar una mano en algo - solo estoy pasando por todos los tickets para estar al día. |
Saludos, @jose-eduardo Revisé los cambios y los consejos en la última sección me parecen perfectos. La revisión de la lección está en las excelentes manos de @jenniferisasi y @rivaquiroga. Tan pronto tengamos sus sugerencias, la lección puede pasar al próximo paso. |
¡Hola, @JoshuaGOB! Para la revisión seguimos ese orden? Es decir, primero @jenniferisasi hace su revisión y luego yo? |
Hola, @rivaquiroga:
¿Prefieres empezar tú? Entiendo que @jenniferisasi prefiere hacer su revisión un poco más tarde.
|
¡Hola! Podría hacer mi revisión después del 12 de diciembre (tengo que entregar mi tesis ese día 😬) |
¡Hola! Vamos a ver si yo puedo hacer mi revisión antes de esa fecha entonces. @rivaquiroga, nos tendrás que contar de tu tesis :) |
Estimados. Doy comienzo a mi revisión. Trataré de hacerlo de una pero si ven que faltan cosas, seguiré con ello pronto:
Hago pausa en la sección de analizar colecciones pero sigo pronto. |
No sé si debo explicar ahora o esperar a que Jennifer termine su revisión (?). Puedo aclarar por el momento que http://hdl.handle.net/2027/ es la dirección oficial para buscar los libros por ID. Sí, te redirige a "babel... etc...", pero si en el futuro Hathitrust decidiera cambiar de "babel" a otro sitio, te redirigiría al nuevo. (Véase para esto la lección https://programminghistorian.org/en/lessons/text-mining-with-extracted-features) |
Hola @jose-eduardo. Disculpa la demora en responder - me desconecté lo más posible del trabajo durante las vacaciones. Puedes esperar a que demos todas nuestras revisiones antes de hacer ningún cambio, para evitar darle demasiadas vueltas al texto/archivo. Como seguí las instrucciones de la lección para nuestro experimento en MLA, espero terminar de revisar y dejar mis comentarios aquí mañana mismo, viernes 12 de enero. |
Listo. Perdón por el nuevo retraso. Verifiqué dos veces que del párrafo 25 en adelante todo funciona y sí. Puede que @rivaquiroga, que enseña R de forma regular, tenga sugerencias extra. Probé el código como uno de los 3 métodos que @JoshuaGOB y yo probamos para MLA. Este resultó el menos "limpio", por así decirlo, porque - cómo bien apuntas en las notas finales - al buscar lugares por token, se pierde el contexto y no se puede verificar si el lugar está en, no sé, México o Venezuela. Tampoco hicimos el mapa porque las novelas eran de muchos países, pero aquí funciona de maravilla por ser el tema estudiado la novela de Ecuador. @rivaquiroga y @JoshuaGOB queda en vuestras manos :) |
¡Hola! A fines de la próxima semana envío mi revisión 🤓 |
¡Hola, @jose-eduardo! Muchas gracias por tu lección. Conocía hathiTrust, pero nunca había explorado con detalle como ahora sus funcionalidades. Quedé muy entusiasmada y con muchas ideas ✨. La lección permite hacerse una idea general de cómo funciona y de su potencial para hacer análisis exploratorios. A continuación hay algunas sugerencias que se me han ocurrido luego de leer la lección y realizar los ejercicios propuestos. Primero hay un comentario general sobre el formato del código y luego comentarios más detallados por sección o párrafo. Como solo los párrafos de texto tienen número, a los de código hice referencia indicando el número del párrafo anterior. Sugerencias generales
Si tienes todo el código en un script, la manera más rápida de resolver eso es con el paquete styler, que puede formatear todo el código de un archivo. No solo va a agregar los saltos de línea necesarios después de cada pipe, sino que también va a agregar espacios entre elementos del código (por ejemplo, antes y después de Sugerencias por sección/párrafoObjetivos
Requisitos
Instalar y cargar paquetes
Obtener los atributos extraídos de un volumen
Y luego con la línes roja para los capítulos:
Una mirada global a nuestro marco de datos
Trabajar con colecciones de HathiTrust
Crear tu propia colección
Geografía en la novela
Obtener los atributos extraídos para el proyecto
Windows: Otra manera de construir el marco de datos
Análisis y visualización de datos
En ella Pre-1900 queda después de 1900-25. Si bien en la lección esa es la única parte en que afecta, si alguien quisiera hacer algún gráfico que muestre comparaciones entre esos grupos le aparecerían en desorden también si es que la variable no se convierte a factor.
Análisis y visualización de datos
Este bloque de código lo que hace es tomar los metadatos que tenemos, agregarle a cada novela su frecuencia de tokens, luego filtrar los tokens que coinciden con los nombres de Como tenemos los datos de autor y título, uno tendría aquí la posibilidad de revisar y decidir a cuál de las dos corresponde a partir del conocimiento que se tiene de las obras. Y así se elimina el duplicado de manera informada.
Y la mediana está más cerca de los 60000.
Quizás sería bueno explicar cómo se decidió que 50000 era la mejor opción.
Limitaciones y recomendaciones
Eso es todo por ahora. ¡Cualquier consulta me avisan! |
Mil gracias por las revisiones tan detalladas y minuciosas, @jenniferisasi y @rivaquiroga @jose-eduardo Ya que algunos de estos cambios requieren más tiempo que otros, podríamos fijar una fecha con suficiente tiempo para que puedas dialogar conmigo y con las revisoras. ¿Qué tal te parece el 18 de marzo? Sé que el proceso se ha retrasado(mea culpa) y me imagino que quieres terminar lo más pronto posible. Por favor déjame saber cómo puedo ayudar y te animo a aprovechar el expertise de las revisoras para aclarar cualquier duda. Nuevamente, gracias por el trabajo excelentísimo de las revisoras.🤩 Es un privilegio trabajar con autores y revisores cómo ustedes. |
Gracias a tod@s por el trabajo realizado. Ha sido excelente. La próxima semana ( a partir del sábado próximo) tenemos las breves vacaciones de primavera y entonces tendré tiempo para contestar preguntas y hacer las revisiones que se requieren. |
Tengo que entregar un manuscrito en 4 de abril, pero una vez lo haga regreso a este proyecto. ¡No se me ha olvidado! |
The Programming historian en español ha recibido una propuesta de lección con el título provisional "Uso de las colecciones del HathiTrust para el análisis de textos literarios en R" por @jose-eduardo.
Los objetivos de la lección son:
La fecha aproximada para la entrega de la lección es el 31 de agosto de 2023. Si no se entrega para entonces, la editora manager contactará con el autor de la lección para sugerir otra fecha. Si no recibe noticias, el ticket se cerrará. Éste podrá abrirse en el futuro a petición del autor.
El principal contacto para esta lección es, por ahora, @jenniferisasi. Si se produce algún problema, el autor puede contactar con nuestra ’ombudsperson' (Silvia Gutiérrez de la Torre - http://programminghistorian.org/es/equipo-de-proyecto).
The text was updated successfully, but these errors were encountered: