Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Propuesta de lección: Rascado web con Selenium: menús, barras de búsquedas y pop-ups JS #567

Open
jenniferisasi opened this issue May 24, 2023 · 16 comments

Comments

@jenniferisasi
Copy link
Contributor

jenniferisasi commented May 24, 2023

The Programming historian ha recibido una propuesta de lección con el título provisional "Rascado web con Selenium: menús, barras de búsquedas y pop-ups JS" por @hernandezj1 . Los objetivos de la lección son:

  • Understand the basics of the selenium library and the installation of a web driver.
  • The use of for and try loops to deal with mismatched scraping situations (Ex. first popup has 5 people next one has 15)
  • How to output data into a CSV pulling metadata from earlier parts of the non-modified website.

A fin de promover una publicación a tiempo, se ha acordado que la lección se entregará hacia finales de septiembre de 2023. El autor o autores contactará con antelación con el editor si no puede cumplir con la fecha de entrega y necesita una ampliación.

Si la lección no es entregada en la fecha acordada, el editor intentará contactar con el autor o autores de la lección. Si no recibe noticias, el ticket se cerrará. Éste podrá abrirse en el futuro a petición del autor o autores.

El principal contacto para esta lección es, por ahora, @jenniferisasi. Si se produce algún problema, el autor puede contactar con nuestra ’ombudsperson' (Silvia Gutiérrez de la Torre - http://programminghistorian.org/es/equipo-de-proyecto).

@anisa-hawes
Copy link
Contributor

Hola @jenniferisasi,

Thank you for sharing the lesson materials. Charlotte and I will process and upload these next week. We'll add a comment here to provide you with links to the key files + a preview of the submission.

Very best, Anisa

@charlottejmc
Copy link
Collaborator

Hola @jenniferisasi y @hernandezj1 ,

Puedes encontrar los archivos aquí:

Puedes revisar la vista previa de la lección aquí:

@jenniferisasi
Copy link
Contributor Author

jenniferisasi commented Oct 21, 2023

Hola @hernandezj1:

He leído atentamente la lección y vas por buen camino, ¡felicidades! Me gusta el ejemplo, el paso por paso y, claro, el resultado al que se llega al utilizar Selenium. Creo que es un excelente añadido a nuestro catálogo de lecciones, sobre todo en la colección de Python.

Antes de pasar a la fase de revisión por pares (y la lectura por parte de un editor a la lección), me gustaría que hicieras algunos cambios que mejorarán la lección (dejo comentarios por secciones o párrafos):

  • Pre-requisitos: Valdría la pena explorar el catálogo de la revista y añadir referencias a lecciones.
  • "Preparacion dependiendo el browser" mejor "Instalación de Selenium según tu browser"
  • Explicar entre el título "Preparación dependiendo el browser" o el sugerido e "instalación en Python" que los drivers van a depender del navegador, al estilo del párrafo 13; en vez de ir directamente a la instalación en Python y después explicar los drivers.
  • 26: puede ser una alerta en vez de un párrafo
  • 29: Valdría la pena mencionar esto cuando se introduce la descarga del driver unos párrafos más arriba en vez de aquí
  • 70: ¿por qué extraer solamente las 8 primeras patentes? Al hacer la búsqueda de "agricultura" veo que hay 4.780 resultados ¿cómo hago si quiere extraer más de 8 y/o todos?
  • 70: el error del doble clic podría ir en una alerta - no todas las páginas web tienen este error, ¿supongo?
  • Algo que está faltando y que es imprescindible en PH:
    En la introducción y en la conclusión, ¿qué podríamos estudiar al utilizar este método? Es decir, ¿qué pregunta de investigación (así sea ficticia) nos permite realizar la descarga automática de patentes sobre agricultura de la página Latipat? ¿Sabes de algún estudio/referencia que ya haya usado este método? (Pueden ser, claro, sobre otras bases de datos en cualquier idioma).
  • Aunque no evitan su lectura, puesto que se trata de un texto escrito habría que hacer algunas correcciones ortográficas en el texto (faltan algunas tildes) y de puntuación (algunas comas).
  • En las imágenes falta un texto de caption y alternativo, que puedes incluir en los templates que Charlotte ha dejado en el markdown file: alt="Visual description of figure image" caption="Figura 3. Caption text to display"

Puedes realizar los cambios directamente en el archivo .md que ya tenemos aquí en el repositorio o en el tuyo en tu computadora y volvérnoslo a pasar.

Quedo pendiente para responder a cualquier duda que pueda surgir de este listado de sugerencias. ¡Mil gracias!

@hernandezj1
Copy link
Collaborator

Muchas gracias por sus correciones. Estoy en el proceso de integrarlas. Una pregunta, ¿Ustedes tienen un formato específico para determinar una seccíon de Alerta en vez de un párrafo?

@jenniferisasi
Copy link
Contributor Author

¡Hola @hernandezj1! Genial.

Sí, usamos este formato para alertas, que aparecerá en una "caja" de color amarillo (me parece) en el cuerpo de la lección:

<div class="alert alert-warning">
 Be sure that you follow directions carefully!
</div>

Cualquier otra duda, por aquí estoy para ayudarte. ¡Gracias!

@hernandezj1
Copy link
Collaborator

Cree un fork para cambiar el texto poco a poco y lo pueden encontrar aquihttps://github.com/hernandezj1/ph-submissions/blob/gh-pages/es/borradores/originales/web-scraping-utilizando-selenium.md.

Unas preguntas:

  1. ¿Que parrafos son 26 y 29? , ya que no los pude localizar.
  2. Añadi la alerta pero no aparece formateada. Entiendo que eso aparecera despues en el website cuando se suba con los formatos de PH, ¿verdad?

@anisa-hawes
Copy link
Contributor

Hola @hernandezj1,

Thank you for your note. We invite authors to make direct edits to their Markdown file within our repository /es/borradores/originales/web-scraping-utilizando-selenium.md. Would you feel comfortable working in this way?

Please let me know if you need any advice, or if you'd prefer us to pull your edits from your fork and apply them on your behalf.

You are correct that the <div class="alert alert-warning"> displays as raw html in GitHub, but it will be rendered as an alert box on our site (including in the Preview).

Thank you, Anisa

@hernandezj1
Copy link
Collaborator

Oka, I will push the fork for the edits I have done and then apply the new ones on your copy. I must still ask about 26 and 29 because I cannot identify these paragraphs.

@anisa-hawes
Copy link
Contributor

Hello @hernandezj1.

No need to push the edits from your fork – I've simply applied these as a direct commit: 69014f8. I've also added your alert box above the Conclusion.

With these updates, some line and paragraph numbers have shifted but I believe @jenniferisasi's reference to Paragraph 26 is (what is now) line 146 of the Markdown file.

Reiteramos que nuestro ejemplo solamente utilizara Chrome, pero fácilmente puede hacer lo mismo con los demás browsers.

Jenn has suggested that this could be an alert box, rather than a paragraph. In this case, I think an information box (instead of a warning) might be a good option, and I've made this change: 809dd02

Paragraph 29 = Line 157 of the Markdown file

Aqui se debe notar también que driver. permite acceso a todos los métodos que tiene el driver de Selenium; desde interactuar con elementos específicos de la página hasta cerrar nuestro buscador. Por esta razon todas las instrucciones que siguen, excepto las de procesamiento de data, usan driver. antes del método.

Let us know where you think this could be best placed or mentioned earlier?

To avoid knots between forks, we encourage you to make further edits directly to the Markdown file within our repository /es/borradores/originales/web-scraping-utilizando-selenium.md. I'm happy to help at any time.

Thank you, Anisa

@hernandezj1
Copy link
Collaborator

Hello,

Thanks for the clarifications and for adding the alert. I will be completing the last of the changes directly into the markdown before January 7th. Happy holidays and thank you for your help and patience in this process!

@jenniferisasi
Copy link
Contributor Author

Thank you, @hernandezj1! I will take another look at all and assign this lesson an editor as soon as we can.

@jenniferisasi
Copy link
Contributor Author

Estimado @hernandezj1, disculpa la tardanza. Yo misma actuaré de editora principal de la lección y estoy buscando revisores. Espero dar con un par de personas rápido para agilizar el proceso.

@jenniferisasi
Copy link
Contributor Author

@hernandezj1, disculpa de nuevo, sigo en búsqueda de revisores.

@jenniferisasi
Copy link
Contributor Author

Estimado @hernandezj1, ¡tengo buenas noticias! Nuestro buen amigo @jairomelo ha acordado actuar de primer revisor (experto) en tu trabajo. @jairomelo mi gracias por acceder.

Creo que ya conoces de sobra nuestras guías y expectativas para los revisores pero si tienes cualquier pregunta no dudes en ponerte en contacto con nosotros. Esperamos leer pronto (4-6 semanas) tus comentarios.

¡Gracias!

@hernandezj1
Copy link
Collaborator

Muchas gracias @jenniferisasi por su constante comunicacion y trabajo para revisar esta leccion. Dejenme saber cualquier cosa que necesiten en el proceso @jenniferisasi y @jairomelo .

@jenniferisasi
Copy link
Contributor Author

Y más buenas noticias. Cuando @jairomelo nos entregue su revisión, @rivaquiroga hará la segunda revisión.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
Status: 4 Open Peer Review
Development

No branches or pull requests

4 participants