Skip to content

raalzate/webscraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

52 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scraping Library

Usando esta librería ayuda a realizar Web Scraping de un forma mas fácil y ágil, apoyándose de la librería JSoup para poder extraer el documento HTML. En este caso no es necesario generar un mecanismos de navegación usando WebDriver.

Proporciona una adaptación de conexión, ejecución y transformación, para poder de forma diferente realizar la extracción ya sea de forma local o remota, usando diferentes mecanismo ya sea JSoup o Htmlunit.

Internamente para la definiciones de las acciones para la cual se desea realiza Web Scraping se realiza a través de un archivo externo JSON, con el objetivo de parametrizar y configurar de forma fácil, este archivo contiene las acciones que puede ser modificados en tiempo de ejecución.

EJEMPLO PARA OBTENER EL PRONOSTICO DEL TIEMPO

Usando el buscador de google podemos obtener el pronostico del tiempo en donde estemos.

String url = "https://www.google.com.co/search?q=pronostico+de+tiempo";

MetaModel metaModel = new MetaModel("consult", url, "GET");
metaModel.setSelector("#wob_tm");

Map<String, Object> result = new ScraperCommand()
            .execute(modelState -> Extractors.builder(new JSoupAdapter())
                        .setState(modelState)
                        .buildExtractor("dato_c", new TextSelector()), 
             metaModel);

System.out.println(result);

Para tener mas detalle de la ejecución del Scraping entrar aquí

Instalarla

Ir a los tags del repositorio para descargar el jar.

Contribución

  1. Crea tu rama de características: git checkout -b feature/my-feat
  2. Confirma tus cambios: `git commit -am 'Agrega alguna característica'
  3. Empuje a la rama: git push origin feature/my-feat
  4. Presentar una Merge Requests

Historia

Versión 1.0 (2019-01-09) - Ajustes en los comandos

Créditos

Lead Developer - Raul .A Alzate (@raul.alzate)