TST Web Scraper

Scraper de Jurisprudências do TST

Traz em cada registro dados como número, tipo, ementa, datas, relator, temas, inteiro teor em HTML, dentre outros

Pré-requisitos: Docker ou Node v12 em diante

Primeiros passos

Para começar clone o projeto

git clone git@github.com:thiagocmoreira/web-scraper-tst.git

Instale as dependências

yarn install

Na raiz do projeto crie o diretório /data. Nele será armazenado, além das jurisprudências, informações como a data da publicação inicial que deseja baixar os registros, offset atual das requisições de cada data de publicação e erros de qualquer tipo.

Após criar o /data na raiz, dentro dela crie dois diretórios:

/registers: serão salvos JSONs com as jurisprudências;
/offsets: serão salvos os offsets atuais das requisições por data de publicação

Após isso, ainda no /data, crie dois arquivos:

current-date.json: terá a data de publicação inicial que deseja baixar os dados. Ele deve seguir o padrão abaixo, de acordo a data escolhida:

{ "dataFinal": "aaaa-mm-dd" }

errors.json: será salvo as datas que ocorrerem algum tipo de erro. Ele deve seguir o padrão abaixo

{ "errors": [] }

A estrutura final dese estar assim:

web-scraper-tst/
 ├── data/
 │  ├── offsets/
 │  ├── registers/
 │  ├── current-date.json
 │  └── errors.json
 ├── src/
 ├── ...
 ├── package.json
 ├── README.md
 └── yarn.lock

Após isso, o projeto está pronto para ser rodado.

Configurações

Além do dia escolhido no current-date.json, é possível selecionar outras informações adicionais antes de executar o scraper do TST.

Número de dias: O número de dias padrão para baixar as jurisprudências são 5. Isso significa que o scraper vai baixar as jurisprudências da data descrita no current-date.json até 5 dias depois. Para mudar este valor basta mudar o valor da constante intervals no arquivo src/index.js.
Tipo de jurisprudência: Por padrão, o scraper baixa apenas Acórdãos. Para alterar basta adicionar os tipos escolhidos na constante jurisTypes no arquivo src/index.js.

Rodando

Para rodar o scraper, basta executar o comando abaixo:

yarn start

Após isso, os registros serão salvos na pasta /data/registers. Cada data de publicação gerará um diretório novo, e à cada requisição com um novo offset, será gerado um JSON contendo as jurisprudências correspondentes.

É possível acompanhar o progresso atrvés dos logs da aplicação.

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
src		src
.gitignore		.gitignore
.yarn.js		.yarn.js
.yarnrc		.yarnrc
Dockerfile.dev		Dockerfile.dev
README.md		README.md
docker-compose.yml		docker-compose.yml
package.json		package.json
yarn.lock		yarn.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

src

src

.gitignore

.gitignore

.yarn.js

.yarn.js

.yarnrc

.yarnrc

Dockerfile.dev

Dockerfile.dev

README.md

README.md

docker-compose.yml

docker-compose.yml

package.json

package.json

yarn.lock

yarn.lock

Repository files navigation

TST Web Scraper

Scraper de Jurisprudências do TST

Primeiros passos

Configurações

Rodando

About

Releases

Packages

Languages

thiagocmoreira/web-scraper-tst

Folders and files

Latest commit

History

Repository files navigation

TST Web Scraper

Scraper de Jurisprudências do TST

Primeiros passos

Configurações

Rodando

About

Topics

Resources

Stars

Watchers

Forks

Languages