Traz em cada registro dados como número, tipo, ementa, datas, relator, temas, inteiro teor em HTML, dentre outros
Pré-requisitos: Docker ou Node v12 em diante
Para começar clone o projeto
git clone git@github.com:thiagocmoreira/web-scraper-tst.git
Instale as dependências
yarn install
Na raiz do projeto crie o diretório /data
. Nele será armazenado, além das jurisprudências, informações como a data da publicação inicial que deseja baixar os registros, offset atual das requisições de cada data de publicação e erros de qualquer tipo.
Após criar o /data
na raiz, dentro dela crie dois diretórios:
/registers
: serão salvos JSONs com as jurisprudências;/offsets
: serão salvos os offsets atuais das requisições por data de publicação
Após isso, ainda no /data
, crie dois arquivos:
current-date.json
: terá a data de publicação inicial que deseja baixar os dados. Ele deve seguir o padrão abaixo, de acordo a data escolhida:
{ "dataFinal": "aaaa-mm-dd" }
errors.json
: será salvo as datas que ocorrerem algum tipo de erro. Ele deve seguir o padrão abaixo
{ "errors": [] }
A estrutura final dese estar assim:
web-scraper-tst/
├── data/
│ ├── offsets/
│ ├── registers/
│ ├── current-date.json
│ └── errors.json
├── src/
├── ...
├── package.json
├── README.md
└── yarn.lock
Após isso, o projeto está pronto para ser rodado.
Além do dia escolhido no current-date.json
, é possível selecionar outras informações adicionais antes de executar o scraper do TST.
- Número de dias: O número de dias padrão para baixar as jurisprudências são
5
. Isso significa que o scraper vai baixar as jurisprudências da data descrita nocurrent-date.json
até 5 dias depois. Para mudar este valor basta mudar o valor da constanteintervals
no arquivosrc/index.js
. - Tipo de jurisprudência: Por padrão, o scraper baixa apenas Acórdãos. Para alterar basta adicionar os tipos escolhidos na constante
jurisTypes
no arquivosrc/index.js
.
Para rodar o scraper, basta executar o comando abaixo:
yarn start
Após isso, os registros serão salvos na pasta /data/registers
. Cada data de publicação gerará um diretório novo, e à cada requisição com um novo offset, será gerado um JSON contendo as jurisprudências correspondentes.
É possível acompanhar o progresso atrvés dos logs da aplicação.