Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Manutenção] Camaquã-RS #1038

Open
trevineju opened this issue Nov 17, 2023 · 1 comment · May be fixed by #1046
Open

[Manutenção] Camaquã-RS #1038

trevineju opened this issue Nov 17, 2023 · 1 comment · May be fixed by #1046
Labels
spider Adiciona ou atualiza um robô raspador

Comments

@trevineju
Copy link
Member

trevineju commented Nov 17, 2023

O raspador para Camaquã-RS não está mais funcionando pois o site publicador mudou.

O novo site publicador é https://camaqua.atende.net/cidadao/pagina/diario-oficial

Faltam muitos metadados nesse site novo, vamos precisar avaliar o que fazer neste caso

@AlexJBSilva
Copy link
Contributor

@trevineju, pelo que vi, esse novo site publicador tem Diários a partir de 05/01/2022.
Mas o site antigo tem Diários até 11/07/2023, edição 332.
Então, como o novo site só apresenta o número da edição como informação de referência, sugiro que o novo raspador colete apenas da edição 333 em diante.

Lembrando que atende.net é um site que abriga os Diários Oficiais de alguns municípios (conforme mencionado em #438 (review) ).
Mas ainda não parei para pesquisar se existe algum outro município com a mesma estrutura de página de Camaquã.

Em uma olhada rápida, a estrutura é similar entre Gravataí e Campo Mourão (que é diferente de Camaquã).

trevineju added a commit to okfn-brasil/querido-diario-frontend that referenced this issue Nov 22, 2023
AlexJBSilva added a commit to AlexJBSilva/querido-diario that referenced this issue Dec 6, 2023
Sistema replicável 'Atende' (layout Tipo 1).
Resolve okfn-brasil#1038
Conforme comentado em okfn-brasil#1038 (comment)
esse novo spider coleta apenas da edição 333 em diante.
Como falta a informação de data para muitas edições na página,
a estratégia foi incluir a verificação do número da edição para limitar
o download dos arquivos e salvar a data
`datetime.date.max` nos metadados para que a etapa de 'data processing'
realize a extração dessa informação.
AlexJBSilva added a commit to AlexJBSilva/querido-diario that referenced this issue Dec 6, 2023
original de Camaquã, para refletir o último dia antes da publicação da
edição 333 no novo site atende.net
Ajuste associado à issue okfn-brasil#1038
@trevineju trevineju added the spider Adiciona ou atualiza um robô raspador label Jan 29, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
spider Adiciona ou atualiza um robô raspador
Projects
2 participants