Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Novo spider]: Guaratuba-PR #1138 #1142

Open
wants to merge 2 commits into
base: main
Choose a base branch
from

Conversation

talesmota
Copy link

@talesmota talesmota commented May 9, 2024

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

  • O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
  • O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
  • O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
  • Explicitar o atributo de classe end_date não se fez necessário.
  • Não utilizo custom_settings em meu raspador.

Testes

  • Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
  • Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
  • Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

  • Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

URL da forma de consulta

http://portal.guaratuba.pr.gov.br/diariosoficiais

Período de publicação
  • janeiro/2010 - hoje
  • filtros por datas estão funcionais também
Formato da publicação

Os diários oficiais são publicados em PDF (texto)

Conteúdo da publicação

Diário único: documento publicado é uma edição completa do diário oficial

Detalhes do site de publicação

No response

Observações

No response

Evidências

@talesmota talesmota changed the title 1138 [Novo spider]: Guaratuba-PR #1138 May 9, 2024
@talesmota
Copy link
Author

Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui. Mas quando eu rodei o spider para todo o período ele apresentou o um erro, o mesmo que foi relato na issue 869. Eu não tenho ideia de como debugar esse erro, apesar que não ter interferido no processo e os arquivos terem sido baixados corretamente e o csv ter sido gerado normalmente.

O log do erro é esse aqui.. E o erro apresentado é o que segue, Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6'

@trevineju
Copy link
Member

Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui.

Pode pingar, tô aqui pra isso! (:
temos um discord tb, https://go.ok.org.br/discord, que tem um canal para conversar sobre raspadores que outras pessoas também respondem. Porém, prefiro quando fazem como vc e conversam aqui na issue ou no PR, fica mais contextualizado.

Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6'

Se você pesquisar no log por "ERROR" vai achar 6 casos. Um deles é:

2024-05-09 13:01:50 [scrapy.pipelines.files] WARNING: File (code: 404): Error downloading file from <GET http://portal.guaratuba.pr.gov.br/images/oficial2014/332.pdf> referred in

O log está informando que estas 6 edições não foram coletadas. Tem que investigar esses casos. Olhei esse primeiro e parece que o arquivo da edição 332 (29/08/14) não existe no site justificando ter dado 404.

Tem que ir conferir os 5 demais, porém nesse caso, parece que não tem nada de errado. Pro raspador é um erro pq ele espera coletar o arquivo e não acha; mas se o arquivo não existe no site pra ser coletado não tem o que fazer (poderia ser questão de acionar a prefeitura para cobrar corrija isso no site dela). Da parte da raspagem, o que tinha para ser coletado, foi.

@talesmota
Copy link
Author

Boa tarde @trevineju , desculpa te pingar, mas você é a minha única referência aqui.

Pode pingar, tô aqui pra isso! (: temos um discord tb, https://go.ok.org.br/discord, que tem um canal para conversar sobre raspadores que outras pessoas também respondem. Porém, prefiro quando fazem como vc e conversam aqui na issue ou no PR, fica mais contextualizado.

Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6'

Se você pesquisar no log por "ERROR" vai achar 6 casos. Um deles é:

2024-05-09 13:01:50 [scrapy.pipelines.files] WARNING: File (code: 404): Error downloading file from <GET http://portal.guaratuba.pr.gov.br/images/oficial2014/332.pdf> referred in

O log está informando que estas 6 edições não foram coletadas. Tem que investigar esses casos. Olhei esse primeiro e parece que o arquivo da edição 332 (29/08/14) não existe no site justificando ter dado 404.

Tem que ir conferir os 5 demais, porém nesse caso, parece que não tem nada de errado. Pro raspador é um erro pq ele espera coletar o arquivo e não acha; mas se o arquivo não existe no site pra ser coletado não tem o que fazer (poderia ser questão de acionar a prefeitura para cobrar corrija isso no site dela). Da parte da raspagem, o que tinha para ser coletado, foi.

Entendi. E é isso mesmo, fui no site do diário oficial, no ano de 2014 na edição 332 e o link está quebrado. Vou conferir as outras ocerrências para ter certeza se é o mesmo problema. Muito Obrigado.

@talesmota talesmota marked this pull request as ready for review May 9, 2024 20:26
@trevineju trevineju linked an issue May 10, 2024 that may be closed by this pull request
1 task
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

[Novo spider]: Guaratuba-PR
2 participants