Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Adiciona vários spider de MG - Barbacena | Carmo do Rio Claro | Onça do Pitangui | Juatuba #1060

Open
wants to merge 5 commits into
base: main
Choose a base branch
from

Conversation

lucioerlan
Copy link

@lucioerlan lucioerlan commented Dec 13, 2023

Checklist - Novo spider

  • Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
  • Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
  • Você verificou que não existe nenhum erro nos logs (log_count/ERROR igual a zero).
  • Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
  • Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

Adicionando vários spiders para o estado de Minas Gerais(MG) - Barbacena | Carmo do Rio Claro | Onça do Pitangui | Juatuba


Informações Complementares:

Barbacena, MG: 3105608

Carmo do Rio Claro, MG: 3114402

Onça do Pitangui, MG: 3151404

Juatuba, MG: 3136652

trevineju
trevineju previously approved these changes Mar 17, 2024
Copy link
Member

@trevineju trevineju left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Parabéns pela primeira contribuição, @lucioerlan!

Precisei fazer só alguns ajustes, que você pode conferir no commit f2a59a3.

@trevineju
Copy link
Member

trevineju commented Mar 22, 2024

@lucioerlan, fui testar e vi que o raspador para Barbacena-MG está dando muito erro 403 e 404 de arquivo que existe no site: barbacena-v1.log

Você poderia dar uma olhada nisso?
Uma possibilidade é a de experimentar diferentes custom_settings até encontrar uma que resolva (dá pra usar raspadores do repositório e a documentação do Scrapy de referência)

Os outros raspadores estão certos ;)

@trevineju trevineju self-requested a review March 22, 2024 18:19
@trevineju trevineju dismissed their stale review March 22, 2024 18:20

Found other issues after my first review

@lucioerlan
Copy link
Author

@lucioerlan, fui testar e vi que o raspador para Barbacena-MG está dando muito erro 403 e 404 de arquivo que existe no site: barbacena-v1.log

Você poderia dar uma olhada nisso? Uma possibilidade é uma experiência diferente custom_settingsaté encontrar uma que resolva (dá pra usar raspadores do repositório e a documentação do Scrapy de referência)

Os outros raspadores são certos ;)

obrigado @trevineju, claro, estou verificando aqui ;)

@trevineju
Copy link
Member

trevineju commented Mar 26, 2024

@lucioerlan, obrigada por ver!

Me ocorreu agora também sugerir que, como 3 dos 4 raspadores estão revisados, daria pra tirar mg_barbacena daqui, eu aprovo a PR e colocamos as três cidades validadas em produção (não tem pq a gente deixar código bom parado, sabe?). E aí você abre outra PR com mg_barbacena, talvez como rascunho, e vai trabalhando nela. O que você acha?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

2 participants