Trabalhando na issue #695 #968

luxu · 2023-10-11T13:59:42Z

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist
abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo spider

Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
Você verificou que não existe nenhum erro nos logs (log_count/ERROR igual a zero).
Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

luxu · 2023-10-11T14:02:03Z

Não está sendo pego os diários após chamar o callback sendo que ao criar um projeto do zero tudo funciona.

trevineju · 2023-11-14T21:16:46Z

arquivos de execução do raspador (executado em 14/11/2023):
log_parauabepas.txt
pa_parauapebas.csv

ogecece

Oi @luxu ! Seu PR foi revisado no encontro do Grupo de Trabalho (GT) de Raspadores nessa terça (14/11).

Felizmente uma brecha no site foi encontrada pelo @alexjbs. Vou descrever ela no próximo review (pedindo mudanças) e deixar esse aqui apenas como comentários de melhorias no que foi desenvolvido (mas que provavelmente pouca coisa será aproveitada).

Uma dica geral pra contribuições seria que atualizar a branch usando merge deixa o histórico de commits bem confuso. Vou te mostrar aqui como tá o histórico da branch usando git log --oneline --graph:

Os dois commits que realmente tem conteúdo estão destacados. E ao usar git rebase main (com a main atualizada), como fica:

Assim suas alterações ficam no "topo" e dessa maneira conseguimos manter um histórico de commits mais organizado com essa estrutura aqui onde cada PR fica facilmente demarcado na história quando é mesclado com um commit de merge:

Isso não é obrigação sua de saber, é mais dever de quem está mantendo em preservar um histórico de commits organizado, mas achei que valia a dica :) Saber um pouco a mais sobre git vai bem longe porque é usado em quase todo projeto de código.

ogecece · 2023-11-16T19:03:21Z

data_collection/gazette/spiders/pa/pa_parauapebas.py

+import datetime as dt
+
+import scrapy
+from dateparser import parse


Como usamos bastante o parse no contexto de raspagem, seria preferível evitar o import direto da função e assim o contexto ficaria explícito usando dateparser.parse.

Suggested change

from dateparser import parse

import dateparser

ogecece · 2023-11-16T19:10:31Z

data_collection/gazette/spiders/pa/pa_parauapebas.py

+        ano_atual = dt.datetime.now().year
+        for year in [2022, ano_atual]:
+            for month in range(1, 13):
+                for day in range(1, 32):
+                    if len(str(day)) < 2:
+                        day = "".join(("0", str(day)))
+                    if len(str(month)) < 2:
+                        month = "".join(("0", str(month)))
+                    data = f"{year}-{month}-{day}"
+                    url = f"{response.url}?data={data}"
+                    yield scrapy.Request(
+                        url,
+                        callback=self.parse_gazette,
+                        cb_kwargs={"data": data},
+                    )


Aqui temos dois comentários importantes:

Para gerar datas em um dado intervalo a função rrule da biblioteca dateutil é uma mão na roda gigante e evita gerarmos datas inválidas (como 31 de fevereiro).

É obrigatório implementar o filtro por datas por meio dos atributos self.start_date e self.end_date. É importante dar uma lida nessa página da documentação.

Suggested change

ano_atual = dt.datetime.now().year

for year in [2022, ano_atual]:

for month in range(1, 13):

for day in range(1, 32):

if len(str(day)) < 2:

day = "".join(("0", str(day)))

if len(str(month)) < 2:

month = "".join(("0", str(month)))

data = f"{year}-{month}-{day}"

url = f"{response.url}?data={data}"

yield scrapy.Request(

url,

callback=self.parse_gazette,

cb_kwargs={"data": data},

)

for date in rrule(DAILY, dtstart=self.start_date, until=self.end_date): # fazer uso do rrule para não gerar datas inválidas

# fazer uso de start_date e end_date é obrigatório na escrita do raspador

yield scrapy.Request(

f"{response.url}?data={date.date().isoformat()}",

callback=self.parse_gazette,

cb_kwargs={"data": date.date()},

ogecece · 2023-11-16T19:21:15Z

data_collection/gazette/spiders/pa/pa_parauapebas.py

+        link_diario = response.css("a[target]").css("::attr(href)").extract_first()
+        data_do_diario = link_diario.split("/")[-1].split(".")[:-2]


Alguns comentários aqui, em tom de sugestão:

Não precisaria encadear uso do seletor, fica um pouco menor colocar tudo na mesma chamada do .css

.extract_first está em desuso, dê preferência a usar .get

Porém, ao deixar de usar .get acima podemos aproveitar o método .re_first da resposta do seletor e deixar a construção da variável da data mais legível

Como já temos a data da publicação no argumento data, mudaria o nome dessa aqui já que será utilizada apenas para validação em dias onde não há publicação

Suggested change

link_diario = response.css("a[target]").css("::attr(href)").extract_first()

data_do_diario = link_diario.split("/")[-1].split(".")[:-2]

link_diario = response.css("a[target='diario']::attr(href)")

data_no_link = link_diario.re_first(r"\d{4}\.\d{2}\.\d{2}")

ogecece · 2023-11-16T19:27:36Z

data_collection/gazette/spiders/pa/pa_parauapebas.py

+        data_no_formato_string = str(data)
+        data = data_no_formato_string.split("-")
+        if data_do_diario == data:
+            data_no_formato_date = parse(
+                data_no_formato_string, languages=["br"]
+            ).date()
+            yield Gazette(
+                date=data_no_formato_date,
+                file_urls=[link_diario],
+                is_extra_edition=False,
+                power="executive",
+            )


Mais algumas sugestões e por último uma correção:

Usar curto-circuito (essa condicional onde caso seja verdadeira encerra a execução da subrotina) em Python é interessante pois evita o crescimento horizontal do código (algo bem comum por conta das identações)

Já temos a data a partir do argumento data, faria sentido usá-la no item

Se link_diario não usar .get acima, seria necessário usar aqui

O power não é apenas executive. Precisa ser executive_legislative por conta de diários como os de 15/10/2021, 22/10/2021 e 22/10/2021 onde há atos da câmara legislativa.

Suggested change

data_no_formato_string = str(data)

data = data_no_formato_string.split("-")

if data_do_diario == data:

data_no_formato_date = parse(

data_no_formato_string, languages=["br"]

).date()

yield Gazette(

date=data_no_formato_date,

file_urls=[link_diario],

is_extra_edition=False,

power="executive",

)

if dt.datetime.strptime(data_no_link, "%Y.%m.%d").date() != data: # usar curto-circuito é uma boa prática em python para o código não crescer muito horizontalmente

self.logger.debug(f"Não existe diário para esta data: {data}. Data encontrada: {data_no_link}") # log de debug ajudará caso esse comportamento mude e também ajuda na autodocumentação desse condicional

return

yield Gazette(

date=data, # como já temos a data pronta, faz sentido utilizá-la aqui

file_urls=[link_diario.get()], # como não usamos .get acima, é necessário colocar aqui

is_extra_edition=False,

power="executive_legislative", # provavelmente

)

ogecece

Como mencionei na revisão anterior, o @alexjbs descobriu uma brecha!

Todos os arquivos estão acessíveis a partir do link https://apps.ioepa.com.br/Parauapebas/Busca/Arquivos/ .

Como a data de publicação no link é confiável, não perdemos nenhuma informação. E essa implementação otimizaria muito as requisições para fazer a raspagem completa (e faria uma requisição a menos na execução diária).

Pode desenrolar a reescrita do raspador?

Rascunho do diario da cidade de Paruapebas/PA

cfa584e

Finalizando a issue okfn-brasil#695

2486a63

luxu marked this pull request as ready for review October 17, 2023 22:57

Merge branch 'okfn-brasil:main' into main

c363786

trevineju added the hacktoberfest-accepted Pull Requests aprovados na Hacktoberfest label Oct 18, 2023

luxu added 2 commits October 20, 2023 08:50

Merge branch 'okfn-brasil:main' into main

60cdb35

Merge branch 'okfn-brasil:main' into main

8648f41

trevineju linked an issue Oct 26, 2023 that may be closed by this pull request

Parauapebas-PA #695

Open

ogecece reviewed Nov 16, 2023

View reviewed changes

ogecece requested changes Nov 16, 2023

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Trabalhando na issue #695 #968

Trabalhando na issue #695 #968

luxu commented Oct 11, 2023 •

edited

luxu commented Oct 11, 2023

trevineju commented Nov 14, 2023 •

edited

ogecece left a comment

ogecece Nov 16, 2023

ogecece Nov 16, 2023

ogecece Nov 16, 2023

ogecece Nov 16, 2023

ogecece left a comment •

edited

		link_diario = response.css("a[target]").css("::attr(href)").extract_first()
		data_do_diario = link_diario.split("/")[-1].split(".")[:-2]

Trabalhando na issue #695 #968

Are you sure you want to change the base?

Trabalhando na issue #695 #968

Conversation

luxu commented Oct 11, 2023 • edited

Checklist - Novo spider

Descrição

luxu commented Oct 11, 2023

trevineju commented Nov 14, 2023 • edited

ogecece left a comment

Choose a reason for hiding this comment

ogecece Nov 16, 2023

Choose a reason for hiding this comment

ogecece Nov 16, 2023

Choose a reason for hiding this comment

ogecece Nov 16, 2023

Choose a reason for hiding this comment

ogecece Nov 16, 2023

Choose a reason for hiding this comment

ogecece left a comment • edited

Choose a reason for hiding this comment

luxu commented Oct 11, 2023 •

edited

trevineju commented Nov 14, 2023 •

edited

ogecece left a comment •

edited