[Issue][1008]Criado um novo spider para o novo site de São José dos Basílios-MA #1030

IgorJanuario · 2023-11-05T22:25:02Z

[Issue][1008]Criado um novo spider para o novo site de São José dos Basílios-MA

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist
abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo spider

Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
Você verificou que não existe nenhum erro nos logs (log_count/ERROR igual a zero). Observação: Ele deu skipped nesse cara.
Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

Foi necessário criar um novo spider. Criei baseado no doem.py
Esse spider foi criado para o site novo do São José dos Basílios-MA

…ue: 1008

ogecece

@IgorJanuario, obrigado pelo PR de correção!

Executei uma raspagem completa no raspador e está funcionando.

Peguei a revisão desse PR agora e vi que tem alguns pontos de melhoria (ex: o uso de uma classe base onde não há outros exemplos do mesmo sistema e também a cobertura do sistema siganet estar completamente contida no novo raspador).

Você ainda tem interesse/disponibilidade de fazer as alterações? Se sim, aí posso fazer uma revisão completa e indicar os pontos de mudança.

IgorJanuario · 2024-04-30T22:41:54Z

@ogecece bora.
Me explica e vamos mandar bala.

ogecece

@IgorJanuario tá aí o/

ogecece · 2024-05-01T18:02:29Z

data_collection/requirements-dev.in

@@ -5,3 +5,4 @@ flake8
 isort
 pre-commit
 pip-tools
+tzdata


A biblioteca não está sendo explicitamente usada e pode ser removida dos requirements.

ogecece · 2024-05-01T18:02:36Z

data_collection/requirements.in

+spidermon
+tzdata


A biblioteca tzdata não está sendo explicitamente usada e pode ser removida dos requirements.

ogecece · 2024-05-01T18:05:30Z

data_collection/gazette/spiders/base/sjdbma.py

Como esse raspador só tem um exemplo de município sendo utilizado com ele, não precisamos criar um raspador base. Esse código pode ser movido para a MaSaoJoseDosBasiliosSpider em data_collection/gazette/spiders/ma/ma_sao_jose_dos_basilios.py (sugiro a alteração do nome do arquivo pois não vejo mais necessidade em mantermos o siganet, detalhes em outro comentário).

ogecece · 2024-05-01T18:33:54Z

data_collection/gazette/spiders/ma/ma_sao_jose_dos_basilios_2023.py

+class MaSaoJoseDosBasiliosSpider(SjdbmaGazetteSpider):
+    TERRITORY_ID = "2111250"
+    name = "ma_sao_jose_dos_basilios_2023"
+    start_date = datetime.date(2018, 2, 19)


O start_date aqui seria 27/11/2015 de acordo com o que temos no site agora. Verificando todas as datas de publicação nos dois sistemas, vemos que o novo sistema contém todos os diários do antigo. Assim, podemos excluir o outro raspador baseado no siganet para manter apenas esse.

(o nome poderá ficar sem o _2023 no final)

ogecece · 2024-05-01T19:47:47Z

data_collection/gazette/spiders/base/sjdbma.py

+        last_page = self.get_last_page(response)
+        if page < last_page:
+            yield scrapy.Request(
+                url=self.get_url(page + 1), cb_kwargs={"page": page + 1}
+            )


Aqui dá pra simplificar bastante buscando pelo link para a próxima página, sem lidar com a lógica de página atual e última página. O que acha?

Suggested change

last_page = self.get_last_page(response)

if page < last_page:

yield scrapy.Request(

url=self.get_url(page + 1), cb_kwargs={"page": page + 1}

)

next_page_url = response.css("a.page-link[rel='next']::attr(href)").get()

if next_page_url:

yield scrapy.Request(url=next_page_url)

Dessa maneira, também poderíamos deixar de usar o .get_url() e .start_requests() e a URL .BASE_URL seria usada apenas no .start_urls.

ogecece · 2024-05-01T19:56:20Z

data_collection/gazette/spiders/base/sjdbma.py

+    def get_pdf_url(self, response_item):
+        """
+        Gets the url for the gazette inside one of the 'div#edicoes-anteriores' table
+        """
+        download_link = (
+            response_item.css("td:nth-child(1) a::attr(href)").get().split("#")
+        )
+        url_base = self.allowed_domains[0]
+        download_base = download_link[0]
+        return f"https://{url_base}{download_base}"


Aqui vc poderia usar o response.urljoin() se a response fosse um dos argumentos. O que acha?

ogecece · 2024-05-01T20:03:46Z

data_collection/gazette/spiders/base/sjdbma.py

+        Get the date for the gazette inside one of the 'div#edicoes-anteriores' table
+        """
+        date = response_item.css("td:nth-child(3)::text").get().strip()
+        date_cut = self.__format_date(date)


O código de .__format_date() não precisava estar em um método a parte aqui. Acaba quebrando a sequência de leitura por conta de uma linha de código

ogecece · 2024-05-01T20:05:54Z

data_collection/gazette/spiders/base/sjdbma.py

+        date = response_item.css("td:nth-child(3)::text").get().strip()
+        date_cut = self.__format_date(date)
+        return dateparser.parse(
+            date_cut, date_formats=["%d - %B - %Y"], languages=["pt"]


O formato de date_formats só é válido para datas após 25/07/2023 e omitir esse argumento não está afetando o parsing de datas. Sugiro remover esse argumento

ogecece · 2024-05-01T20:12:13Z

data_collection/gazette/spiders/base/sjdbma.py

+        Get the edition number inside one of the 'div#edicoes-anteriores' table
+        """
+        text_edition = response_item.css("td:nth-child(1) a::text").get().strip()
+        return self.__cut_edition_number(text_edition)


Sugiro manter o código de .__cut_edition_number() em .get_edition_number() mesmo. São poucas linhas de código pra quebrar a leitura. E o seu código já está seguindo uma estrutura que me lembra "page object", que na minha visão já está bem organizado demais.

ogecece · 2024-05-01T20:18:51Z

data_collection/gazette/spiders/base/sjdbma.py

+            yield Gazette(
+                date=date,
+                file_urls=[file_url],
+                edition_number=edition_number,
+                power="executive_legislative",
+            )


Notei que file_url é na verdade a URL para uma página intermediária (exemplo) e não para o arquivo de diário. Seria necessário mais um método de parsing para então encontrar o link do diário (parece que o botão "Baixar PDF" entrega) e então criar o item Gazette.

IgorJanuario and others added 2 commits November 5, 2023 19:11

Criado um novo spider para o site novo de São José dos Baílios-Ma.Iss…

7dd6b67

…ue: 1008

Merge branch 'main' into feature/1008-raspador-sao-jose-dos-basilios-ma

57324c3

IgorJanuario mentioned this pull request Nov 5, 2023

[Manutenção] São José dos Basílios-MA #1008

Open

trevineju linked an issue Nov 9, 2023 that may be closed by this pull request

[Manutenção] São José dos Basílios-MA #1008

Open

ogecece reviewed Apr 17, 2024

View reviewed changes

ogecece requested changes May 1, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Issue][1008]Criado um novo spider para o novo site de São José dos Basílios-MA #1030

[Issue][1008]Criado um novo spider para o novo site de São José dos Basílios-MA #1030

IgorJanuario commented Nov 5, 2023

ogecece left a comment

IgorJanuario commented Apr 30, 2024

ogecece left a comment

ogecece May 1, 2024

ogecece May 1, 2024 •

edited

ogecece May 1, 2024

ogecece May 1, 2024

ogecece May 1, 2024

ogecece May 1, 2024

ogecece May 1, 2024

ogecece May 1, 2024

ogecece May 1, 2024

ogecece May 1, 2024

		spidermon
		tzdata

[Issue][1008]Criado um novo spider para o novo site de São José dos Basílios-MA #1030

Are you sure you want to change the base?

[Issue][1008]Criado um novo spider para o novo site de São José dos Basílios-MA #1030

Conversation

IgorJanuario commented Nov 5, 2023

Checklist - Novo spider

Descrição

ogecece left a comment

Choose a reason for hiding this comment

IgorJanuario commented Apr 30, 2024

ogecece left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ogecece May 1, 2024 • edited

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ogecece May 1, 2024 •

edited