Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Melhorias na Documentação do Guia de Raspadores #34

Open
trevineju opened this issue Feb 22, 2023 · 2 comments
Open

Melhorias na Documentação do Guia de Raspadores #34

trevineju opened this issue Feb 22, 2023 · 2 comments
Labels
docs Melhorias ou complementos à documentação good first issue Boa issue para quem está chegando hacktoberfest

Comments

@trevineju
Copy link
Member

Antes, no README.md do repositório querido-diario havia uma seção "Gerar múltiplos raspadores a partir de um template", com o seguinte texto:

### Gerar múltiplos raspadores a partir de um template

Você pode se deparar com um cenário em que há diferentes cidades utilizando a mesma base para o raspador, como em `FecamGazetteSpider`. Para não ter que criar os arquivos de raspadores manualmente, você pode utilizar um script para casos em que temos alguns raspadores que não são complexos e usam a mesma base.

Os templates de raspadores ficam na pasta `scripts/`. Aqui está um exemplo de um raspador gerado: 

from datetime import date
from gazette.spiders.base import ImprensaOficialSpider
class BaGentioDoOuroSpider(ImprensaOficialSpider):
    name = "ba_gentio_do_ouro"
    allowed_domains = ["pmGENTIODOOUROBA.imprensaoficial.org"]
    start_date = date(2017, 2, 1)
    url_base = "http://pmGENTIODOOUROBA.imprensaoficial.org"
    TERRITORY_ID = "2911303"

Para rodar o script, você precisa apenas de um arquivo .CSV seguindo a estrutura a seguir: 

url,city,state,territory_id,start_day,start_month,start_year,base_class
http://pmXIQUEXIQUEBA.imprensaoficial.org,Xique-Xique,BA,2933604,1,1,2017,ImprensaOficialSpider
http://pmWENCESLAUGUIMARAESBA.imprensaoficial.org,Wenceslau Guimarães,BA,2933505,1,1,2017,ImprensaOficialSpider
http://pmVERACRUZBA.imprensaoficial.org,Vera Cruz,BA,2933208,1,4,2017,ImprensaOficialSpider


Depois de obter o arquivo .CSV, rode o comando: 


cd scripts/
python generate_spiders.py new-spiders.csv


É isso. O novo raspador estará na pasta `data_collection/gazette/spiders/`.

Este conteúdo poderia ser adaptado para integrar o texto de "escrevendo um novo spider" do read the docs.

@trevineju trevineju added docs Melhorias ou complementos à documentação good first issue Boa issue para quem está chegando hacktoberfest labels Oct 1, 2023
@cnfranco
Copy link

Olá, @trevineju. Estou trabalhando nessa issue.

@robokbr
Copy link
Member

robokbr commented Oct 16, 2023

Traduzindo para inglês | Translating to english


Hi @trevineju. I'm working on this issue.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
docs Melhorias ou complementos à documentação good first issue Boa issue para quem está chegando hacktoberfest
Projects
None yet
Development

No branches or pull requests

3 participants