Skip to content

Conjunto de ferramentas para raspagem e tratamento de artigos da base Scielo.br

License

Notifications You must be signed in to change notification settings

ericbrasiln/ferramentas_scielo

Repository files navigation

ferramentas_scielo

License: MIT made-with-python

Esse repositório é parte dos projetos desenvolvidos pelos membros do LABHDUFBA e tem como objetivo oferecer ferramentas de raspagem, organização e análise de artigos ciêntíficos publicados na plataforma Scielo.br.

Instalação

Para executar os Scripts desse repositório, você precisa clonar ou fazer download para sua máquina. Antes de executar os scripts, é preciso preparar seu computador, como mostramos abaixo.

Python

A ferramentas desse projeto foram escritas em Python 3.8. Esta é uma linguagem de programação que te permite trabalhar rapidamente e integrar diferentes sistemas com maior eficiência. Para executar o arquivo .py é preciso instalar o Python3 em seu computador.

Clique aqui para um tutorial de instalação do Python no Windows, clique aqui para Linux e clique aqui para Mac.

Após a instalação, vc pode executar o arquivo .py direto do prompt de comando do Windows ou pelo terminal do Linux, ou utilizar as diversas IDE disponíveis.

Exemplo de como executar utilizando o terminal do Linux, após instalar o Python3.8:

  1. Acesse o diretório em que o arquivo .py está salvo:
    $ cd user/local
  2. Instale as bibliotecas requeridas:
    $ pip3 install -r requirements.txt
  3. Execute o arquivo usando Python3.8
    $ python3.8 run_scielo_scraper.py

run_scielo_scraper.py

Esse script permite aos usuário selecionar qual assunto ele pretende raspar de acordo com a categorização estabelecida pela plataforma Scielo.br. É possível escolher entre oito assunto:

  • Ciências Agrárias
  • Ciências Biológicas
  • Ciências da Saúde
  • Ciêncas Exatas e da Terra
  • Ciências Humanas
  • Ciências Sociais Aplicadas
  • Engenharias
  • Linguística, Letras e Artes

Após a definição do assunto, é preciso definir o tipo de raspagem:

  1. Realizar o download de todos os arquivos PDF de cada revista do assunto selecionado. É criado um CSV com informações básicas sobre a raspagem (nome da revista, ISSN, nome do arquivo e link para o PDF)

    ⚠️ Devido ao volume de dados, contando dezenas de milhares de artigos, o download de todos os arquivos PDF demandará muito tempo e uso intenso de sua máquina.

  2. Realizar o download dos arquivos XML de cada revista do assunto selecionado.

    ⚠️ Os arquivos XML possuem todos os metadados dos artigos, incluíndo as referências bibliográficas). Após o download dos arquivos XML é posssível utilizar a ferramenta scielo_xml_to_csv para convertar todos os XML para uma planilha.

    Acesse a pasta scielo_xml_to_csv e execute o arquivo run.py.

    Para mais informações leia o README.md da ferramenta.

run_scielo_ISSN.py

Nesse script é possível raspar uma revista ou uma lista de revistas através do ISSN.

Possui as mesmas características do run_scielo_scraper.py, porém a definição da(s) revista(s) a ser raspada é feita ISSN.

⚠️ Atenção

Ambos os scripts criarão diretórios para armazenar os arquivos e dados.

  • scielo/pdf/nomeDaRevista no caso da raspagem de PDFs;
  • scielo/xml/nomeDaRevista no caso da raspagem de XMls.

Entretanto, se a pasta com o nome de uma revista já exixtir, o algoritmo entenderá que a raspagem dela já foi efetuada e passará para a revista seguinte seguinte.

Licença

MIT Licence

2020 Eric Brasil (IHL/UNILAB, LABHDUFBA), Gabriel Andrade (UFBA, LABHDUFBA), Leonardo Nascimento (UFBA, LABHDUFBA)

About

Conjunto de ferramentas para raspagem e tratamento de artigos da base Scielo.br

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages