Ce script Python vous permet de rechercher des articles scientifiques sur PubMed, d'extraire leurs informations bibliographiques, de calculer la similarité cosinus entre les mots-clés et les titres des articles, et de télécharger les fichiers PDF des articles sélectionnés.
Scraper_PubMed.py
: Contient les fonctions pour scraper les informations bibliographiques des articles à partir de PubMed.Scraper_PDF.py
: Contient les fonctions pour télécharger les fichiers PDF des articles.utils.py
: Contient les fonctions de traitement de texte.__init__.py
: Fichier d'initialisation qui importe toutes les bibliothèques nécessaires.main.py
: Fichier principal qui exécute le programme en utilisant les fonctions des deux scrapers.
-
Assurez-vous d'avoir Python installé sur votre système. Si ce n'est pas le cas, vous pouvez le télécharger à partir du site officiel : python.org.
-
Clônez ce référentiel GitHub sur votre machine locale en utilisant la commande suivante :
git clone https://github.com/votre_utilisateur/pubmed-article-scraper.git
-
Accédez au répertoire du projet :
cd pubmed-article-scraper
-
Installez les dépendances requises en exécutant la commande suivante :
pip install -r requirements.txt
-
Exécutez le script
main.py
en utilisant la commande suivante :python main.py
-
Suivez les instructions à l'écran pour saisir votre requête de recherche, spécifier le nombre d'articles à récupérer, choisir un article parmi les résultats et télécharger son PDF.
- Recherche d'articles sur PubMed en utilisant des mots-clés.
- Détection automatique de la langue des requêtes de recherche.
- Extraction des informations bibliographiques des articles trouvés.
- Calcul de la similarité cosinus entre les mots-clés et les titres des articles.
- Téléchargement des fichiers PDF des articles sélectionnés.
BERKANI Yacine