Skip to content

Latest commit

 

History

History

stat-R_2021

Statistics with R -- 2021 session

Programme

Goals

The aim of this module is to provide you with the bases of R programming and to present you some statistical concepts for high-throuput data.

To follow this course, prior knowledge is expected on:

  • R environment,
  • getting help in R,
  • types of variables (particularly on vectors).

Link to the prerequisites

Intervenants

  1. Claire Vandiedonck (https://orcid.org/0000-0002-6669-6923)
  2. Jacques van Helden (https://orcid.org/0000-0002-8799-8584)
  3. Anne Badel (https://orcid.org/0000-0002-2777-5979)
  4. Magali Berland (https://orcid.org/0000-0002-6762-5350)
  5. Antoine Bridier-Nahmias (https://orcid.org/0000-0002-0376-6840)
  6. Olivier Sand (https://orcid.org/0000-0003-1465-1640)
  7. Bruno Toupance (https://orcid.org/0000-0002-8244-1824)
  8. Clémence Réda(https://clreda.github.io/)
  9. Yves Clément (https://orcid.org/0000-0002-5932-9412)
  10. Olivier Taboureau (https://orcid.org/0000-0001-7081-2491)

Course links

Doc Description URL
Git pages Web site of the course (to see the supports) https://du-bii.github.io/module-3-Stat-R/stat-R_2021/
Git repo Repository enabling to download or clone the teaching material on your computer https://github.com/DU-Bii/module-3-Stat-R
Serveur Jupyter Hub IFB Python but also R! https://jupyterhub.cluster.france-bioinformatique.fr/
RStudio at IFB cluster link to RStudio on th IFB cluster https://rstudio.cluster.france-bioinformatique.fr/
Slack forum pour échanges et discussions https://dubii.slack.com

Teaching material

Session 1. R base en explorant des données omiques

  • Date: 03/03/2021 de 9h30 à 12h30
  • Instructeurs : Claire Vandiedonck & Anne Badel
  • Helpers : Antoine Bridier-Nahmias, Clémence Réda, Bruno Toupance, Jacques van Helden

Objectifs

  1. Vérification et consolidation des prerequis: session R, vecteurs, matrices.
  2. Dataframes: création, extraction de données, manipulation.

Supports de cours

Session 2. Renforcement de R

  • Date: 04/03/2021 de 13h30 à 16h30
  • Instructeurs : Claire Vandiedonck & Magali Berland
  • Helpers : Antoine Bridier-Nahmias, Yves Clément, Bruno Toupance, Jacques van Helden

Objectifs

  1. Contrôles de flux: boucles versus vectorisation, excutions conditionnelles

  2. Fonctions: implémentation

  3. Paquets/librairies: installation et troubleshooting, chargement, utilisation

  4. Figures à façon avec R base

  5. Introduction au Tidyverse: ggplot2, dplyr, tidyr

Supports de cours

Session 3. Statistiques pour les données à haut-débit / RStudio et rapport Rmarkdown

  • Date: 09/03/2021 de 14h30 à 17h30
  • Instructeurs : Claire Vandiedonck & Antoine Bridier-Nahmias
  • Helpers : Anne Badel, Clémence Réda, Jacques van Helden, Olivier Sand

Objectifs

  1. Statistiques pour les omiques:
  • Rappels de statistiques de base: flutuation d'échantillonage, théorie des tests
  • Problème de la dimensionalité: Estimation des paramètres et tests multiples
  1. RStudio & Rapport Rmarkdown

Supports de cours

Session 4. Analyse en composantes principales et exploration des données multidimensionelles

  • Date: 11/03/2021 de 9h00 à 12h00

  • Instructeurs : Magali Berland & Jacques van Helden

  • Helpers : Anne Badel, Clémence Réda, Claire Vandiedonck, Olivier Taboureau

Objectifs

  1. Analyse en composantes principales (ACP)

    • Comprendre le principe de base de l'analyse en composantes principales, ainsi que les objectifs de cette méthode.

    • Réaliser une ACP avec R, obtenir des visualisations graphiques pour aider à l'interprétation (cercle des corrélations, biplot, contribution des variables et des individus).

  2. Exploration de données multi-omiques multidimensionelles

    • Maîtriser les téléchargements et chargements de fichiers de données et métadonnées
    • Charger des fichiers de données
    • Rappel des concepts de base de corrélation entre deux variables
    • Extension à la corrélation entre $n$ variables
    • Applications à des jeux de données de multi-omiques

Supports de cours

  • Slides: Cours sur l'ACP visualisable ici

  • Practicals:

  • Exercice : application de l'ACP aux données multi-omiques de Pavkovicz (2019)

    1. Téléchargez le Rmd source du tutoriel "exploration des données multi-omiques"
    2. Téléversez-le dans un dossier de votre espace sur le cluster
    3. Dans l'en-tête de votre version du Rmd, changez la valeur du self_contained en indiquant yes
    4. Lancez knitr pour générer le rapport en formats HTML et pdf pour vous assurez que l'original compile bien.
    5. Réalisez l'exercice "PCA of Pavkovicz data"
    6. Déposez les résultats (Rmd et fichier html self-contained) dans le sous-dossier TP4 du dossier de dépôt convenu sur slack

Sessions 5 et 6 (rassemblées en une journée)

  • Date: 29/03/2021 de 10h00 à 13h00 et de 14h30 à 17h30
  • Instructeurs : Anne Badel, Jacques van Helden, Olivier Sand
  • Helpers : Claire Vandiedonck, Yves Clément, Bruno Toupance, Olivier Taboureau

Objectifs

Supports pédagogiques

Topics Support Formats
The TCGA BIC study case Intro [pdf]
Data loading and exploration Tutorial (optional) [html] [Rmd]
Principes du clustering Cours [html] [Rmd]
Tutorial + practical [html] [Rmd]
Analyse d'enrichissement fonctionnel Cours [html]
Tutorial [html] [Rmd]
Practical [html] [Rmd]
Correction [html] [Rmd]
Supervised classification Slides
Tutorial + practical [html] [Rmd]

Travail personnel

  1. Après la Session 1

    • finir le tutorial des dataframes pour demain jeudi après-midi -> poser des questions sur slack si des points sont obscurs
    • faire le practical dans vos séances de travail personnel du vendredi des 2 1ères semaines -> les données serviront de Fil Rouge tout au long du module
    • faire le tutorial sur les factors pendant le temps de travail personnel
  2. Après la Session 2

    • finir le practical sur tidyverse pour jeudi 11/03/2021
    • fnir le practical sur les figures avec R base (correction disponible)
    • faire le practical sur les paquets (correction disponible)
    • facultatif: faire le practical sur les contrôles de flux et fonctions (correction disponible)
  3. Après la Session 3

    • revoir à tête reposée le practical sur les statistiques
    • revoir à tête reposée l'exemple de notebook Rmd sur Rstudio: Antoine l'a un peu complété
    • facultatif: pour les plus avancés, voir l'exemple du notebook .rmd optionnel sur les statistiques
  4. Après la session 4

    • terminer le TP de Magali Berlan sur l'ACP
    • réaliser le travail personnel de Jacques van Helden : application de l'ACP aux données multi-omiques de Pavkovicz
  5. Mini-projet

  • Le but de ce travail est de mettre en oeuvre les méthodes vues dans le module 3 "R et statistiques" pour explorer le jeu de données de Pavkovic, et de rendre un rapport d'analyse au format .Rmd. Nous vous fournissons le fichier Prenom-NOM_m3-stat-R_mini-projet.Rmd à ce lien avec une trame des principales sections attendues. Certaines contiennent déjà du code. Vous devrez en compléter d'autres. Sentez-vous libres d'adapter cette trame ou d'y ajouter des analyses complémentaires si elles vous aident à interpréter vos résultats. La date limite pour rendre se travail est fixée au 26/05/21 minuit dans votre repertoire: /shared/projects/dubii2021/[login]/m3-stat-R/mini-projet

    L'activité atelier est annulée due à la charge de travail déjà importante.

R tutorials and good practice

Doc Description URL
Cheet sheats RStudio Cheet sheats https://rstudio.com/resources/cheatsheets/
Tutorial Tutorial for Beginners by E. Paradis - English version https://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
Tutorial Tutorial for Beginners by E. Paradis - French version https://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
R style guide Google’s R Style Guide https://google.github.io/styleguide/Rguide.html
Another reference for R style guide tidyversesStyle Guide https://style.tidyverse.org/

Ressources

Category Title Description Link
Coding The tidyverse R style guide Style recommendations for R code https://style.tidyverse.org/
Coding Tidyverse cheat sheet One-poage summary of basic tidyverse syntax https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Tidyverse+Cheat+Sheet.pdf
Versioning Happy Git and GitHub for the useR How to manage versioning of R code on a github repository https://happygitwithr.com/
Functions R Documentation List of R packages and functions https://www.rdocumentation.org/
Functions QuickR List R functions for stats and plotting https://www.rdocumentation.org/
Statistics and DataViz STDHA Statistical tools for high-throughput data analysis http://www.sthda.com/english/
Basic stats explained to biologists Points of Significance Nature Methods collection https://www.nature.com/collections/qghhqm/pointsofsignificance
DataViz R Graph gallery How to display your data http://www.r-graph-gallery.com/all-graphs/
DataViz DEFAKATOR Détecter des graphiques trompeurs https://www.youtube.com/watch?v=crTt-QIyS-o
DataViz Using color sin R Explains available packages for colors in R https://www.stat.ubc.ca/~jenny/STAT545A/block14_colors.html#using-colors-in-r
DataViz Using colors in R How to do a high resolution figure with R base https://danieljhocking.wordpress.com/2013/03/12/high-resolution-figures-in-r/
DataViz DataViz link tto the book https://clauswilke.com/dataviz/

Licence

Ce contenu est mis à disposition selon les termes de la licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International (CC BY-SA 4.0). Consultez le fichier LICENSE pour plus de détails.