Skip to content

Labo-Lacourse/Code_chap_23_logistic_regression_regularization

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

74 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

English will follow

Algorithmes d’apprentissage et modèles statistiques

Un exemple de régression logistique régularisée et de validation croisée pour prédire le décrochage scolaire

Dans M. Corbière & N. Larivière (Eds.), Méthodes qualitatives, quantitatives et mixtes dans la recherche en sciences humaines, sociales et de la santé, 2e édition. Québec, QC : PUQ. (2020)

Contact: eric.lacourse@umontreal.ca

Auteurs: Éric Lacourse, Charles-Édouard Giguère et Véronique Dupéré

Analyste: Charles-Édouard Giguère

Transcription du code: Clémentine Courdi

Pour citation: Lacourse, E., Giguère, C.E., & Dupéré, V. (2020). Algorithmes d’apprentissage et modèles statistiques: Un exemple de régression logistique régularisée et de validation croisée pour prédire le décrochage scolaire. Dans M. Corbière & N. Larivière (Eds.), Méthodes qualitatives, quantitatives et mixtes dans la recherche en sciences humaines, sociales et de la santé, 2e édition. Québec, QC : PUQ.

Pour voir le livre complet: https://www.puq.ca/catalogue/livres/methodes-qualitatives-quantitatives-mixtes-edition-3773.html

Pour voir le projet OSF: https://osf.io/ydxva/

Le chapitre présente les avantages de l'utilisation de la régularisation dans l'analyse de régression linéaire et logistique. Afin d'illustrer les techniques de régularisation, nous donnons un exemple de régression logistique régularisée avec validation croisée cherchant à prédire le décrochage scolaire chez des élèves du secondaire au Québec. Avec 25 variables prédictives et un échantillon simulé de 1000 cas, les résultats de la régression logistique ordinaire sont comparés avec ceux de la régression avec régularisation ridge, lasso et elastic-net.

Ce dépôt contient le code utilisé pour obtenir les résultats présentés dans la partie 2 du chapitre « Algorithmes d’apprentissage et modèles statistiques: Un exemple de régression logistique régularisée et de validation croisée pour prédire le décrochage scolaire ». Le code est disponible en trois formats:

> Google Colab avec R magic

> Environnement R dans Jupyter Notebook 

> Format original du script dans R Studio en R Markdown

Les trois formats contiennent le même code, sauf à quelques exceptions près lorsque le code a dû être modifié pour s'adapter au format en question. Les résultats demeurent les mêmes, peu importe le format de code utilisé.

Pour aller plus loin:

https://fr.wikipedia.org/wiki/Lasso_(statistiques)

Machine learning algorithms and statistical models

An example of regularization and cross validation in logistic regression to predict high school dropout in Quebec

In M. Corbière & N. Larivière (Eds.), Qualitative, quantitative and mixed methods in human, social and health science research, 2nd edition. Québec, QC : PUQ. (2020)

Contact: eric.lacourse@umontreal.ca

Authors: Éric Lacourse, Charles-Édouard Giguère et Véronique Dupéré

Analyst: Charles-Édouard Giguère

Code transcription: Clémentine Courdi

Cite as: Lacourse, E., Giguère, C.E., & Dupéré, V. (2020). Algorithmes d’apprentissage et modèles statistiques: Un exemple de régression logistique régularisée et de validation croisée pour prédire le décrochage scolaire. In M. Corbière & N. Larivière (Eds.), Méthodes qualitatives, quantitatives et mixtes dans la recherche en sciences humaines, sociales et de la santé, 2nd edition. Québec, QC : PUQ.

To see the whole book: https://www.puq.ca/catalogue/livres/methodes-qualitatives-quantitatives-mixtes-edition-3773.html

To see the OSF project: https://osf.io/ydxva/

This chapter presents the advantages of using regularization methods in linear and logistic regression analysis. To illustrate regularization and cross-validation technics, we give an example of regularized logistic regression looking to predict dropout status for Quebec high-school students. With 25 predictive variables and a simulated sample of 1000 observations, the results of the classic logistic regression are compared with those of ridge, lasso and elastic-net regression.

This repository contains the code used to obtain the results presented in the second part of the chapter "Machine learning algorithms and statistical models: An example of regularization and cross validation in logistic regression to predict high school dropout in Quebec". The code is available in three formats:

> Google Colab with R magic

> R environment in Jupyter Notebook 

> Original script format in R Studio as R Markdown

All three formats contain the same code, except for some instances when the code had to be modified to be adapted to said format. The results stay the same regardless of the code format used.

Readings and resources:

https://en.wikipedia.org/wiki/Lasso_(statistics)

About

Algorithmes d’apprentissage et modèles statistiques: Un exemple de régression logistique régularisée et de validation croisée pour prédire le décrochage scolaire

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published