Skip to content

Dépôt des délibération de la Commission nationale informatique et libertés mises au format data.frame du logiciel R / Repository for the French Data Protection Authority Cnil deliberations converted to the R data.frame format.

Notifications You must be signed in to change notification settings

tsoubiran/cnil-delib

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Délibérations de la Cnil

Ce dépôt contient une version mise au format data.frame du logiciel R des fichiers xml des délibérations émises par la Commission nationale informatique et des libertés de 1979 à février 2022 et rendues publiques via la page d'Open Data de la Commission.

Le script cnil-délibérations.R utilisé pour la conversion en data.frame se trouve dans le répertoire ./script/ accompagné du fichier cnil-délibérations-utils.R qui contient les fonctions utilisées pour la conversion. Ce script nécessite les packages RCurl, stringi, XML et xslt.

Le data.frame cnil-delib.Rds au format de sérialisation RDS du logiciel R se trouve dans le répertoire ./délibérations/.

Pour charger directement les données :

dlb <- readRDS(co <- url("https://github.com/tsoubiran/cnil-delib/raw/master/d%C3%A9lib%C3%A9rations/cnil-delib.Rds?raw=true")); close(co)

Le noms colonnes du data.frame reprennent le noms des champs des fichiers xml :

nom type
ID character
dlbIdx numeric
dlbIdx.1 numeric
ANCIEN_ID character
ORIGINE character
URL character
NATURE character
TITRE character
TITREFULL character
NUMERO character
NOR character
NATURE_DELIB character
DATE_TEXTE Date
ORIGINE_PUBLI character
PAGE_DEB_PUBLI character
PAGE_FIN_PUBLI character
NUM_SEQUENCE character
DATE_PUBLI Date
ETAT_JURIDIQUE character
BLOC_TEXTUEL character
LIENS list
rpath character
dlbTxt character

La colonne LIENS contient une liste de vecteurs —et non un vecteur— de références à des textes mentionnés dans la délibération.

table(l<-sapply(dlb$LIENS,length))
head(dlb$LIENS[which(l>1)])

La colonne BLOC_TEXTUEL conserve le texte des délibérations au format xml original.

Les colonnes rpath et dlbTxt ont été ajoutées et contiennent, respectivement, le chemin relatif de la délibération extraite des archives tar.gz et le texte brut des délibérations converti avec la feuille de style xsl ./xsl/cnil-délibérations-toText.xsl.

Le fichier cnil-délibérations-utils.R contient aussi une fonction xmlDelibToHtml qui permet de convertir les délibérations en html.

L'analyse d'une version antérieure du fichier a été présentée au colloque colloque du PIREH Histoire, langues et textométrie. Le support de la présentation pireh2019--cnil-délib--présentation.pdf se trouve dans le répertoire ./pdf/.

Licences

Les fichiers des délibérations de la Cnil sont diffusés sous licence etalab-2.0. Les scripts sont, eux, diffusés sous licence Creative Commons Attribution-ShareAlike (BY-SA) .

About

Dépôt des délibération de la Commission nationale informatique et libertés mises au format data.frame du logiciel R / Repository for the French Data Protection Authority Cnil deliberations converted to the R data.frame format.

Topics

Resources

Stars

Watchers

Forks