Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ajout spécificté Insee dans la fiche parquet. #489

Open
acazaubiel opened this issue Jun 28, 2023 · 1 comment · May be fixed by acazaubiel/utilitR#1
Open

Ajout spécificté Insee dans la fiche parquet. #489

acazaubiel opened this issue Jun 28, 2023 · 1 comment · May be fixed by acazaubiel/utilitR#1
Labels

Comments

@acazaubiel
Copy link
Contributor

Comme évoqué dans la note de l'Insee en date du 2023-06-26 (diffusion générale), le format parquet est désormais officiellement recommandée dans un certain nombre de cas.

Il me semblerait intéressant de rajouter une boite :spécificité-insee: dans la fiche parquet en ce sens.

Les points importants selon moi sont :

  • "Parquet [...] devient donc le nouveau format de référence à privilégier pour toute mise à disposition interne de données détaillées sous forme de fichiers qu’elle provienne de traitements self comme de SI."
  • Ce format est particulièrement recommandé pour les traitements mettant à disposition des données détaillées volumineuses.
  • Un certain nombre de détails techniques :
    • il convient de partitionner le fichier (à partir de fichier de plus d'un million de lignes) selon le ou les critères d’usages les plus fréquents de ces données lorsque le producteur a connaissance de ces cas d’usage (ex : partition par département, par année ou selon une nomenclature au niveau idoine) ;
    • utiliser snappy comme format de compression qui correspond au format de compression par défaut en R.
    • Pour les variables de type date (ex : date de naissance, date de début de contrat), coder la date sous forme d’une chaîne de caractère en spécifiant bien le format et le séparateur dans les métadonnées (ex : AAAA-MM-JJ). Cette chaîne de caractère doit contenir toute l’information statistique disponible (dit autrement le codage de l’information sous forme d’une chaîne de caractère (string) ne doit pas conduire à détruire de l’information).
    • Suivre la documentation sur le nombre de partition maximal et optimal qui recommande, en général, d’éviter les fichiers de moins de 20 MB ou de plus de 2 GB et d’éviter d’avoir plus de 10 000 partitions.
    • Encoder les chaînes de caractères (string) en utf8 ce qui correspond au standard et au format d’encodage par défaut en R.
    • Utiliser la version la plus récente des librairies R et python utilisées pour créer/manipuler des fichiers parquet (notamment version récente d’arrow en R). De même utiliser la version la plus récente de spark et duckdb pour créer/manipuler des fichiers parquet.
@acazaubiel
Copy link
Contributor Author

Je ne sais pas comment le formuler, mais il me semblerait important de préciser également ce point de la note : "la politique de l’Insee est [désormais] de proposer systématiquement le format Parquet". Vu que de nombreux agents en SSM exploitent également cette documentation, ça peut contribuer à diffuser le format dans le SSP, non ?

@acazaubiel acazaubiel linked a pull request Aug 9, 2023 that will close this issue
3 tasks
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

Successfully merging a pull request may close this issue.

2 participants