Initialisation (1er jet) pour la fiche sur Parquet #475

ddotta · 2023-03-21T16:25:57Z

Salut @oliviermeslin, @linogaliana et @py-b !

Comme promis, une modeste proposition et un 1er jet pour la fiche sur Parquet.
Je l'ai intitulée "Importer des fichiers au format Parquet" mais elle couvre davantage de choses que l'import.
Je vous laisse regarder et bien sûr compléter/corriger/réorganiser les paragraphes au besoin.
Peut-être voir aussi si on la laisse dans le bloc de fiches Importer des données avec R ?
C'est pas évident de choisir les thèmes qui peuvent être abordés dans une telle fiche parce que le sujet est vaste... 😮‍💨

close Enrichir la partie consacrée au format parquet #448

#448

RLesur

Merci @ddotta ! Super boulot !

Quelques propositions de modifications et une question.

03_Fiches_thematiques/Fiche_import_fichiers_parquet.qmd

linogaliana

relecture et suggestions pour la première partie de la fiche, merci @damiendotta !

03_Fiches_thematiques/Fiche_import_fichiers_parquet.qmd

linogaliana · 2023-03-22T09:12:24Z

Merci @ddotta c'est super comme projet de fiche. Je t'ai fait des suggestions sur la première partie, pas encore eu le temps d'aller voir la suite

ddotta · 2023-03-22T10:20:03Z

Merci @RLesur et @linogaliana pour vos premières relectures !
J'ai pris en compte vos suggestions, il me reste à mettre à jour la partie des exemples avec la BPE comme suggéré par Lino

RLesur · 2023-03-23T07:34:00Z

Une question supplémentaire : je la pose mais n'ai pas réellement d'avis, faut peut-être qu'on en discute

Faut-il parler des dates au moment de la création d'un fichier parquet ?

On sait que c'est un des plus gros pièges qui nous attend et que si nous ne prenons pas garde, on peut avoir de gros problèmes avec ça à terme. Faut-il dès maintenant inclure la recommandation qu'avait fait Pengfei ? cf. https://github.com/pengfei99/ParquetPyArrow#252-timestamp

ddotta · 2023-03-23T10:03:36Z

Ah oui je n'avais pas du tout en tête cette question des dates 🧐 c'est très intéressant en tout cas, merci pour le partage Romain ! Cela peut poser des problèmes que je n'avais pas en tête...
Dans la fiche, peut-être qu'on pourrait évoquer rapidement le risque puis mettre un lien vers la recommandation de Pengfei ?
Je n'ai pas plus d'avis que cela à donner vu que je viens de découvrir le sujet...

oliviermeslin

Merci @ddotta pour cette proposition! Voici une première série de remarques. Je continuerai un peu plus tard.

03_Fiches_thematiques/Fiche_import_fichiers_parquet.qmd

oliviermeslin

Suite (mais pas fin!) de mes commentaires

03_Fiches_thematiques/Fiche_import_fichiers_parquet.qmd

oliviermeslin · 2023-03-26T19:37:39Z

03_Fiches_thematiques/Fiche_import_fichiers_parquet.qmd

+Le package `arrow` présente une fonctionnalité supplémentaire qui consiste à créer et lire un fichier **Parquet partitionné**. Partitionner un fichier revient à le "découper" selon une clé de partitionnement (qui peut prendre la forme par exemple d'une ou de plusieurs variables). Cela permet de pouvoir exécuter du code sur une table volumineuse qui dépasse la mémoire de son espace de travail dans la mesure où les requêtes seront alors exécutées selon **un plan d'exécution optimal**.
+
+::: {.callout-conseil .icon}
+- Prendre le temps d'identifier les variables de partitionnement d'un fichier **Parquet** n'est pas du temps perdu dans la mesure où il permet par la suite des gains d'efficacité sur les traitements et facilite la maintenance du fichier sur le long terme.
+:::
+
+Pour créer des fichiers **Parquet** partitionnés, il existe la fonction [`write_dataset()`](https://arrow.apache.org/docs/r/reference/write_dataset.html). Voici ce que ça donne sur le fichier de la BPE :  
+
+```{r, eval = FALSE}
+write_dataset(
+  dataset = read_parquet("Data/BPE_ENS.parquet"), 
+  path = "Data/", 
+  partitioning = c("REG"), # la variable de partitionnement
+  format="parquet"


Je pense qu'il faudrait déplacer plus haut l'explication sur la création des fichiers partitionnés (dans la partie écrire des fichiers parquet).

Ok je te laisse faire

03_Fiches_thematiques/Fiche_import_fichiers_parquet.qmd

ddotta · 2023-03-27T08:45:56Z

@oliviermeslin c'est bon pour toutes tes remarques sauf le fait de remonter le paragraphe sur les fichiers partitionnés

Initialisation (1er jet) pour la fiche sur Parquet

39cde3b

#448

RLesur reviewed Mar 21, 2023

View reviewed changes

linogaliana reviewed Mar 22, 2023

View reviewed changes

ddotta added 3 commits March 22, 2023 10:18

Prise en compte relecture de Romain L

b9ce69f

Prise en compte relecture 1ère partie Lino

4dd6461

Ajout oubli sur une correction

c48b4bf

ddotta added 2 commits March 22, 2023 13:22

Exemples désormais avec la BPE

300e8d4

suppression fichier json inutile

82990a0

oliviermeslin reviewed Mar 24, 2023

View reviewed changes

oliviermeslin reviewed Mar 26, 2023

View reviewed changes

ddotta added 3 commits March 27, 2023 09:57

Prise en compte relecture 1ère partie Olivier

d38369a

Suppression paragraphe en double

3b6db4b

Ajout conseil sur variable de partitionnement

05932de

oliviermeslin changed the base branch from master to dev_parquet March 27, 2023 08:57

oliviermeslin merged commit 214ed5d into InseeFrLab:dev_parquet Mar 27, 2023
0 of 2 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Initialisation (1er jet) pour la fiche sur Parquet #475

Initialisation (1er jet) pour la fiche sur Parquet #475

ddotta commented Mar 21, 2023 •

edited by linogaliana

RLesur left a comment

linogaliana left a comment

linogaliana commented Mar 22, 2023

ddotta commented Mar 22, 2023

RLesur commented Mar 23, 2023

ddotta commented Mar 23, 2023

oliviermeslin left a comment

oliviermeslin left a comment

oliviermeslin Mar 26, 2023

ddotta Mar 27, 2023

ddotta commented Mar 27, 2023

Initialisation (1er jet) pour la fiche sur Parquet #475

Initialisation (1er jet) pour la fiche sur Parquet #475

Conversation

ddotta commented Mar 21, 2023 • edited by linogaliana

RLesur left a comment

Choose a reason for hiding this comment

linogaliana left a comment

Choose a reason for hiding this comment

linogaliana commented Mar 22, 2023

ddotta commented Mar 22, 2023

RLesur commented Mar 23, 2023

ddotta commented Mar 23, 2023

oliviermeslin left a comment

Choose a reason for hiding this comment

oliviermeslin left a comment

Choose a reason for hiding this comment

oliviermeslin Mar 26, 2023

Choose a reason for hiding this comment

ddotta Mar 27, 2023

Choose a reason for hiding this comment

ddotta commented Mar 27, 2023

ddotta commented Mar 21, 2023 •

edited by linogaliana