Skip to content

Commit

Permalink
Intégration des remarques d'Aurélien
Browse files Browse the repository at this point in the history
  • Loading branch information
oliviermeslin committed Mar 4, 2024
1 parent 191636e commit d6d1d07
Showing 1 changed file with 12 additions and 2 deletions.
14 changes: 12 additions & 2 deletions 03_Fiches_thematiques/Fiche_arrow.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -569,7 +569,7 @@ library(dplyr)
# Autoriser arrow à utiliser plusieurs processeurs en parallèle
options(arrow.use_threads = TRUE)
# Définir le nombre de processeurs qu'arrow peut utiliser
arrow::set_cpu_count(parallel::detectCores() %/% 2)
arrow::set_cpu_count(parallel::detectCores() %/% 4)
##################
### Se connecter aux données
Expand All @@ -591,7 +591,7 @@ dataset2 <- open_dataset(
### Faire les traitements
### Conseils:
### - Faire des étapes de traitement de 30-40 lignes, suivies d'un compute()
### - Ne pas utiliser collect()
### - Ne pas utiliser collect() dans les calculs intermédiaires sur des données volumineuses
### - Faire attention à suivre la consommation de RAM
##################
Expand Down Expand Up @@ -620,6 +620,16 @@ resultat_final <- table_intermediaire8 |>
) |>
compute()
##################
### Visualiser les résultats finaux sous forme de tibble
### Vous pouvez utiliser collect() sur de petites données
##################
resultat_final_tbl <- resultat_final |> collect()
##################
### Exporter les résultats
### Conseil: partitionner les fichiers Parquet si les données sont volumineuses
Expand Down

0 comments on commit d6d1d07

Please sign in to comment.