NLPWorkshop 14 sept 2023 : Grammaire des données et des graphiques

NLPworkshop
Méthodes
r
dplyr
ggplot
dataviz
Quarto
Author

Christophe Benavent

Published

September 14, 2023

Pour cette première séance de l’année du NLP Workshop, on commence par les bases avec deux packages essentiels : dplyr, pour traiter les données, et ggplot2 pour les visualiser. Les deux répondent à une grammaire que Wilkinson and Wills (2005) a systématisé pour les graphiques, et que Wickham et al. (2019) a empaqueté dans la suite tidyverse.

Grammaire des données et des graphiques

On travaille avec l’environnement Quarto pour Rstudio qui reprend largement les conventions Rmarkdown.

Le but est de présenter la manière de travailler, pour des données complexes, avec ces deux packages et leur compagnons . Ce sera très pratique, pas trop pédagogique car on ira directement vers des exemples un peu compliqués afin de démontrer la versatilité de ce langage et ses finesses. On ne fera pas pour les débutants (à moins qu’ils étudient avant les références), mais pour les spécialistes !

References

Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy McGowan, Romain François, Garrett Grolemund, et al. 2019. “Welcome to the Tidyverse.” Journal of Open Source Software 4 (43): 1686. https://doi.org/10.21105/joss.01686.
Wilkinson, Leland, and Graham Wills. 2005. The Grammar of Graphics. 2nd ed. Statistics and Computing. New York: Springer.