Data Science Book
1
Avant propos
1.1
Plan du manuel
1.2
Les jeux de données
1.3
Le cadre technique et les packages utilisés
2
Introduction aux data sciences
2.1
Science, art, technique et pratiques
2.2
Une courte histoires des logiciels statistiques
2.3
Le processus de traitement des données
2.4
Les facteurs sociaux du développement des datasciences
2.4.1
Une lingua franca
2.4.2
Une communauté
2.4.3
La multiplication des sources de données.
2.4.4
de la statistique à l’IA
2.5
Conclusion
3
Prise en main de r
3.1
La convention du Rmarkdown
3.2
Lire les données
3.2.1
La diversité des formats
3.3
Dplyr
pour manipuler les données
3.3.1
Des pipes %>%
3.3.2
Des verbes
3.3.3
Fusionner les données
4
Introduction à la grammaire des graphiques et à ggplot
4.1
La grammaire des graphiques
4.1.1
Un modèle en couche
4.1.2
Une typologie des représentations
4.1.3
L’esthétique
4.1.4
Le cas des variables quantitatives
4.1.5
D’autres méthodes
4.1.6
Quand la variable est qualitative
5
Analyse bi variée
5.1
Diagrammes xy - la magie des corrélations
5.2
Comparer les distributions et des moyennes
5.2.1
Comparaison de moyennes
5.2.2
Deux variables qualitatives
6
Analyse graphique multivariée
6.1
La confiance institutionnelle, en détail
6.2
Table de corrélation
6.3
Un cas plus complexe : présidentielle2020
6.4
une boucle pour produire de multiple graphe en variant un paramètre
6.4.1
effet sondeur
6.5
Modéliser le biais du sondeur
7
Données géographique
8
Analyses factorielles exploratoires
8.1
Origine et histoire
8.1.1
Une petite histoire de la psychométrie
8.1.2
L’école française de l’analyse des données appliquée aux sciences sociales
8.2
Le modèle en facteurs communs et spécifiques
8.2.1
Un peu de théorie
8.2.2
Ressources
8.3
Cas d’application
8.3.1
Examen de la matrice de corrélation
8.3.2
Modèle factoriel
8.3.3
le problème théorique
8.3.4
Une représentation symbolique
8.3.5
Application
8.4
Une généralisation de l’ACP : l’AFC
8.4.1
AFCM multiple
8.5
Développements
8.5.1
le SVD
8.5.2
ACM , analyse canonique , analyse discriminante
8.6
En conclusion
9
Clustering
9.1
Les méthodes hiérarchiques ascendantes
9.1.1
Mise en oeuvre
9.2
segmentation simplifiée
9.3
tableaux croisés de la typologie et des critères sociaux démos
9.4
AFCM pour une synthèse
9.4.1
Forces et limites
9.5
Les méthodes non-hiérarchiques
9.5.1
principe
9.5.2
Application
9.5.3
Le problème de la détermination du nombre optimal de groupe
9.6
Autres méthodes
9.7
Conclusion
10
Régression
10.1
Quelques éléments de théorie
10.2
Une étude de cas : les offres Blablacar
10.3
Notes, prix et taux d’occupations
10.4
Analyser la demande : qu’est ce qui détermine le taux d’occupation ?
10.4.1
Un modèle OLS
10.5
Autres modèles
10.5.1
Régression logistique
10.5.2
Modèle de comptage
10.5.3
Modèle de régression beta
11
Modèle de survie
12
Les modèles linéaires hiérarchiques (HLM)
12.1
en guise d’introduction
12.2
Une application
12.3
Sem avec Lavaan
13
Arbres de Décision
13.1
Construire un arbre de décision
13.2
Mise en oeuvre avec Partykit
13.3
forêts aléatoires
14
Premiers éléments de Machine Learning
14.1
une typologie de modèles
14.1.1
le modèle linéaire
14.1.2
le modèle logit
14.1.3
les modèles à régularisation
14.1.4
les random forest
14.2
forêts aléatoires
15
20 Annexes
15.1
Données Eric-ESS
15.2
fichier Airbnb Bruxelles
15.3
Published with bookdown
Introduction aux Data Sciences/nAvec r
Chapitre 11
Modèle de survie
voir étude de cas
CartedeFidelité
.