EC551 TD1 : Statistiques univariées
Les données présentées dans ce TD ont été simulées à des fins pédagogiques, et ne reflètent en aucun cas la réalité du terrain.
1 Exercice 1
Le jeu de données salaires.csv, disponible sur connect, contient l’expérience (en mois) et le salaire annuel (en milliers d’euros bruts) des 954 salariés d’une entreprise.
- Pour chacune des variables Experience et Salaire, effectuer sur R un résumé statistique contenant
- la moyenne;
- l’écart-type;
- la médiane;
- les quartiles Q1 et Q3;
- le MAD (fonction
mad()).
On pourra utiliser les fonctions summary(), mean(), sd(), median() ou quantile().
Déterminer les individus de l’entreprise qui peuvent être considérés comme des outliers.
Pour chacune des variables, représenter :
- Un boxplot;
- Un histogramme.
Le nombre \(k\) de classes sera choisi avec la formule de Yule: \[ k= 2.5\times n^{0.25}.\]
2 Exercice 2
On considère le jeu de données frenes.cv, disponible sur connect. On y a recensé 277 forêts en indiquant
- La proportion de frênes dans chacune des forêts;
- Un indice de pluviométrie annuelle;
- Un indice de température annuelle;
- Un indic ede pH du sol;
- Un indice de concentration de nitrates (NO3) dans le sol;
- La présence ou non d’un charançon nuisible;
- Si la forêt est exploitée ou non.
On s’intéresse dans un premier temps à l’impact du charançon sur ces forêts.
Effectuer un résumé statistique des deux variables qualitatives Charancon et Exploitation.
Représenter graphiquement ces deux variables par un diagramme en barres.
Réaliser la table de contingence de ces deux variables (fonction
table()), et représenter par un diagramme en barres la variable Charancon selon que la forêt soit exploitée ou non.Effectuer un résumé statistique de la variables Frenes, à la manière de l’Exercice 1.
Réaliser un histogramme de la variable Frenes. Que constate-t-on ?
On choisira le nombre \(k\) de classes avec la formule de Sturges : \[ k = 1+3.3\times \log_{10}(n) \]
- Réaliser un nouvel histogramme de la variable Frenes, en distinguant cette-fois ci selon l’absence ou la présence du charançon. De la même manière, réaliser un boxplot de cette variable.
On s’intéresse à présent à la concentration de nitrates dans les forêts étudiées.
Réaliser un résumé statistique de la variable NO3, ainsi qu’un boxplot. Certaines forêts vous semblent-elles anormales ? Ces forêts sont-elles exploitées par l’homme ? Le charançon est-il présent dans ces forêts ?
Déterminer le coefficient de corrélation entre les variables Frenes et NO3. Commenter.
Réaliser le nuage de points des varaibles NO3 en abscisse et Frenes en ordonées. On coloriera les points selon la présence ou non du charançon dans la forêt. Commenter.