Vous êtes sur la page 1sur 4

Analyse des donnes

Mesures et Analyses Statistiques de Donnes


TP : Analyse de donnes quantitatives avec le logiciel R
2015/2016

Donnes quantitatives discrtes :

Dans le cas d'une variable quantitative discrte, le nombre de valeurs possibles (ou modalits) est fini et
vous pouvez rsumer ces donnes sous la forme d'un tableau de frquences.
Exemple
Le nombre d'arbres plants sur les parcelles d'un lotissement a t compt. Les donnes obtenues sont
les suivantes :
1,2,4,1,6,3,2,1,2,0,1,2,2,1,3,0,3,2,1,2,2,3,2,3
1.

Rentrez ces donnes sous la forme d'un vecteur nomm arbres et affichez ce vecteur.

2.

Triez les valeurs de ce vecteur par ordre croissant.

3.
Donnez la taille de l'chantillon (c'est--dire le nombre de composantes de ce vecteur) en la notant
n et affichez sa valeur.

Effectifs et effectifs cumuls :

La fonction unique ( ) permet d'afficher les modalits (ou valeurs possibles) de la valeur tudie.
Retournons l'exemple 1
- Calculez les effectifs du vecteur arbres .
- Donnez le tableau des frquences (en %) : (s'obtient en divisant les effectifs par la taille n de
l'chantillon.
-

Donnez le tableau des effectifs par les effectifs cumuls (utilisez la fonction cumsum( ))
Commenter !
- De la mme faon que pour les frquences, donnez les frquences cumules (en %).
Calculez la somme des valeurs.

Indicateurs de tendance centrale

Vous pouvez obtenir quelques indicateurs de tendance tels que la moyenne, le maximum, le minimum
ou le range (minimum, maximum), la mdiane par les fonction mean(), max(), min(), range(), median()
que vous avez dj rencontrs.
- Calculez le nombre moyen d'arbres par parcelle
- Dterminez le nombre maximum d'arbres sur une parcelle
- Dterminez nombre minimum d'arbres sur une parcelle
- Dterminez intervalle des valeurs possibles
- Quel est le nombre mdian d'arbres par parcelle
- Donnez un tableau rcapitulatif des indicateurs avec en complment les premier et troisime quartiles.
Commentez !

Indicateurs de dispersion

- Calculez la variance et l'cart-type


- Calculez la variance non-corrige vous-mme
- La variance obtenue est diffrente de la prcdente, pourquoi ?
- Calculez maintenant l'cart-type et vrifiez que l'cart-type est la racine carre de la variance.

Reprsentations graphiques

Pour toutes les fonctions graphiques que vous allez voir, vous pouvez donner des titres au graphique,
l'axe des abscisses ou l'axe des ordonnes en utilisant les options main="...", xlab="..." ou ylab="...".
Quand vous excutez une fonction graphique avec le logiciel R, une nouvelle fentre graphique s'ouvre
(que vous pouvez rduire ou agrandir) dans laquelle les figures sont affiches. Plusieurs reprsentations
graphiques sont possibles sur ce type de donnes : un nuage de points ou un diagramme en btons.
- A laide de la fonction plot() affichez le nuage de points avec en abscisse le numro de
l'observation (ici de 1 24) et en ordonne le nombre d'arbres.
- Dterminez la courbe des effectifs cumuls, avec en abscisse le nombre d'arbres par parcelles et en
ordonne les effectifs cumuls.
- Tracez galement un diagramme en btons par la fonction barplot partir du tableau des effectifs et
des frquences. Commenter !

Donnes issues d'un caractre quantitatif continu

Une des principales caractristiques des donnes continues rside dans le fait qu'elles sont pratiquement
toutes diffrentes (les galits sont dues la ncessit d'arrondir et/ou au fait que les instruments de
mesure sont gradus) ; les effectifs des modalits sont alors pratiquement tous gaux 1. Pour tracer un
histogramme de ces donnes, nous procdons un regroupement de ces donnes en classes. Les raisons
du choix du nombre de classes.
Exemple
Nous avons relev les poids (en grammes) de souris soumises une exprience de supplmentation en
vitamines :
74, 85, 95, 84, 68, 93, 84, 87, 78, 72, 81, 91, 80, 65, 76, 81, 97, 69, 70, 98.
1.

Crez la squence souris et l'afficher.

2.
Vrifiez que les effectifs des modalits sont pratiquement tous gaux 1 en affichant le tableau
des effectifs.
3.

Combien de souris ont subi l'exprience ?

4.

Donnez les indicateurs de tendance centrale de ce jeu de donnes.

Reprsentations graphiques

Sur des donnes quantitatives => il est conseill de reprsenter la bote moustaches .
- Reprsentez la boite moustaches. Interprter!
- Tracez lhistogramme. Interprter !

Dcomposition d'un vecteur selon des groupes

L'exprience laquelle on s'intresse porte sur des souris soumises une supplmentation en vitamines.
On sait finalement que les 10 premires donnes concernent des souris effectivement soumises cette
supplmentation et les 10 dernires donnes correspondent aux souris non supplmentes en vitamines.
Il peut donc tre intressant de dcomposer les donnes en deux groupes selon la prsence ou l'absence
de cette supplmentation.
- Dans un premier temps, crez un vecteur vitamine de 20 composantes : les 10 premires prenant la
valeur s (comme supplmente) et les 10 suivantes, la valeur ns (comme non supplmente).
- Pour pouvoir comparer les rsultats de l'exprience sur les souris supplmentes et sur les souris non
supplmentes, dcomposez le vecteur souris en deux listes par la fonction split .
- Pour analyser les donnes en fonction de la supplmentation, vous conservez les rsultats de la
fonction split sous le nom souris.sup .
- Vous pouvez tudier ces deux vecteurs (summary). Interprter !
- Reprsenter l'histogramme du poids des souris supplmentes et non supplmentes.

Exercice 1

Le fichier de donnes que est constitu d'un ensemble de 2000 lignes qui reprsentent les 2000
premires entreprises au monde, suivant les critres du classement Forbes 2000 de l'anne
2004.
- Tlchargez ce fichier depuis le package HSAUR
>data("Forbes2000", package="HSAUR")
1.
Imprimez-le l'cran.
2.
Quelle est la structure de Forbes2000 ?
3.
Quelle est la classe ou le type de Forbes2000 ?
4.
Combien de lignes comporte ce fichier ?
5.
Combien de colonnes comporte ce fichier ?
6.
Quels sont les noms des colonnes et les classes des objets qui les composent ?
7.
Quelle est la longueur d'une colonne ?
8.
Quelle est le nom de la premire entreprise du jeu de donnes ?
9.
Combien il y a-t-il de catgories d'entreprises diffrentes ?
10. Quels sont les noms des diffrentes catgories d'entreprises ?
11. Donnez le tableau de contingence de ces catgories.
12. Quelle est la classe de la colonne sales ?
13. Donnez la mdiane, la moyenne, l'tendue puis un ensemble de statistiques descriptives de la
variable Sales .
14. Donnez un ensemble de statistiques descriptives pour l'ensemble du jeu de donnes.
15. Nous allons maintenant passer la reprsentation graphique du jeu de donnes. Que font les
lignes suivantes ?
>layout(matrix(1 :2,nrow=2))
> hist(Forbes2000$marketvalue)
> hist(log(Forbes2000$marketvalue))
16. Quelle est lutilit de la commande layout ? que se passera-t-il si vous la supprimez des lignes de
commande ?

17. Tracer les log(marketvalue) en fonction des log(sales).


18. Tracer les boxplot de la variable log(marketvalue) des quatre pays suivants :
- Germany,
- India,
- Turkey,
- United Kingdom.

Exercice 2 :

Les informations sexe , poids (en kg) et taille (en cm) ont t recueillies sur un chantillon
d'hommes et de femmes. Ces donnes sont enregistres dans une table de trois variables dans les fichiers
quetelet.csv et quetelet.xls .
Partie 1
1. Importez le fichier de donnes sous R en utilisant l'une des trois fonctions suivantes read.table,
read.csv ou read.xls, sachant que les noms des 3 variables apparaissent en premire ligne.
2. Affichez, une par une, les variables taille, poids et sexe. Crez 3 vecteurs taille, poids et sexe
correspondant aux donnes de la table.
3. Quel est le nombre d'individus dans l'chantillon ?
4. Affichez le tableau des indicateurs de tendance centrale pour les deux variables quantitatives. Essayez
galement cette commande en donnant le nom de la table et non le nom d'une variable. Qu'obtenez-vous
?
5. Dcomposez l'chantillon en un chantillon d'hommes et un chantillon de femmes.
6. Quel est le nombre d'hommes et le nombre de femmes dans l'chantillon ?
Partie 2
Vous voulez maintenant calculer et tudier l'indice de Qutelet partir des donnes ci-dessus. La
formule de cet indice est la suivante :
indice =Poids en kg/(Taille en m)^2
Cet indice permet de mesurer la corpulence de l'homme adulte. la classification est la suivante :
Trs maigre (moins de 18,1), maigre (18,1 21,4), moyen (21,5 25,6), corpulent (25,7 30,4), obse
(30,5 et plus).
1. Construire la variable indice partir des donnes.
2. Calculer les paramtres statistiques lmentaires de cette nouvelle variable sur l'ensemble des
individus et en fonction du sexe.
3. Construire l'histogramme de cette nouvelle variable sur l'ensemble des individus en utilisant les
classes dtailles ci-dessus.
4. Construire les deux histogrammes des hommes et des femmes