Vous êtes sur la page 1sur 4

1- Importation et exportation

a. Creation d’un fichier “td.txt” dans le repertoire de travail avec separation des
champs par des espaces.
b.

> x=read.table(file="td.txt", header=T)


>x
col1 col2 col3 col4
1 1 2 3 A
2 1 5 8 B
3 1 5 3 C
4 5 10 11 D
5 8 12 15 E

c.

> row.names(x)=x$col4
>x
col1 col2 col3 col4
A 1 2 3 A
B 1 5 8 B
C 1 5 3 C
D 5 10 11 D
E 8 12 15 E

d.

> x=read.table(file="td.txt", header=T, row.names=4)


>x
col1 col2 col3
A 1 2 3
B 1 5 8
C 1 5 3
D 5 10 11
E 8 12 15
e.

> y=cbind(x,col5=x$col3>10)
col1 col2 col3 col5
A 1 2 3 FALSE
B 1 5 8 FALSE
C 1 5 3 FALSE
D 5 10 11 TRUE
E 8 12 15 TRUE
f.

>write.table(y, "td.txt”, row.names=F, col.names=F)

2. Lois de Probabilités
>dbinom(0:10,10,1/3)
[1] 0.01734153 0.10404918 0.29914139 0.55926434 0.78687192 0.92343647
[7] 0.98033836 0.99659605 0.99964436 0.99998306 1.00000000
> pbinom(10,10,1/3)-pbinom(5,10,1/3)
[1] 0.07656353
> dpois(0:10,2.5)
[1] 0.0820850 0.2872975 0.5438131 0.7575761 0.8911780 0.9579790 0.9858127
[8] 0.9957533 0.9988597 0.9997226 0.9999384
> ppois(10,2.5)-ppois(5,2.5)
[1] 0.04195941
> qnorm(0.97)
[1] 1.880794
> qt(0.02,5)
[1] -2.756509
>

3. Statistiques descriptives

mtcnum=mtcars[,-c(2,8,9,10,11)]
> summary(mtcnum)
>op=par()
> par(mfrow=c(2,2))
> apply(mtcnum,2,hist)
> apply(mtcnum,2,boxplot)
> par(op)
Commentaires : Il semble qu'il n'y ait pas de valeurs aberrantes sauf pour hp, dont le
maximum est très élevé par rapport au 3° quantile. Les caractéristiques mpg et hp sont
beaucoup plus dispersées que les autres.
Au vu des boxplots et histogrammes, et en calculant éventuellement le coefficient
d’asymétrie, les caractéristiques disp et hp ont une distribution étalée vers la droite. Les
distribution de mpg et qsec semblent symétriques ; drat et wt sont etalées a gauche

RQ (rappels de cours): A partir des quartiles, on peut obtenir une idée fidèle de la
distribution en traçant un graphique communément appelé « boite à moustaches »
(boxplot). Ce graphique permet de résumer la série à partir de ses valeurs
extrêmes, ses quartiles et sa médiane. Dans le cas où l’on dispose de plusieurs
séries statistiques, il permet une comparaison visuelle immédiate de ces séries.

Sur un axe horizontal, on place les valeurs extrêmes de la série et ses quartiles.
Afin de prendre en compte la taille de l’échantillon, on trace un rectangle dont la
longueur est l'interquartile et la largeur est proportionnelle à la racine carrée de la
taille de l'échantillon. Enfin, on partage ce rectangle par un segment vertical au
niveau de la médiane.
n

x1 Q1 Me Q3
xn

Une distribution est dite symétrique si les valeurs de la série sont également dispersées de part et d'autre
de la valeur centrale, c'est-à-dire si le graphe de la distribution - histogramme ou diagramme en bâton en
fréquences - admet une axe de symétrie. Dans une distribution parfaitement symétrique, Me=x=Mode

Le coefficient d’asymétrie de Pearson : Une mesure descriptive qui permet de caractériser le degré
de symétrie d’une distribution est le coefficient d'asymétrie (ou coefficient de Pearson). Il est défini par : .
3( x  Me)
 
s

Ce coefficient est généralement compris entre -1 et 1.


 Une distribution parfaitement symétrique correspond à   0.
 Lorsque   0. ( x  Me ), les observations sont étalées du côté gauche. On
dit que la distribution est biaisée à gauche.
 Lorsque   0. ( x  Me ), les observations sont étalées du côté droit. On
dit que la distribution est biaisée à droite.

Le coefficient quartile de dissymétrie ou coefficient de Yule (facilement visualisable sur les


boites a moustache):

Q3  Q1  2 Me
q
Q3  Q1
 Une distribution parfaitement symétrique correspond à q  0.
 Lorsque q  0. , les observations sont étalées du côté gauche. On dit que la
distribution est biaisée à gauche.
 Lorsque q  0. , les observations sont étalées du côté droit. On dit que la
distribution est biaisée à droite.

>apply(mtcnum,2,qqnorm)

Mis à part qsec, aucune variable ne semble gaussienne.

> cor(mtnum)

La plupart des variables sont fortement corrélées entre elles (le coefficient de corrélation est
proche de 1 en valeur absolue)
> mtcdisc=mtcars[,c(2,8,9,10,11)]
> table(mtcdisc[,1])
> apply(mtcdisc,2,table)

4. Generation d’échantillons (on suppose qu’on genere des echantillons de taille 100)

>rand=replicate(100,rnorm(100,3,1))
>m=apply(rand,2,mean)
>v=apply(rand,2,var)
m et v sont des estimateurs sans biais de 3 et 1 respectivement.
Pour n=100,1000, la distribution de m tend vers une gaussienne de moyenne 3 et de variances
1/n. On peut superposer à l’histogramme ou au noyau la courbe d’une densite gaussienne de
paramètres 3 et 1/sqrt(n) pour s’en convaincre pour 100, 500, 1000 réplications.

5.
>lancer=sample(c(« P », »F »),25,rep=T)

b- on construit une urne constituée de 8 boules rouges, 4 boules bleues, 3 boucles jaunes. On
tire sans remise 6 boules dans cette urne. On trace le diagramme en batons de la loi binomiale
B(10,0.25) avec des options graphiques. On trace la courbe de la densite de la loi N(0,1) entre
–3 et 3. On trace la courbe de la fonction de répartition de la loi N(10,2) entre 4 et 16.
c- On trace l’histogramme en fréquences relatives de la loi exp(0.1), on supperpose le graphe
de la densité de cette loi.

Vous aimerez peut-être aussi