Vous êtes sur la page 1sur 22

Le deuxième devoir du
module statistique

1994 1996 1998 1999

❑ Etude statistique du Lake d’Everglades

❑ Réalisé par :

-ASSAKRAR M’HAND -BENBAASID HICHAM


-ABAZINE ISMAIL

Master spécialisé sciences de l’environnement


en milieu urbain : EER
1) Lire les données

Environment>>>import datset>>>Form Text (base)

Sélectionné la fiche mesureTP dans le dossier >>>faire «yes au Heading»


pour séparé la première ligne.
Puis On click sur import>>> :

➢ sur Environment On trouve notre fiche (mesurTP.en.µg).

➢ Voici notre fiche « mesurTP ».


2) les concentrations en µg/L.

Méthode: 1
Sur Rstudio on fait «attache(mesureTP)» et «names(mesureTP)» pour
conserve le nom de chaque colonne de la fiche mesureTP.

On utilisent la fonction Data.fram pour créée une fiche (Data) contient les
concentrations en µg/L.
Insérer tous les colonnes
mesureTP.en.µg=data.frame(SID,SITE,Type,SDATE,Date,Year,RESULT=RESULT*1000,UNIT= " µg/L ",MDL,PQL)

❑ RESULT=RESULT*1000: pour faire la multiplier les concentrations par


1000 (en µg/L).
❑ UNIT= " µg/L " : pour remplacer l’unité mg/L par µg/L.

➢ sur Environment On trouve notre nouvelle fiche Data (mesurTP.en.µg).

➢ Voici notre nouvelle fiche « mesurTP.en.µg ».


Méthode: 2

On a UNIT=mg/L donc UNIT=1000µg/L parce que 1mg/L=1000µg/L

Sur Rstudio on déclare : A=RESULT*1000 pour que l’unité va en µg/L

Dans le tableau msureTP la première valeur égale 0.004mg/L. dans le tableau


A la première valeur égale 4µg/L. c’est vrai parce que 0.004mg/L=4µg/L.
C’est la mème chose pour la deuxième valeur, troisième, quatrième…….
3) Le gardage des échantillons des sites de référence.
Méthode: 1
Utilisation de la fonction subset (sous-population) pour garder les
échantillons des sites de référence (création une autre fiche data contient
seulement les résultats des sites de référence).
échantillons=(subset(mesureTP.en.µg,Type=="R"))

❑ Échantillons: nom de nouveau fiche Data.


❑ mesureTP.en.µg,Type=="R " : pour sélectionné seulement les résultats de
type R (référence) dans la fich Data « mesureTP.en.µg ».

➢ sur Environment On trouve notre nouvelle fiche Data (échantillons).

436 résultats des site de type R

➢ Voici notre nouvelle fiche Data « échantillons ».


Méthode: 2

On déclare un variable B=(SITE[Type==R]) pour voir le nombre des résultats


aux différentes sites de type R (référence), puis on applique la fonction
summary sur le variable B on trouve: 84 résultats dans la site E5, 86 dans la
site F5, 88 dans la site U1, 92 dans la site U2, 86 résultats dans la site U3 et
les autres sites ont pas des résultats. On fait la somme on trouve 436
résultats dans les sites de référence c-à-d 436 mesures de concentration
dans les sites de référence.

Pour garder les échantillon des sites de référence on déclarent un variable


C=(A[Type==R]) avec:
A est un variable des concentrations en µg/L (question 2).
❑ [Type==R] pour sélectionné juste les résultats des sites de type R (sites
de référence).
➢ Donc C : est l’ensemble des résultats des sites de référence en µg/L.
✓ La fonction Summary(C) donne un peu d’information sur les résultats de
référence (C), valeur max, valeur min, médiane et la moyenne.
✓ On fait (C entrer) pour afficher toutes les valeurs de variable C.

Les valeurs de variable C (436 valeur)


4) la condition de normalité.

Premièrement on calcule log pour toutes les concentrations des sites de type R.
❑ On crée une autre fiche data de nome «log.échantillons»:
log.échantillons=data.frame(SID,SITE,Type,SDATE,Date,Year, RESULT=log(RESULT*1000),UNIT= "sans",MDL,PQL)

❖RESULT=log(RESULT*1000): calculer log des résultats.


❖UNIT= "sans" : parce que log des résultats est sans unité.

➢ sur Environment On trouve notre nouvelle fiche Data (log.échantillons).

➢ Voici notre nouvelle fiche Data « log.échantillons ».


Méthode: 1

❑ Normalité des log-concentrations de l’année 1994


Sur Rstudio on fait «attache(log.échantillons)» et «names(log.échantillons)»
pour conserver le nom de chaque colonne de la fiche « log.échantillons ».

Pour sélectionner seulement les échantillons de l’année 1994 on déclare un


variable echan94=(log.échantillons[Year==1994]) avec:
❖ [Year==1994]: condition pour prendre seulement les résultats de l’année
1994.

Toutes les valeur echan94

➢ sur Environment On trouve notre variable (echan94).

Puis on fait : Normal QQ-plot


qqnorm(echan96);qqline(echan96)
Histogramme hist(echan96, breaks = 11)
Nombre de bar
On trouvent:

Les point sur la courbe Normal Q-Q Plot sont toutes proche au ligne droite donc on
peut dire que les concentrations de l’année 1994 satisfaisant la condition de
normalité et c’est ca ce qui confirme la forme de l’histogramme.

❑ Normalité des log-concentrations des années 1998 et 1999.

On suive la même méthode de l’année 1994:

❖ On trouve sur Environment:


❖ Pour l’année 1998

les concentrations de l’année 1998 ne satisfaisant pas la condition de normalité


puisque il y a des point sont plus lion à la lige de courbe Q-Q Plot, c’est ca ce qui
confirme la forme de l’histogramme.

❖ Pour l’année 1999

les concentrations de l’année 1999 ne satisfaisant pas la condition de normalité


puisque il y a certain valeurs plus grands à la moyenne elles ont des fréquences
important c’est ca ce qui confirme la forme de l’histogramme et la courbe Normal Q-
Q Plot .
Méthode 2
La méthode la plus simple c’est de faire une test (shapiro.test) sur les log-
concentrations de chaque années.
❑ Si on trouve p-value>0.5 donc log-concetrations satisfaisant la normalité.
❑ Si on trouve p-value<0.5 donc log-concetrations ne satisfaisant pas la
normalité.

❖ Pour l’année 1994

❑ p-value = 0.5611 > 0.05 donc log-concetrations de l’année 1994 satisfaisant


la loi normal.

❖ Pour l’année 1998

❑ p-value = 1.448*10^-11 << 0.05 donc log-concetrations de l’année 1998 ne


satisfaisant pas la loi normal.

❖ Pour l’année 1999

❑ p-value = 0.0344 < 0.05 donc log-concetrations de l’année 199 ne


satisfaisant pas la loi normal.

➢ Pour les années 1995, 1996 et 1997 les données des concentrations ne
sont pas aléatoires indépendants donc ne satisfaisant pas la loi normal.
6) les échantillons de quelle année valable pour
l’estimation.

❑ les échantillons de année 1994 seulement qui vérifiant la loi normal


aussi parce que contient 49 échantillons (supérieur à 30).
➢ donc on peut travailler sur les échantillons de année 1994 pour
estimer les paramètres du model de référence.

7) Estimer les paramètres du model.


On fait cette commende:

Avec:
❖ Mean(echan94): est la moyenne des log-concentrations des sites de type R
de l’année 1994 (question 4) qu’est égale à 2.12038.
❖ sd (echan94) est l’écart-type des échantillons (echan94) égale à 0.3563762.
❖ t.test(echan94)$conf.int: test d’estimation par intervalle de confiance en
pourcentage 95% qui donne cette intervalle (2.018017--2.222744) de
confiance de notre résultats de (echan94).
❖ $conf.int: pour donné seulement l’intervalle de confiance par rapport au
moyenne.

La fonction abline nous


permettent de tracer
Sur qqnorm(echan94)
la droit de pente
«sd=log-écart-type » et
de valeur à l’origine
« mean=log-moyenne »
8) Estimation de troisième quartile de la distribution.

Estimation ponctuelle

On fait cette commende:

➢ Donc la valeur de la troisième quartile égale à 2.302585

Estimation l’intervalle de confiance

La méthode bootstrapping
La motivation du bootstrap est d’approcher par simulation la distribution d’un
estimateur lorsque l’on ne connaît pas la loi de l’échantillon ou, plus souvent
lorsque l’on ne peut pas supposer qu’elle est gaussienne. L’objectif est de
remplacer des hypothèses probabilistes pas toujours vérifiées ou même
invérifiables par des simulations et donc beaucoup de calcul.

Le principe fondamental de cette technique de rééchantillonnage est de


substituer à la distribution de probabilité inconnue F, dont est issu l’échantillon
d’apprentissage, la distribution empirique Fb qui donne un poids 1=n à chaque
réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap
selon la distribution empirique Fb par n tirages aléatoires avec remise parmi les n
observations initiales.

❑ En notre application Il est possible de définir des intervalles de confiance


bootstrap en considérant la distribution et les quantiles de µ.

Premièrement pour applique cette méthode sur Rstudio il est nécessaire


d’installer les packages Mosaic et ggplot2, pour l’installer directement on fait
library(mosais) et library(ggplot2).
Puis on crée une data fiche qu’on appelle data.echan94 contient seulement log-
concentrations des sites de type R de l’années 1994, on utilise la même fonction
subset (questions avant). puis on ajoutent la fonction attache et names pour
conserver le nom de chaque colonne pour les utilisent après.

➢ sur Environment On trouve notre nouvelle fiche Data (data.echan94).

49 valeur

On travaille sur notre fiche data.echan94 et on fait cette commande>>>>

❑ echan94boot=do(1000)*mean(~RESULT, data=resample(data.echan94)): une


autre data fiche du nom “echan94boot” dans la quelle on appliquent la
méthode boodstrapping par utilisation de fonction do que basé sur le
rééchantillonnage plusieurs fois de la moyenne.

❑ (1000)*mean((~RESULT,data=resample(data.echan94)): pour rééchantillonner


1000 fois.
❑ SE=sd(~mean,data=echan94boot): nouveau écart-type après le
rééchantillonnage, égale à 0.04805913.
Puis on déclare :
✓ intr.max=TP.75Q+2*SE
✓ intr.min=TP.75Q-2*SE
❖ Avec [intr.min- intr.max] est notre intervalle de confiance pour le troisième
quartile de la distribution.

Donc notre intervalle de confiance pour le troisième quartile de la distribution


est : [2.206467-2.398703].

9) les tests d’hypothèses.

Les Tests d’hypothèses sont utilisé pour comparé deux valeur (généralement les
moyennes) avec une fixation des erreurs (α=constant). On a deux hypothèses:
l’hypothèse nulle H0 si les deux moyennes sont en conformité et l’hypothèse
alternative H1 si les deux moyennes ne sont pas en conformité.
❑ On compare le p-value avec α:
➢ Si p-value> α donc on prend l’hypothèse H0 et on rejet l’hypothèse H1 .
➢ Si p-value< α donc on prend l’hypothèse H1 et on rejet l’hypothèse H0.
✓ Sur Rstudio le test le plus connait est: [t.test(moyenne1, mu=moyenne2)]

10) La nature des concentrations des sites impactés .

D’abord on crée une fiche du nom (echant.type.I) qui contient seulement les
concentrations des sites de type I (impacté) en µg/L. On suive la même
méthode des questions précédents .

Conservé les noms des collons


Sur Environment on trouve notre fiche data (echant.type.I)

680 concentrations

Puis on calcule log des concentrations des sites de type I (mieux de faire autre
fiche data du nom «log.echant.type.I»).

Sur Environment on trouve notre fiche data (log.echant.type.I)


En fine on déclarent notre variable «echant.type.I.1994» qui contient
seulement log-concentrations de l’année 1994 des sites de type I, puisque on
travaillent sur l’année 1994.
❑ RESULT et Year de data fiche «log.echant.type.I», c’est pour cela on fait
toujours fonction attach (Y) et nams(Y) pour prend les noms des colonnes
de cette fiche Data Y.

Sur Environment on trouve notre variable (echant.type.I.1994)

On fait cette commande:

Exp: fonction exponentielle, l’ inverse de log.

❑ Mean(echan94): la moyenne des log-concentrations des échantillons des


sites de type R (référence).
❑ Mean(echant.type.I.1994): la moyenne des log-concentrations des
échantillons des sites de type I (impacté).
❑ Exp(Mean(echan94)): la moyenne des concentrations des échantillons des
sites de type R (référence) en µg/L égale 8.334307 µg/L.
❑ Exp(Mean(echant.type.I.1994)): la moyenne des concentrations des
échantillons des sites de type I (impacté) en µg/Légale à 46.09824µg/L.

➢ Donc le phosphore totale (TP) des sites impacté est très élevé, il est cinq
fois plus grand que de les sites ne sont pas impacté.
11) comparaison de deux moyennes par utilisation un
test d’hypothèse.

On a : α=0.05
donc: intervalle de confiance en pourcentage = 1 - 0.05 = 0.95 = 95%

On fait t.test

t.test(echa.type.I.1994, mu=mean(echan94), conf.level=0.95)


❖ Avec:
❑ (echa.type.I.1994): log-concentrations des échantillons des sites impacté.
❑ mu=mean(echan94): pour comparer avec la moyenne log-concentrations
des échantillons des sites de référence.
❑ Conf.level=0.95: intervalle de confiance en pourcentage.

On trouve :

Moyenne de «echant.type.I.1994»

On a: p-value = 2.2*10^-16 << 0.05


➢ Donc on rejet l’hypothèse nulle H0 et on prend l’hypothèse alternative H1
❖ H1 : la moyenne de la concentration du TP n’est pas en conformité avec la
moyenne de référence.

12) Tracer les box-plotes.

❑ Premièrement on fait une variable «log.mesureTP.en.µg» : log des


concentration qui sont en µg/L.
❑ puis on applique la fonction boxplot: boxplot (log.mesureTP.en.µg ~Year)
pour Tracer les box-plotes des concentrations en fonction des années.
On trouve :

Box-plots des concentrations!!!

RESULT et Year de fiche data mesureTP.en.µg


13) la méthode d’ANOVA pour les année 1994, 1997 et 1998 et 1999
ANOVA est une méthode permet de comparer entre plusieurs moyennes
contre t.test qui permet de comparer seulement entre deux moyennes.

D’abord on fait une commande pour créer une fiche data de ANOVA pour les
échantillons des quatre années 1994, 1997 et 1998 et 1999 (x1, x2, x3 et x4)
dans notre fiche fondamentale mesureTP (UNIT = mg/L).

Puis on crée une autre fiche data (anova.data.94.97.98.99) :

En fine pour prendre l’information on applique la fonction summary sur la


fiche data «anova.data.94.97.98.99» on trouvent:

p-value < 2*10^-16<<<0.05

On a p-value < 2*10^-16<<<0.05 donc il y a une différence entre au moins deux


moyennes de la concentration TP des années des 1994, 1997 et 1998 et 1999.
13) la méthode d’ANOVA pour toutes les année 1994-1999

❑ D’abord on fait une commande pour créer une fiche data de nom
« data.tous » et de deux collons (RESULT et Year) pour les échantillons de
toutes les années.
❑ Anova .data: une fiche data dans la quelle on applique une fonction aov de
la méthode ANOVA.
❑ Summary(anova.data): pour prendre l’information.

p-value =0.87>0.05

----------------------------------------------------
Et en fine merci cher professeur pour tous ce que vous fait
pour nous.
Malheureusement ce travail a besoin de temps pour être
affiné.
Un bon travail en a beaucoup profité et nous avons appliqué
sur le logiciel Rstudio ce que nous avons étudié dans la leçon
avec vous et avons beaucoup appris de lui. Merci pour ce
merveilleux travail que nous avons bien pu étudier.
-----------------------------

Vous aimerez peut-être aussi