Rapport TP Modelisation Statistique - Hamza AHBACH

RAPPORT DU
TP Modélisation Statistique
Par :
AHBACH Hamza
Département : Génie Industriel
Option : Mangement Industriel
(MGI)
Encadré par
Pr. A. BENGHABRIT
Année universitaire : 2023 / 2024

TP ANOVA
L'analyse de variance (ANOVA) est une option de test d'hypothèse. Son principe
général est de vérifier l’existence des différences statistiquement significatives entre
les moyennes de plusieurs populations tout en comparant toutes les moyennes par le
biais d’un seul test. Elle est fondée sur la décomposition de la variabilité d'une
variable réponse en composantes associées aux différentes sources de variation.
L’ANOVA représente en ce sens une généralisation du test de Student de comparaison
de 2 moyennes (sous hypothèse de normalité). Ce TP consiste à comprendre le
comportement du consommateur sur internet, qui est un facteur clé impactant le
nombre de transactions (NbrArt) faites par chaque cyberacheteur. Pour ce faire, on
étudiera les facteurs qui peuvent impacter le nombre de transactions NbrArt, à savoir
le sexe (Sexe), l’âge (Aage) et la situation financière (SitFinance).
1. Chargement des données et affichage :
Pour commencer on charge le ficher des données « ComportementConsommateur.csv » en modifiant

le type de lecture en read.cvs2 :
Le code et le résultat :
2. Etude de la répartition des données par modalité pour chaque facteur :

Résultat :
Histogrammes :
D’après les résultats, on constate que la répartition de la population selon les facteurs est
comme suivant :
✓ Selon le sexe : 9 masculins et 9 féminins
.✓ Selon l’âge : 6 adultes, 6 âgés et 6 jeunes.
✓ Selon la situation financière : 6 élevée, 6 faible et 6 jeunene.
Etude statistique descriptive sur la variable dépendante :
La variable dépendante dans notre cas est NbrArt.
Les résultats obtenus montrent que la moyenne de nombre d’articles achetés est 21.39 avec une
dispersion de 11.71293.
Le min des articles achetés est 6 articles, le max est de 48 articles.
Boite à Moustache :
Résultats
Il semble que l’age ait un impact plus significatif sur le nombre d'articles (NbrArt) par rapport aux
jeunes et adultes
pour les femmes, la moyenne de la variable "NbrArt" est alignée avec la médiane, cela indique une
distribution relativement symétrique des données ce qui signifie qu’il existe une cohérence dans le
comportement d'achat en ligne. En revanche pour les hommes est la médiane est un peu éloignée de
la moyenne, cela suggère en effet une distribution légèrement asymétrique des données. Dans ce cas,
il peut y avoir une certaine variation dans le comportement d'achat chez les hommes. Cela pourrait
en effet suggérer que les hommes ont une influence légèrement plus significative sur le nombre
d'articles (NbrArt) par rapport aux femmes.
La différence entre la médiane et la moyenne pour les catégories "SitFinance élevée" et "SitFinance
faible" indique clairement que la situation financière élevée et faible ont un impact significatif sur le
nombre d'articles achetés.
3. Vérification de l’application de l’analyse de la variance :
❖ Test de normalité :
On utilise le test de shapiro.test :
• Pour les sous populations selon le sexe :
Résultats :
Les valeurs de p-value sont inférieurs à 5% : 0,3796 et 0,8069. Ce qui signifie qu’on accepte
l’hypothèse nul, c’est-à-dire l’hypothèse de normalité
• Pour les sous populations selon l’âge :
Résultats :
Les valeurs de p-value sont inférieurs à 5% : 0,6317 0,3251 0,3868. Ce qui signifie qu’on accepte
l’hypothèse nul, c’est-à-dire l’hypothèse de normalité.
• Pour les sous populations selon la situation financière :
Résultats :
Les valeurs de p-value sont inférieurs à 5% : 0,6317 0,3251 0,3868. Ce qui signifie qu’on accepte
l’hypothèse nul, c’est-à-dire l’hypothèse de normalité.
Conclusion 1 : La distribution de la population est normale pour tous les niveaux des facteurs
étudiés
❖ Test de Homogénéité :
Résultats :
Pour le test d’homogénéité de la variance, on trouve que les valeurs de p-value sont 0,6994 0,3271
0,1822, Les valeurs sont toutes inférieurs à 5%, donc on accepte l’hypothèse nul c’està-dire
l’hypothèse d’homogénéité des populations.
Conclusion 2 : D’après le test d'homoscédasticité, les populations ont la même variance.
Conclusion : Puisque les populations sont aléatoires et indépendantes et d’après les

conclusions 1 et 2, on peut donc effectuer une analyse de la variance (puisque les 3
conditions sont vérifiées).
4. Les graphes d’interactions :
Résultats :
Les lignes ne sont pas parallèles, ce
qui suggère une interaction entre les
variables Sexe et Age. Il est observé
que lorsque l'âge est jeune, le sexe a
un impact sur le nombre d'articles
achetés. Par exemple, lorsque le sexe
est féminin, le nombre d'articles
achetés est inférieur à celui des
hommes. En revanche, lorsque l'âge
est adulte, la situation s'inverse, et les
femmes achètent davantage d'articles
que les hommes. En ce qui concerne
le niveau de maturité de la variable
Age, il n'a pas d'effet significatif sur le nombre d'articles, même en modifiant la variable Sexe.
Les lignes obtenus dans ce cas sont

parallèles, donc il n’y a pas
d’interaction entre les variables Sexe
et SitFinance. En d’autres termes, le
nombre de transactions NbrArt évolue
indépendamment de la variable Sexe et
il n’est pas influencé par celle-ci.
On a des lignes non parallèles donc il y
a une interaction entre les variables Age
et SitFinance. On remarque que pour
les trois niveaux de Age, si la situation
financière SitFinance est élevée, le
NbrArt est grand et vice versa.
5. Analyse de la variance :
Résultats :
Ici out the interpretations hv
hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhjhhhhhhhhh
hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh
❖ Le test Post Hoc de comparaison de Tukey
Résultats :
TP Séries
Chronologiques
Méthodes d’extrapolation
1) Il s’agit d’une étude d’une série chronologique car on a des données qui évolue en fonction
du temps. On utilise la fonction class() pour vérifier si la série de données est de type "ts"
(série temporelle)
Résultat :
2) Le graphique de cette série chronologique :

En utilisant la fonction ts() , on obtient cette série chronologique
Résultat :
3) Le modèle additif peut représenter cette série
En observant le graphique de la série, on constate que les lignes reliant les sommets et les creux ne
sont pas parallèles, ce qui suggère un modèle multiplicatif. Cependant, il est possible de rendre le
modèle additif en appliquant le logarithme.
4) les différentes composantes de ce modèle :
Nous allons appliquer la fonction decompose() à la série temporelle pour extraire les composantes du
modèle additif. Après cette décomposition, nous allons représenter chaque composante séparément
afin d'observer leurs caractéristiques distinctes
Résultat :
Méthodes explicatives
1. Chargement du fichier de données
Résultat :
2. Les courbes des variables en fonction du temps (Année) :

Les graphiques indiquent clairement que les séries chronologiques en question ne sont pas
stationnaires, car elles présentent des transitions immédiates d'un niveau à un autre, sans changement
progressif. On peut observer des baisses et des pics, qui peuvent résulter de modifications soudaines
dans le contexte économique
3. La matrice de corrélation et les graphes :

La matrice de corrélation révèle des relations particulièrement significatives, en particulier
entre les variables "PIB", "IED" et "BDC".
- Pour la relation entre PIB et IED, on observe une corrélation positive très forte, atteignant
presque 1 (0,91).
- Entre PIB et BDC, la corrélation est également très forte, mais négative, se rapprochant de -
1 (-0,91).
- En ce qui concerne la relation entre IED et BDC, la corrélation est forte et négative, avec
une valeur de -0,88.
Étant donné que les corrélations sont élevées, des études portant sur la variable "PIB" peuvent
fournir des informations utiles pour comprendre les relations avec "IED" et "BDC".
4. Représentation PIB :
8e+10
pib_ts
4e+10
0e+00
0 10 20 30 40
Time
La série n’est pas stationnaire, elle n’évolue pas autour d’un équilibre.
5. Test de stationnarité :
H0 : La série présente une non-stationnarité.

H1 : La série est stationnaire.
Le p-value est supérieur à α=0,05, ce qui conduit à l'acceptation de l'hypothèse nulle, confirmant
ainsi que la série est non stationnaire.
6. Test de stationnarité :
Series pib_ts Series pib_ts
0.6
0.6
Partial ACF
Partial ACF
0.2
0.2
-0.2
-0.2
5 10 15 5 10 15
Lag Lag
L'ACF révèle une décroissance très graduelle des corrélations, indiquant ainsi que les observations
sont fortement liées à de nombreuses observations antérieures. Cette situation découle de la non-
stationnarité de la série.
❖ Pour corriger cette anomalie, nous utilisons la fonction de différenciation diff(), puis nous
procédons à nouveau au test de stationnarité et nous générons à nouveau les graphiques ACF
et PACF.
La p-value est considérablement inférieure à α=0.05, ce qui entraîne le rejet de l'hypothèse nulle,
confirmant ainsi que la série est stationnaire.
Series pib_diff Series pib_diff
0.2
0.8
Partial ACF
0.0
0.4
ACF
-0.2
0.0
-0.4
-0.4
0 5 10 15 5 10 15
Lag Lag
Les pics diminuent rapidement dans les corrélogrammes en raison de la stationnarité de la série.
Dans l'ACF, on observe un pic significatif en dehors de l'intervalle de confiance, et dans le PACF,
deux pics significatifs sont visibles. Par conséquent, il est possible de modéliser la série à l'aide d'un
modèle ARMA(p=2, q=1), et étant donné qu'elle a subi une différenciation de 2 fois, un modèle
ARIMA(p=2, d=2, q=1) peut être utilisé.
7. La Signification des paramètres :
Concernant les coefficients d'autorégression ar1 et ar2, les p-values sont supérieures à α=0.05, ce qui
indique que ces coefficients ne sont pas significatifs, et nous acceptons l'hypothèse qu'ils sont nuls.
En ce qui concerne le coefficient de la moyenne mobile ma1, une p-value nulle confirme que ce
coefficient est significatif.
Ensuite, il est nécessaire de vérifier la blancheur des résidus, c'est-à-dire s'ils sont indépendants et ne
présentent pas d'autocorrélation significative.
La p-value est considérablement supérieure à α=0.05, ce qui indique que les résidus ne présentent pas
d'autocorrélation significative
▪ Vérification de la normalité des résidus :
La p-value est supérieure à 𝛼 = 0.05 donc les résidus suivent une loi normale.
8. Auto ARIMA :

Rapport TP Modelisation Statistique - Hamza AHBACH

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport TP Modelisation Statistique - Hamza AHBACH

Transféré par

Droits d'auteur :

Formats disponibles

RAPPORT DU

Année universitaire : 2023 / 2024

Pour commencer on charge le ficher des données « ComportementConsommateur.csv » en modifiant

2. Etude de la répartition des données par modalité pour chaque facteur :

• Pour les sous populations selon la situation financière :

Conclusion 2 : D’après le test d'homoscédasticité, les populations ont la même variance.

Conclusion : Puisque les populations sont aléatoires et indépendantes et d’après les

4. Les graphes d’interactions :

Les lignes obtenus dans ce cas sont

❖ Le test Post Hoc de comparaison de Tukey

2) Le graphique de cette série chronologique :

4) les différentes composantes de ce modèle :

1. Chargement du fichier de données

2. Les courbes des variables en fonction du temps (Année) :

3. La matrice de corrélation et les graphes :

H0 : La série présente une non-stationnarité.

Series pib_diff Series pib_diff

7. La Signification des paramètres :

▪ Vérification de la normalité des résidus :

Vous aimerez peut-être aussi