Académique Documents
Professionnel Documents
Culture Documents
TP Modélisation Statistique
Par :
AHBACH Hamza
Département : Génie Industriel
Option : Mangement Industriel
(MGI)
Encadré par
Pr. A. BENGHABRIT
Le code et le résultat :
D’après les résultats, on constate que la répartition de la population selon les facteurs est
comme suivant :
✓ Selon le sexe : 9 masculins et 9 féminins
.✓ Selon l’âge : 6 adultes, 6 âgés et 6 jeunes.
✓ Selon la situation financière : 6 élevée, 6 faible et 6 jeunene.
Etude statistique descriptive sur la variable dépendante :
La variable dépendante dans notre cas est NbrArt.
Les résultats obtenus montrent que la moyenne de nombre d’articles achetés est 21.39 avec une
dispersion de 11.71293.
Le min des articles achetés est 6 articles, le max est de 48 articles.
Boite à Moustache :
Résultats
Il semble que l’age ait un impact plus significatif sur le nombre d'articles (NbrArt) par rapport aux
jeunes et adultes
pour les femmes, la moyenne de la variable "NbrArt" est alignée avec la médiane, cela indique une
distribution relativement symétrique des données ce qui signifie qu’il existe une cohérence dans le
comportement d'achat en ligne. En revanche pour les hommes est la médiane est un peu éloignée de
la moyenne, cela suggère en effet une distribution légèrement asymétrique des données. Dans ce cas,
il peut y avoir une certaine variation dans le comportement d'achat chez les hommes. Cela pourrait
en effet suggérer que les hommes ont une influence légèrement plus significative sur le nombre
d'articles (NbrArt) par rapport aux femmes.
La différence entre la médiane et la moyenne pour les catégories "SitFinance élevée" et "SitFinance
faible" indique clairement que la situation financière élevée et faible ont un impact significatif sur le
nombre d'articles achetés.
3. Vérification de l’application de l’analyse de la variance :
❖ Test de normalité :
On utilise le test de shapiro.test :
• Pour les sous populations selon le sexe :
Résultats :
Les valeurs de p-value sont inférieurs à 5% : 0,3796 et 0,8069. Ce qui signifie qu’on accepte
l’hypothèse nul, c’est-à-dire l’hypothèse de normalité
• Pour les sous populations selon l’âge :
Résultats :
Les valeurs de p-value sont inférieurs à 5% : 0,6317 0,3251 0,3868. Ce qui signifie qu’on accepte
l’hypothèse nul, c’est-à-dire l’hypothèse de normalité.
Résultats :
Les valeurs de p-value sont inférieurs à 5% : 0,6317 0,3251 0,3868. Ce qui signifie qu’on accepte
l’hypothèse nul, c’est-à-dire l’hypothèse de normalité.
Conclusion 1 : La distribution de la population est normale pour tous les niveaux des facteurs
étudiés
❖ Test de Homogénéité :
Résultats :
Pour le test d’homogénéité de la variance, on trouve que les valeurs de p-value sont 0,6994 0,3271
0,1822, Les valeurs sont toutes inférieurs à 5%, donc on accepte l’hypothèse nul c’està-dire
l’hypothèse d’homogénéité des populations.
Résultats :
Les lignes ne sont pas parallèles, ce
qui suggère une interaction entre les
variables Sexe et Age. Il est observé
que lorsque l'âge est jeune, le sexe a
un impact sur le nombre d'articles
achetés. Par exemple, lorsque le sexe
est féminin, le nombre d'articles
achetés est inférieur à celui des
hommes. En revanche, lorsque l'âge
est adulte, la situation s'inverse, et les
femmes achètent davantage d'articles
que les hommes. En ce qui concerne
le niveau de maturité de la variable
Age, il n'a pas d'effet significatif sur le nombre d'articles, même en modifiant la variable Sexe.
5. Analyse de la variance :
Résultats :
Ici out the interpretations hv
hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhjhhhhhhhhh
hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh
Résultats :
TP Séries
Chronologiques
Méthodes d’extrapolation
1) Il s’agit d’une étude d’une série chronologique car on a des données qui évolue en fonction
du temps. On utilise la fonction class() pour vérifier si la série de données est de type "ts"
(série temporelle)
Résultat :
Résultat :
3) Le modèle additif peut représenter cette série
En observant le graphique de la série, on constate que les lignes reliant les sommets et les creux ne
sont pas parallèles, ce qui suggère un modèle multiplicatif. Cependant, il est possible de rendre le
modèle additif en appliquant le logarithme.
Nous allons appliquer la fonction decompose() à la série temporelle pour extraire les composantes du
modèle additif. Après cette décomposition, nous allons représenter chaque composante séparément
afin d'observer leurs caractéristiques distinctes
Résultat :
Méthodes explicatives
Résultat :
Étant donné que les corrélations sont élevées, des études portant sur la variable "PIB" peuvent
fournir des informations utiles pour comprendre les relations avec "IED" et "BDC".
4. Représentation PIB :
8e+10
pib_ts
4e+10
0e+00
0 10 20 30 40
Time
La série n’est pas stationnaire, elle n’évolue pas autour d’un équilibre.
5. Test de stationnarité :
6. Test de stationnarité :
Series pib_ts Series pib_ts
0.6
0.6
Partial ACF
Partial ACF
0.2
0.2
-0.2
-0.2
5 10 15 5 10 15
Lag Lag
L'ACF révèle une décroissance très graduelle des corrélations, indiquant ainsi que les observations
sont fortement liées à de nombreuses observations antérieures. Cette situation découle de la non-
stationnarité de la série.
❖ Pour corriger cette anomalie, nous utilisons la fonction de différenciation diff(), puis nous
procédons à nouveau au test de stationnarité et nous générons à nouveau les graphiques ACF
et PACF.
La p-value est considérablement inférieure à α=0.05, ce qui entraîne le rejet de l'hypothèse nulle,
confirmant ainsi que la série est stationnaire.
0.2
0.8
Partial ACF
0.0
0.4
ACF
-0.2
0.0
-0.4
-0.4
0 5 10 15 5 10 15
Lag Lag
Les pics diminuent rapidement dans les corrélogrammes en raison de la stationnarité de la série.
Dans l'ACF, on observe un pic significatif en dehors de l'intervalle de confiance, et dans le PACF,
deux pics significatifs sont visibles. Par conséquent, il est possible de modéliser la série à l'aide d'un
modèle ARMA(p=2, q=1), et étant donné qu'elle a subi une différenciation de 2 fois, un modèle
ARIMA(p=2, d=2, q=1) peut être utilisé.
Concernant les coefficients d'autorégression ar1 et ar2, les p-values sont supérieures à α=0.05, ce qui
indique que ces coefficients ne sont pas significatifs, et nous acceptons l'hypothèse qu'ils sont nuls.
En ce qui concerne le coefficient de la moyenne mobile ma1, une p-value nulle confirme que ce
coefficient est significatif.
Ensuite, il est nécessaire de vérifier la blancheur des résidus, c'est-à-dire s'ils sont indépendants et ne
présentent pas d'autocorrélation significative.
La p-value est considérablement supérieure à α=0.05, ce qui indique que les résidus ne présentent pas
d'autocorrélation significative
La p-value est supérieure à 𝛼 = 0.05 donc les résidus suivent une loi normale.
8. Auto ARIMA :