Vous êtes sur la page 1sur 5

Exercice 1 :

1. Le tableau ANOVA est utilisé pour évaluer la signification globale du modèle de régression. Il présente l’effet
inter-groupes et l’effet intra-groupes et le total des deux effets pour la somme des carrés et les degré de liberté.
2. Le but de l’analyse inférentielles est de former des prévisions à partir d’un échantillon et d’étaler les résultats sur
toute la population de référence, on utilise deux méthodes : Estimation ponctuelle ou à travers intervalle de
confiance et le test d’hypothèse : paramétré ou non paramétré.
3. Pour effectuer une ADD on a d’abord besoin d’une problématique posée, ensuite on a besoin de répondre à 2
questions :
● Quels sont les caractères à observer ?
● Quelle est la population qu’on doit observer ? (L’échantillon)

On peut passer maintenant aux étapes de l’ADD :


1. Collecte des données, à travers soit le recensement ou le sondage.
Après préparation des données on passe à la seconde étape :
2. Analyse des données soit par :

● Une analyse multivariées : permet de savoir si il y a une variable à expliquer et une ou plusieurs variables
explicatives.
● La statistique descriptive : Ensemble des indicateurs qui permettent de décrire une masse d’information complexe.
On distingue entre trois types d’indicateurs :
● Centraux/Position : moyenne, mode, médiane.
● Dispersion/Variabilité : variance, écart-type.
● Asymétrie : moments, coefficients d’asymétrie.
● L’inférence statistique : Le but est de former des prévisions à partir d’un échantillon et d’étaler les résultats sur
toute la population de référence, on utilise deux méthodes :
● Estimation ponctuelle ou à travers intervalle de confiance.
● Test d’hypothèse : paramétré ou non paramétré.

Après interprétation des résultats :


3. Conclusion
4. Prise de décision
4. La multicolinéarité est rencontrée dans le cas d’un modèle qui contient des séries explicatives qui sont liées
entre elles. La multicolinéarité a plusieurs effets sur les résultats de la régression linéaire multiple, on peut
citer par exemple l’augmentation de la variance estimée de certains coefficients lorsque la colinéarité entre
les variables explicatives augmente.
Elle entraine le chevauchement de variation entre les variables. Il faut diminuer un maximum la dépendance
entre les var et la solution reste la factorisation des données.
Il est nécessaire de tester la colinéarité car la multicolinéarité entre variables explicatives biaisent les
estimations de R2 :

● Etudier la tolérance : % de la var expl non expliqué par les autres var expl. ( proche de 1 et supérieur à
0,7 ) tolérance = 1 - R2
● Étudier la VIF ( Variance Inflation Factor ) : degré d’augmentation de l’erreur lié à la multicolinéarité (
inférieur à 4 ) VIF = 1 / Tolérance

La colinéarité est limitée à deux variables, tandis que la multicolinéarité prend en compte plusieurs var.
Exercice 2 :
Y : ventes semestrielles des produits
X1 : Prix ; X2 : Classement ; X3 : Promo ; X4 : PV
Analyse — régression linéaire — introduit la var dépendante et les var indépendantes
Statistiques — cocher qualité de l’ajustement, variation de R2, descriptives, tests de colinéarité, estimations,
intervalles de confiance, mesures de corrélations partielles — Poursuivre — Méthode — entrée (introduire)
ou ascendantes ( suivant ) ou descendante ( précédent ) — OK
1. Tableau statistiques descriptives :
Compare la moyenne et l’écart-type pour savoir le degré de dispersion et la stabilité; c’est positif quand
l’écart-type est léger par rapport à la moyenne.
- Moyenne ventes largement sup à l’écart-type donc les ventes sont régulières sur les 25 semestres.
- L’écart-type des prix est très faible, cela revient à dire que les prix sont stables sur les 25 semestres.
- Quand la variable est catégorielle ( qualitative ) comme ici le classement clientèle, on peut pas interpréter
sa moyenne et son écart-type.
- Bien que l’écart-type des pv et promo est inférieur à leur moyenne mais il reste important.
2. Tableau récapitulatif des modèles :
Le R c’est le coefficient de corrélation qui permet de connaître le lien et la relation entre lea variables X explicatives retenue
et la variable Y dépendante.

Dans ce cas, le R = 0,689 il est proche de 1 ce qui signifie qu’on a une corrélation positive forte et donc significative . La
relation entre la variables dépendantes ventes et la variable explicative pv est significative.

Le R2 quant à lui c’est le coefficient de détermination, qui présente le degré de linéarité entre 2 variables. Il permet de
savoir combien X influe sur Y. Dans ce cas il est égale à 0,475.

Le R2 ajustée vient le corriger et l’ajuster au nombre de variables indépendantes et à la taille de l’échantillon. Le R2 est
supérieur au R2 ajusté permettant de relever qu’il y a un effet de multicolinéarité et vient diminuer la marge d’erreur
existante.

Avec un R2 ajustée = 0,452, on peut dire que 42.5% des variations des ventes sont expliquées par le modèle.

3. Tableau ANOVA :
Le tableau ANOVA est utilisé pour évaluer la signification globale du modèle de régression. Il présente l’effet inter-groupes
et l’effet intra-groupes et le total des deux effets pour la somme des carrés et les degré de liberté.

La table ANOVA comprend plusieurs composantes :

La 1ère colonne des sommes des carrés indique pour la régression, la variation expliquée par le modèle et est calculée par la
sommation de l’écart de chaque moyenne de groupe par rapport à la moyenne totale au carré. Pour le résiduel, c’est la
variation non expliquée par le modèle et est calculée par la variance de chaque groupe multipliée par le nombre de sujets de
ce groupe.

Les degrés de liberté sont calculés comme suit :

. Ddl rég = I - 1 = 2 - 1 = 1

. Ddl résid = n - I = 25 - 2 = 23

. Total = n - 1 = 25 - 1 = 24

La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par les ddl associés.

La comparaison de leurs 2 valeurs permet de relever que : la régression est largement supérieure au résiduel, le test est donc
significatif selon cette donnée.

La statistique F est le rapport de la somme des carrés moyens rég et résid.


En comparant la signification associée ( 0.001) au seuil de signification ( 0.05), on peut savoir que la régression est très
significative.

Avec ces données statistiques, on peut dire que les pv ont un effet significatif sur les ventes, il existe une forte dépendance
entre les 2 variables.

4. Tableau des coefficients :


La relation entre la tolérance et VIF c’est l’inverse, c’est à dire que tolérance = 1/ VIF et VIF = 1/ tolérance.
Puisque le modèle est devenu un modèle de régression simple, on a retenu que une seule variable explicative, à savoir les
pv. Donc la tolérance et le VIF du modèle sont égales à 0.
( Les coefficients standardisés donnent le poids de la var explicative. Quand on varie Y d’une seule unité, X rapporte
0,689. )
5. Droite de régression linéaire estimée :
Puisque la variable Y : ventes peut être expliquée par une seule variable X : pv, on peut poser une estimation de la valeur
avec la droite de régression : Yi = 3508.891 + 6.972 Xi
Représenter le graphe :
Graphiques — dispersion simple — axe Y var dépendante — axe X var explicatives retenues — Etiqueter les
observations var qualitative — option — cocher afficher le graphique — poursuivre— OK
Double clic — ajouter une ligne de référence — écrire l’équation personnalisée — appliquer
6. Conclusion :
Le modèle retient que une seule variable explicative, à savoir les pv pour expliquer les ventes. Cette dernière est la plus
significative du modèle. Les autres variables explicatives : prix, classement clientèle et promo, ont été éliminées parce
qu’elles ne sont pas significatives et ne permettent pas d’expliquer la variable dépendantes ventes. On passe donc d’un
modèle de régression multiple à un modèle simple.
Cependant le R2 du modèle est faible, ce qui veut dire qu’il faut chercher d’autres variables explicatives qui peuvent
mieux expliquer les ventes, autres que le prix, le classement clientèle, et la promo. Ces dernières sont rejetées , le cycle
est expirable, il faudra donc refaire la collecte, l’analyse et l’interprétation des résultats.
Tableau de corrélation :
On voit en colonne la variable Y est corrélée avec quelles autres variables ? Les valeurs les plus proches à 1 ou -1. Et on
vérifie la signification inf à 0,05.
Dans ce cas on peut déduire que la variable ventes peut être expliquée par les 2 variables : pv et promo, elles sont en
forte corrélation positive et leurs significations sont supérieures à 0,05.
Vérifie la corrélation entre les deux variables qui expliquent le mieux Y. Ici on vérifie la corrélation entre le pv et promo
= 0,804 très proches de 1 donc on a un problème de colinéarité.
D’après le tableau de corrélation on peut dire qu’on a des variables qui peuvent expliquer Y, à savoir le pv et promo. Et
entre ces variables explicatives on retrouve de la dépendance ce qui va générer par la suite un problème de colinéarité si
jamais on a un modèle multiple.
Le tableau variables introduites / éliminées :
On retient 1 seul modèle qui est significatif, toutes les autres variables ne sont pas significatives et donc sont éliminées.
Le pv est la variable la mieux corrélées avec Y et donc la plus significative.
On passe ainsi d’un modèle multiple à un modèle simple par la méthode ascendante.
Le tableau des variables exclues :
Les 3 variables : prix, classement clientèle et promo sont exclues parce qu’elles dépassent le seuil de signification qui est
de 0,05.
La tolérance (par rapport au modèle) baisse plus il ya de corrélation (entre 2 variables), et inversement.
Les variables sont exclues quand il n’y a pas de signification ou il y a des variables mieux corrélées.
Exercice 3 :
1.
Plusieurs de ces intervalles se chevauchent. Concrètement, ceci veut dire que la plupart des groupes possèdent des
valeurs de moyennes possibles compatibles.
L’exception est l’intervalle sans secondaire et celui de Maitrise/Doctorat : ces deux intervalles ne se chevauchent pas.
Donc leurs valeurs possibles dans l’intervalle de confiance ne sont pas partagées.
On en revient à poser deux hypothèses :

● H0 : Le nombre d’années de scolarité n’a aucun effet sur le nombre d’heures de travail par semaine.
● H1 : Le nombre d’années de scolarité a un effet sur le nombre d’heures de travail par semaine.
● Selon le diagramme on peut supposer que H1 et vraie et rejeter H0.

2.
La première colonne donne la statistique proprement dite.
Ensuite, cette statistique est examinée à la lumière de deux degrés de liberté. Le premier est calculé à partir du nombre
de groupes moins 1 (5 - 1 = 4). Le deuxième est calculé à partir du nombre de sujets moins le nombre de groupes (904 -
5 = 899).
La dernière colonne indique si le test est significatif ou non. Le seuil de signification est toujours fixé à p < 0,05.
Dans l'exemple, comme le test n’est pas significatif (p > 0,05), on ne peut pas rejeter l’hypothèse nulle de l’égalité des
variances. Elles sont donc considérées semblables, ce qui nous convient parfaitement et nous permet de passer à
l'interprétation de l'ANOVA.
3.
Le tableau présente l'effet inter-groupes (effet dû à la variable catégorielle) et l'effet intra-groupes (effet de la variation
dans chacun des groupes). Il présente également le total des deux effets pour la somme des carrés et les degrés de liberté.
La colonne de la somme des carrés indique pour la variabilité inter-groupes, la sommation de l'écart de chaque moyenne
de groupe par rapport à la moyenne totale au carré.
Pour la variabilité intra-groupes, la variance (écart-type au carré) de chaque groupe multipliée par le nombre de sujets de
ce groupe,
Les degrés de libertés sont les mêmes que pour le test d'homogénéité des variances.
La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par le degré de liberté associé.
inter-groupes : 5 567,843 / 4 = 1 391,961
intra-groupes : 165 264,14 / 899 = 183,831
En comparant la moyenne des carrés inter et intra groupe on peut voir que inter grp et supérieur à l’intra groupe, ce qui
donne lui à un test significatif.
La statistique F est le rapport de la somme des carrés moyens inter et intra-groupes (1 391,961 / 183,831 = 7,572)
En comparant la signification associée (0,000) au seuil de signification (0,05) on peut savoir que le test est très
significatif.
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et dire qu’il est peu probable que le
nombre d’heures moyen travaillées dans chaque groupe soit le même dans la population.
4. L'analyse de variance nous indique qu'il existe des différences entre les groupes, mais ne précise pas où sont situées
ces différences. Pour remédier à la situation, nous avons fait un test post-hoc avec le test de Tukey, car la signification
dans le test d’homogénéité des variance est supérieure à 0,05.
Les méthodes de comparaison multiples permettent de déterminer ou se situent en réalité les différences importantes.
Elle classe les moyennes en indiquent les différences significatives et celles qui ne le sont pas.
En comparant les significations des différents groupes, on peut relever que le groupe sans secondaire est le plus
significatif, il se distingue significativement par rapport à ceux avec secondaire et ceux avec un diplôme universitaire. La
plupart de ses significations sont supérieures à 0,05. D'autre part, nous observons une différence significative qui se situe
entre le groupe de répondants avec secondaire et ceux avec Maîtrise/Doctorat.
Conclusion :
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et dire qu’il est peu probable que le
nombre d’heures moyen travaillées dans chaque groupe soit le même dans la population.

Vous aimerez peut-être aussi