Académique Documents
Professionnel Documents
Culture Documents
1. Le tableau ANOVA est utilisé pour évaluer la signification globale du modèle de régression. Il présente l’effet
inter-groupes et l’effet intra-groupes et le total des deux effets pour la somme des carrés et les degré de liberté.
2. Le but de l’analyse inférentielles est de former des prévisions à partir d’un échantillon et d’étaler les résultats sur
toute la population de référence, on utilise deux méthodes : Estimation ponctuelle ou à travers intervalle de
confiance et le test d’hypothèse : paramétré ou non paramétré.
3. Pour effectuer une ADD on a d’abord besoin d’une problématique posée, ensuite on a besoin de répondre à 2
questions :
● Quels sont les caractères à observer ?
● Quelle est la population qu’on doit observer ? (L’échantillon)
● Une analyse multivariées : permet de savoir si il y a une variable à expliquer et une ou plusieurs variables
explicatives.
● La statistique descriptive : Ensemble des indicateurs qui permettent de décrire une masse d’information complexe.
On distingue entre trois types d’indicateurs :
● Centraux/Position : moyenne, mode, médiane.
● Dispersion/Variabilité : variance, écart-type.
● Asymétrie : moments, coefficients d’asymétrie.
● L’inférence statistique : Le but est de former des prévisions à partir d’un échantillon et d’étaler les résultats sur
toute la population de référence, on utilise deux méthodes :
● Estimation ponctuelle ou à travers intervalle de confiance.
● Test d’hypothèse : paramétré ou non paramétré.
● Etudier la tolérance : % de la var expl non expliqué par les autres var expl. ( proche de 1 et supérieur à
0,7 ) tolérance = 1 - R2
● Étudier la VIF ( Variance Inflation Factor ) : degré d’augmentation de l’erreur lié à la multicolinéarité (
inférieur à 4 ) VIF = 1 / Tolérance
La colinéarité est limitée à deux variables, tandis que la multicolinéarité prend en compte plusieurs var.
Exercice 2 :
Y : ventes semestrielles des produits
X1 : Prix ; X2 : Classement ; X3 : Promo ; X4 : PV
Analyse — régression linéaire — introduit la var dépendante et les var indépendantes
Statistiques — cocher qualité de l’ajustement, variation de R2, descriptives, tests de colinéarité, estimations,
intervalles de confiance, mesures de corrélations partielles — Poursuivre — Méthode — entrée (introduire)
ou ascendantes ( suivant ) ou descendante ( précédent ) — OK
1. Tableau statistiques descriptives :
Compare la moyenne et l’écart-type pour savoir le degré de dispersion et la stabilité; c’est positif quand
l’écart-type est léger par rapport à la moyenne.
- Moyenne ventes largement sup à l’écart-type donc les ventes sont régulières sur les 25 semestres.
- L’écart-type des prix est très faible, cela revient à dire que les prix sont stables sur les 25 semestres.
- Quand la variable est catégorielle ( qualitative ) comme ici le classement clientèle, on peut pas interpréter
sa moyenne et son écart-type.
- Bien que l’écart-type des pv et promo est inférieur à leur moyenne mais il reste important.
2. Tableau récapitulatif des modèles :
Le R c’est le coefficient de corrélation qui permet de connaître le lien et la relation entre lea variables X explicatives retenue
et la variable Y dépendante.
Dans ce cas, le R = 0,689 il est proche de 1 ce qui signifie qu’on a une corrélation positive forte et donc significative . La
relation entre la variables dépendantes ventes et la variable explicative pv est significative.
Le R2 quant à lui c’est le coefficient de détermination, qui présente le degré de linéarité entre 2 variables. Il permet de
savoir combien X influe sur Y. Dans ce cas il est égale à 0,475.
Le R2 ajustée vient le corriger et l’ajuster au nombre de variables indépendantes et à la taille de l’échantillon. Le R2 est
supérieur au R2 ajusté permettant de relever qu’il y a un effet de multicolinéarité et vient diminuer la marge d’erreur
existante.
Avec un R2 ajustée = 0,452, on peut dire que 42.5% des variations des ventes sont expliquées par le modèle.
3. Tableau ANOVA :
Le tableau ANOVA est utilisé pour évaluer la signification globale du modèle de régression. Il présente l’effet inter-groupes
et l’effet intra-groupes et le total des deux effets pour la somme des carrés et les degré de liberté.
La 1ère colonne des sommes des carrés indique pour la régression, la variation expliquée par le modèle et est calculée par la
sommation de l’écart de chaque moyenne de groupe par rapport à la moyenne totale au carré. Pour le résiduel, c’est la
variation non expliquée par le modèle et est calculée par la variance de chaque groupe multipliée par le nombre de sujets de
ce groupe.
. Ddl rég = I - 1 = 2 - 1 = 1
. Ddl résid = n - I = 25 - 2 = 23
. Total = n - 1 = 25 - 1 = 24
La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par les ddl associés.
La comparaison de leurs 2 valeurs permet de relever que : la régression est largement supérieure au résiduel, le test est donc
significatif selon cette donnée.
Avec ces données statistiques, on peut dire que les pv ont un effet significatif sur les ventes, il existe une forte dépendance
entre les 2 variables.
● H0 : Le nombre d’années de scolarité n’a aucun effet sur le nombre d’heures de travail par semaine.
● H1 : Le nombre d’années de scolarité a un effet sur le nombre d’heures de travail par semaine.
● Selon le diagramme on peut supposer que H1 et vraie et rejeter H0.
2.
La première colonne donne la statistique proprement dite.
Ensuite, cette statistique est examinée à la lumière de deux degrés de liberté. Le premier est calculé à partir du nombre
de groupes moins 1 (5 - 1 = 4). Le deuxième est calculé à partir du nombre de sujets moins le nombre de groupes (904 -
5 = 899).
La dernière colonne indique si le test est significatif ou non. Le seuil de signification est toujours fixé à p < 0,05.
Dans l'exemple, comme le test n’est pas significatif (p > 0,05), on ne peut pas rejeter l’hypothèse nulle de l’égalité des
variances. Elles sont donc considérées semblables, ce qui nous convient parfaitement et nous permet de passer à
l'interprétation de l'ANOVA.
3.
Le tableau présente l'effet inter-groupes (effet dû à la variable catégorielle) et l'effet intra-groupes (effet de la variation
dans chacun des groupes). Il présente également le total des deux effets pour la somme des carrés et les degrés de liberté.
La colonne de la somme des carrés indique pour la variabilité inter-groupes, la sommation de l'écart de chaque moyenne
de groupe par rapport à la moyenne totale au carré.
Pour la variabilité intra-groupes, la variance (écart-type au carré) de chaque groupe multipliée par le nombre de sujets de
ce groupe,
Les degrés de libertés sont les mêmes que pour le test d'homogénéité des variances.
La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par le degré de liberté associé.
inter-groupes : 5 567,843 / 4 = 1 391,961
intra-groupes : 165 264,14 / 899 = 183,831
En comparant la moyenne des carrés inter et intra groupe on peut voir que inter grp et supérieur à l’intra groupe, ce qui
donne lui à un test significatif.
La statistique F est le rapport de la somme des carrés moyens inter et intra-groupes (1 391,961 / 183,831 = 7,572)
En comparant la signification associée (0,000) au seuil de signification (0,05) on peut savoir que le test est très
significatif.
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et dire qu’il est peu probable que le
nombre d’heures moyen travaillées dans chaque groupe soit le même dans la population.
4. L'analyse de variance nous indique qu'il existe des différences entre les groupes, mais ne précise pas où sont situées
ces différences. Pour remédier à la situation, nous avons fait un test post-hoc avec le test de Tukey, car la signification
dans le test d’homogénéité des variance est supérieure à 0,05.
Les méthodes de comparaison multiples permettent de déterminer ou se situent en réalité les différences importantes.
Elle classe les moyennes en indiquent les différences significatives et celles qui ne le sont pas.
En comparant les significations des différents groupes, on peut relever que le groupe sans secondaire est le plus
significatif, il se distingue significativement par rapport à ceux avec secondaire et ceux avec un diplôme universitaire. La
plupart de ses significations sont supérieures à 0,05. D'autre part, nous observons une différence significative qui se situe
entre le groupe de répondants avec secondaire et ceux avec Maîtrise/Doctorat.
Conclusion :
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et dire qu’il est peu probable que le
nombre d’heures moyen travaillées dans chaque groupe soit le même dans la population.