Vous êtes sur la page 1sur 3

Université Mohammed V- Rabat

Faculté des Sciences Juridiques, Economiques et Sociales- Agdal


Matière : analyse de données
Master : FI & MSDG
Contrôle de rattrapage
Professeur : Karim DOUMI
Durée : 1H00
Exercice 1 (10 pts)

1. Expliquer brièvement les étapes d’un projet de l’analyse de données: Pour effectuer une ADD on a
d’abord besoin d’une problématique posée, ensuite on a besoin de répondre à 2 questions :
● Quels sont les caractères à observer ?
● Quelle est la population qu’on doit observer ? (L’échantillon)

On peut passer maintenant aux étapes de l’ADD :


1. Collecte des données, à travers soit le recensement ou le sondage.
Après préparation des données on passe à la seconde étape :
2. Analyse des données soit par :

● Une analyse multivariées : permet de savoir si il y a une variable à expliquer et une ou plusieurs variables
explicatives.
● La statistique descriptive : Ensemble des indicateurs qui permettent de décrire une masse d’information complexe.
On distingue entre trois types d’indicateurs :
● Centraux/Position : moyenne, mode, médiane.
● Dispersion/Variabilité : variance, écart-type.
● Asymétrie : moments, coefficients d’asymétrie.
● L’inférence statistique : Le but est de former des prévisions à partir d’un échantillon et d’étaler les résultats sur
toute la population de référence, on utilise deux méthodes :
● Estimation ponctuelle ou à travers intervalle de confiance.
● Test d’hypothèse : paramétré ou non paramétré.

Après interprétation des résultats :


3. Conclusion
4. Prise de décision

2. Expliquer le principe de la multi-colinéarité dans un modèle de régression linéaire multiple.

La multicolinéarité est rencontrée dans le cas d’un modèle qui contient des séries explicatives qui sont liées
entre elles. La multicolinéarité a plusieurs effets sur les résultats de la régression linéaire multiple, on peut
citer par exemple l’augmentation de la variance estimée de certains coefficients lorsque la colinéarité entre
les variables explicatives augmente.
Elle entraine le chevauchement de variation entre les variables. Il faut diminuer un maximum la dépendance
entre les var et la solution reste la factorisation des données.
Il est nécessaire de tester la colinéarité car la multicolinéarité entre variables explicatives biaisent les
estimations de R2 :

● Etudier la tolérance : % de la var expl non expliqué par les autres var expl. ( proche de 1 et supérieur à
0,7 )
● Étudier la VIF ( Variance Inflation Factor ) : degré d’augmentation de l’erreur lié à la multicolinéarité (
inférieur à 4 )

La colinéarité est limitée à deux variables, tandis que la multicolinéarité prend en compte plusieurs var.

3. SPSS génère 3 extensions, lesquels ? expliquer chaque extension.


SPSS génère 3 environnements principaux :

● La fenêtre de l’éditeur des données qui porte l’extension (.sav)


● L’éditeur de syntaxe portant l’extension (.sps)
● La fenêtre d’affichage portant l’extension (.spo)
4. Expliquer la différence entre les méthodes de RLM suivantes : entrée et pas à pas.

Entrée (introduire) : Toutes les variables évaluées sont entrées au même moment et un test F évalue l’ensemble du modèle.
Pas à pas : méthode hybride entre ascendante et descendante.

5. Dans une ANOVA à un seul facteur, on décompose la variabilité totale en deux termes de variance : la
variance inter et la variance intra. Laquelle des deux est attribuable à l'effet du facteur étudié ? justifiez
votre réponse.

Exercice 2 (10 pts)


Une entreprise de transport veut déterminer la relation entre l'âge d'un véhicule et le nombre de jours par année
qu'il passe en réparation. Pour cela, on se donne un échantillon de 6 véhicules dont on recueille, l’âge(x) et le
nombre de jours qu'il a passé en réparation dans une période donnée :
X 8 1 3 5 2 6

Y 9 16 4 0 10 1

1. Donnez l’interprétation, d’une manière générale, des tests de STUDENT et FISHER dans un modèle de
la régression linéaire.

Le diagramme des points illustre la relation entre l’âge d’un véhicule et le nombre de jours par année passés en réparation.
L’axe des X présente l’âge et l’axe des Y présente le nombre de jours par année en réparation . La dispersion des points
indique une corrélation faible.

On peut donc poser les 2 hypothèses :

H0 : L’âge d’un véhicule ne permet pas d’expliquer le nombre de jours par année passés en réparation.

H1 : L’âge d’un véhicule permet d’expliquer e nombre de jours par année passés en réparation.

D’après la dispersion des points on peut supposer que H0 est vraie.

2. Interpréter l'output (R, R2 et R2 ajusté)

Le R c’est le coefficient de corrélation qui permet de connaître le lien et la relation entre X et Y.

Dans ce cas, le R = 0,503 et démontre une faible corrélation, non significatif.

Le R2 quant à lui c’est le coefficient de détermination, qui présente le degré de linéarité entre 2 variables. Il permet de
savoir combien X influe sur Y.

Dans ce cas, R2 = 0,253. Le R2 ajusté vient corriger ce dernier et l’ajuster au nombre de variables indépendantes et à la taille
de l’échantillon. On peut ainsi dire que seulement 6,67% des variations du nombre de jours par année passés en réparation
sont expliquées par le modèle.

3. Donner et interpréter les résultats du tableau de l’ANOVA.

Le tableau ANOVA est utilisé pour évaluer la signification globale du modèle de régression. Il présente l’effet inter-groupes
et l’effet intra-groupes et le total des deux effets pour la somme des carrés et les degré de liberté.
La table ANOVA comprend plusieurs composantes :

La 1ère colonne des sommes des carrés indique pour la régression, la variation expliquée par le modèle et est calculée par la
sommation de l’écart de chaque moyenne de groupe par rapport à la moyenne totale au carré. Pour le résiduel, c’est la
variation non expliquée par le modèle et est calculée par la variance de chaque groupe multipliée par le nombre de sujets de
ce groupe.

Les degrés de liberté sont calculés comme suit :

. Ddl rég = I - 1 = 2 - 1 = 1

. Ddl résid = n - I = 6 - 2 = 4

. Total = n - 1 = 6 - 1 = 5

La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par les ddl associés.

La comparaison de leurs 2 valeurs permet de relever que : la régression est supérieure au résiduel, le test est donc significatif
selon cette donnée.

La statistique F est le rapport de la somme des carrés moyens rég et résid.

En comparant la signification associée ( 0.309) au seuil de signification ( 0.05), on peut savoir que la régression est non
significative.

Avec ces données statistiques, on peut pas rejeter H0 de l’égalité des variances. Elles sont donc semblables.

4. Donner et interpréter l’équation de la régression linéaire.

On peut poser une estimation de la valeur avec la droite de régression :


Yi = 11.531 - 1.167 Xi

5. Conclusion

À travers les données statistiques et la droite de régression, on peut conclure en disant que l’âge d’un véhicule
ne permet pas d’expliquer le nombre de jours par année passés en réparation. Il faudra alors chercher d’autres
variables explicatives plus significatives, refaire la collecte, l’analyse et l’interprétation des résultats puisque le
cycle est expirable.

Vous aimerez peut-être aussi