Vous êtes sur la page 1sur 5

QUESTION DECOURSEN ANALYSEDESDONNEES: S5

ANALYSE DES DONNEES :


L'analyse des données est le processus qui consiste à examiner et à interpréter des données
afin d'élaborer des réponses à des questions. Les principalesétapes du processus d'analyse
consistent à cerner les sujets d'analyse, à déterminer la disponibilité de données
appropriées, à décider des méthodes qu'il y a lieu d'utiliser pour répondre aux questions
d'intérêt, à appliquer lesméthodes et à évaluer, résumer et communiquer lesrésultats.
LA REGRESSION LINEAIRE :
La régression est un des méthodes les plus connues et les plus appliquées en statistique
pour l’analyse de données quantitatives. Elle est utilisée pour établir une liaison entre une
variable quantitative et une ou plusieurs autres variables quantitatives, sous la forme d’un
modèle. Si on s’intéresse à la relation entre deux variables, on parlera de régression simple
en exprimant une variable en fonction de l’autre. Si la relation por te entre une variable et
plusieurs autres variables, on parlera de régression multiple. La mise en œuvre d’une
régression impose l’existence d’une relation de cause à effet entre les variables prises en
compte dans le modèle.
LA DEMARCHE D’UNE ANALYSE DE DONNEE :

 Mesurer le pouvoir explicatif global du modèle


 Evaluer l’influence des variables exogènes dans le modèle
 Sélectionner lesvariables lesplus déterminantes
 Evaluer la qualité du modèle lors de la prédiction
 Estimer lesparamètres tout en exploitant lesdonnées
LE NIVEAU DE SIGNIFICATION :
Ou seuil de risque (alpha) ; est un seuil qui détermine si le résultat d’une étude peut être
considéré comme statistiquement significatif après que les tests statistiques prévus ont été
réalisés. Le niveau de signification est le plus souvent défini sur 5 % (ou 0,05). Cependant, d’
autres niveaux peuvent être utilisés en fonction de l’étude. Celareprésente la probabilité de
rejeter l’hypothèse nulle lorsqu’elle est vraie.

L’INTERVALLE DE CONFIANCE :
La précision statistique d’un test s’exprime en calculant l’intervalle de confiance qui indique
la marge d’erreur lorsqu’on généralise une estimation obtenue sur un échantillon à l’
ensemble de la population représentée. La longueur de l’intervalle de confiance augmente
lorsque la taille de l’échantillon augmente.
QU’EST-CE QU’UN TEST STATISTIQUE ?
Un test statistique permet d’évaluer à quel point les données vont à l’encontre d’une
cer taine hypothèse, l’hypothèse nulle aussi appelée H0. Sous H0, les données sont
générées par le hasard. H0 est opposée à une hypothèse appelée hypothèse alternative,
notée H1 ou Ha. Souvent, l’hypothèse alternative est celle à laquelle l’utilisateur souhaite
aboutir. Chaque test adhère à trois étapes : 1- Formulation des hypothèses, 2-Régle de
décision, 3-Prise de décision.
Il existe 3 tests à établir par la personne qui exercel’analyse des données :

LE PREMIER EST NOMMETEST GLOBAL OU TEST DE FISHER : il ser t à tester à tel point le
modèle constitué, d’une variable endogène et de plusieurs variables exogènes, est
globalement significatif :

1- FORMULATIONDESHYPOTHESES:

H0 : si alpha i = 0 : le modèle est globalement non significatif


Ha : si alpha i ≠ 0 : le modèle est globalement significatif
2- REGLEDEDECISION :
Si Fcal > Flue : on accepte H1
Si Fcal < Flue : on accepte H0
3- PRISE DE DECISION :
On calcul Fcal à la base du tableau ANOVA puis on la compare au Flue (K, DDL)
LEDEUXIEMETESTEST NOMMETESTPARTICULIER OU TESTDESTUDENT : il sert à justifier
la significativité bilatérale de chaque variables exogènes une par une

1- FORMULATIONDESHYPOTHESES:

H0 : si alpha i = 0 : lesparamètres (les variablesexogènes) sont non significatives


Ha : si alpha i ≠ 0 : les paramètres(les variablesexogènes) sont significatives

2- REGLEDEDECISION :
Si Tcal > Tlue : on accepte H1
Si Tcal < Tlue : on accepte H0
3- PRISE DE DECISION :
On calcul Tcal à la base du tableau de COEFFICIENT puis on la compare au Tlue (seuil de
risque= ?)
LE TROISIEMETEST CONSISTE A TESTER LE PROBLEMEDE MULTI-COLINEARITEENTRELES
RESIDUS, NOMMEAUSSI PARLETESTDURBAN-WATSON (DW) :

La valeur de DW peut être détecté soit du tableau récapitulatif des modèles soit on la
trouve comme une simple donnée. Ce test se base aussi sur 3 étapes : formulation des
hypothèses, règle de décision et prise de décision.
1- FORMULATIONDESHYPOTHESES:

H0 : si P= 0 : Indépendance entre lesrésidus (pas de problèmes de multi-co)


Ha : si Pi ≠ 0 : interdépendance entre lesrésidus (problèmes de multi-co)

2- REGLEDEDECISION :

Entre 0 et DL : autocorrélation positive (on accepte H1)


Entre DLet DU : Doute
Entre DUet 4-DU : autocorrélation nulle (on accepte H0)
Entre 4-DU et 4-DL : Doute
Entre 4-DLet 4 : autocorrélation négative (on accepte H1)

3- PRISE DE DECISION :
La prise de décision dans ce cas consiste à retracer la règle de décision tout en remplaçant la
valeur min et max de DW à savoir DL et DU ainsi qu’aux valeurs de 4-DL et 4-DU. Puis on
chercher à repérer la valeur de DW entre ces différents intervalles pour rédiger notre
commentaire : soit doute, soit on accepte H1 soit on accepte H0.
LES INFORMATIONS QU’ON PEUT TIRER DES OUTPUTS DU LOGICIEL SPSS :
1) Tableau ANOVA :
L’analyse de la variance (ANOVA) a pour objectif d’étudier l’influence d’un ou plusieurs
facteurs sur une variable quantitative. Nous nous intéresserons ici au cas où les niveaux, ou
modalités, des facteurssont fixés par l’expérimentateur. On parle alorsde modèle fixe.

Il nous permet de tester la significativité global d’un modèle en calculant le Fcal = SCE/K /
SCR/DDL tout en la comparant au Flue (K, DDL). Dans notre cas : Fcal = 4.33/ 2 / 1621.28/41
en d’autres termes, Fcal = 2.167 /41.571.
Si Fcal > Flue : on dit que le modèle est globalement significatif (c’est-à-dire qu’il existe au
moins une variable significative).
Si Fcal < Flue : on dit que le modèle est globalement non significatif.
Le degré de liber té DDL : représente la qualité d’informations fournies par les données que
vous pouvez consommer pour estimer les valeursdes paramètres. Cette valeur et déterminé
par le nombre d’observation (n) et le nombre de variables exogènes du modèles(K).
DDL= n-K-1 lors de l’existence d’une constante Ao / soit DDL= n-K lors de l’inexistence d’une
constante dans notre modèle.

2) Tableau de COEFFICIENT :

Le tableau de coefficient ser t à calculer si la valeur du T de student est significativement


différente de 0 c’est-à-dire de savoir si les variables exogènes du modèle sont
significativement différentes de 0 ou non.

Pour faire, il faut calculer Tcal = la valeur absolue de B/ Erreur standar t, puis on la compare
à Tlue avec un seuil de risque déterminer.
Si Tcal > Tlue : on dit que les paramètres (variables exogènes) sont significativement
différentes de 0
Si Tcal < Tlue : on dit que les paramètres (variables exogènes) sont non significativement
différentes de 0.
Pour plus d’informations :
Les coefficients non standardisés : Ce sont les valeurs brutes des constantes, appelés les
« B ».
Par exemple, à par tir du tableau ci-dessus, on voit que ladroite de régression peut s’écrire :
Y= .824*X – 3.622
Où Yreprésente la variable dépendante DVPet X représente la variable indépendante F02J

Erreur standard : ser t à calculer la valeur de t en vue de tester si le coefficient (et donc la
prédiction) est significativement différent de 0.
3) Tableau récapitulatif des modèles :

Le tableau récapitulatif des modèles qui regroupe à la fois les valeurs de R, R deux et du R
deux et la valeur de DW :
R représente le coefficient de corrélation : Il s’agit de la corrélation que l’on peut constater
entre les données prédites par la droite calculée et les données réellement observées. Il
mesure l’intensité et le sens de variation entre deux variables. Le coefficient de corrélation
est comprisentre -1<R<1 :
 Plus le coefficient est proche de 1, plus la relation linéaire positive entre lesvariables
est for te.
 Plus le coefficient est proche de -1, plus la relation linéaire négative entre les
variablesest for te.
 Plus le coefficient est proche de 0, plus la relation linéaire entre les variables est
faible.

R² représente le coefficient de détermination : Le coefficient de détermination (R², soit le


carré du coefficient de corrélation linéaire r ) est un indicateur qui permet de juger la qualité
d’une régression linéaire simple. En d’autres termes, le coefficient de détermination nous
renseigne sur la variation de la variable endogène en pourcentage par rappor t à la variation
des variables exogènes.

NB : R2 augmente toujours lorsque vous ajoutez un prédicteur (variable exogène) au


modèle, même lorsque ce prédicteur n'appor te aucune amélioration réelle au modèle. La
valeur de R2 ajusté intègre le nombre de prédicteurs dans le modèle pour vous aider à
choisir le modèle correct.

R² ajusté : Le R² ajusté est une version modifiée du R², il est ajusté pour tenir compte du
nombre de variables exogènes dans le modèle. Le R² ajusté n’augmente que si le nouveau
paramètre améliore le modèle plus que prévu. Il peut même diminuer quand un paramètre
améliore le modèle moins que prévu. Le R² ajusté est toujours inférieur au R².

Vous aimerez peut-être aussi