Vous êtes sur la page 1sur 10

Cours 1 Analyse de données

Analyse  Distribution : on met les variables à regarder

Idéalement, on veut que les histogrammes soient normaux.


Q1, médiane, Q3 avec valeur maximale et minimale mais pas exactement, on met à part les valeurs
excessives.
Si on a une moyenne = une médiane : c’est une distribution normale.
Cours 1 Analyse de données

On regarde les corrélations des variables les unes par rapport aux autres

Analyse  Méthode multivariée  Multivariée

GNPC96 et UNRATE : il y a un lien mais ne pas l’étudier comme ça. On prend la valeur brute mais on
devrait peut-être prendre l’évolution.
GNPC96 (en variance) en fonction de UNRATE : on a un bon nuage de points.

Corrélation significative au risque 5% : R en valeur absolue >

Ajuster Y en fonction de X :


Cours 1 Analyse de données

Régression simple :

Erreur de moyenne 0 et d’écart-type : 0,724419


Tests locaux sur les coefficients du modèle. Ici, les deux tests sont équivalents car une seule variable
explicative.
Cours 1 Analyse de données

On cherche à minimiser des écarts ici selon la « verticale » mais si on inversait l’ordre des variables
explicative et à expliquer, on n’aurait pas la même chose… On ne minimiserait pas le même écart. Il
faudrait, pour que ce soit pareil, mesurer les distances mesurées perpendiculairement à la droite
ACP.

Remarque : Ici, des points sortent de l’intervalle de confiance à 95% = des points qui semblent
atypiques. Pourquoi ? Sont-ils particuliers ?

Test de Fischer compare SCE à SCR = Test « analyse de la variance ». Rapport F très grand
Est-ce que si pas de corrélation entre les deux, ce serait possible d’observer des valeurs alignées telle
qu’elle ? Non, statistiquement c’est impossible !!

Essais géotechniques :
Ce n’est pas bien.
Cours 1 Analyse de données

Beaucoup de données avec faibles valeurs et peu avec de grandes valeurs  La régression va passer
par le milieu des points du début et par le milieu des deux points aux valeurs les plus grandes
Cours 1 Analyse de données

On voudrait pondérer, on va passer au log :


Cours 1 Analyse de données

On clique sur le point

Sélection immédiate du point dans la table automatiquement

Clic droit : exclure


Cours 1 Analyse de données

Ventes de skis :
Sur 40 trimestres, on a des ventes de skis. A chaque fois, on regarde le revenu des familles. Est-ce
qu’il y a une corrélation entre le revenu des familles et le nombre de ventes de skis ?

C’est plutôt bien. Mais il y a peut-être deux populations de revenus… Une sorte de distribution avec
deux gaussiennes…
Cours 1 Analyse de données

Assez peu de points proches de la


droite
Cours 1 Analyse de données

Analyse des résidus : deux en bas, deux en haut et ainsi de suite  les résidus sont structurés ! ça ne
devrait être que du bruit. Ça veut dire qu’il y a quelque chose qui ne tient pas du hasard et qu’on
aurait dû prendre en compte. Ici, on a des données trimestrielles, on a donc des lignes qui sont auto-
corrélées  Il faut créer une nouvelle variable.

Vous aimerez peut-être aussi