Vous êtes sur la page 1sur 3

INTRO

 Les critères fondamentaux de classement des méthodes d’analyse de données :


o La partition ou non de la matrice des données : sépare les méthodes descriptives des
méthodes explicatives.
o La nature des variable : métrique – nominale – ordinale
o Le nombre de variables traitées simultanément : méthodes univariées, bivariées ou
multivariées
 Analyse univariée : consiste à examiner la distribution des modalités de réponse pour une
variable et permet de décrire l’échantillon ( comptage des effectifs de chaque modalité de
chaque variable. Elle a pour objet de synthétiser et d’analyser les informations disponibles sur
cette variable.
 Analyse bivariée : consiste à étudier les relations entre deux variables étudiées simultanément
 Analyse multivariée : permet le traitement simultané de plusieurs variables. Elle contient deux
méthodes :
o Explicatives : cherchent à étudier les relations entre 2 groupes de variables l’une d’entre
elles mesure un phénomène que l’on cherche à expliquer, les autres représentent des
phénomènes qui sont supposés influencer et déterminer le précédent( régression
linéaire simple et multiple, ANOVA, analyse discriminante, analyse conjointe,
segmentation).
o Descriptives : cherchent à structurer ou résumer un groupe de variable, et décrire de
façon synthétique la structure des données disponibles ( l’analyse en composants
principales ACP, analyse typologique, analyse factorielle des correspondances ) .
o Autres méthodes avancées d’analyse multivariée : Analyse canonique (régression
linéaire avec plusieurs Y), Les modèles de causalité (équations structurelles).

Les traitements élémentaires – Les analyses univariées


 Concernent le traitement d’une seule variable
 Ont pour objet de synthétiser et d’analyser les informations disponibles sur cette variable
 Sources de ces données : observations – expérimentations – séries statistiques – résultat d’un
sondage.
 Les indicateurs de position : Le mode – La médiane – La moyenne – L’étendue ( Xmax – Xmin) –
Variance – écart-type – Coefficient de variation (σ/μ)
 Test de moyenne : comparer la moyenne d’un échantillon X̄ a une moyenne prédéterminée μ
o L’hypothèse nulle est formée de 2 façons : sous forme d’inégalité ( X̄ > μ ou X̄ < μ ) et
donc c’est un test unilatéral, ou sous forme d’égalité ( X̄ = μ ) et c’est un test bilatéral.
o Le test Z est utilisé lorsque l’écart-type de la population est inconnu, ou si la taille de
l’échantillon est n>30, on calcule la valeur z = | X̄ - μ |/ σe, avec σe = σ / racine n, et on la
compare à la valeur de zα
o Lorsqu’on nous demande un intervalle de confiance pour μ avec un seuil de confiance
(1- α), l’intervalle est donné par : [X̄ ± zα / σe], avec σe = σ / racine n
o Le test T est fait quand l’écart-type de la population est inconnu et n<30, et il est calculé
de la même façon, la valeur tα est lue dans la table de student à (n-1) degré de liberté et
α seuil de risque ( quand n > 30, t suit approximativement une loi normale ).
o Dans le cas d’une proportion, on calcule z = |P – p | / σp, avec σp = (p * 1-p / racine n), P
proportion de la population et p la proportion de l’échantillon.

Les analyses bivariées


 Concernent le traitement simultané de 2 variables.
 Ont pour objet de mettre en évidence les relations éventuelles qui existent entre 2 variables
analyses simultanément.
 On cherche à expliquer une des deux variables (dite a expliquer ) a l’aide d’une autre variable
(dite explicative).
 Test de Khi-deux : consiste à tester l’indépendance ou non de 2 variables qualitatives, en posant
la variable explicative en colonnes, et la variable à expliquer en lignes dans un tableau de
contingence. On mesure l’écart entre les effectifs observés et les effectifs attendues (la somme
de chaque ligne * la somme de chaque colonne) et on le compare a la valeur de X(k-1)(k’-1) ;α dans
la table de khi-deux, avec k et k’ nombre de modalités des deux variables, et donc (k-1)(k’-1) est le
degré de liberté.
 Test de Kolmogorov-Smirnov : consiste à tester si un échantillon est distribué normalement. Le
test consiste à calculer les fréquences cumulatives des observations, et les comparer aux
fréquences calculées a travers la table de la loi centrée réduite ( en convertissant chaque
observation en une valeur centrée réduite et la cherchant dans la table ). On compare les deux
fréquences cumulées et on prend la plus grande valeur. Si cette valeur est plus grande que la
valeur observée sur la table de Kolmogorov Smirnov ( α et n ), on rejette donc H0.
 Test de comparaison de moyenne : on prend 2 échantillons pour lesquelles on a leurs effectifs n,
leurs moyennes X̄, et leurs variances et écart-types σ. On calcul z tel que
o z = (X̄ A - X̄ B) / racine ( nA/σA + nB/σB)
o On compare ce z au zα lu dans la table de la centrée réduite selon le seuil de confiance
ou le seuil de risque donné. Si ce z est plus grand que le zα, on rejette H0 qui présume
que X̄ A = X̄ B

Les analyses multivariées


 Permettent le traitement simultané de plusieurs variables, et cherchent à étudier les relations
entre deux groupes de variables.
 La régression linéaire simple : consiste à étudier la relation entre 2 variables métriques Y ( à
expliquer ) et X ( explicative) a travers la détermination des deux coefficients de la droite
suivante : Yi = a0 + Xi * a1, avec
o a1 = la somme des ( Xi - X̅ ).( Yi - Ȳ ) / ( Xi - X̅ )²
o a0 étant l’ordonnée à l’origine et a0 = Ȳ - a1* X̅
 Coefficient de détermination R² = la somme ( Yi* - Ȳ ) ²/ la somme ( Yi - Ȳ ) ², avec Yi* = a0 + Xi *
a1

 ANOVA : qui consiste a expliquer une variable métrique Y a l’aide de variables qualitatives Xj
o On calcule DISPF, DISPR, DISPT
o DISPF = la somme des écarts entre la petite moyenne de chaque modalité de la variable
explicative et la grande moyenne au carré, multipliée par son effectif.
o DISPR = la somme des écarts entre l’observation et la grande moyenne au carré
o DISPR + DISPF = DISPT
o On calcule après la VF = DISPF / (k-1) et la VR = DISPR / (n-k)
o Le rapport entre ces deux variances F = VF/VR doit être comparé avec le Fα lu sur la table
de Fisher-Snedecor en cherchant (k-1) dans les colonnes et (n-k) dans les lignes

Vous aimerez peut-être aussi