Vous êtes sur la page 1sur 26

Introduction à l’Analyse des données

Réalisé par: Pr M. OUDMANE


Email: m.oudmane@encgcasa.ma

Année universitaire: 2021/2022

-Analyse des données- PR M.OUDMANE


Introduction : Statistiques descriptive ➔ Analyse des données ?

• On appelle statistique l’ensemble des méthodes permettant de collecter, organiser, présenter, résumer et analyser
les données des ensembles d’observations. Les statistiques peuvent être vues en fonction de l'objectif fixé, On
distingue deux grandes directions:
➔Les statistiques exploratoires: Elles ont pour but de d´écrire, c’est-`a-dire de résumer ou représenter, par des
statistiques, les données disponibles quand elles sont nombreuses
➔ Les statistiques inférentielles: Les données ne sont pas considérées comme une information complète, mais une
information partielle d’une population infinie. Il est alors naturel de supposer que les données sont des réalisations de
variables aléatoires, qui ont une certaine loi de probabilité

Statistiques Statistique exploratoire


inférentielles Unidimensionnelle
Statistiques
Statistiques Statistique exploratoire
exploratoires Bidimensionnelle

Statistique exploratoire L'analyse des données s'inscrit dans


Multidimensionnelle ➔ ce cadre de la statistique exploratoire
multidimensionnelle.
Généralités : L’analyse des données

• Définition:
« L’analyse des données est un ensemble de techniques pour découvrir la structure, éventuellement
compliquée, d’un tableau de nombres à plusieurs dimensions et de traduire par une structure plus
simple et qui la résume au mieux. Cette structure peut le plus souvent, être représentée graphiquement » J-
P. Fénelon

• Développement des méthodes d’ADD :


→Les méthodes d'analyse de données ont commencées à être développées dans les années 50 poussées par le
développement de l'informatique et du stockage des données qui depuis n'a cessé de croître.

→L'analyse de données fait toujours l'objet de recherche pour s'adapter à tout type de données et faire face à
des considérations de traitements en temps réel en dépit de la quantité de données toujours plus
importante;

→ Aujourd’hui, tout domaine scientifique qui doit gérer de grande quantité de données de type varié ont
recours à ces approches (écologie, linguistique, économie, etc) ainsi que tout domaine industriel (assurance,
banque, téléphonie, etc
Généralités : L’analyse des données

→ Elles permettent donc la confrontation entre de nombreuses informations, ce qui est infiniment plus riche
que leur examen séparé. Les représentations simplifiées de grands tableaux de données que ces méthodes
permettent d’obtenir s’avèrent un outil de synthèse remarquable.

→ De données trop nombreuses pour être appréhendées directement, elles extraient les tendances les plus
marquantes, les hiérarchisent et éliminent les effets marginaux ou ponctuels qui perturbent la perception
globale des faits.
Analyse multidimensionnelle

• Les méthodes de l'analyse de données doivent donc permettre de représenter synthétiquement de vastes
ensembles numériques pour faciliter l'opérateur dans ses décisions.
• Les méthodes d’analyse multidimensionnelle sont classées selon deux critères:

on distingue :
Les méthodes descriptives ; qui fournissent une information synthétisée ou résumée.
Des méthodes explicatives qui permettent qui permettent de déceler des relations entre les
l’objectif de différents variables.
l’analyse

le type de mesure ( nominale, ordinale ou échelle) conditionne le choix d’une méthode.


Nature des
variables
Analyse multidimensionnelle

METHODES DESCRIPTIVES :
➔ L'analyse en composantes principales (ACP) cherche à représenter dans un espace de dimension faible (<< p)
un nuage de points représentant n individus, ou objets, décrits par p variables quantitatives (donc de
dimension p) en utilisant les corrélations existant entre ces variables.
➔ L'analyse des correspondances (AFC ou ACM) étudie les proximités entre individus décrits par deux ou
plusieurs variables qualitatives ainsi que les proximités entre les modalités de ces variables.
➔ Les méthodes de classification (clustering) ou de typologie procèdent par regroupement des individus en
classes homogènes (classifications hiérarchiques, arbres phylogénétiques, moyennes mobiles (K-means), ...).

METHODES EXPLICATIVES ET PREDICTIVES :


➔ L'analyse discriminante (AFD) étudie la prévision d'une variable qualitative par des variables
numériques. C'est une méthode géométrique en espace réduit.
➔Les arbres de décision et régressions (glm) étudient la prévision d'une variable qualitative ou quantitative
dépendante par une combinaison linéaire de variables explicatives (modèles de régression)
Objectifs du cours:

• L’objectif de ce cours est de présenter les premières méthodes de base de l’analyse de données. Ce sont
des outils indispensables dans tout processus de prise de décision faisant appel à de grandes quantités de
données et d’informations.
• Nous étudions le principe de chaque méthode, ses objectifs et nous mettons l’accent sur le volet
interprétation des résultats via des exemples et études de cas pratiques. Grâce au progrès de l’informatique,
ces résultats peuvent être obtenus facilement à l’aide des logiciels statistiques (SPSS, SAS, SPAD, R, etc.).
• Avant d’introduire la première technique de l’analyse de données, nous rappelons brièvement les principes
et l’intérêt de la statistique descriptive.
Vocabulaires statistiques

− Population (ou population statistique) : C’est un ensemble concerné par une étude statistique. On parle aussi
de champ de l´étude.
− Individu (ou unité statistique) : on désigne ainsi tout ´élément de la population considérée
− Echantillon : C’est le sous-ensemble de la population sur lequel sont effectivement réalisées les observations
− Taille de l’´échantillon : c’est le cardinal de l’´échantillon, autrement dit c’est le nombre d’individus qu’il
contient (l´échantillon de taille 800, de taille 1000...).
− Recensement : enquête dans laquelle l’´échantillon observé est en fait la population tout entière (on parle aussi
d’enquête exhaustive)
− Variable (statistique) : c’est une caractéristique (ˆâge, salaire, sexe. . .), définie sur la population et observée sur
l’´échantillon. On distingue les variables quantitatives, sont celles prenant des valeurs numériques; des
variables qualitatives prenant des valeurs non numériques
Analyse Unidimensionnelle

• L’objectif des outils de Statistique descriptive élémentaire est de fournir des résumés synthétique de séries de
valeurs, adaptés à leur type (qualitatives ou quantitatives), et observées sur une population ou un échantillon.
• Dans le cas d’une seule variable, Les notions les plus classiques sont celles de médiane, quantile, moyenne,
fréquence, variance, écart-type définies parallèlement à des représentations graphiques : diagramme en bâton,
histogramme, diagramme-boîte, graphiques cumulatifs, diagrammes en colonnes, en barre ou en secteurs
Analyse Unidimensionnelle : Variable quantitative discrète

• Une variable quantitative discrète ➔une variable quantitative ne prenant que des valeurs entière
Exemple : On a noté l’âge (arrondi à l’année près) des 48 salariés d’une entreprise :

Les caractéristiques de la série:


➔ Les Mesures de la tendance centrale : ont pour objet de résumer la série d’observations
par une valeur considérée comme représentative. Les mesures les plus utilisées sont
-Le Mode : représente la valeur présentant le plus grand effectif ( la plus grande fréquence)
-La Médiane : La médiane est la valeur de la variable qui partage la série étudiée en deux sous
ensembles d'effectifs égaux
-La Moyenne Arithmétique:

➔ Les Mesures de dispersion: Elles servent à préciser la variabilité de la série, c’est–à–dire


à résumer l’éloignement de l’ensemble des observations par rapport à leur tendance
centrale, les mesures les plus utilisées sont:
- La variance et l’écart type
Analyse Unidimensionnelle : Variable quantitative discrète

• Représentation graphique

Pour une variable discrète, on rencontre essentiellement deux sortes de représentations graphiques, qui sont
en fait complémentaires : le diagramme en bâtons et le diagramme cumulatif (en escaliers)
Analyse Unidimensionnelle : Variable quantitative continue

• Une variable quantitative est dite continue lorsque les observations qui lui sont associées ne sont pas des valeurs
précises mais des intervalles réels
• Exemple: Le tableau ci-dessous donne, pour l’année 1987, la répartition des exploitations agricoles françaises selon la
SAU (surface agricole utilisée) exprimée en hectares (Tableaux Économiques de Midi– Pyrénées, INSEE, 1989, p.
77) ; la SAU est ici une variable quantitative continue comportant 6 classes.
➔ Les Mesures de la tendance centrale :
-Le Mode : représente la valeur présentant le plus grand effectif ( la plus grande fréquence)
-La Médiane : La médiane est la valeur de la variable qui partage la série étudiée en deux sous
ensembles d'effectifs égaux
-La Moyenne Arithmétique:

➔ Les Mesures de dispersion: La variance et l’écart type

Remarque: La moyenne, la variance et l’écart–type d’une variable continue se déterminent de la même


manière que dans le cas discret ; dans les formules, on doit prendre pour xl les centres de classes au lieu des
observations
Analyse Unidimensionnelle : Variable quantitative continue

Représentations graphiques
Les deux graphiques usuels pour la représentation graphique d’une variable quantitative continue sont
l’histogramme et la courbe cumulative

Figure 3: courbe cumulative Figure 4: Histogramme


Analyse Unidimensionnelle : Variable qualitative

• Les observations d’une variable qualitative ne sont pas des valeurs numériques, mais des caractéristiques, appelées
modalités. Lorsque ces modalités sont naturellement ordonnées (par exemple, la mention au bac dans une
population d’étudiants), la variable est dite ordinale. Dans le cas contraire (par exemple, la profession dans une
population de personnes actives) la variable est dite nominale

• Exemple: Le tableau ci–dessous donne la répartition de la population active occupée (ayant effectivement un
emploi) selon la CSP (catégorie socioprofessionnelle), en France, en mars 1988 (Tableaux de l’Économie Française,
INSEE, 1989, p. 59).
Analyse Unidimensionnelle : Variable qualitative

• Les représentations graphiques que l’on rencontre avec les variables qualitatives sont assez nombreuses. Les trois
plus courantes, qui sont aussi les plus appropriées, sont: Le diagramme en colonnes, le diagramme en barre, le
diagramme en secteurs

FIGURE 5 – Diagramme en FIGURE 6 – Diagramme en barre FIGURE 7 – Diagramme en secteurs


colonnes
Analyse bidimensionnelle

• L’objectif de la statistique descriptive à deux variables dite bidimensionnelle est d’étudier simultanément deux
variables X et Y observées sur les mêmes individus.
• Ces deux variables sont mesurées sur les n unités d’observation. Pour chaque unité, on obtient donc deux
mesures. La série statistique est alors une suite de n couples des valeurs prises par les deux variables sur chaque
individu :

• Exemple de relations possibles entre les variables suivantes : taille et poids ; chiffre d’affaire et frais de publicité,
taux de croissance et investissement etc….
➔L’objectif essentiel des méthodes présentées est de mettre en évidence une éventuelle variation simultanée des
deux variables, que nous appelons liaison.
Analyse bidimensionnelle

• La répartition des N observations, ou distribution conjointe, suivant les modalités de X et Y se présente sous forme
d’un tableau à double entrée, appelée tableau de contingence

Notions de dépendance de d'indépendance :

➔ Variables liées : les variations de l'une dépendent des


variations de l'autre.

➔Variables indépendantes : les deux variables varient


indépendamment l'une de l'autre. Dans ce cas : la connaissance
de la valeur prise par l'une des deux variables sur un individu
n'apporte aucune information sur la valeur prise par l'autre
variable sur cet individu
==> Exemple : si le salaire et le sexe sont deux variables
indépendantes, connaître le sexe d'un employé n'apporte aucune
information sur son salaire.
Analyse bidimensionnelle : Etude de liaison entre variables

Deux variables quantitatives Corrélation

Nature des variables

Deux variables qualitatives Test d’association de khi deux


Analyse bidimensionnelle: Cas de deux variables quantitatives

Exemple: • -La covariance: est une méthode mathématique


permettant d'évaluer le sens de variation de deux
variables quantitatives
Dans le tableau ci-dessous, on a relevé les notes de TD ( ´ X) et les notes
de partiel (Y) obtenues en statistique par un groupe de 15 étudiants.

• -La corrélation: permet d’analyser l’intensité de la


relation en la variable X et la variable Y
Analyse bidimensionnelle: Cas de deux variables quantitatives

• Représentation graphique : Nuage de points


• Test khi-deux (χ2): il consiste à tester la signification
Analyse bidimensionnelle: Cas de deux variables qualitatives statistique d’une association de deux variables
qualitatives (nominales ou ordinales).
• Plus précisément, il a pour objet de tester l’indépendance
Exemple: des variables dans un tableau croisé en comparant la
distribution observée (Oij) sur l’échantillon à une
On utilise les données relevées sur un échantillon de 50 enfants distribution théorique (Eij) qui correspond à l’hypothèse
que l’on veut tester.
de 2 à 16 ans souffrant d'un TSPT (trouble de stress post-
traumatique) à la suite d'un accident domestique ou de • Le χ2 observé sur l’échantillon se calcule de la manière
suivante :
circulation.

P : enfants de 2 à 16 ans souffrant d'un TSPT à la suite d'un


accident domestique ou de circulation. Variable X : sexe,
On rejettera l’hypothèse nulle (pas d’association entre les
qualitative à L = 2 modalités (Ai) . variables) si le χ2 calculé est supérieur à la valeur de
Variable Y : type d'accident, qualitative à C = 2 modalités (Bj ). référence du χ2 se trouvant dans la table de khi-deux pour
On veut étudier la relation entre le sexe et le type d'accident n degrés de liberté (lignes) et pour un α (niveau de
survenu. Pour les 50 enfants de l'échantillon, on a relevé le sexe précision donné en colonnes).
et le type d'accident survenu.
Pour interpréter la valeur du χ2, il est préférable également
de se référer au seuil de signification statistique (> 0,05 par
exemple).

Si la P-Value >0,05% on accepte l’hypothèse nulle


Si la P-Value<0,05% on rejette l’hypothèse nulle Ho et on
conclue qu’il y a une dépendance entre les deux variables
Analyse bidimensionnelle: Cas de deux variables qualitatives

Les hypothèses et le niveau du test :


• Pour le degré de liberté (K − 1) × (K’ − 1)= 1
H0 : les variables sont indépendantes
➔ ( nombre de modalités en lignes -1)* (
H1 : les variables sont liées
Nombre de modalités en colonne-1)
α = 5%
• Le Khi deux tabulé au seuil de 5% est égale à
1-On calcule les effectifs théoriques Eij 3,84

➔ Le Khi deux calculé ( 0,363)< Khi deux tabulé


(3,84), on accepte l’hypothèse Ho :

2-On calcule la valeur de la statistique de ` χ 2 : ➔ on ne peut pas conclure qu'il existe un lien
entre le sexe et le type d'accident survenu.
(10-11,02)2/11,02+(19-17,98)2/17,98+ (9-7,98)2/7,98+(12-13,02)2/13,02
=0,363
Analyse bidimensionnelle: Tests de comparaison des Moyennes

• Un test t de student porte sur variable qualitative ( Exemple : Le montant moyen dépensé par sexe
ordinale ou nominale) qui contient uniquement deux
modalités. Il s’agit de comparer la moyenne d’une
variable continue entre deux sous populations
définies par un critère du regroupement

• Le test t de comparaison des moyennes consiste à


vérifier que l’écart de moyenne entre deux groupes est
significative, autrement dit qu’il est bien réel et n’est
pas liée au hasard
Analyse bidimensionnelle: ANOVA

• L’Anova est un test statistique utilisé pour comparer les moyennes de plus de deux échantillons ( si n
est le nombre de catégorie, alors n>2), C’est donc une généralisation du test t ( utilisé quand il y a 2
catégories).
• L’idée est que si la variance entre les groupes est significativement plus grande que la variance
aléatoire au sein de chaque groupe, alors les moyennes sont probablement différentes

Définition: La variation intragroupe mesure l’ampleur de la variation au sein d’un groupe, la


variation intergroupe mesure les variations moyennes entre les différents groupes
Exemple :
Analyse bidimensionnelle: ANOVA

• Le F est calculé de la manière suivante :

La variation intergroupe est 19 fois supérieure à la variation


intragroupe ➔ Les écarts de motivations que l’on observe sont
bien liée au différence de stimulus et non pas au hasard
Exercice d’application

• Tp-1 Analyses Unidimensionnelles et bidimensionnelles.docx

Vous aimerez peut-être aussi