Académique Documents
Professionnel Documents
Culture Documents
Introduction ADD
Introduction ADD
• On appelle statistique l’ensemble des méthodes permettant de collecter, organiser, présenter, résumer et analyser
les données des ensembles d’observations. Les statistiques peuvent être vues en fonction de l'objectif fixé, On
distingue deux grandes directions:
➔Les statistiques exploratoires: Elles ont pour but de d´écrire, c’est-`a-dire de résumer ou représenter, par des
statistiques, les données disponibles quand elles sont nombreuses
➔ Les statistiques inférentielles: Les données ne sont pas considérées comme une information complète, mais une
information partielle d’une population infinie. Il est alors naturel de supposer que les données sont des réalisations de
variables aléatoires, qui ont une certaine loi de probabilité
• Définition:
« L’analyse des données est un ensemble de techniques pour découvrir la structure, éventuellement
compliquée, d’un tableau de nombres à plusieurs dimensions et de traduire par une structure plus
simple et qui la résume au mieux. Cette structure peut le plus souvent, être représentée graphiquement » J-
P. Fénelon
→L'analyse de données fait toujours l'objet de recherche pour s'adapter à tout type de données et faire face à
des considérations de traitements en temps réel en dépit de la quantité de données toujours plus
importante;
→ Aujourd’hui, tout domaine scientifique qui doit gérer de grande quantité de données de type varié ont
recours à ces approches (écologie, linguistique, économie, etc) ainsi que tout domaine industriel (assurance,
banque, téléphonie, etc
Généralités : L’analyse des données
→ Elles permettent donc la confrontation entre de nombreuses informations, ce qui est infiniment plus riche
que leur examen séparé. Les représentations simplifiées de grands tableaux de données que ces méthodes
permettent d’obtenir s’avèrent un outil de synthèse remarquable.
→ De données trop nombreuses pour être appréhendées directement, elles extraient les tendances les plus
marquantes, les hiérarchisent et éliminent les effets marginaux ou ponctuels qui perturbent la perception
globale des faits.
Analyse multidimensionnelle
• Les méthodes de l'analyse de données doivent donc permettre de représenter synthétiquement de vastes
ensembles numériques pour faciliter l'opérateur dans ses décisions.
• Les méthodes d’analyse multidimensionnelle sont classées selon deux critères:
on distingue :
Les méthodes descriptives ; qui fournissent une information synthétisée ou résumée.
Des méthodes explicatives qui permettent qui permettent de déceler des relations entre les
l’objectif de différents variables.
l’analyse
METHODES DESCRIPTIVES :
➔ L'analyse en composantes principales (ACP) cherche à représenter dans un espace de dimension faible (<< p)
un nuage de points représentant n individus, ou objets, décrits par p variables quantitatives (donc de
dimension p) en utilisant les corrélations existant entre ces variables.
➔ L'analyse des correspondances (AFC ou ACM) étudie les proximités entre individus décrits par deux ou
plusieurs variables qualitatives ainsi que les proximités entre les modalités de ces variables.
➔ Les méthodes de classification (clustering) ou de typologie procèdent par regroupement des individus en
classes homogènes (classifications hiérarchiques, arbres phylogénétiques, moyennes mobiles (K-means), ...).
• L’objectif de ce cours est de présenter les premières méthodes de base de l’analyse de données. Ce sont
des outils indispensables dans tout processus de prise de décision faisant appel à de grandes quantités de
données et d’informations.
• Nous étudions le principe de chaque méthode, ses objectifs et nous mettons l’accent sur le volet
interprétation des résultats via des exemples et études de cas pratiques. Grâce au progrès de l’informatique,
ces résultats peuvent être obtenus facilement à l’aide des logiciels statistiques (SPSS, SAS, SPAD, R, etc.).
• Avant d’introduire la première technique de l’analyse de données, nous rappelons brièvement les principes
et l’intérêt de la statistique descriptive.
Vocabulaires statistiques
− Population (ou population statistique) : C’est un ensemble concerné par une étude statistique. On parle aussi
de champ de l´étude.
− Individu (ou unité statistique) : on désigne ainsi tout ´élément de la population considérée
− Echantillon : C’est le sous-ensemble de la population sur lequel sont effectivement réalisées les observations
− Taille de l’´échantillon : c’est le cardinal de l’´échantillon, autrement dit c’est le nombre d’individus qu’il
contient (l´échantillon de taille 800, de taille 1000...).
− Recensement : enquête dans laquelle l’´échantillon observé est en fait la population tout entière (on parle aussi
d’enquête exhaustive)
− Variable (statistique) : c’est une caractéristique (ˆâge, salaire, sexe. . .), définie sur la population et observée sur
l’´échantillon. On distingue les variables quantitatives, sont celles prenant des valeurs numériques; des
variables qualitatives prenant des valeurs non numériques
Analyse Unidimensionnelle
• L’objectif des outils de Statistique descriptive élémentaire est de fournir des résumés synthétique de séries de
valeurs, adaptés à leur type (qualitatives ou quantitatives), et observées sur une population ou un échantillon.
• Dans le cas d’une seule variable, Les notions les plus classiques sont celles de médiane, quantile, moyenne,
fréquence, variance, écart-type définies parallèlement à des représentations graphiques : diagramme en bâton,
histogramme, diagramme-boîte, graphiques cumulatifs, diagrammes en colonnes, en barre ou en secteurs
Analyse Unidimensionnelle : Variable quantitative discrète
• Une variable quantitative discrète ➔une variable quantitative ne prenant que des valeurs entière
Exemple : On a noté l’âge (arrondi à l’année près) des 48 salariés d’une entreprise :
• Représentation graphique
Pour une variable discrète, on rencontre essentiellement deux sortes de représentations graphiques, qui sont
en fait complémentaires : le diagramme en bâtons et le diagramme cumulatif (en escaliers)
Analyse Unidimensionnelle : Variable quantitative continue
• Une variable quantitative est dite continue lorsque les observations qui lui sont associées ne sont pas des valeurs
précises mais des intervalles réels
• Exemple: Le tableau ci-dessous donne, pour l’année 1987, la répartition des exploitations agricoles françaises selon la
SAU (surface agricole utilisée) exprimée en hectares (Tableaux Économiques de Midi– Pyrénées, INSEE, 1989, p.
77) ; la SAU est ici une variable quantitative continue comportant 6 classes.
➔ Les Mesures de la tendance centrale :
-Le Mode : représente la valeur présentant le plus grand effectif ( la plus grande fréquence)
-La Médiane : La médiane est la valeur de la variable qui partage la série étudiée en deux sous
ensembles d'effectifs égaux
-La Moyenne Arithmétique:
Représentations graphiques
Les deux graphiques usuels pour la représentation graphique d’une variable quantitative continue sont
l’histogramme et la courbe cumulative
• Les observations d’une variable qualitative ne sont pas des valeurs numériques, mais des caractéristiques, appelées
modalités. Lorsque ces modalités sont naturellement ordonnées (par exemple, la mention au bac dans une
population d’étudiants), la variable est dite ordinale. Dans le cas contraire (par exemple, la profession dans une
population de personnes actives) la variable est dite nominale
• Exemple: Le tableau ci–dessous donne la répartition de la population active occupée (ayant effectivement un
emploi) selon la CSP (catégorie socioprofessionnelle), en France, en mars 1988 (Tableaux de l’Économie Française,
INSEE, 1989, p. 59).
Analyse Unidimensionnelle : Variable qualitative
• Les représentations graphiques que l’on rencontre avec les variables qualitatives sont assez nombreuses. Les trois
plus courantes, qui sont aussi les plus appropriées, sont: Le diagramme en colonnes, le diagramme en barre, le
diagramme en secteurs
• L’objectif de la statistique descriptive à deux variables dite bidimensionnelle est d’étudier simultanément deux
variables X et Y observées sur les mêmes individus.
• Ces deux variables sont mesurées sur les n unités d’observation. Pour chaque unité, on obtient donc deux
mesures. La série statistique est alors une suite de n couples des valeurs prises par les deux variables sur chaque
individu :
• Exemple de relations possibles entre les variables suivantes : taille et poids ; chiffre d’affaire et frais de publicité,
taux de croissance et investissement etc….
➔L’objectif essentiel des méthodes présentées est de mettre en évidence une éventuelle variation simultanée des
deux variables, que nous appelons liaison.
Analyse bidimensionnelle
• La répartition des N observations, ou distribution conjointe, suivant les modalités de X et Y se présente sous forme
d’un tableau à double entrée, appelée tableau de contingence
2-On calcule la valeur de la statistique de ` χ 2 : ➔ on ne peut pas conclure qu'il existe un lien
entre le sexe et le type d'accident survenu.
(10-11,02)2/11,02+(19-17,98)2/17,98+ (9-7,98)2/7,98+(12-13,02)2/13,02
=0,363
Analyse bidimensionnelle: Tests de comparaison des Moyennes
• Un test t de student porte sur variable qualitative ( Exemple : Le montant moyen dépensé par sexe
ordinale ou nominale) qui contient uniquement deux
modalités. Il s’agit de comparer la moyenne d’une
variable continue entre deux sous populations
définies par un critère du regroupement
• L’Anova est un test statistique utilisé pour comparer les moyennes de plus de deux échantillons ( si n
est le nombre de catégorie, alors n>2), C’est donc une généralisation du test t ( utilisé quand il y a 2
catégories).
• L’idée est que si la variance entre les groupes est significativement plus grande que la variance
aléatoire au sein de chaque groupe, alors les moyennes sont probablement différentes