Vous êtes sur la page 1sur 87

Cours

d’analyse de
données

Introduction

Rappels sur Cours d’analyse de données


les statistiques
descriptives

Pr.Hassan Mouadi
h.mouadi@uiz.ac.ma
2022-2023

11 février 2023
Des livres outile

Cours
d’analyse de
données

Introduction L’essentiel de statistique descriptive, Elisabeth


Rappels sur
les statistiques
OLIVIER.
descriptives
Des livres outile

Cours
d’analyse de
données

Introduction L’essentiel de statistique descriptive, Elisabeth


Rappels sur
les statistiques
OLIVIER.
descriptives
Cours de Statistique Descriptive, Dunod, Gérard Calot.
Des livres outile

Cours
d’analyse de
données

Introduction L’essentiel de statistique descriptive, Elisabeth


Rappels sur
les statistiques
OLIVIER.
descriptives
Cours de Statistique Descriptive, Dunod, Gérard Calot.
Probabilités, analyses des données et statistiques,
Deuxième édition, Editions Technip, Gilbert Saporta.
Des livres outile

Cours
d’analyse de
données

Introduction L’essentiel de statistique descriptive, Elisabeth


Rappels sur
les statistiques
OLIVIER.
descriptives
Cours de Statistique Descriptive, Dunod, Gérard Calot.
Probabilités, analyses des données et statistiques,
Deuxième édition, Editions Technip, Gilbert Saporta.
L’analyse des données, Presses Universitaires de France,
J.-M. Boruche , G. Saporta
Des livres outile

Cours
d’analyse de
données

Introduction L’essentiel de statistique descriptive, Elisabeth


Rappels sur
les statistiques
OLIVIER.
descriptives
Cours de Statistique Descriptive, Dunod, Gérard Calot.
Probabilités, analyses des données et statistiques,
Deuxième édition, Editions Technip, Gilbert Saporta.
L’analyse des données, Presses Universitaires de France,
J.-M. Boruche , G. Saporta
L’analyse des données, Thierry Foucart.
Introduction

Cours
d’analyse de
données

Introduction

Rappels sur L’analyse multivariée, ou analyse de données est un ensemble de


les statistiques
descriptives méthodes dont la fonction principale est de mettre en évidence
les structures pertinentes de grands ensembles de données.
Ces méthodes tentent de d´egager les param‘etres
caractéristiques d’un grand nombre de données recueillies,
essaient d’apporter des éléments de réponses a des questions
du type :
Introduction

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques
descriptives 1 Existe-t-il des corrélations entre les variables ?
Introduction

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques
descriptives 1 Existe-t-il des corrélations entre les variables ?
2 Quels sont les caractéres qui discriminent le plus les
individus ?
Introduction

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques
descriptives 1 Existe-t-il des corrélations entre les variables ?
2 Quels sont les caractéres qui discriminent le plus les
individus ?
3 Existe-t-il des caractéres globaux ?
Introduction

Cours
d’analyse de
données

Les méthodes d’Analyse de Données ont pour objectif d’étudier


Introduction
de gros tableaux de données pour :
Rappels sur
les statistiques
descriptives
En extraire les informations essentielles en vue d’une
description et d’une synthése (méthodes factorielles),
Introduction

Cours
d’analyse de
données

Les méthodes d’Analyse de Données ont pour objectif d’étudier


Introduction
de gros tableaux de données pour :
Rappels sur
les statistiques
descriptives
En extraire les informations essentielles en vue d’une
description et d’une synthése (méthodes factorielles),
En dégager des groupes homogénes d’individus ou de
variables (méthodes de classifications),
Introduction

Cours
d’analyse de
données

Les méthodes d’Analyse de Données ont pour objectif d’étudier


Introduction
de gros tableaux de données pour :
Rappels sur
les statistiques
descriptives
En extraire les informations essentielles en vue d’une
description et d’une synthése (méthodes factorielles),
En dégager des groupes homogénes d’individus ou de
variables (méthodes de classifications),
Prévoir la valeur d’un individu sur une variable, dite a
expliquer, a partir dela connaissance de valeurs de ce
meme individu sur d’autres variables, dites explicatives
(méthodes de prédiction).
Introduction

Cours
d’analyse de
données
Pour faire une étude exploratoire des données multivariées,
Introduction on peut faire recours aux techniques d’analyses factorielles
Rappels sur dont l’objectif est d’essayer de synthétiser l’information
les statistiques
descriptives contenue dans un tableau de données.
Introduction

Cours
d’analyse de
données
Pour faire une étude exploratoire des données multivariées,
Introduction on peut faire recours aux techniques d’analyses factorielles
Rappels sur dont l’objectif est d’essayer de synthétiser l’information
les statistiques
descriptives contenue dans un tableau de données.
Ces techniques vont donc chercher à résumer un grand
ensemble de données en un ensemble plus petit
d’informations pertinentes rendant compte des
associations principales entre variables et individus de
l’ensemble de départ.
Introduction

Cours
d’analyse de
données
Pour faire une étude exploratoire des données multivariées,
Introduction on peut faire recours aux techniques d’analyses factorielles
Rappels sur dont l’objectif est d’essayer de synthétiser l’information
les statistiques
descriptives contenue dans un tableau de données.
Ces techniques vont donc chercher à résumer un grand
ensemble de données en un ensemble plus petit
d’informations pertinentes rendant compte des
associations principales entre variables et individus de
l’ensemble de départ.
Réduire les dimensions du tableau de données initial tout
en conservant ses principales caractéristiques nécessitera le
calcul de distance entre les éléments de ce tableau.
Introduction

Cours
d’analyse de
Ainsi, certains éléments du tableau pourront être
données considérés comme proches, d’autres, distants

Introduction

Rappels sur
les statistiques
descriptives
Introduction

Cours
d’analyse de
Ainsi, certains éléments du tableau pourront être
données considérés comme proches, d’autres, distants
,→ par exemple, nous pourrons nous apercevoir
Introduction
que deux variables sont très corrélées, ou que
Rappels sur
les statistiques deux individus ont des comportements très
descriptives
semblables
Introduction

Cours
d’analyse de
Ainsi, certains éléments du tableau pourront être
données considérés comme proches, d’autres, distants
,→ par exemple, nous pourrons nous apercevoir
Introduction
que deux variables sont très corrélées, ou que
Rappels sur
les statistiques deux individus ont des comportements très
descriptives
semblables
L’idée est donc de se focaliser sur les proximités pour en
rendre compte dans la représentation simplifiée ou
synthétique recherchée du tableau de données
Introduction

Cours
d’analyse de
Ainsi, certains éléments du tableau pourront être
données considérés comme proches, d’autres, distants
,→ par exemple, nous pourrons nous apercevoir
Introduction
que deux variables sont très corrélées, ou que
Rappels sur
les statistiques deux individus ont des comportements très
descriptives
semblables
L’idée est donc de se focaliser sur les proximités pour en
rendre compte dans la représentation simplifiée ou
synthétique recherchée du tableau de données
Pour mesurer les distances entre les éléments d’un tableau
de données, la distance à utiliser ne sera pas la même.
Celle-ci est différente selon le type des variables que l’on
cherche à synthétiser :
Introduction

Cours
d’analyse de
Ainsi, certains éléments du tableau pourront être
données considérés comme proches, d’autres, distants
,→ par exemple, nous pourrons nous apercevoir
Introduction
que deux variables sont très corrélées, ou que
Rappels sur
les statistiques deux individus ont des comportements très
descriptives
semblables
L’idée est donc de se focaliser sur les proximités pour en
rendre compte dans la représentation simplifiée ou
synthétique recherchée du tableau de données
Pour mesurer les distances entre les éléments d’un tableau
de données, la distance à utiliser ne sera pas la même.
Celle-ci est différente selon le type des variables que l’on
cherche à synthétiser :
1 si les variables sont de type échelle, une distance
euclidienne standard peut s’appliquer
Introduction

Cours
d’analyse de
Ainsi, certains éléments du tableau pourront être
données considérés comme proches, d’autres, distants
,→ par exemple, nous pourrons nous apercevoir
Introduction
que deux variables sont très corrélées, ou que
Rappels sur
les statistiques deux individus ont des comportements très
descriptives
semblables
L’idée est donc de se focaliser sur les proximités pour en
rendre compte dans la représentation simplifiée ou
synthétique recherchée du tableau de données
Pour mesurer les distances entre les éléments d’un tableau
de données, la distance à utiliser ne sera pas la même.
Celle-ci est différente selon le type des variables que l’on
cherche à synthétiser :
1 si les variables sont de type échelle, une distance
euclidienne standard peut s’appliquer
2 si les variables sont nominales, on peut utiliser une
distance de type Khi-deux.
Introduction

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques
descriptives
Rappels sur les statistiques descriptives

Cours
d’analyse de
données

Introduction
Plan
Rappels sur
les statistiques 1 Qu’est-ce que la statistique ?
descriptives
Rappels sur les statistiques descriptives

Cours
d’analyse de
données

Introduction
Plan
Rappels sur
les statistiques 1 Qu’est-ce que la statistique ?
descriptives
2 Définitions de base.
Rappels sur les statistiques descriptives

Cours
d’analyse de
données

Introduction
Plan
Rappels sur
les statistiques 1 Qu’est-ce que la statistique ?
descriptives
2 Définitions de base.
3 Les différentes problématiques de la statistique descriptive.
Rappels sur les statistiques descriptives

Cours
d’analyse de
données

Introduction
Plan
Rappels sur
les statistiques 1 Qu’est-ce que la statistique ?
descriptives
2 Définitions de base.
3 Les différentes problématiques de la statistique descriptive.
4 Comment organiser les donnée
Rappels sur les statistiques descriptives

Cours
d’analyse de
données

Introduction
Plan
Rappels sur
les statistiques 1 Qu’est-ce que la statistique ?
descriptives
2 Définitions de base.
3 Les différentes problématiques de la statistique descriptive.
4 Comment organiser les donnée
5 Caractréristiques numériques d’une série quantitative
Rappels sur les statistiques descriptives

Cours
d’analyse de
données

Introduction
Plan
Rappels sur
les statistiques 1 Qu’est-ce que la statistique ?
descriptives
2 Définitions de base.
3 Les différentes problématiques de la statistique descriptive.
4 Comment organiser les donnée
5 Caractréristiques numériques d’une série quantitative
6 Liaison entre deux variables statistiques
Qu’est-ce que la statistique ?

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques
descriptives
Statistique = ensemble de méthodes permettant de décrire et
d’analyser des observations (ou données). Ces observations
consistent généralement en la mesure d’une ou plusieurs
caractéristiques communes sur un ensemble de personnes ou
d’objets équivalents.
Définitions de base.

Cours
d’analyse de
1 L’ensemble de personnes ou d’objets équivalents étudiés
données
s’appelle la population.
Introduction

Rappels sur
les statistiques
descriptives
Définitions de base.

Cours
d’analyse de
1 L’ensemble de personnes ou d’objets équivalents étudiés
données
s’appelle la population.
Introduction
2 Chaque objet d’une population s’appelle un individus ou
Rappels sur
unité statistique.
les statistiques
descriptives
Définitions de base.

Cours
d’analyse de
1 L’ensemble de personnes ou d’objets équivalents étudiés
données
s’appelle la population.
Introduction
2 Chaque objet d’une population s’appelle un individus ou
Rappels sur
unité statistique.
les statistiques
descriptives
3 L’ensemble de la population considérée s’appelle
l’échantillon. Le nombre d’individus dans l’échantillon est
la taille de l’échantillon.
Définitions de base.

Cours
d’analyse de
1 L’ensemble de personnes ou d’objets équivalents étudiés
données
s’appelle la population.
Introduction
2 Chaque objet d’une population s’appelle un individus ou
Rappels sur
unité statistique.
les statistiques
descriptives
3 L’ensemble de la population considérée s’appelle
l’échantillon. Le nombre d’individus dans l’échantillon est
la taille de l’échantillon.
4 Une caractéristique est la propriété ou l’aspect singulier
que l’on se propose d’observer dans la population ou
l’échantillon.
Définitions de base.

Cours
d’analyse de
1 L’ensemble de personnes ou d’objets équivalents étudiés
données
s’appelle la population.
Introduction
2 Chaque objet d’une population s’appelle un individus ou
Rappels sur
unité statistique.
les statistiques
descriptives
3 L’ensemble de la population considérée s’appelle
l’échantillon. Le nombre d’individus dans l’échantillon est
la taille de l’échantillon.
4 Une caractéristique est la propriété ou l’aspect singulier
que l’on se propose d’observer dans la population ou
l’échantillon.
5 Les caractéristiques que l’on mesure s’appellent des
variables. Les mesures s’appellent des observations.
Définitions de base.

Cours
d’analyse de
1 L’ensemble de personnes ou d’objets équivalents étudiés
données
s’appelle la population.
Introduction
2 Chaque objet d’une population s’appelle un individus ou
Rappels sur
unité statistique.
les statistiques
descriptives
3 L’ensemble de la population considérée s’appelle
l’échantillon. Le nombre d’individus dans l’échantillon est
la taille de l’échantillon.
4 Une caractéristique est la propriété ou l’aspect singulier
que l’on se propose d’observer dans la population ou
l’échantillon.
5 Les caractéristiques que l’on mesure s’appellent des
variables. Les mesures s’appellent des observations.
6 La série d’observations recueillies s’appelle série
statistique. Elle est généralement retranscrite dans un
tableau de données.
Définitions de base.

Cours
d’analyse de
données
1 Les variables :
Introduction

Rappels sur
les statistiques
descriptives
Définitions de base.

Cours
d’analyse de
données
1 Les variables :
Introduction
Variables quantitatives : caractéristiques numériques (taille,
age,. . .). S’expriment par des nombres réels sur lesquels les
Rappels sur
les statistiques opérations arithmétiques de base (somme, moyenne,. . .)
descriptives
ont un sens. Peuvent être discrètes(nombre fini ou
dénombrable de valeurs : age,...) ou continues (toutes les
valeurs réelles sont susceptibles d’être prises : taille,. . .).
Définitions de base.

Cours
d’analyse de
données
1 Les variables :
Introduction
Variables quantitatives : caractéristiques numériques (taille,
age,. . .). S’expriment par des nombres réels sur lesquels les
Rappels sur
les statistiques opérations arithmétiques de base (somme, moyenne,. . .)
descriptives
ont un sens. Peuvent être discrètes(nombre fini ou
dénombrable de valeurs : age,...) ou continues (toutes les
valeurs réelles sont susceptibles d’être prises : taille,. . .).
Variables qualitatives : caractéristiques non numériques
dans le sens où les opérations de base n’ont pas de sens.
Peuvent être nominales(sexe,..) ou ordinaleslorsque
l’ensemble des catégories est muni d’un ordre total (très
résistant, assez résistant, peu résistant,..). Les différents
niveaux d’une variable qualitative s’appellent des
modalités(ou catégories).
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction

Rappels sur
les statistiques
descriptives
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction Résumer, synthétiser l’information contenue dans une série
Rappels sur statistique, mettre en évidence ses propriétés.
les statistiques
descriptives
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction Résumer, synthétiser l’information contenue dans une série
Rappels sur statistique, mettre en évidence ses propriétés.
les statistiques
descriptives Suggérer des hypothèses relatives à la population dont est
issu l’échantillon
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction Résumer, synthétiser l’information contenue dans une série
Rappels sur statistique, mettre en évidence ses propriétés.
les statistiques
descriptives Suggérer des hypothèses relatives à la population dont est
issu l’échantillon
2 Outils utilisés :
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction Résumer, synthétiser l’information contenue dans une série
Rappels sur statistique, mettre en évidence ses propriétés.
les statistiques
descriptives Suggérer des hypothèses relatives à la population dont est
issu l’échantillon
2 Outils utilisés :
Tableaux (table des fréquences,..)
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction Résumer, synthétiser l’information contenue dans une série
Rappels sur statistique, mettre en évidence ses propriétés.
les statistiques
descriptives Suggérer des hypothèses relatives à la population dont est
issu l’échantillon
2 Outils utilisés :
Tableaux (table des fréquences,..)
Graphiques (histogrammes,..)
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction Résumer, synthétiser l’information contenue dans une série
Rappels sur statistique, mettre en évidence ses propriétés.
les statistiques
descriptives Suggérer des hypothèses relatives à la population dont est
issu l’échantillon
2 Outils utilisés :
Tableaux (table des fréquences,..)
Graphiques (histogrammes,..)
Indicateurs (moyenne, corrélation,..).
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction Résumer, synthétiser l’information contenue dans une série
Rappels sur statistique, mettre en évidence ses propriétés.
les statistiques
descriptives Suggérer des hypothèses relatives à la population dont est
issu l’échantillon
2 Outils utilisés :
Tableaux (table des fréquences,..)
Graphiques (histogrammes,..)
Indicateurs (moyenne, corrélation,..).
3 Méthodes :
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction Résumer, synthétiser l’information contenue dans une série
Rappels sur statistique, mettre en évidence ses propriétés.
les statistiques
descriptives Suggérer des hypothèses relatives à la population dont est
issu l’échantillon
2 Outils utilisés :
Tableaux (table des fréquences,..)
Graphiques (histogrammes,..)
Indicateurs (moyenne, corrélation,..).
3 Méthodes :
Statistique descriptive classiques (uni et bidimensionnelles)
Les différentes problématiques de la statistique
descriptive.
Cours
d’analyse de
données
1 Objectifs :
Introduction Résumer, synthétiser l’information contenue dans une série
Rappels sur statistique, mettre en évidence ses propriétés.
les statistiques
descriptives Suggérer des hypothèses relatives à la population dont est
issu l’échantillon
2 Outils utilisés :
Tableaux (table des fréquences,..)
Graphiques (histogrammes,..)
Indicateurs (moyenne, corrélation,..).
3 Méthodes :
Statistique descriptive classiques (uni et bidimensionnelles)
Méthodes d’analyse des données.
Comment organiser les donnée

Cours
d’analyse de On regroupe toutes les données de la série statistique dans un
données
tableau indiquant la répartition des individus selon le caractère
étudié. Le regroupement s’effectue par classes :
Introduction

Rappels sur
1 Si le caractère est qualitatif ou discontinu, une classe
les statistiques
descriptives
contient tous les individus ayant la même modalité ou la
même valeur du caractère.
Comment organiser les donnée

Cours
d’analyse de On regroupe toutes les données de la série statistique dans un
données
tableau indiquant la répartition des individus selon le caractère
étudié. Le regroupement s’effectue par classes :
Introduction

Rappels sur
1 Si le caractère est qualitatif ou discontinu, une classe
les statistiques
descriptives
contient tous les individus ayant la même modalité ou la
même valeur du caractère.
2 Si le caractère est continu, une classe est un intervalle
Comment organiser les donnée

Cours
d’analyse de On regroupe toutes les données de la série statistique dans un
données
tableau indiquant la répartition des individus selon le caractère
étudié. Le regroupement s’effectue par classes :
Introduction

Rappels sur
1 Si le caractère est qualitatif ou discontinu, une classe
les statistiques
descriptives
contient tous les individus ayant la même modalité ou la
même valeur du caractère.
2 Si le caractère est continu, une classe est un intervalle
Pour construire ces intervalles, on respecte les règles
suivantes :
Comment organiser les donnée

Cours
d’analyse de On regroupe toutes les données de la série statistique dans un
données
tableau indiquant la répartition des individus selon le caractère
étudié. Le regroupement s’effectue par classes :
Introduction

Rappels sur
1 Si le caractère est qualitatif ou discontinu, une classe
les statistiques
descriptives
contient tous les individus ayant la même modalité ou la
même valeur du caractère.
2 Si le caractère est continu, une classe est un intervalle
Pour construire ces intervalles, on respecte les règles
suivantes :
* Le nombre de classes est compris entre 5 et
20 (de préférence entre 6 et 12)
Comment organiser les donnée

Cours
d’analyse de On regroupe toutes les données de la série statistique dans un
données
tableau indiquant la répartition des individus selon le caractère
étudié. Le regroupement s’effectue par classes :
Introduction

Rappels sur
1 Si le caractère est qualitatif ou discontinu, une classe
les statistiques
descriptives
contient tous les individus ayant la même modalité ou la
même valeur du caractère.
2 Si le caractère est continu, une classe est un intervalle
Pour construire ces intervalles, on respecte les règles
suivantes :
* Le nombre de classes est compris entre 5 et
20 (de préférence entre 6 et 12)
* Chaque fois que cela est possible, les
amplitudes des classes sont égales.
Comment organiser les donnée

Cours
d’analyse de On regroupe toutes les données de la série statistique dans un
données
tableau indiquant la répartition des individus selon le caractère
étudié. Le regroupement s’effectue par classes :
Introduction

Rappels sur
1 Si le caractère est qualitatif ou discontinu, une classe
les statistiques
descriptives
contient tous les individus ayant la même modalité ou la
même valeur du caractère.
2 Si le caractère est continu, une classe est un intervalle
Pour construire ces intervalles, on respecte les règles
suivantes :
* Le nombre de classes est compris entre 5 et
20 (de préférence entre 6 et 12)
* Chaque fois que cela est possible, les
amplitudes des classes sont égales.
* Chaque classe (sauf la dernière) contient sa
borne inférieure mais pas sa borne
supérieure.
Comment organiser les données

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques Dans les calculs, une classe sera représentée par son
descriptives
centre, qui est le milieu de l’intervalle.
Comment organiser les données

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques Dans les calculs, une classe sera représentée par son
descriptives
centre, qui est le milieu de l’intervalle.
Une fois la classe constituée, on considère les individus
répartis uniformément entre les deux bornes (ce qui
entraîne une perte d’informations par rapport aux données
brutes).
Comment organiser les donnée

Cours
d’analyse de
données
Que faut-il indiquer pour chaque classe ?
Introduction

Rappels sur
les statistiques
descriptives
Comment organiser les donnée

Cours
d’analyse de
données
Que faut-il indiquer pour chaque classe ?
Introduction L’effectif : nombre d’individus de la classe : on le note ni
Rappels sur (i est l’indice de la classe).
les statistiques
descriptives
Comment organiser les donnée

Cours
d’analyse de
données
Que faut-il indiquer pour chaque classe ?
Introduction L’effectif : nombre d’individus de la classe : on le note ni
Rappels sur (i est l’indice de la classe).
les statistiques
descriptives La fréquence : proportion d’individus de la population ou
de l’échantillon appartenant à la classe : on la note fi
fi et ni sont liés par : fi = nNi où N est le nombre total
d’individus dans la population.
Comment organiser les donnée

Cours
d’analyse de
données
Que faut-il indiquer pour chaque classe ?
Introduction L’effectif : nombre d’individus de la classe : on le note ni
Rappels sur (i est l’indice de la classe).
les statistiques
descriptives La fréquence : proportion d’individus de la population ou
de l’échantillon appartenant à la classe : on la note fi
fi et ni sont liés par : fi = nNi où N est le nombre total
d’individus dans la population.
L’effectif (ou la fréquence) cumulé(e) : effectif ( ou
fréquence) de la classe augmenté(e) de ceux (ou celles) des
classes précédentes (lorsque la variable statistique est
quantitative). La fréquence cumulée est une fonction F de
la borne supérieure de la classe (dans le cas d’une variable
statistique continue).
Comment organiser les donnée

Cours
d’analyse de
Diagrammes
données Pour une variable statistique qualitative : On utilise des
diagrammes à secteurs circulaires, des diagrammes en
Introduction
tuyaux d’orgue, des diagrammes en bandes. Le principe est
Rappels sur
les statistiques de représenter des aires proportionnelles aux fréquences de
descriptives
la variable statistique.
Comment organiser les donnée

Cours
d’analyse de
Diagrammes
données Pour une variable statistique qualitative : On utilise des
diagrammes à secteurs circulaires, des diagrammes en
Introduction
tuyaux d’orgue, des diagrammes en bandes. Le principe est
Rappels sur
les statistiques de représenter des aires proportionnelles aux fréquences de
descriptives
la variable statistique.
Pour une variable statistique discrète : On utilise un
diagramme différentiel en bâtons, complété du diagramme
des fréquences cumulées appelé diagramme cumulatif. Le
diagramme cumulatif est la représentation graphique d’une
fonction F, appelée fonction de répartition de la variable
statistique.
Comment organiser les donnée

Cours
d’analyse de
Diagrammes
données Pour une variable statistique qualitative : On utilise des
diagrammes à secteurs circulaires, des diagrammes en
Introduction
tuyaux d’orgue, des diagrammes en bandes. Le principe est
Rappels sur
les statistiques de représenter des aires proportionnelles aux fréquences de
descriptives
la variable statistique.
Pour une variable statistique discrète : On utilise un
diagramme différentiel en bâtons, complété du diagramme
des fréquences cumulées appelé diagramme cumulatif. Le
diagramme cumulatif est la représentation graphique d’une
fonction F, appelée fonction de répartition de la variable
statistique.
Pour une variable statistique continue : On utilise un
histogramme, le polygone des effectifs (ou des fréquences),
La courbe cumulative (ou polygone des fréquences
cumulées).
Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données
Caractréristiques de position
Le mode : désigné par Mo est la valeur de la variable
Introduction statistique la plus fréquente.
Rappels sur Dans le cas d’une variable statistique continue, on parle
les statistiques
descriptives plutôt de classe modale.
Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données
Caractréristiques de position
Le mode : désigné par Mo est la valeur de la variable
Introduction statistique la plus fréquente.
Rappels sur Dans le cas d’une variable statistique continue, on parle
les statistiques
descriptives plutôt de classe modale.
La médiane : désignée par Me, est la valeur de la variable
telle qu’il y ait autant d’observations, en dessous d’elle
qu’au dessus ou, ce qui revient au même, la valeur
correspondant à 50% des observations.
Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données
Caractréristiques de position
Le mode : désigné par Mo est la valeur de la variable
Introduction statistique la plus fréquente.
Rappels sur Dans le cas d’une variable statistique continue, on parle
les statistiques
descriptives plutôt de classe modale.
La médiane : désignée par Me, est la valeur de la variable
telle qu’il y ait autant d’observations, en dessous d’elle
qu’au dessus ou, ce qui revient au même, la valeur
correspondant à 50% des observations.
Si la variable est continue, Me vérifie F (Me) = 0.5 ,où F
est la fonction de répartition de la variable. On détermine
alors un intervalle médian(intervalle contenant la
médiane), puis on procède à l’intérieur de cette classe à
une interpolation linéaire.
Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données Caractréristiques de position
La moyenne arithmétique : Lorsque x désigne la variable
Introduction statistique, la valeur moyenne, ou moyenne de la série se
Rappels sur note m ou x̄ .
les statistiques
descriptives
Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données Caractréristiques de position
La moyenne arithmétique : Lorsque x désigne la variable
Introduction statistique, la valeur moyenne, ou moyenne de la série se
Rappels sur note m ou x̄ .
les statistiques
descriptives Si les observations ne sont pas groupées (cas discrete)
n
1 X
x̄ = xk
N
k=1
Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données Caractréristiques de position
La moyenne arithmétique : Lorsque x désigne la variable
Introduction statistique, la valeur moyenne, ou moyenne de la série se
Rappels sur note m ou x̄ .
les statistiques
descriptives Si les observations ne sont pas groupées (cas discrete)
n
1 X
x̄ = xk
N
k=1

Si les observations sont groupées (cas continue)


n
1 X
x̄ = nk xk
N
k=1

xk : centre de la classe k, nk : effectif de la classe k.


Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données

La variance :
Introduction

Rappels sur
les statistiques
descriptives
Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données

La variance :
Introduction Cas discrete :
Rappels sur
les statistiques n
1 X
descriptives
Var (x ) = (xk − x̄ )2
N
k=1
Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données

La variance :
Introduction Cas discrete :
Rappels sur
les statistiques n
1 X
descriptives
Var (x ) = (xk − x̄ )2
N
k=1

Cas continue :
n
1 X
Var (x ) = nk (xk − x̄ )2
N
k=1
Caractréristiques numériques d’une série
quantitative
Cours
d’analyse de
données

La variance :
Introduction Cas discrete :
Rappels sur
les statistiques n
1 X
descriptives
Var (x ) = (xk − x̄ )2
N
k=1

Cas continue :
n
1 X
Var (x ) = nk (xk − x̄ )2
N
k=1

p
Écart-type : σ(x ) = Var (x )
Liaison entre deux variables statistiques

Cours
d’analyse de
Visualisation : Le graphique le plus adaptépour observer les
données variations simultanées de deux variables quantitatives est le
nuage de points, représentant les n points de coordonnées
Introduction
(xi , yi ) dans un repère du plan.
Rappels sur
les statistiques
descriptives
Liaison entre deux variables statistiques

Cours
d’analyse de Analyse de la liaison linéaire entre deux variables
données
quantitatives
1 Pn
Introduction 1 La covariance : Cov (x , y ) = N k=1 (xk − x̄ )(yk − ȳ ).
Rappels sur
les statistiques
descriptives

Evaluation de la qualité de la régression :


Liaison entre deux variables statistiques

Cours
d’analyse de Analyse de la liaison linéaire entre deux variables
données
quantitatives
1 Pn
Introduction 1 La covariance : Cov (x , y ) = N k=1 (xk − x̄ )(yk − ȳ ).
Rappels sur Cov (x ,y )
les statistiques
2 Le coefficient de corrélation : r (x , y ) := √ .
descriptives Var (x ).Var (y )
Evaluation de la qualité de la régression :
Liaison entre deux variables statistiques

Cours
d’analyse de Analyse de la liaison linéaire entre deux variables
données
quantitatives
1 Pn
Introduction 1 La covariance : Cov (x , y ) = N k=1 (xk − x̄ )(yk − ȳ ).
Rappels sur Cov (x ,y )
les statistiques
2 Le coefficient de corrélation : r (x , y ) := √ .
descriptives Var (x ).Var (y )
Evaluation de la qualité de la régression :
1 Il y a corrélation positive lorsque les variations de x et y se
produisent dans le même sens, corrélation négative sinon.
Plus les points sont étroitement alignés, plus la corrélation
est proche de 1.
Liaison entre deux variables statistiques

Cours
d’analyse de Analyse de la liaison linéaire entre deux variables
données
quantitatives
1 Pn
Introduction 1 La covariance : Cov (x , y ) = N k=1 (xk − x̄ )(yk − ȳ ).
Rappels sur Cov (x ,y )
les statistiques
2 Le coefficient de corrélation : r (x , y ) := √ .
descriptives Var (x ).Var (y )
Evaluation de la qualité de la régression :
1 Il y a corrélation positive lorsque les variations de x et y se
produisent dans le même sens, corrélation négative sinon.
Plus les points sont étroitement alignés, plus la corrélation
est proche de 1.
2 |r (x , y )| = 1 si l’on a une relation de type linéaire entre les
variables.
Liaison entre deux variables statistiques

Cours
d’analyse de Analyse de la liaison linéaire entre deux variables
données
quantitatives
1 Pn
Introduction 1 La covariance : Cov (x , y ) = N k=1 (xk − x̄ )(yk − ȳ ).
Rappels sur Cov (x ,y )
les statistiques
2 Le coefficient de corrélation : r (x , y ) := √ .
descriptives Var (x ).Var (y )
Evaluation de la qualité de la régression :
1 Il y a corrélation positive lorsque les variations de x et y se
produisent dans le même sens, corrélation négative sinon.
Plus les points sont étroitement alignés, plus la corrélation
est proche de 1.
2 |r (x , y )| = 1 si l’on a une relation de type linéaire entre les
variables.
3 r (x , y ) = 0 s’il n’existe aucun lien linéaire entre X et Y .
On dit que les variables sont non corrélées.
Liaison entre deux variables statistiques

Cours
d’analyse de
données

Introduction
Méthode des moindres carrés Lorsque les points du nuage
Rappels sur paraissent relativement alignés, on va chercher à déterminer
les statistiques
descriptives
l’équation de la droite qui passe le plus prés possible de tous les
points. La méthode dite des moindres carrés consiste à
déterminer l’équation de la droite qui rend minimale la somme
des carrés des écarts entre chaque point du nuage et la droite.
Selon que les écarts sont mesurés parallèlement à l’axe des
ordonnées ou à l’axe des abscisses, on obtient la droite de
régression de Y en X d’équation Y = aX + b ou la droite de
régression de X en Y d’équation X = a′ Y + b ′ .
Liaison entre deux variables statistiques

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques
descriptives
Liaison entre deux variables statistiques

Cours
d’analyse de
données

Méthode des moindres carrés


Introduction

Rappels sur
L’équation de la droite de régression de Y en X est
les statistiques
descriptives
Cov (X , Y ) Cov (X , Y )
Y = X + (ȳ − x̄ )
Var (X ) Var (X )
Liaison entre deux variables statistiques

Cours
d’analyse de
données

Méthode des moindres carrés


Introduction

Rappels sur
L’équation de la droite de régression de Y en X est
les statistiques
descriptives
Cov (X , Y ) Cov (X , Y )
Y = X + (ȳ − x̄ )
Var (X ) Var (X )

L’équation de la droite de régression de X en Y est

Cov (X , Y ) Cov (X , Y )
X= Y + (x̄ − ȳ )
Var (Y ) Var (Y )
Exercices

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques
descriptives
Exercices

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques
descriptives
Exercices

Cours
d’analyse de
données

Introduction

Rappels sur
les statistiques
descriptives

Vous aimerez peut-être aussi