Vous êtes sur la page 1sur 79

FST de Tanger (2016-17)

Master Informatique

Statistiques descriptives à une variable

1
3.1 Généralités sur la statistique
 LA STATISTIQUE : La statistique est un
ensemble de méthodes scientifiques qui permettent
de rassembler et d'analyser les données
numériques.
 LE DOUBLE SENS DU MOT "STATISTIQUE" : Il
ne faut pas confondre la statistique qui est la
science qui vient d’être définie et une statistique
qui est un ensemble de nombres présentés sous
forme de tableaux ou de graphiques et concernant
un sujet déterminé. 2
 LA STATISTIQUE DESCRIPTIVE : On
parle de statistique descriptive lorsqu’on
décrit et analyse des données observées et
qu’on tire des conclusions valables uniquement
pour l’ensemble étudié. Elle peut se résumer
par le schéma suivant :

3
3.2 Analyse descriptive univariée
 Terminologie de base
Population: C’est l’ensemble des individus (objets de l’étude)
homogènes auxquels on s’intéresse.
Taille notée : N
Exemples : La population statistique peut être :
– Le personnel d’une entreprise, donc des humains.
– Le parc automobile, donc des voitures,
– Les vaches de la région, donc des animaux.
– Les accidents de voitures en 2015, donc un état non concret.
Recensement: Etude de tous les individus composant une population
finie (pas toujours facile bien sûr).
 Échantillon: Lorsque la population est trop
importante, on étudie un échantillon, c’est-à-dire
un sous-ensemble, beaucoup plus petit, de la
population. Le choix de l’échantillon se fait en
respectant certaines règles (théorie des sondages).
n = Taille de l’échantillon
 Echantillonnage: L'opération qui consiste à
extraire un échantillon s'appelle échantillonnage.
Une méthode, simple et pratique, d'extraction d'un
échantillon consiste à faire un tirage au hasard.
5
Le but de l'échantillonnage est de substituer, à l'étude,
impossible, de la population globale, supposée de taille
trop grande, l'étude de l'échantillon, choisi de taille plus
réduite. Il doit être convenablement constitué, car la
fiabilité des résultats, et leur crédibilité, en dépend dans
une large mesure.

Figure 1: Illustration du contexte général d’une analyse statistique

N.B : On s’intéresse à une population, mais on ne dispose que d’un échantillon.


Enquête (statistique) : c’est l’ opération
consistant à observer (ou mesurer, ou
questionner…) l’ensemble des individus d’un
échantillon (ou, éventuellement, de la population
complète).
VARIABLES OU (CARACTERES) :
Un individu donné de la population peut être
étudié selon certaines propriétés. Ces propriétés
sont appelées caractères ou variables statistiques.
a.1) VARIABLES QUALITATIVES :
Ces caractères ne sont pas de nature
numérique et aucune opération
arithmétique n’est possible (même si,
parfois, elles peuvent être codées par un
nombre). Les valeurs prises par ces
variables sont appelées modalités.
Exemples :
• Mention au bac
• Seuil de gravité d’une maladie
On peut distinguer deux types de variables qualitatives :
 Les Variables qualitatives nominales :
Ce sont les variables sur lesquels on ne peut faire ni
opération arithmétique, ni comparaison.
Exemples : Le sexe (masculin, féminin), la
nationalité (Marocaine, Canadienne, Française,..),
les cours suivis durant une session (mathématiques,
anglais, philosophie,..), etc…
Les Variables qualitatives Ordinales :
Une variable qualitative ordinale prend des valeurs qui
sont ordonnées, hiérarchisées. On peut classer les
modalités les unes par rapport aux autres mais on ne
peut pas dire à partir de cet ordre de « combien » est la
différence entre deux modalités. La modalité est la
valeur que peut prendre une variable.
Exemple: Le niveau scolaire (primaire, secondaire,
collégial, universitaire), le comportement lors d’une
réception (incongru, correct, parfait,..),
 Une variable dichotomique est une variable
qui ne comporte que 2 modalités. Par exemple:
"H" ou "F", "présence " ou "absence", "positif" ou "négatif",
"marche" ou "arrêt" ...
Variable quantitative discrète :
Une variable est dite discrète, quand elle prend un
nombre fini de valeurs.
Exemple: Le nombre de personnes dans une famille est
une variable discrète (qui pourra être de 1, 2, 3, · · · , mais
pas de 1.5, d’où le fait qu’il s’agit d’une variable discrète
et non continue).
Remarque : Quand le nombre de valeurs prises par
 Variable quantitative continue :
Une variable est dite continue, quand elle prend toute valeur
comprise entre deux nombres donnés.

Par exemple, la taille est une variable continue. En effet, entre


une personne mesurant 160 cm et 161 cm, on peut imaginer une
infinité de valeurs (ce qui n’existe pas entre 1 et 2 enfants par
exemple)
Tableaux statistiques
Le tableau de distribution de fréquences est un mode synthétique de
présentation des données. Sa constitution est immédiate dans le cas d’un
caractère discret mais nécessite en revanche une transformation des
données dans le cas d’un caractère continu.
Effectif et fréquence :
L’effectif est le nombre d´individus présentant chaque modalité, on
l’appelle aussi la fréquence absolue. L’effectif total est la somme de tous
les effectifs d’une variable.
Exemple : L’effectif des étudiants ayant 18 ans : 50
• L’ effectif des étudiants ayant 20 ans : 200
• L’ effectif total est donc de 250
• La fréquence relative est le quotient de l´effectif de la modalité sur
l´effectif total. La fréquence totale est toujours égale à 1.
Exemple : une étude sur l’état matrimonial des salariés de la société X :
• Population : salariés de la société X.
• Unité statistique (individu) : chaque salarié de la société X.
• Variable (caractère) étudiée : état matrimonial avec 4 modalités :
célibataire, marié, veuf, divorcé.
• Effectif: l’effectif de la modalité célibataire = nc, marié = nm, veuf = nv,
divorcé = nd.
• Effectif total: N = nc + nm + nv + nd.
• Fréquence: fréquence de la modalité célibataire = nc/N , marié = nm/N,
veuf=nv/N , divorcé = nd/N .
• Fréquence totale = (nc+nm+nv+nd)/N = N/N = 1.
 Fréquences cumulées
• La notion des effectifs cumulés permet de répondre
à des questions de type :
• Combien a t-on d’étudiants dont les parents ont plus de 3000 dhs ?
• Combien a t-on d‘étudiants dont les parents ont moins de 9000 dhs ?
• Quand les modalités ou les classes d'une variable sont
rangées dans l'ordre croissant, les effectifs cumulés
croissants d'une valeur s'obtient en ajoutant à chaque
effectif les effectifs des valeurs qui la précédent. Les
fréquences cumulées s'obtiennent en divisant les effectifs
cumulés par l'effectif total.
Exemple 1 :
Pour une classe de 30 étudiants, on connaît le nombre de frères et sœurs
de chaque élève. Il s’agit d’une série statistique à variable (caractère)
discret. On obtient le tableau suivant (Tab.1) :
Nombre de frères et sœurs Xi 0 1 2 3 4 5
Effectif ni 4 12 8 3 2 1
Effectif cumulé croissant 4 16 24 27 29 30
Fréquence fi (valeur approchée) 0.13 0.40 0.27 0.10 0.07 0.03
Fréquence cumulée croissante
(valeur approchée) 0,13 0.53 0.80 0.90 0.97 1

Par exemple, l’effectif cumulé 24 obtenu pour Xi = 2 signifie que 24 étudiants ont
2 frères et sœurs au maximum. Ce nombre 24 est obtenu en ajoutant les deux nombres :
16 l’effectif cumulé précédent et 8 l’effectif correspondant à Xi = 2. Les fréquences
peuvent aussi être exprimées en pourcentage : par exemple 13% correspond à 0,13.
Exemple 2 :
• On a relevé dans une entreprise de 125 employés le temps, en
minutes, consacré à la pratique d’un sport par semaine. Il
s’agit d’une série statistique à variable continue.
• On obtient le tableau suivant (Tab.2):
Temps en minutes Xi [0 ; 20[ [20 ; 40[ [40 ; 60[ [60 ; 100[ [100 ; 140[ [140 ; 200]
Effectif ni 35 41 30 12 5 2
Effectif cumulé croissant 35 76 106 118 123 125
Fréquence 0.28 0.32 0.24 0.10 0.04 0.02
Fréquence cumulée 1
croissante 0.28 0.60 0.84 0.94 0.98

Le troisième effectif cumulé est 106 ; cela signifie que 106


employés de l’entreprise consacrent moins d’une heure par
semaine à la pratique d’un sport.
 Représentations graphiques pour une variable
L’idée est de résumer visuellement l’information portée par les
observations recueillies sur une variable. Les représentations
diffèrent suivant la nature des variables. On propose ici une
représentation par type de variable.
a) Variables qualitatives
• Diagramme en barre : dans ce diagramme, les modalités de la
variable sont placées sur une droite horizontale et les effectifs
(ou les fréquences) sont placés sur un axe vertical. La hauteur
de la barre est proportionnelle à l'effectif (exemple en Fig.1).
Les barres ont une certaine épaisseur pour qu'il n'y ait pas de
confusion avec les diagrammes en bâtons réservés à des
variables quantitatives discrètes (figure).
Fig.1 : Exemple de diagramme en barre (figure extraite)
Diagramme circulaire ou camembert : L'effectif total est représenté
par un disque. Chaque modalité est représentée par un secteur
circulaire dont la surface (pratiquement : l'angle au centre) est
proportionnelle à l'effectif correspondant (Fig.2). L'angle de chaque
modalité se calcule par :
effectif de chaque modalité
 360o
effectif total
Fig. 2: Exemple de diagramme circulaire (figure extraite).

Variables quantitatives
Variables discrètes (diagramme en bâtons) :
Pour représenter une variable statistique discrète, on utilise un diagramme
en bâtons (chaque bâton a une hauteur proportionnelle à l'effectif et/ou à
la fréquence) ou un diagramme circulaire (chaque secteur est
proportionnel à l'effectif et/ou à la fréquence) (Fig.3).
Fig.3 : Exemple de diagramme en bâtons
Variables continues :
Pour représenter une variable statistique continue, on trace un
histogramme. L'histogramme est constitué de rectangles juxtaposés
dont la surface est proportionnelle à l'effectif de la classe
correspondante.
• Histogramme
En statistiques, un histogramme est un graphique permettant
de représenter la répartition d'une variable continue :
• sur l'axe des abscisses, on repère les classes ;
• sur l'axe des ordonnées, on repère les effectifs ou les
fréquences (souvent exprimées en pourcentage).
Fig. 4 : Exemple d'histogrammes.
Les classes
• L’idée est de regrouper les valeurs dans des classes ([aj­1; aj[) j=1...k.
On peut ensuite associer à chaque classe le nombre nj d’observations
(xi) i=1,...,n appartenant à la classe [aj­1; aj[.
• Lorsque l’on calcule les fréquences d’une série statistique ou d’une
série regroupée par classe, le calcul est le même:
Classes [a0; a1[ [a1; a2[ . . . [ak­1; ak[ total
Effectifs n1 n2 ... nk N
Fréquences f1 f2 ... fk 1
• Les fréquences sont données par fi =ni/N.
• Comment choisir les classes ?
Le choix des classes, soit leur nombre et leurs largeurs, n'est
pas univoque. Pour cela, on se fixe une borne inferieure de
l’échantillon a0 < x1 et une borne supérieure ak>xN.
Un choix fréquent est a0=x(1) 0.025(x(n)x(1)) et
ak=x(n)+0.025(x(n) x(1)).
• On partitionne l’intervalle [a0,ak[, contenant toutes les
observations, en k intervalles [aj­1, aj[ appelés classes.
• La largeur de la classe j est hj= aj – aj­1. Si toutes les classes
sont de même largeur h = (ak  a0)/k, on dit que l’on fait un
histogramme à pas fixe. Si les hj ne sont pas tous égaux,
on dit que l’on fait un histogramme à pas variable.
En pratique, il est conseillé de suivre les règles suivantes :
Le nombre de classes pour la série en utilisant l’une des formules
empiriques suivantes :
 La règle de STURGE : Nombre de classes = 1+ (3.3log10(N))
 La règle de YULE : Nombre de classes = 2.5 4 N ,

(N= taille de la série)


Définition de l’intervalle de classe :
La largeur h théorique de chaque classe est alors :
h = (xmax - xmin)/Nombre de classes; avec xmax et xmin,
respectivement la plus grande et la plus petite valeur de la
série statistique.
1.4) Paramètres caractéristiques d’une variable
A) Paramètres de position
Les paramètres de position (ou de tendance centrale)
permettent de savoir autour de quelles valeurs se situent les
valeurs d’une variable statistique.
Moyenne arithmétique
Soit un échantillon de n valeurs observées x1, x2, ….,xi,….,xn
d’un caractère quantitatif X, on définit sa moyenne observée x
comme la moyenne arithmétique des n valeurs :
n
 x i
x  i 1
n
• Moyenne pondérée
Quand la série statistique est discrète, X, de taille n, on
peut la représenter sous forme d'un tableau du type :
X Effectif
x1 n1
x2 n2
. .
. .
xp np
n 1x 1  n 2x 2    n p x p
X
n avec : n= n1+ n2+…+ np.
1 p p
 n i  p
  n i x i     x i  fx
n i 1 i 1
n  i 1
i i
Exemple : Soit le Tableau A.1 d'une série discrète X="Qualité de
service" :
Qualité de service Effectif Produit
nixi
1 1 1
2 3 6
3 5 15
4 2 8
5 1 5

Total 12 35

11  2  3  3  5  4  2  5 1
 X  2.9
12
TP : Sous le logiciel R
qualités<-1:5
effectifs<-c(1,3,5,2,1)
weighted.mean(qualités,effectifs)
[1] 2.916667

Quand la série statistique est continue, X, de taille n, on peut la représenter sous forme d'un tableau
du type :
X Effectif Centre de classe ci : (ai+ai+1)/2 n1c1  n2c2  nkck
X
[a1, a2[ n1 c1 n
[a2, a3[ n2 c2 avec : n= n1+ n1+…+ nk
. . .
. . .
[ak-1, ak[ nk ck
Exemple : Soit le Tableau A.2 et d'une série continue suivante :
Notes Effectifs Centres

[0, 5[ 10 2.5
[5, 8[ 8 6.5
[8, 12[ 12 10
[12, 15[ 11 13.5
[15, 20] 9 17.55
Total 50

10  2.5  8  6.5  12  10  11  13.5  9  17.55


X  10.06
50
Remarque :
Pour plusieurs populations d'effectifs n1, n2, ....., nk,
de moyennes respectives :

la moyenne globale = moyenne des moyennes


TP : Sous le logiciel R
centres<-c((5+0)/2,(8+5)/2,(12+8)/2,(15+12)/2,(20+15)/2)
effectifs<-c(10,8,12,11,9)
weighted.mean(centres,effectifs)
[1] 10.069

La médiane
La médiane d'une série statistique d’une variable, X, est la valeur Me qui
partage cette série ordonnée en deux parties (inférieure et supérieure à
Me) de même effectif. Pour la calculer, on distingue trois cas :
1er cas : Si l'effectif total N de la série est impair :
La médiane est la valeur située à la position (N+1)/2 (i.e. X[(N+1)/2]).
Exemple : soit la série (X) :
X: 3 4 1 5 9 4 1 5 11 13 3 1 2
On vérifie que la série comporte N=13 valeurs. Si la série est ordonnée,
on peut affirmer que la médiane est la 7ième valeur. Rangeons cette
série en ordre de grandeur croissant :
X : 1 1 1 2 3 3 4 4 5 5 9 11 13
la médiane vaut donc Me=X[(13+1)/2]=X[7]=4.

TP : Sous le logiciel R
x=c(3,4,1,5,9,4,1,5,11,13,3,1,2)
N=length(x)
X=sort(x)
Me=X[(N+1)/2]
Me
#où
Me=median(x)
Me
[1] 4
2ème cas : Si l'effectif total N de la série est pair :
Dans ce cas, n'importe quelle valeur comprise entre les valeurs aux
positions N/2 et (N/2) + 1 peut être considérée comme une
médiane de la série. En pratique, la médiane est généralement la
moyenne de ces deux valeurs (i.e. (X[N/2]+ X[(N/2)+1])/2)
Exemple : soit la série : X : 2 8 1 7 10 5 10 2 7 4
On vérifie que la série comporte N=10 valeurs. Si la série est
ordonnée, on peut affirmer que la médiane est la 1/2 somme des
5ième et 6ième valeur. Rangeons cette série en ordre de grandeur
croissant :
1 2 2 4 5 7 7 8 10 10
la médiane vaut donc Mé=(X[(10/2)]+X[(10/2)+1])/2=6.
TP : Sous le logiciel R
x=c(2,8,1,7,10,5,10,2,7,4)
X=sort(x)
N=length(x)
Me=(X[N/2]+X[(N/2)+1])/2
Me
#où
Me=median(x)
Me
[1] 6
3ème cas : Si les valeurs prises par le variable étudié, X, sont groupées
en classe.
Dans ce cas, on cherche la classe qui contient la médiane à l’aide de la
moitié de l’effectif total (N/2) soit [xA, xB[.Cette classe peut également
être repérée sur le diagramme des effectifs (ou fréquences) cumulés
croissants. Puis on détermine explicitement la valeur de la médiane en
utilisant (l’interpolation linéaire) :
On récupère ainsi l’expression de la médiane:
N 
  nA 
 
Me  x A  2 x B  x A 
nB  nA 
Avec :
• xA : limite inférieure de la classe dans laquelle se trouve le N/2
(classe médiane).
• xB : limite supérieure de la classe dans laquelle se trouve le N/2
(classe médiane).
• nA : l’ effectif cumulé inférieur à xA
• nB : l’ effectif cumulé inférieur à xB .
Il est possible de travailler avec les fréquences plutôt que les
effectifs. Dans ce cas, les seuls modifications à apporter
concernant les effectifs nA, nB et N/2. Cette dernière valeur
devient 0.5 si On travaille avec des proportions, i. e.
0.5  fA 
Me  x A  x B  x A 
 fB  fA 
et 50(%) si on trvaille avec des pourcentages, i. e,

50  pA 
Me  x A  x B  x A 
pB  pA 
Salaire horaire ni ni cumulées croissantes
2-4 5 5
4-6 8 13
6-8 12 25
8-10 10 34
10-12 8 43
Total 43

La médiane est la valeur de rang (43 + 1) / 2 c’est à


dire 22, celle ci se trouve dans la classe 6-8, la classe
6 - 8 est donc la classe médiane.
3) Le mode
Les modes sont les valeurs de la variable X qui apparaissent le
plus fréquemment.

Détermination du mode :

Cas d'une variable discrète :

Le mode est facilement repérable. Sur le tableau statistique, c'est la


valeur xi pour laquelle la fréquence est la plus élevée.
Exemple :
Dans une étude le variable étudiée X="nombre de tasses de thé
par jour" est donnée comme suite :
X:01002220000202000000
Le mode de la série statistique est égal à 0. En effet, c’est la
valeur de la série qui admet l’effectif le plus élevé c’est-à-dire 14.
La série est unimodale.
Cas d'une variable continue :
Les données sont groupées en classes ; deux situations se
présentent: les amplitudes sont égales ou non égales.
1) Les amplitudes sont égales : on définit la classe modale
comme la classe correspondant à la fréquence la plus
élevée et en faisant l'hypothèse du centre de la classe, on
retient comme valeur modale le centre de la classe modale.
2) Les amplitudes sont inégales : il faut corriger les effectifs
ou les fréquences relatives de la même manière que pour la
construction de l'histogramme. la détermination du mode
se ramène alors au cas précédent.
Sous le logiciel R
> names(which.max(table(X)))
[1] "0"
B) paramètres de dispersion
Les paramètres de dispersion donnent des informations sur la répartition
des valeurs autour de la moyenne.
Exemple :
Les étudiants A et B ont obtenu dans une matière spécifique les notes ci-
dessous.
7,8,11,12,13,13,13 pour A,
4,7,9,12,13,13,19 pour B.
On peut vérifier que les séries de notes de A et B ont la même médiane
(12), la même moyenne (11) et le même mode (13) et pourtant, ces deux
séries de notes sont différentes : les notes de B sont plus dispersées que
celles de A.
Les paramètres de dispersion fondamentaux sont l´étendue, la variance
Etendue ou intervalle de variation
L’étendue d’une série statistique quantitative est la
différence entre la plus grande valeur de la variable
(discrète ou continue) et la plus petite valeur.
w= xmaxxmin
Exemple :
Considérons l’exemple d’étudiants, on montre aisément
que les étendues des séries de A et de B valent
respectivement eA = 13 ­7 = 6 et eB = 19 ­ 4 = 15. Les
notes de B sont donc plus étalées que celles de A.
TP : Sous le logiciel R
eA<-c(7,8,11,12,13,13,13)
eB<-c(4,7,9,12,13,13,19 )
diff(range(eA))
[1] 6
diff(range(eB))
[1] 15
4). La variance observée
 Soit une série de n valeurs observées x1, x2, ….,xi,….,xn
d’une variable quantitative X et soit x sa moyenne observée.
On définit la variance observée notée s2 comme la moyenne
arithmétique des carrés des écarts à la moyenne.
1 n
1 n
s   (x i  x )   x i  x
2 2 2 2

n i 1 n i 1
 Dans le cas de données regroupées en k classes d'effectif ni
(variable continue regroupée en classes ou variable discrète),
la formule de la variance est la suivante :
1 i k
1 i k i k
s 2   ni (x i  x )2   ni x i2  x 2 avec n   ni
n i 1 n i 1 i 1
TP : Sous le logiciel R
> var.pop <- function(x) var(x)*(length(x)-l)/length(x) # avec le
biais
> var(x)# sans biais
5. Ecart-type
L’écart-type observé correspond à la racine carrée de la
variance observée:
sx  s 2

L'écart-type sx s'exprime dans la même unité que la variable


étudiée.
Si l'écart-type est faible, cela signifie que les valeurs sont
assez concentrées autour de la moyenne et si l'écart-type est
élevé, cela veut dire au contraire que les valeurs sont plus
dispersées autour de la moyenne.
TP : Sous le logiciel R
> sd(x) # sans biais
7. Coefficient de variation
SX
CV 
X
Le CV (une mesure de la dispersion relative) permet d'apprécier la
représentativité de la moyenne par rapport à l'ensemble des observations.
Il donne une bonne idée du degré d'homogénéité d'une série.
Ainsi si le CV se situe :
Entre 0 et 15% : on dira que la moyenne est représentative de la
distribution ;
Entre 15% et 30% : on dira qu’il faut utiliser avec prudence la moyenne
de la distribution ;
À 30% et plus : On dira que la moyenne n’est pas représentative de la
distribution. C’est à dire qu’il y a des observations qui se situent très
loin de la moyenne.
TP : Sous le logiciel R
> sd(x)/mean(x)
Mesure de la dispersion (intervalle interquartile)
L’intervalle interquartile est une mesure de
dispersion correspondant à l’intervalle
comprenant 50% des observations les plus au
centre de la distribution.
Quantiles:
• Quartiles : 4 parties égales
• Déciles : 10 parties égales
• Centiles : 100 parties égales

25% 25% 25% 25%

1er quartile 2eme quartile 3eme quartile


médiane
Statistiques descriptives à deux dimensions
1. Introduction:
La statistique descriptive à deux dimensions a
pour objet de mettre en évidence les relations
qui existent entre deux séries d’observations
considérées simultanément.
2. Distribution de fréquence à deux dimensions
Les observations relatives à deux variables se
présentent sous la forme d’une série statistique
double c’est-à-dire de la suite de n couples de
valeurs observées (xi,yi) rangées dans l’ordre
croissant de l’une des deux variables.
Tableau à double enrée
Considérons une population de N individus décrits
suuivant 2 deux caractères X et Y.

X possède p modalités : x1, x2, x3, ……., xi, …….xp, Y


possède p modalités: y1, y2, y3,…….., yj,……..yl. Le
tableau statistique qui correspond à une telle
distribution est de la forme suivante:
Tableau à deux entrée
 Représentation de la distribution jointe du couple (X, Y ) : on utilise
un tableau à double entrée appelé tableau de contingence:
ni.
yj y · · · · · · · · · · · · · · · · · ·y · · · · · · · · · · yℓ
1 j

xi
x1 n11· · · · · · · · · · · · · · · · · n1j· · · · · · · · · · n1ℓ n1 .

. .
xi ni1· · · · · · · · · · · · · · · · · nij· · · · · · · · · · niℓ ni.
. .
xp np1· · · · · · · · · · · · · · · · npj· · · · · · · · · · npℓ np.
n..
n.j n.1· · · · · · · · · · · · · · · · · n.j· · · · · · · · · · n.q

 On ajoute au tableau à deux entrée les totaux en ligne et en


colonne.
 Notations:
 nij l’effectifs des modalités xi et yj
 · ; ·

 ·= · =

 · ·
; ·
·
; sont des
fréquences.
Distribution marginale

Définition:
 La distribution marginale de la variable X est
définie par les p couples (xi, ni• ).

X x1· · · · · ·· · ·· · ·xi · · · · · · · · xp
effectif n · · · ·· · n · · · · · · · · n
1• i• p• N
Distribution marginale (suite)

Définition:
 La distribution marginale de la variable Y est
définie par les p couples (yj, n•j ).

Y y1· · · · · ·· · ·· · ·yj · · · · · · · · yl
effectif n · · · ·· · n · · · · · · · · n N
•1 •j •ℓ
Distributions conditionnelles

Définition:
La distribution des observations suivant les modalités
de la variable Y sachant que la variable X prend la
modalité xi , est appelée distribution conditionnelle de
Y pour X=xi.

Y|X=xi y1· · · · · ·· · ·· · ·yj · · · · · · · · yl

effectif ni1· · · ·· · nij· · · · · · · · niℓ ni


Principales caractéristiques (1)
 Moyenne marginales :

· ·

 Variance marginales :

· ·
Principales caractéristiques (2)
 Moyenne conditionnelles de x sachant yj :

·
·
 Moyenne conditionnelles de y sachant xi :

·
·
Principales caractéristiques (3)
 Variance conditionnelles de x sachant yj :

 ·
·
 Variance conditionnelles de y sachant xi :

 ·
·
Principales caractéristiques (4)
 Covariance: :


 Independence des deux variables X et Y:
· ·
¹
Ajustement linéaire et corrélation (1)
Exemple: 95

90
Poids

85

Nom Taille xi (cm) Poids yi (kg) 80

Karim 175 73 75

Youssef 168 56 70

….. ….. ….. 65

60
Amina 185 87
55
Taille
50
150 160 170 180 190 200

La connaissance de la taille x apporte une certaine information sur le poids y

Il existe une relation de dépendance entre x et y


Ajustement linéaire et corrélation (2)

La connaissance de x n’apporte La connaissance de x permet de


aucune certaine information sur y connaître exactement la valeur de y
Il existe une relation
x et y sont indépendantes
fonctionnelle entre x et y
Ajustement linéaire et corrélation (3)
Lorsque le nuage de points obtenu dans le
diagramme de dispersion rassemble à une
droite, la relation est dite linéaire et on peut
ajuster une droite d’équation y = ax + b.
Cette droite s’appelle droite de régression de y
en fonction de x et, notée Dy/x , dont les
coefficients a et b peuvent déterminer selon la
méthode de moindres carrés et telle que:
Ajustement linéaire et corrélation (4)
n

  x i -x  y i -y 
Cov  x,y 
a = i=1
n =
V(x)
 x i -x 
2

i=1

b a
Dy/x passe par le point moyen (x, y)
Ajustement linéaire et corrélation (5)
Covariance : C ov  x,y  = 1
n

n
  x -x  y -y 
i=1
i i

Propriétés :
Cov  x,y   0  x et y varient dans le même sens
C ov  x,y   0  x et y varient en sens contraire
Cov  x,y   Cov  y,x 
Cov  x,x   V(x)
Cov  a x + b y , z   a Cov  x,z   b Cov  y,z 
Ajustement linéaire et corrélation (6)
Corrélation linéaire: ρ = c o v (x ,y )
σ ( x ) σ (y )
Propriétés :
 ρ = 1 si a > 0
1  ρ  1 y=ax+b 
ρ = -1 si a < 0
ρ 1  Il existe une relation fonctionnelle entre x et y
ρ  0  x et y sont indépendantes

0  ρ 1  Il existe une dépendance linéaire d’autant plus forte que |r| est grand
Ajustement linéaire et corrélation (7)
QUALITE D’UN AJUSTEMENT
On montre
  y -y    yˆ -y     y -yˆ 
2 2 2

que
i i i i

SCT = SCM + SCM SCR


SCR  1 
SCT SCT
Somme des carrés Somme des carrés Somme des
des écarts à la = des écarts du +carrés des
moyenne modèle résidus

L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que
SCR/SCT est proche de 0 ou SCM/SCT est proche de 1.

SCM = Coefficient de détermination = r² = (coef. de


R
SCT corrélation)²

= proportion de la variation totale due à l'ajustement

0  R 1
Ajustement linéaire et corrélation (8)
AJUSTEMENT A UNE FONCTION PUISSANCE
900
800
700
600
500
Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60

150

100

50

0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
-100
convient pas
-150
Ajustement linéaire et corrélation (9)
AJUSTEMENT A UNE FONCTION EXPONENTIELLE
25,0

Modèle exponentiel
20,0

y = ex exponentielle de base e
15,0
exponentielle de base
10,0
y = ax a
Forme exponentielle
5,0 y = b ax générale
0,0

Changement de variable
0 10 20 30 40 50 60

ln y = ln b + x
ln a avec Y = ln
Y=AX+
B y
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A B = ln
et B, da ’où b
= eA b = eB , , ety =
le bmodèle
ax
Ajustement linéaire et corrélation (10)
AJUSTEMENT A UNE FONCTION EXPONENTIELLE
25,00

20,00 Série initiale (xi,yi)


Série prévue par le
15,00
modèle
 x i ,yˆ i 
10,00

5,00

0,00
0 10 20 30 40 50 60

1,50

1,00

0,50
Analyse des résidus 0,00
0 10 20 30 40 50 60

-0,50

-1,00 Le modèle exponentiel est mieux


-1,50 adapté que le modèle affine
Ajustement linéaire et corrélation (11)
AJUSTEMENT A UNE FONCTION PUISSANCE
900
800 Modèle puissance y = b xa
700
600
500 Changement de variable
400
300 ln y = ln b + a ln x
200
100 Y=AX+B avec Y = ln y
0
0 20 40 60 X = ln x
A=a
B = ln b

L’ajustement affine de Y en fonction de X donne A et B,


d ’où a = A , b = e B, et le modèle y = b x a
Ajustement linéaire et corrélation (12)
QUALITE D’UN AJUSTEMENT

On montre
  y -y    yˆ -y     y -yˆ 
2 2 2
i i i i
que
SCM SCR
SCT = SCM + SCR  1 
SCT SCT
Somme des carrés Somme des
Somme des carrés
des écarts à la = des écarts du modèle
+ carrés des
moyenne résidus

L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.

SCM
R = Coefficient de détermination = r² = (coef. de corrélation)²
SCT

= proportion de la variation totale due à l'ajustement

0  R 1

Vous aimerez peut-être aussi