Vous êtes sur la page 1sur 17

 

Michel Zerbato

LA MEDIANE : DEFINITION ET CALCUL

Soit une population dont on connaît la distribution suivant un caractère : à chaque individu correspond
une mesure du caractère qui définit la valeur de cet individu ; les valeurs possibles du caractère (ou de
l’individu) en sont les modalités (rappel : une modalité est un réel dans le cas d’un caractère discret, un
intervalle de réels fermé à gauche et ouvert à droite dans le cas d’un caractère continu).

La médiane est alors une valeur centrale de cette population, au sens où on peut résumer l'ensemble des
individus  par  cette  valeur.  (On  ne  discutera  pas  de  savoir  si  c'est  la  valeur  normale  des  individus,  les
écarts  à  cette  valeur  étant  accidentels,  ou  si  cette  valeur  est  une  tendance  pour  des  individus
normalement différents.)

La  détermination  pratique  de  la  médiane  est  généralement  affaire  de  recettes  plus  ou  moins
approximatives.  Quand  on  a  bien  compris  ce  qu'est  la  médiane,  on  peut  les  oublier  et  définir  une
démarche générale facilement adaptable à chaque cas particulier (nous en donnerons des exemples).

Nous devrons d'abord reprendre les notions d'effectifs cumulés et de fonction de répartition.

I. Effectifs cumulés et fonction de répartition

A­ Définitions

1. La fonction de répartition est la fonction qui associe à tout nombre réel le nombre d’individus de la
population étudiée qui ont une valeur inférieure audit réel.

Par  inférieure,  on  entend  en  France  strictement  inférieur,  alors  que  dans  les  pays  anglo­saxons  on
entend inférieure ou égale.

Dans ce qui suit, donc, si F est la fonction de répartition, pour tout x de  , l’image F(x) est l’effectif de
la sous­population formée par les individus dont la valeur est strictement inférieure à x.

2. Cumuler les effectifs c’est indiquer pour chaque valeur affichée du caractère le nombre d’individus
qui  présentent  une  valeur  de  caractère  "  strictement  inférieure  "  ou  "  inférieure  ou  égale  "  à  ladite
valeur.

De  même  qu’il  y  a  deux  manières  de  définir  la  fonction  de  répartition,  il  y  a  donc  deux  manières  de
cumuler les effectifs : " à la française " et " à l'anglo­saxonne " (ou " américaine ").

a.  Cumul " à la française " : on inscrit en face d'une modalité le nombre d'individus qui ont une
valeur
strictement inférieure à ladite modalité (on lit " moins de "), et on note ce nombre  .

Cette manière de cumuler correspond à la définition française de F.

b.  Cumul " à l'anglo­saxonne " : on inscrit en face d'une modalité le nombre d'individus dont la
valeur est inférieure ou égale à cette modalité (on lit " au plus " ou " jusqu'à "). On note ce
nombre 

Cette manière de cumuler correspond à la définition anglo­saxonne de F.

3. La " fréquence " d’une modalité est l’effectif de la modalité rapporté à l’effectif total :  .

De même la " fréquence cumulée " est :  .

Nous distinguerons donc, suivant le mode de cumul :   et  .

Sauf indication contraire, on peut partout raisonner sur   ou   en lieu et place de   ou  .

B­ Le tableau des effectifs cumulés

Il  faut  distinguer  deux  cas,  suivant  que  la  variable  est  discrète  (les  modalités  sont  des  nombres)  ou
continue (les modalités sont des intervalles de valeurs).

1. Variable discrète

Il n’y a pas de difficulté particulière, comme on le voit sur l’exemple suivant.

1 2 3 4 5 6
10 15 18 12 8 7
0 10 25 43 55 63
10 25 43 55 63 70

Les effectifs   sont décalés d’une colonne vers la droite par rapport aux effectifs    (ou  d'une  ligne


vers le bas dans le tableau transposé). On a, de façon générale,  .

On peut déduire de ce qui précède que   est le nombre d'individus qui ont une valeur du caractère
supérieure  ou  égale  à  ,  tandis  que    le  nombre  de  ceux  qui  ont  une  valeur  du  caractère
supérieure (strictement) à  .

Ainsi, cumuler les effectifs c’est, pour chaque valeur affichée du caractère, répartir la population totale
en deux sous­populations situées de part et d’autre de cette valeur.

2. Variable continue
Rappel  :  par  définition,    (ou  ) est  le  nombre  total  d’individus  ayant  une  valeur  prise  dans
l’ensemble des i — 1 (ou i) premières modalités, la ième modalité étant notée  .

Dans un cumul à la française (ou à l’anglo­saxonne), on inscrit donc à la ligne i, en face de  , le
nombre   (ou  ), c’est­à­dire le nombre d’individus dont la valeur est inférieure à   (ou à  ).

Insistons sur la manière de lire le tableau pour en extraire l’information disponible. Puisque à la ligne i, 
 est le nombre d’individus qui ont une valeur prise dans les i ­1 premiers intervalles, la plus grande
valeur possible d’un individu pris dans ces   individus est donc au plus égale à la plus grande valeur
du (i — 1)ème intervalle, donc inférieure à sa borne droite,  . Ainsi, la plus grande valeur possible des 
premiers individus (ligne i d'un cumul à la française) est donc inférieure à  , qui est la borne droite
de la (i — 1)ème modalité mais aussi la borne gauche de la ième.

De  même    est  le  nombre  de  ceux  dont  la  valeur  est  au  plus  égale  à  la  plus  grande  valeur  du  ième
intervalle de valeurs, donc inférieure à sa borne droite,  , qui est aussi la borne gauche du i +1ème.

Au total, les effectifs   sont décalés comme précédemment, vers le bas ou vers la droite.

Exemple : soit le tableau de la distribution des DEFM femmes en Aquitaine au 31 août 1994

suivant leur ancienneté de demandeuses.

Ancienneté (mois) Effectif
[0 ; 3[ 21 463
[3 ; 12[ 34 937
[12 ; 24[ 20 199
[24 ; …[ 13 437
Total 90 036

On construit ainsi le tableau des effectifs cumulés :

[0 ; 3[ 21 463 21 463 0


[3 ; 12[ 34 937 56 400 21 463
[12 ; 24[ 20 199 76 599 56 400
[24 ; …[ 13 437 90 036 76 599
Total 90 036    

La lecture de la colonne   nous indique à la 3ème ligne qu’il y a 56 400 chômeuses dont l’ancienneté
dans l’état est inférieure ou égale à la valeur maximale de l’intervalle [3, 12[, c’est­à­dire qu’elles sont
chômeuses depuis moins de 12 mois.
La lecture de la colonne   nous indique à la 2ème ligne qu’il y a 56 400 chômeuses dont l’ancienneté
dans l’état est inférieure (strictement) à la valeur minimale de l’intervalle [12, 24[, c’est­à­dire qu’elles
sont chômeuses depuis moins de 12 mois.

Les deux manières de cumuler donnent bien exactement la même information.

C­ Des effectifs cumulés au diagramme intégral (fonction de répartition)

De  la  définition  des  effectifs  cumulés,  il  résulte  que  les  effectifs  cumulés  permettent  de  passer  à  la
fonction de répartition. Avec une définition " française " de la répartition et la notation précédente, on a :

•   dans le cas discret

•   ou   dans le cas continu.

Mais attention : F est définie sur   tout entier, tandis que les effectifs cumulés ne donnent les couples 
 que pour les valeurs affichées des modalités du caractère. Cependant, on déduit de ces couples
toute la fonction de répartition : la fonction exacte dans le cas discret ; une approximation dans le cas
continu (sous l’hypothèse déjà vue d’homogénéité de répartition au sein des classes).

1.  Si  la  variable  est  discrète,  toutes  les  valeurs  possibles  du  caractère  sont  affichées  avec  les  effectifs
correspondants et on peut calculer l’effectif cumulé exact pour toutes les valeurs possibles du caractère.
 

La représentation graphique (diagramme intégral) est alors un escalier, chaque marche étant ouverte à
gauche et fermée à droite, la première étant de longueur infinie de   à   et la dernière de longueur
infinie de   à  .

Dans  la  ligne  i,  en  face  de  la  modalité ,  on  inscrit  ,  la  somme  des  effectifs  des  i  ­1  premières
modalités  (cumul  français),  ou  ,  la  somme  des  effectifs  des  i  premières  modalités  (cumul  anglo­
saxon).

Les couples   sont des points de la fonction de répartition. Hors de ces points, on sait aussi quelle
est  l’image  de  tout  x  de  ,  puisque  l’image  de  x  par  F  est  le  nombre  d’individus  qui  ont  une  valeur
inférieure à   : ce nombre c’est  .

On a donc tout le diagramme intégral :  .

2.  Si  la  variable  est  continue  (ou  traitée  comme  telle),  on  ne  connaît  les  effectifs  qu’aux  bornes  des
intervalles  de  valeurs,  pas  pour  chaque  valeur  possible.  À  la  différence  du  cas  discret  l’information
contenue dans l’effectif d’une classe est limitée au nombre d’individus qui ont une valeur supérieure ou
égale  à  la  borne  de  gauche  de  la  classe  et  inférieure  (strictement)  à  la  borne  de  gauche  de  la  classe
suivante ; on ne sait pas quelle est la valeur précise de chaque individu de la classe.

Ainsi,  si  les  couples   ou   ou    sont  les  points  de  la  fonction  de  répartition  aux
bornes des intervalles, on doit faire une hypothèse pour les valeurs dans l’intervalle pour tracer toute la
fonction : on fait l'hypothèse d’équirépartition.

L’hypothèse d’équirépartition (ou d’homogénéité) au sein de la classe i consiste à dire que pour la classe
i,  la  borne  de  gauche,  ,  comprise  dans  l’intervalle,  est  la  valeur  du  1er  des    individus  de  cette
classe  et  que  les  autres  individus,  tous  de  valeur  différente,  sont  régulièrement  espacés  sur  toute
l’étendue de la classe. (Ainsi  , borne supérieure exclue de la classe i, est la première valeur de la classe
i + 1.)

Dans  chaque  classe,  les  individus  sont  donc  séparés  l’un  de  l’autre  par  un  écart  de  valeur  égal  à
l’amplitude de la classe divisée par le nombre d’individus.

Soit    l’écart  entre  deux  individus  de  la  classe  i  (il  peut  évidemment  varier  d’une  classe  à
l’autre). Alors, selon l’hypothèse d’équirépartition, le premier individu de ladite classe a exactement la
valeur  , le second exactement la valeur  , le troisième la valeur  ,  etc., et le dernier a la
valeur  , soit une valeur inférieure à  .

Graphiquement, l’hypothèse d’équirépartition situe les points de l’intervalle sur les segments de droite
joignant les points­bornes : le diagramme intégral est une ligne brisée et non une courbe arrondie.

Si  on  fixe  (arbitrairement)  la  borne  supérieure  du  dernier  intervalle  à  40,  le  diagramme  intégral  (qui
représente la fonction de répartition) se présente alors ainsi :

Sur ce diagramme intégral, on lit, par exemple, que l’image de 12 est 56 400, ce qui signifie que 56 400
individus  ont  une  valeur  inférieure  à  12,  c’est­à­dire  que  56  400  chômeuses  sont  chômeuses  depuis
moins de 12 mois.

Entre  les  bornes  des  intervalles,  on  suit  l’hypothèse  d’équirépartition  :  on  procède  à  une  interpolation
linéaire, ce qui revient à appliquer le théorème de Thalès.
Par exemple, on dira que l’image de 15 est entre celle de 12 et celle de 24 comme 15 est entre 12 et 24.

Ainsi, on suppose que l’image de 15 est : F(15) =   = 61 449,75.

Autrement dit, on suppose que 61 449 chômeuses le sont depuis moins de 15 mois.

Plus généralement,  ,  .

II. La médiane

On  peut  maintenant  aborder  la  médiane.  On  en  donnera  une  définition  précise  puis  on  montrera
comment il convient de procéder pour la déterminer correctement, en montrant ainsi en quoi quelques
recettes couramment utilisées sont de plus ou moins de bonnes recettes.

A­ Définition

 La médiane est la valeur de l’individu médian 

Il n’y a pas d’autre définition simple et exacte à la fois ! nous allons le voir.

(On  peut  toujours  donner  une  définition  mathématique  d’une  notion  quelconque,  mais  ce  n’est  pas
toujours  "  parlant  "  :  ainsi,  on  peut  en  construire  une  pour  la  médiane,  à  partir  de  la  fonction  de
répartition,  mais  sa  compréhension  suppose  la  maîtrise  de  la  notion  discutée  ci­après…  ce  qui  la  rend
inutile pour notre propos !)

1. Selon Littré, l’adjectif médian signifie " qui est au milieu ".

Ainsi,  s’agissant  d’anatomie,  la  "  ligne  médiane  [est]  la  ligne  verticale  qu’on  suppose  partager
longitudinalement le corps en deux parties égales et symétriques " ; s’agissant d’ancienne astronomie, la
" planète médiane [est] celle des sept planètes que l’on croyait au milieu des autres, c’est­à­dire ayant
autant de planètes au­dessus d’elle qu’au­dessous ".

Ces deux exemples illustrent bien que la notion de médiane renvoie fondamentalement à celle d’individu
médian, d’individu qui est " au milieu ". De là, l’individu médian est généralement désigné comme celui
qui partage une population en deux moitiés égales. Mais ces deux exemples illustrent bien la difficulté
de s’en tenir à une fausse évidence car ils renvoient en réalité à deux niveaux d’abstraction pas toujours
totalement  cohérents  entre  eux  :  l’abstrait  continu  de  la  mathématique  et  le  concret  discret  de  la
statistique descriptive.

En effet, la ligne médiane partage une surface en deux moitiés d’aires égales parce qu’une ligne n’a pas
d’épaisseur (ladite ligne a autour d’elle autant de lignes d’un côté que de l’autre, si l’on peut dire). De
même que le point médian d’un segment de droite le partage en deux segments égaux parce que le point
dans la droite est un point abstrait, " sans épaisseur " grâce à l’hypothèse de continuité (il y a toujours
une infinité de points entre deux points aussi proches que l’on veut).

Par contre, dans l’exemple de la planète médiane, on ne peut dire qu’elle est au milieu, avec 3 planètes
de  part  et  d’autre,  que  parce  qu’il  y  a  7  planètes,  un  nombre  impair.  De  plus,  3  planètes  de  part  et
d’autre cela ne fait pas deux moitiés de 7, mais de 6 (les sept planètes moins la planète médiane)
Dans la réalité concrète, l’effectif est en nombre fini, même s’il est très grand, et on ne peut plus dire en
toute  rigueur  que  l’individu  médian  partage  l’effectif  en  deux  sous­ensembles  égaux  situés  de  part  et
d’autre de lui. En effet, cet individu est " épais ", il faut donc le mettre hors de la population étudiée,
sans oublier que les deux fausses moitiés de l’effectif qui reste ne peuvent être égales que si l’effectif
total est impair.

En  toute  rigueur,  l’individu  médian  ne  peut  à  la  fois  être  au  milieu  et  partager  le  tout  en  deux  parties
égales que s’il n’est dans aucune des deux moitiés et dans les deux en même temps. L’individu médian
mathématique  le  peut  parce  qu’on  le  suppose  dans  un  espace  continu,  c’est­à­dire  appartenant  à  une
population d’effectif infini. L’individu statistique ne le peut pas, parce qu’il est un individu " concret ",
parce qu’il appartient à une population d’effectif fini, même si cet effectif peut être très grand et traité
comme infini.

La  description  statistique  d’une  situation  concrète  exige  donc  d’adapter  la  définition  abstraite  de  la
médiane,  car  on  ne  passe  pas  directement  de  l’abstrait  au  concret  :  un  segment  concret  n’est  pas  une
suite  de  points  abstraits,  et  encore  moins  une  suite  de  points  concrets.  Le  passage  à  la  limite  permet
certes de traiter " mathématiquement " le concret fini, mais on est là dans l’antichambre de la statistique
mathématique.

Cela dit, il y a un autre problème : même si l’individu médian est pris dans un effectif quasi infini, on ne
peut  pas  admettre  "  sans  problème  "  qu’il  partage  cet  ensemble  en  deux  parties  égales,  ce  qui  est
implicite quand on raisonne en fréquences. Car on a parlé jusqu’ici de l’individu médian, alors que ce
qui intéresse le statisticien, qui cherche à résumer une population par ses caractéristiques centrales, c’est
la valeur de l’individu médian, la valeur médiane, ou médiane tout court.

Or, si on dira tout naturellement que la médiane est la valeur qui partage la population en deux sous­
populations d’effectif égal, ce n’est pas aussi simple : tant qu’il s’agit de lignes ou de planètes, c’est­à­
dire d’individus, ils sont par nature individualisés ; mais s’agissant de leur valeur, il peut y avoir, pour
certaines  grandeurs,  des  individus  de  même  valeur,  des  classes  d’individus,  et  plusieurs  individus
peuvent  être  médians  du  point  de  vue  du  critère  de  valeur  retenu.  On  peut  alors  être  très  très  loin  de
l'idée d'une moitié de population de valeur inférieure à la médiane !

Nous allons voir, avec des exemples, que la médiane est en fait bien moins évidente que ne le laissent
penser les définitions simplistes que l’on peut en donner. En fait, pour caractériser numériquement une
population avec la notion de médiane, nul besoin de désigner l’individu médian autrement que par son
rang parmi ses semblables : la connaissance de la position médiane, du rang médian, suffit à déterminer
la valeur de l’individu médian. La médiane renvoie non à un individu précis mais à une valeur, tous les
individus de valeur médiane pouvant être l'individu médian.

Illustrons cela par l'exemple ci­dessous où 7 individus sont rangés par taille croissante, l'individu médian
est d, mais a, c, e et f  ont  tous  quatre la  même  taille que  lui et chacun d'eux aurait également pu être
l'individu  médian.  Et  on  voit  immédiatement  qu'il  n'y  a  pas  une  moitié  de  la  population  de  taille
inférieure (ou supérieure).
2. Les définitions de la médiane généralement proposées, très intuitives et semblant claires, manquent en

réalité de précision (quand elles ne sont pas carrément fausses).

Voyons deux manuels parmi les plus utilisés :

G. Calot : " La médiane est la valeur de la variable statistique qui partage en deux effectifs égaux
les  individus  de  la  population  supposés  rangés  par  valeur  croissante  du  caractère  "…  "  D’une
façon  générale,  la  médiane  M  est  la  valeur  de  la  variable  statistique  telle  que  l’ordonnée  de  la
courbe cumulative soit égale à  . " (Statistique descriptive, Dunod, p. 31).

B. Py : " La médiane est la valeur du caractère qui partage la série en deux sous­ensembles égaux.
"…  "  Il  y  a  autant  d’observations  supérieures  à  la  médiane  que  d’observations  inférieures  à  la
médiane. " (Statistiques descriptives, Economica, p. 74)… " Et  l’on peut écrire : F(Mé)=  .  "
(Idem, p. 76).

Ces définitions sont tout à fait discutables.

•  D’abord,  elles  ne  peuvent  valoir  que  pour  une  population  où  chaque  valeur  possible  n’est  observée
qu’une fois (à l’exemple des planètes de Littré ou des points de la droite réelle).

Dans le cas d’une variable continue, l’hypothèse d’homogénéité au sein de chaque classe garantit par
construction  l’unicité  de  chaque  observation.  On  verra  plus  loin  comment  cette  hypothèse
d’individualisation  permet  d'associer  une  valeur  différente  à  chaque  rang  et  de  donner  une  valeur
médiane théorique.

Par  contre,  dans  le  cas  d’une  variable  discrète  rien  n'empêche  que  plusieurs  individus  présentent  la
même valeur de caractère que l’individu médian (notre illustration ci­dessus). Dès lors il n’existe pas de
valeur telle qu’" il y a autant d’observations supérieures à la médiane que d’observations inférieures à la
médiane ".

Il en est bien ainsi dans notre exemple discret précédent : sur un nombre total de 70 observations, 25
observations, soit moins de la moitié, ont donné une valeur inférieure à 3 et 43 observations, soit plus de
la moitié, ont donné une valeur inférieure à 4 ; de même, on a observé 27 fois une valeur supérieure à 4
et 45 fois une valeur supérieure à 3.

En fait, il faut distinguer le rangement, qui donne, dans l’espace de rangement, une place individualisée,
et le classement, qui tel la valeur donne, dans son, une place possiblement collective (celle de la classe).
Une définition sur la valeur ne peut pas en être une, par défaut de généralité.

• Ensuite, même en supposant l’unicité d’observation de chaque valeur possible, il y a le problème de la
parité de l’effectif total.

En effet, si N est impair (de la forme 2p+1), il existe bien un individu " au milieu ", le p+1ème, qui est tel
que p observations sont faites avant et p après… mais p ce n’est pas la moitié ! (pas tout à fait).

Si N est pair (de la forme 2p), seuls deux individus pris ensemble sont " au milieu " : les p et p+1 èmes,
mais s’ils ont bien le même nombre d’individus, p­1, de part et d’autre, c’est encore moins la moitié que
précédemment.  Néanmoins,  dans  ce  cas,  on  décide,  par  convention,  que  le  p+1ème  est  l’individu
médian, et on a bien, alors, l’exacte moitié p avant, mais pas après, où il n’y en a que p­1.
Nota bene  :  l’individu  médian, le p+1ème,  peut  avoir  la  même  valeur  que  le  pème.  Attention  à  ne  pas
confondre le rang et le classement, car le rang est unique. S’il peut y avoir des ex­æquo quand on classe
(opération abstraite, qui porte sur les valeurs, où les équivalents sont mis dans la même classe), cela ne
se peut pas quand on range (opération physique, concrète, qui porte sur les individus eux­mêmes, que
l’on met à la suite, en rang, qu’on dispose sur une ligne).

On constate donc qu’il n’est pas correct de dire généralement que la médiane partage la population en
deux  sous­populations  d'effectifs  égaux  ou  que  la  moitié  de  la  population  a  une  valeur  inférieure  à  la
valeur médiane et l’autre moitié une valeur supérieure (les deux propositions sont fausses, parce qu'elles
ne pas nécessairement vérifiées – pour des raisons différentes). Rigoureusement parlant, les définitions
discutées  ne  sont  pas  des  définitions  mais  de  simples  approximations  intuitives  de  la  nature  de  la
médiane.

•  Enfin,  il  n’est  pas  davantage  satisfaisant  de  se  raccrocher  à  la  fonction  de  répartition  (ou  courbe
cumulative) en disant que la médiane est la valeur M du caractère dont l’image par F est F(M) = p  (ou
0,5 ou 50 % en fréquence) : cela suppose que l’on connaisse N et que p (ou 0,5 ou 50 %) n’ait que un
antécédent  (il  suffit  pour  cela  que  tous  les  individus  aient  une  valeur  différente,  mais  ce  n’est  pas
nécessaire).

C’est toujours vrai dans le cas continu, on le verra, sous l’hypothèse d’équirépartition.

Par contre, dans le cas discret, ce n'est plus toujours vrai. Il suffit de regarder le diagramme en escalier
pour  constater  que  si  l’ordonnée  p  (ou  0,5  ou  50  %)  "  tombe  "  entre  deux  marches,  il  y  a  bien  un
antécédent  déterminé  (qui  sera  la  médiane),  mais  que  si  p  tombe  en  face  une  marche  de  l'escalier
correspondant à une observation multiple ( ), alors p a plusieurs antécédents.

Quid alors de la médiane ? On parle parfois d'intervalle médian (par exemple G. Calot et B. Py, op.cit.),
ce qui n'est pas satisfaisant car la médiane n'est plus une modalité du caractère, c'est­à­dire une valeur
observée portée par un individu de la population étudiée, mais un ensemble de valeurs dont un nombre
infini de valeurs non observables. Dans ce cas, on peut certes déterminer la médiane à partir de l'image 
,  comme  valeur  de  l'individu  médian  (cf  plus  loin),  mais  comme  plusieurs  valeurs  ont  cette  même
image, on ne peut pas la définir de cette manière : on ne définit pas par le mode de détermination.

Au  total,  on  ne  peut  définir  la  médiane  que  par  référence  à  l’individu  médian,  qui  est  toujours  bien
défini, soit " physiquement ", soit par convention, et auquel on peut toujours associer une modalité.

B­ Détermination

Pour  déterminer  la  médiane,  on  n'a  pas  besoin  de  savoir  qui  est  l'individu  médian  (de  toute  façon  les
données  numériques  dont  on  dispose  ne  le  permettraient  pas),  mais  seulement  quelle  modalité  il
présente. Il nous suffit pour cela de déterminer le rang médian, c’est­à­dire le rang de l’individu médian.

Pour ce faire, on range les individus par valeur croissante. C'est l'habitude, par rapport à la définition de
F, mais on pourrait tout aussi bien classer par valeur décroissante, le principe de calcul de la médiane
restant le même (il faudrait bien sûr modifier les conventions de calculs pour trouver le même résultat).
Puis on procède en deux étapes : détermination du rang médian et " observation " de la valeur.

1. Détermination du rang médian

a) Données en valeur absolue
Dans  le  cas  d'un  effectif  total  N  impair  (de  la  forme  2p  +1),  l'individu  médian  est  le  p  +1ème  :  il  est
précédé  par  p    individus  de  valeur  inférieure  ou  égale  à  la  sienne  et  suivi  par  p    individus  de  valeur
supérieure ou égale. (Rappel : plusieurs individus peuvent avoir une valeur égale à celle du p +1ème.)

Par  contre,  si  N  est  pair  (de  la  forme  2p),  il  n'y  a  pas  d'individu  tel  qu'un  nombre  égal  d'individus  le
précèdent ou le suivent : le pème individu est précédé par p—1 individus et suivi par p ; le p +1ème  est
précédé par p individus et suivi par p +1. Parce que la médiane est la valeur d’un individu, il faut choisir
un individu médian, et comme on l’a déjà indiqué, on choisit par convention le p +1ème  (par cohérence
avec la définition de la fonction de répartition).

Le rang de l'individu médian est donc p +1, dans les deux cas, avec :

p +1 =   si N est pair,

p +1 =   si N est impair.

Dans les deux cas, p individus sont rangés avant l’individu médian et ont une valeur inférieure ou égale

à celle de cet individu. Dans notre exemple, le rang médian est   = 36 et 35 individus sont rangés
avant l’individu médian.

b) Données en " fréquences "
 

Si  les  effectifs  sont  donnés  en  valeur  relative  (ou  en  %),  généralement  appelée  fréquence,  on  a  par

définition   et  (ou   = 100), et on raisonne sur les fréquences cumulées au lieu des effectifs


cumulés.

Dans ce cas, le rang de l'individu médian n’est évidemment pas   (où  est considéré comme

impair). Il n'est pas davantage   % (où   = 100 est considéré comme pair) : si les effectifs sont


donnés  en  fréquence,  il  probable  que  c’est  parce  que  N  est  grand  et  si  N  >  100  le  rang  de  l'individu
médian est supérieur à 50 et correspond à une fréquence comprise entre 50 % et 51 % (cependant, si
N = 100, l'individu médian, le 51ème, correspond bien exactement à la fréquence 51 %, tandis que si N
< 100, le rang médian correspond à une fréquence supérieure à 51 %).

Il y a deux possibilités quant à N (que l'on ne connaît pas) :

• soit N est pair, alors 0,5 (ou 50 %) correspond exactement à p et l’individu médian est celui qui a la
valeur qui vient immédiatement après la fréquence 50%, la moitié des individus étant rangés avant ;

• soit N est impair, alors 0,5 (ou 50 %) correspond à p+  et la première valeur venant après 50 % est
celle de l’individu de rang p+1, d'où l'on conclut comme dans le cas précédent.
 

Au total, si on a des données en fréquences relatives, l’individu médian est celui dont la valeur apparaît
immédiatement après la fréquence 50 %.
 

Remarque : une erreur fréquente des étudiants est de confondre N et   et de chercher pour la médiane

la  valeur  correspondant  à  ,  soit  51  en  points  de  pourcentage  (nombre  qui  n’a  aucune  raison
particulière  d’être  égal  ou  de  correspondre  à  p+1,  cf.  plus  haut)  ;  comme  ils  arrivent  néanmoins  au
résultat en suivant la même démarche de calcul qu'avec les effectifs, puisque 0,5 est bien dans tous les
cas  l’image  de  la  médiane  (cf.  infra),  ils  comprennent  mal  la  nécessité  de  bien  raisonner  quand  ils
peuvent trouver le résultat juste en raisonnant faux.

2. Détermination de la médiane

Il  s’agit  ici  de  fonder  de  façon  parfois  fastidieuse  une  pratique  simple  quand  les  fondements  sont
compris, ce qui peut paraître inutile quand des recettes paraissent efficaces. Mais ces recettes sont trop
souvent  des  approximations,  et  les  recettes  n'ont  de  sens  à  l'Université  que  comme  application  d'une
réflexion, d'une analyse.

a.  Lecture du tableau statistique

Les  modalités  étant  rangées  par  ordre  croissant,  la  colonne  des  effectifs  cumulés  donne  pour  chaque
modalité  le  nombre  d'individus  qui  présentent,  selon  le  mode  de  cumul,  une  modalité  strictement
inférieure ou inférieure ou égale à ladite modalité : elle exprime un classement des individus, le rang de
l'individu  médian  permettant  alors  de  le  situer  dans  ce  classement  et  d’en  déduire  la  valeur  de  la
médiane.

a1. Variable discrète

• Cumul " à la française "

­ Cas général :  , c’est­à­dire que p tombe entre deux lignes du tableau.

À la ligne i on lit qu’il y a   individus dont la valeur est inférieure à   et à la ligne i+1 on lit que 


individus  ont  une  valeur  inférieure  à  .  Or  l’individu  de  rang  p  +1  ayant  une  valeur  supérieure  ou
égale à celle du pème , a une valeur supérieure ou égale à celle du  ème , mais aussi inférieure ou égale
à celle du  ème  (puisque  par hypothèse  ).

L'individu médian a donc une valeur égale ou supérieure à   et inférieure à  . On a :     M  <  .


Comme, par définition, il n'y pas de valeur possible du caractère comprise entre   et  , on en déduit
que la médiane, valeur de l'individu médian, est  .

D'où la recette : on lit la médiane dans la ligne au­dessus de p, c’est­à­dire dans la ligne de  .

­ Cas particulier : p =  , c’est­à­dire tombe sur une ligne (la ligne i).

À la ligne i on lit qu'il y a p =   individus dont la valeur est strictement inférieure à  . Par conséquent,


l'individu  médian,  de  rang  p+1,  présente  la  modalité  immédiatement  supérieure  à  moins  de .  Sa
modalité, qui est la médiane, est donc  .

D'où la recette : on lit la médiane dans la ligne de p, c'est­à­dire de  .
• Cumul " à l’américaine "

­ Cas général :  , c’est­à­dire que p tombe entre deux lignes du tableau.

À la ligne i on lit qu’il y a   individus dont la valeur est inférieure ou égale à   et à la ligne i+1 on lit


que  individus  ont  une  valeur  inférieure ou égale  à  .  On  en  déduit  comme  précédemment  que
l’individu de rang p +1 ayant une valeur plus grande que le  ème et au plus égale à celle du  ème, a

donc une valeur supérieure à   et inférieure ou égale à  . On a:   < M   

Comme, par définition, il n'y pas de valeur possible du caractère comprise entre   et  , il résulte de ce


qui précède que la médiane, valeur de l'individu médian, est  .

D'où la recette : on lit la médiane dans la ligne en dessous de p, c’est­à­dire dans la ligne de  .

­ Cas particulier : p =  , c’est­à­dire tombe sur une ligne

Cela signifie qu’il y a exactement p =   individus de valeur inférieure ou égale  à  .

Par conséquent, l'individu de rang p +1 présente la modalité immédiatement supérieure à  .

La médiane est donc  .

D'où la recette : on lit la médiane dans la ligne en dessous de p.

Exemple : reprenons l’exemple discret précédent, où p+1 = 36.

Lisons le tableau en regardant   et   : 25 observations sont inférieures à 3 et 43 sont inférieures à 4.

La 36ème observation est donc à la fois supérieure ou égale à 3 et inférieure à 4 : la médiane est 3.

Le rang médian 36 est compris entre 25 et 43, on lit bien la médiane dans la ligne au­dessus de 25.

On raisonne de même pour le cumul à l'américaine pour vérifier que la recette fonctionne.

a2. Variable continue

Dans ce cas, on ne peut généralement pas connaître la vraie valeur de la médiane : la partition en sous­
populations  étant  faite  selon  des  classes  de  valeurs  du  caractère,  le  rang  médian  détermine  de  façon
certaine la classe à laquelle appartient la médiane, mais pas sa valeur précise.

Rappel : si la variable est continue,   est la borne de gauche (incluse) de l’intervalle inscrit à la ligne i

et   en est la borne droite (exclue).
 

• Cumul " à la française "

­ Cas général :  , c’est­à­dire que p tombe entre les lignes i et i+1 du tableau.

À la ligne i on lit qu’il y a   individus dont la valeur est inférieure à   et à la ligne i+1 on lit que 


individus ont une valeur inférieure à  . En raisonnant comme dans le cas discret, on en déduit que :   
 M <  .

On ne peut pas en dire plus car il peut y avoir ici une infinité de valeurs possibles pour les individus dont
la valeur est dans l'intervalle  . Pour aller au delà de cette seule information certaine, on reprend
l'hypothèse  d'équirépartition  que  l'on  a  faite  plus  haut  (p.  4)  pour  tracer  les  diagrammes  différentiel
(histogramme) et intégral (fonction de répartition).

Rappelons que sous cette hypothèse, le premier individu d'une classe présente une valeur de caractère
exactement  égale  à  la  borne  inférieure  de  l'intervalle  tandis  que  le  dernier  présente  une  valeur  de
caractère  exactement  égale  à  la  borne  supérieure  moins  un  écart  .  Ainsi,  "  moins  de  "  signifie
précisément   et " moins de   " signifie précisément  .

Par construction du tableau " à la française ", on inscrit à la ligne i la modalité   et le nombre (noté 
)  d'individus  qui  ont  une  valeur  inférieure  à  .  Ainsi,  l'individu  de  rang  +1  a  la  valeur    et
l'individu de rang   la valeur  . Dès lors, selon l'hypothèse d'équirépartition l'individu de rang 
a la valeur  .

Soit m le rang de l’individu médian au sein de sa classe : la valeur médiane est M =  .

Mais m est la différence de rang entre l'individu médian et le dernier de la classe précédente,

soit : 

dont on déduit :  .

Se rappelant que :  ,

on a : 

ce  qui  fait apparaître  que M est entre   et   comme p  est  entre  Ni et Ni+1  (cela  traduit  l’hypothèse
d’équirépartition).

En effet, on peut écrire : 

ce qui revient bien à la règle de proportionnalité suivante : 

D'où  la  recette  :  quand  p  tombe  entre  deux  lignes,  on  obtient  la  valeur  médiane  en  faisant  une
interpolation

linéaire sur p entre les bornes de gauche des deux classes qui " encadrent " p.

­ Cas particulier : p = 
Cela signifie qu’il y a exactement p =   individus de valeur inférieure à  . Par conséquent, l'individu
de rang p +1 a la valeur immédiatement supérieure à moins de . La médiane est donc  .

D'où la recette : quand p tombe sur une ligne, la médiane est la borne de gauche de la classe

correspondante.

(On remarque qu'il s'agit aussi de la borne de droite de la ligne au­dessus de p.)

On  notera  qu'il  s'agit  bien  d'un  cas  particulier  du  cas  général  vu  auparavant,  car  le  résultat  de

l'interpolation    avec  p  =    donne  effectivement  M  =  ,  c'est­à­dire  la


borne de gauche de la modalité de la ligne de p.

• Cumul " à l'anglo­saxonne "

­ Cas général :  , c’est­à­dire que p tombe entre les lignes i et i+1 du tableau.

À la ligne i on lit qu’il y a   individus dont la valeur est inférieure à   et à la ligne i+1 on lit que 


individus ont une valeur inférieure à  . Comme précédemment, on en déduit :     M <  .

Comme  précédemment,  il  faut  faire  une  interpolation  linéaire  sur  l'intervalle  ,  mais  comme  le
cumul américain décale simplement les valeurs d’une ligne vers le haut, la borne    n’est  autre  que  la
borne    du  cumul  français  :  on  a  exactement  les  mêmes  nombres  dans  le  calcul  et  donc,  bien
évidemment,  le  même  résultat.  Le  résultat  ne  dépend  pas  du  mode  de  cumul,  seule  la  recette  change,
puisque l'interpolation porte sur les bornes non plus de gauche mais de droite.

Recette : pour trouver la valeur médiane, on fait une interpolation linéaire sur p entre les bornes

de droite des deux classes qui " encadrent " p.

­ Cas particulier : p = 

Cela signifie qu’il y a exactement p =   individus de valeur inférieure à  . Par conséquent, l'individu


de rang p +1 a la valeur immédiatement supérieure à moins de . La médiane est donc M = .

D'où la recette : la médiane est la borne de droite de la modalité lue dans la ligne de p.

(On remarque qu'il s'agit aussi de la borne de gauche de la ligne en dessous de p.)
 

Exemple :

Ancienneté Fréquences Fréquences


(mois) cumulées
[0 ; 3[ 0,24 0,24
[3 ; 12[ 0,39 0,63
[12 ; 24[ 0,22 0,85
[24 ; …[ 0,15 1
Total : 1  

On a ici un cumul " américain " : à la première ligne on lit que 24 % des individus ont une ancienneté
inférieure à 3 mois ; à la deuxième ligne on lit que 63 % des individus ont une ancienneté inférieure à 12

mois. L'ancienneté médiane est obtenue en interpolant ainsi :  . On trouve M = 9.
 

En résumé, rappel des recettes (avec     p <  )
­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­

• Variable discrète

­ cumul " français " : M =   (ligne au­dessus de p ou ligne de p)

­ cumul " anglo­saxon " : M =   (ligne en dessous de p).

• Variable continue : 

­ cumul " français " : interpolation sur les bornes de gauche (M =  , borne de gauche si p
=  )

­ cumul " anglo­saxon " : interpolation sur les bornes de droite (M =  , borne de droite si p =  ).

(La valeur de la médiane est bien la même dans les deux modes de cumul, car un cumul " à la française
" décale les   d'une ligne vers le bas par rapport aux   d'un cumul " à l'anglo­saxonne ", ce qui revient
dans le cas continu à faire de la borne de droite " américaine " la borne de gauche " française ".)

b) Détermination graphique

Il s'agit plutôt ici de montrer les propriétés graphiques de la médiane. On peut cependant les utiliser pour
déterminer la médiane quand on n'a pas les données numériques, mais uniquement une représentation
graphique de la distribution.

La médiane étant la valeur du p+1ème individu, on peut la lire comme image graphique de cet individu
dans le diagrammes représentatifs de la distribution. On peut le faire à partir du diagramme différentiel,
mais  cela  se  fait  bien  plus  directement  en  utilisant  le  diagramme  intégral,  par  nature  même  de  ce
diagramme  qui  représente  la  distribution  à  partir  des  effectifs  cumulés  en  associant  à  tout  point  de  la
droite  réelle  une  longueur  cumulée  de  bâtons  (cas  discret)  ou  une  aire  cumulée  de  rectangles  (cas
continu).

b1. À partir du diagramme différentiel

• Caractère discret

Le  diagramme  différentiel  représente  les  effectifs  d'une  valeur  par  un  bâton.  Le  p+1ème  individu
(médian) a donc "avant lui" la moitié de la longueur totale des bâtons. La médiane est alors l'abscisse du
bâton dans lequel il se trouve.
Dans l'exemple ci­dessous, on a :  . La médiane est égale à 4.

(En  s'aidant  d'un  instrument  de  mesure  de  la  longueur  tel  un  décimètre,  le  lecteur  pourra  utilement
reconstituer le tableau de la distribution " en fréquences " représentée par ce diagramme et vérifier que la
médiane de cette distribution est bien 4.)

• Caractère continu

L'histogramme  représente  les  effectifs  des  classes  de  valeurs  par  des  surfaces  d'aires  proportionnelles
aux effectifs. La médiane est alors la valeur qui partage la surface totale en deux surfaces de même aire,
une  moitié  des  effectifs  étant  de  chaque  côté  de  cette  valeur.  Pour  trouver  la  médiane,  on  calcule  la
surface totale, puis on cherche pour quelle valeur de x on a atteint la moitié de cette surface.

b2. À partir du diagramme intégral

Comme le diagramme intégral est la représentation graphique de F définie " à la française ", on est de
facto dans le cas d'un cumul à la française : les   dont on parle ci­après sont des  . (Si on avait défini
F " à l'américaine ", comme cela commence à se faire, sans que ce soit dit, dans les manuels, il faudrait
transposer le raisonnement sur des  , et on obtiendrait évidemment les mêmes résultats numériques.)

Rappel : si le p +1ème  individu vaut la médiane, le pème individu vaut strictement moins que la médiane.
Ainsi, par définition de F, l'image par F de la médiane est p (et non p +1, erreur fréquente de l'étudiant).

En  fréquences,  l’image  par  F  de  la  médiane  est  pour  la  même  raison  0,5  (ou  50,  en  points  de
pourcentage) et non 0,51 ou 51 comme on le voit trop souvent.

• Caractère discret

La fonction de répartition est en escalier et il faut distinguer deux cas :

* p (ou 0,5) est en face d’une marche

Dans ce cas, p est l’image d’un segment de la droite réelle, par exemple  , que l’on appelle parfois
intervalle médian. Cela signifie que p individus valent moins que    et que le p+1ème vaut  .
Quand p  tombe  sur  une  marche,  la  médiane,  valeur  possible dont p  est  l’image,  est  donc  la  borne  de
droite  de  l’intervalle  médian  (cette  borne  est  certes  exclue  de  l'intervalle,  mais  on  se  rappelle  que  F
associe à tout réel le nombre d'individus dont la valeur est inférieure à ce réel).

D’où la recette : quand p est en face d'une marche, la médiane est la borne droite (exclue) de la marche.

* p tombe entre deux marches

Dans ce cas, p n’a pas d’antécédent. Néanmoins, on peut trouver la médiane en " descendant " entre les
deux marches. En effet, si p est entre   et  , cela veut dire que la médiane est supérieure ou égale à 
 et inférieure à  . Donc la médiane est  .

D’où la recette : quand p est entre deux marches, la médiane est la borne de gauche (incluse) de la

marche  supérieure  (c'est  aussi  la  borne  de  droite,  exclue,  de  la  marche
inférieure).

• Caractère continu

Dans  ce  cas,  la  détermination  de  la  médiane  ne  pose  aucune  difficulté,  puisque  le  diagramme  est  une
ligne brisée continue : toute valeur de F a un antécédent unique. Il suffit alors de chercher l'antécédent
de p (ou de 0,5).

Nota bene : il apparaît clairement qu'on n'a pas de manière générale F(M) = 0,5. Dans le cas continu
c'est toujours vrai, certes, par hypothèse d'équirépartition, mais ce n'est pas vrai dans le cas discret. En
effet, dans ce cas, si p tombe sur une marche, 0,5 a d'autres antécédents par F que la médiane (tout l'"
intervalle médian "), tandis que si p tombe entre deux marches   l'image par F de la médiane
est non pas 0,5 mais l'ordonnée de la marche supérieure .

 
Retour en haut de la page                                              Retour à l'accueil