Vous êtes sur la page 1sur 17

Michel Zerbato

LA MEDIANE : DEFINITION ET CALCUL

Soit une population dont on connaît la distribution suivant un caractère : à chaque individu correspond une mesure du caractère qui définit la valeur de cet individu ; les valeurs possibles du caractère (ou de l’individu) en sont les modalités (rappel : une modalité est un réel dans le cas d’un caractère discret, un intervalle de réels fermé à gauche et ouvert à droite dans le cas d’un caractère continu).

La médiane est alors une valeur centrale de cette population, au sens où on peut résumer l'ensemble des individus par cette valeur. (On ne discutera pas de savoir si c'est la valeur normale des individus, les écarts à cette valeur étant accidentels, ou si cette valeur est une tendance pour des individus normalement différents.)

La détermination pratique de la médiane est généralement affaire de recettes plus ou moins approximatives. Quand on a bien compris ce qu'est la médiane, on peut les oublier et définir une démarche générale facilement adaptable à chaque cas particulier (nous en donnerons des exemples).

Nous devrons d'abord reprendre les notions d'effectifs cumulés et de fonction de répartition.

I. Effectifs cumulés et fonction de répartition

A­ Définitions

1. La fonction de répartition est la fonction qui associe à tout nombre réel le nombre d’individus de la population étudiée qui ont une valeur inférieure audit réel.

Par inférieure, on entend en France strictement inférieur, alors que dans les pays anglo­saxons on entend inférieure ou égale.

Dans ce qui suit, donc, si F est la fonction de répartition, pour tout x de

la sous­population formée par les individus dont la valeur est strictement inférieure à x.

dont la valeur est strictement inférieure à x . , l’image F( x ) est l’effectif

, l’image F(x) est l’effectif de

2. Cumuler les effectifs c’est indiquer pour chaque valeur affichée du caractère le nombre d’individus qui présentent une valeur de caractère " strictement inférieure " ou " inférieure ou égale " à ladite valeur.

De même qu’il y a deux manières de définir la fonction de répartition, il y a donc deux manières de cumuler les effectifs : " à la française " et " à l'anglo­saxonne " (ou " américaine ").

a. Cumul " à la française " : on inscrit en face d'une modalité le nombre d'individus qui ont une valeur

strictement inférieure à ladite modalité (on lit " moins de "), et on note ce nombre

.
.

Cette manière de cumuler correspond à la définition française de F.

.

b.

Cumul " à l'anglo­saxonne " : on inscrit en face d'une modalité le nombre d'individus dont la valeur est inférieure ou égale à cette modalité (on lit " au plus " ou " jusqu'à "). On note ce nombre

plus " ou " jusqu'à "). On note ce nombre Cette manière de cumuler correspond à

Cette manière de cumuler correspond à la définition anglo­saxonne de F.

3.

La " fréquence " d’une modalité est l’effectif de la modalité rapporté à l’effectif total :

.
.

De même la " fréquence cumulée " est :

.
.

Nous distinguerons donc, suivant le mode de cumul :

est : . Nous distinguerons donc, suivant le mode de cumul : et Sauf indication contraire,

et

Sauf indication contraire, on peut partout raisonner sur

et Sauf indication contraire, on peut partout raisonner sur ou . en lieu et place de

ou

Sauf indication contraire, on peut partout raisonner sur ou . en lieu et place de ou
.
.

en lieu et place de

on peut partout raisonner sur ou . en lieu et place de ou . B­ Le

ou

.
.

B­ Le tableau des effectifs cumulés

Il faut distinguer deux cas, suivant que la variable est discrète (les modalités sont des nombres) ou continue (les modalités sont des intervalles de valeurs).

1. Variable discrète

Il n’y a pas de difficulté particulière, comme on le voit sur l’exemple suivant.

12 3 4 5 6

2

3

4

5

6

1015 18 12 8 7

15

18

12

8

7

010 25 43 55 63

10

25

43

55

63

1025 43 55 63 70

25

43

55

63

70

25 43 55 63 10 25 43 55 63 70 Les effectifs sont décalés d’une colonne
25 43 55 63 10 25 43 55 63 70 Les effectifs sont décalés d’une colonne

Les effectifs sont décalés d’une colonne vers la droite par rapport aux effectifs (ou d'une ligne vers le bas dans le tableau transposé). On a, de façon générale, .

dans le tableau transposé). On a, de façon générale, . On peut déduire de ce qui

On peut déduire de ce qui précède que supérieure ou égale à , tandis que supérieure (strictement) à .

ou égale à , tandis que supérieure (strictement) à . est le nombre d'individus qui ont

est le nombre d'individus qui ont une valeur du caractère le nombre de ceux qui ont une valeur du caractèreou égale à , tandis que supérieure (strictement) à . Ainsi, cumuler les effectifs c’est, pour

Ainsi, cumuler les effectifs c’est, pour chaque valeur affichée du caractère, répartir la population totale en deux sous­populations situées de part et d’autre de cette valeur.

Rappel : par définition, l’ensemble des i — 1 (ou i ) premières modalités, la
Rappel : par définition, l’ensemble des i — 1 (ou i ) premières modalités, la

Rappel : par définition,

l’ensemble des i — 1 (ou i) premières modalités, la i ème modalité étant notée .

(ou )

est le nombre total d’individus ayant une valeur prise dans

le nombre total d’individus ayant une valeur prise dans Dans un cumul à la française (ou
le nombre total d’individus ayant une valeur prise dans Dans un cumul à la française (ou

Dans un cumul à la française (ou à l’anglo­saxonne), on inscrit donc à la ligne i, en face de , le nombre (ou ), c’est­à­dire le nombre d’individus dont la valeur est inférieure à (ou à ).

d’individus dont la valeur est inférieure à (ou à ). Insistons sur la manière de lire
d’individus dont la valeur est inférieure à (ou à ). Insistons sur la manière de lire
d’individus dont la valeur est inférieure à (ou à ). Insistons sur la manière de lire

Insistons sur la manière de lire le tableau pour en extraire l’information disponible. Puisque à la ligne i, est le nombre d’individus qui ont une valeur prise dans les le tableau pour en extraire l’information disponible. Puisque à la ligne i i ­1 premiers intervalles, i ­1 premiers intervalles, la plus grande

valeur possible d’un individu pris dans ces

individus est donc au plus égale à la plus grande valeur

du (i — 1)ème intervalle, donc inférieure à sa borne droite,

, qui est la borne droite1) ème intervalle, donc inférieure à sa borne droite, premiers individus (ligne i d'un cumul à

premiers individus (ligne i d'un cumul à la française) est donc inférieure à de la ( i — i d'un cumul à la française) est donc inférieure à de la (i — 1)ème modalité mais aussi la borne gauche de la ième.

ème modalité mais aussi la borne gauche de la i ème . . Ainsi, la plus
ème modalité mais aussi la borne gauche de la i ème . . Ainsi, la plus

. Ainsi, la plus grande valeur possible des

de la i ème . . Ainsi, la plus grande valeur possible des De même est

De même est le nombre de ceux dont la valeur est au plus égale à la plus grande valeur du ième intervalle de valeurs, donc inférieure à sa borne droite, , qui est aussi la borne gauche du i +1ème.

droite, , qui est aussi la borne gauche du i +1 ème . Au total, les

Au total, les effectifs

la borne gauche du i +1 ème . Au total, les effectifs sont décalés comme précédemment,

sont décalés comme précédemment, vers le bas ou vers la droite.

Exemple : soit le tableau de la distribution des DEFM femmes en Aquitaine au 31 août 1994

suivant leur ancienneté de demandeuses.

Ancienneté (mois)

Effectif

[0 ; 3[

21 463

[3 ; 12[

34 937

[12 ; 24[

20 199

[24 ; …[

13 437

Total

90 036

On construit ainsi le tableau des effectifs cumulés :

[0 ; 3[ 21 463 21 463 0 [3 ; 12[ 34 937 56 400
[0 ; 3[ 21 463 21 463 0 [3 ; 12[ 34 937 56 400
[0 ; 3[ 21 463 21 463 0 [3 ; 12[ 34 937 56 400
[0 ; 3[ 21 463 21 463 0 [3 ; 12[ 34 937 56 400

[0 ; 3[

21 463

21 463

0

[3 ; 12[

34 937

56 400

21 463

[12 ; 24[

20 199

76 599

56 400

[24 ; …[

13 437

90 036

76 599

Total

90 036

; …[ 13 437 90 036 76 599 Total 90 036 La lecture de la colonne

La lecture de la colonne nous indique à la 3ème ligne qu’il y a 56 400 chômeuses dont l’ancienneté dans l’état est inférieure ou égale à la valeur maximale de l’intervalle [3, 12[, c’est­à­dire qu’elles sont chômeuses depuis moins de 12 mois.

La lecture de la colonne nous indique à la 2 è m e ligne qu’il

La lecture de la colonne nous indique à la 2 ème ligne qu’il y a 56 400 chômeuses dont l’ancienneté dans l’état est inférieure (strictement) à la valeur minimale de l’intervalle [12, 24[, c’est­à­dire qu’elles sont chômeuses depuis moins de 12 mois.

Les deux manières de cumuler donnent bien exactement la même information.

C­ Des effectifs cumulés au diagramme intégral (fonction de répartition)

De la définition des effectifs cumulés, il résulte que les effectifs cumulés permettent de passer à la fonction de répartition. Avec une définition " française " de la répartition et la notation précédente, on a :

dans le cas discretla répartition et la notation précédente, on a : • • ou dans le cas continu.

la notation précédente, on a : • • dans le cas discret ou dans le cas

ou

notation précédente, on a : • • dans le cas discret ou dans le cas continu.

dans le cas continu.

Mais attention : F est définie sur tout entier, tandis que les effectifs cumulés ne donnent les couples

que pour les valeurs affichées des modalités du caractère. Cependant, on déduit de ces couples toute la fonction de répartition : la fonction exacte dans le cas discret ; une approximation dans le cas continu (sous l’hypothèse déjà vue d’homogénéité de répartition au sein des classes).

vue d’homogénéité de répartition au sein des classes). 1 . Si la variable est discrète ,
vue d’homogénéité de répartition au sein des classes). 1 . Si la variable est discrète ,

1. Si la variable est discrète, toutes les valeurs possibles du caractère sont affichées avec les effectifs correspondants et on peut calculer l’effectif cumulé exact pour toutes les valeurs possibles du caractère.

exact pour toutes les valeurs possibles du caractère. La représentation graphique (diagramme intégral) est alors

La représentation graphique (diagramme intégral) est alors un escalier, chaque marche étant ouverte à

gauche et fermée à droite, la première étant de longueur infinie de infinie de à .

et la dernière de longueur

à
à
infinie de infinie de à . et la dernière de longueur à Dans la ligne i
infinie de infinie de à . et la dernière de longueur à Dans la ligne i

Dans la ligne i, en face de la modalité

modalités (cumul français), ou saxon).

, la somme des effectifs des i ­1 premières

, la somme des effectifs des i premières modalités (cumul anglo­ i premières modalités (cumul anglo­

des effectifs des i premières modalités (cumul anglo­ , on inscrit Les couples sont des points

, on inscrit

des i premières modalités (cumul anglo­ , on inscrit Les couples sont des points de la

Les couples sont des points de la fonction de répartition. Hors de ces points, on sait aussi quelle est l’image de tout x de , puisque l’image de x par F est le nombre d’individus qui ont une valeur

aussi quelle est l’image de tout x de , puisque l’image de x par F est

inférieure à

inférieure à : ce nombre c’est . On a donc tout le diagramme intégral : .

: ce nombre c’est

.
.

On a donc tout le diagramme intégral :

.
.

2. Si la variable est continue (ou traitée comme telle), on ne connaît les effectifs qu’aux bornes des intervalles de valeurs, pas pour chaque valeur possible. À la différence du cas discret l’information contenue dans l’effectif d’une classe est limitée au nombre d’individus qui ont une valeur supérieure ou égale à la borne de gauche de la classe et inférieure (strictement) à la borne de gauche de la classe suivante ; on ne sait pas quelle est la valeur précise de chaque individu de la classe.

est la valeur précise de chaque individu de la classe. Ainsi, si les couples bornes des
est la valeur précise de chaque individu de la classe. Ainsi, si les couples bornes des
est la valeur précise de chaque individu de la classe. Ainsi, si les couples bornes des

Ainsi, si les couples

bornes des intervalles, on doit faire une hypothèse pour les valeurs dans l’intervalle pour tracer toute la

fonction : on fait l'hypothèse d’équirépartition.

ou sont les points de la fonction de répartition aux

ou

L’hypothèse d’équirépartition (ou d’homogénéité) au sein de la classe i consiste à dire que pour la classe

i, la borne de gauche, , comprise dans l’intervalle, est la valeur du 1 er des individus de cette classe et que les autres individus, tous de valeur différente, sont régulièrement espacés sur toute

l’étendue de la classe. (Ainsi i + 1.)

, borne supérieure exclue de la classe i, est la première valeur de la classe

de la classe i , est la première valeur de la classe Dans chaque classe, les
de la classe i , est la première valeur de la classe Dans chaque classe, les
de la classe i , est la première valeur de la classe Dans chaque classe, les

Dans chaque classe, les individus sont donc séparés l’un de l’autre par un écart de valeur égal à l’amplitude de la classe divisée par le nombre d’individus.

de la classe divisée par le nombre d’individus. Soit l’autre). Alors, selon l’hypothèse

Soit

l’autre). Alors, selon l’hypothèse d’équirépartition, le premier individu de ladite classe a exactement la

valeur

valeur

, etc., et le dernier a la

l’écart entre deux individus de la classe i (il peut évidemment varier d’une classe à

la classe i (il peut évidemment varier d’une classe à , le second exactement la valeur

, le second exactement la valeur , soit une valeur inférieure à

exactement la valeur , soit une valeur inférieure à , le troisième la valeur . Graphiquement,

, le troisième la valeur .

soit une valeur inférieure à , le troisième la valeur . Graphiquement, l’hypothèse d’équirépartition situe

Graphiquement, l’hypothèse d’équirépartition situe les points de l’intervalle sur les segments de droite joignant les points­bornes : le diagramme intégral est une ligne brisée et non une courbe arrondie.

Si on fixe (arbitrairement) la borne supérieure du dernier intervalle à 40, le diagramme intégral (qui représente la fonction de répartition) se présente alors ainsi :

la fonction de répartition) se présente alors ainsi : Sur ce diagramme intégral, on lit, par

Sur ce diagramme intégral, on lit, par exemple, que l’image de 12 est 56 400, ce qui signifie que 56 400 individus ont une valeur inférieure à 12, c’est­à­dire que 56 400 chômeuses sont chômeuses depuis moins de 12 mois.

Entre les bornes des intervalles, on suit l’hypothèse d’équirépartition : on procède à une interpolation linéaire, ce qui revient à appliquer le théorème de Thalès.

Par exemple, on dira que l’image de 15 est entre celle de 12 et celle de 24 comme 15 est entre 12 et 24.

Ainsi, on suppose que l’image de 15 est : F(15) =

et 24. Ainsi, on suppose que l’image de 15 est : F(15) = = 61 449,75.

= 61 449,75.

Autrement dit, on suppose que 61 449 chômeuses le sont depuis moins de 15 mois.

Plus généralement,

II. La médiane

,
,
.
.

On peut maintenant aborder la médiane. On en donnera une définition précise puis on montrera comment il convient de procéder pour la déterminer correctement, en montrant ainsi en quoi quelques recettes couramment utilisées sont de plus ou moins de bonnes recettes.

A­ Définition

La médiane est la valeur de l’individu médian

Il n’y a pas d’autre définition simple et exacte à la fois ! nous allons le voir.

(On peut toujours donner une définition mathématique d’une notion quelconque, mais ce n’est pas toujours " parlant " : ainsi, on peut en construire une pour la médiane, à partir de la fonction de répartition, mais sa compréhension suppose la maîtrise de la notion discutée ci­après… ce qui la rend inutile pour notre propos !)

1. Selon Littré, l’adjectif médian signifie " qui est au milieu ".

Ainsi, s’agissant d’anatomie, la " ligne médiane [est] la ligne verticale qu’on suppose partager longitudinalement le corps en deux parties égales et symétriques " ; s’agissant d’ancienne astronomie, la " planète médiane [est] celle des sept planètes que l’on croyait au milieu des autres, c’est­à­dire ayant autant de planètes au­dessus d’elle qu’au­dessous ".

Ces deux exemples illustrent bien que la notion de médiane renvoie fondamentalement à celle d’individu médian, d’individu qui est " au milieu ". De là, l’individu médian est généralement désigné comme celui qui partage une population en deux moitiés égales. Mais ces deux exemples illustrent bien la difficulté de s’en tenir à une fausse évidence car ils renvoient en réalité à deux niveaux d’abstraction pas toujours totalement cohérents entre eux : l’abstrait continu de la mathématique et le concret discret de la statistique descriptive.

En effet, la ligne médiane partage une surface en deux moitiés d’aires égales parce qu’une ligne n’a pas d’épaisseur (ladite ligne a autour d’elle autant de lignes d’un côté que de l’autre, si l’on peut dire). De même que le point médian d’un segment de droite le partage en deux segments égaux parce que le point dans la droite est un point abstrait, " sans épaisseur " grâce à l’hypothèse de continuité (il y a toujours une infinité de points entre deux points aussi proches que l’on veut).

Par contre, dans l’exemple de la planète médiane, on ne peut dire qu’elle est au milieu, avec 3 planètes de part et d’autre, que parce qu’il y a 7 planètes, un nombre impair. De plus, 3 planètes de part et d’autre cela ne fait pas deux moitiés de 7, mais de 6 (les sept planètes moins la planète médiane)

Dans la réalité concrète, l’effectif est en nombre fini, même s’il est très grand, et on ne peut plus dire en toute rigueur que l’individu médian partage l’effectif en deux sous­ensembles égaux situés de part et d’autre de lui. En effet, cet individu est " épais ", il faut donc le mettre hors de la population étudiée, sans oublier que les deux fausses moitiés de l’effectif qui reste ne peuvent être égales que si l’effectif total est impair.

En toute rigueur, l’individu médian ne peut à la fois être au milieu et partager le tout en deux parties égales que s’il n’est dans aucune des deux moitiés et dans les deux en même temps. L’individu médian mathématique le peut parce qu’on le suppose dans un espace continu, c’est­à­dire appartenant à une population d’effectif infini. L’individu statistique ne le peut pas, parce qu’il est un individu " concret ", parce qu’il appartient à une population d’effectif fini, même si cet effectif peut être très grand et traité comme infini.

La description statistique d’une situation concrète exige donc d’adapter la définition abstraite de la médiane, car on ne passe pas directement de l’abstrait au concret : un segment concret n’est pas une suite de points abstraits, et encore moins une suite de points concrets. Le passage à la limite permet certes de traiter " mathématiquement " le concret fini, mais on est là dans l’antichambre de la statistique mathématique.

Cela dit, il y a un autre problème : même si l’individu médian est pris dans un effectif quasi infini, on ne peut pas admettre " sans problème " qu’il partage cet ensemble en deux parties égales, ce qui est implicite quand on raisonne en fréquences. Car on a parlé jusqu’ici de l’individu médian, alors que ce qui intéresse le statisticien, qui cherche à résumer une population par ses caractéristiques centrales, c’est la valeur de l’individu médian, la valeur médiane, ou médiane tout court.

Or, si on dira tout naturellement que la médiane est la valeur qui partage la population en deux sous­ populations d’effectif égal, ce n’est pas aussi simple : tant qu’il s’agit de lignes ou de planètes, c’est­à­ dire d’individus, ils sont par nature individualisés ; mais s’agissant de leur valeur, il peut y avoir, pour certaines grandeurs, des individus de même valeur, des classes d’individus, et plusieurs individus peuvent être médians du point de vue du critère de valeur retenu. On peut alors être très très loin de l'idée d'une moitié de population de valeur inférieure à la médiane !

Nous allons voir, avec des exemples, que la médiane est en fait bien moins évidente que ne le laissent penser les définitions simplistes que l’on peut en donner. En fait, pour caractériser numériquement une population avec la notion de médiane, nul besoin de désigner l’individu médian autrement que par son rang parmi ses semblables : la connaissance de la position médiane, du rang médian, suffit à déterminer la valeur de l’individu médian. La médiane renvoie non à un individu précis mais à une valeur, tous les individus de valeur médiane pouvant être l'individu médian.

Illustrons cela par l'exemple ci­dessous où 7 individus sont rangés par taille croissante, l'individu médian est d, mais a, c, e et f ont tous quatre la même taille que lui et chacun d'eux aurait également pu être l'individu médian. Et on voit immédiatement qu'il n'y a pas une moitié de la population de taille inférieure (ou supérieure).

Et on voit immédiatement qu'il n'y a pas une moitié de la population de taille inférieure

2. Les définitions de la médiane généralement proposées, très intuitives et semblant claires, manquent en

réalité de précision (quand elles ne sont pas carrément fausses).

Voyons deux manuels parmi les plus utilisés :

G. Calot : " La médiane est la valeur de la variable statistique qui partage en deux effectifs égaux

les individus de la population supposés rangés par valeur croissante du caractère "… " D’une façon générale, la médiane M est la valeur de la variable statistique telle que l’ordonnée de la

de la variable statistique telle que l’ordonnée de la courbe cumulative soit égale à . "

courbe cumulative soit égale à . " (Statistique descriptive, Dunod, p. 31).

B. Py : " La médiane est la valeur du caractère qui partage la série en deux sous­ensembles égaux.

"… " Il y a autant d’observations supérieures à la médiane que d’observations inférieures à la

à la médiane que d’observations inférieures à la médiane. " ( Statistiques descriptives, Economica, p.

médiane. " (Statistiques descriptives, Economica, p. 74)… " Et l’on peut écrire : F(Mé)= . " (Idem, p. 76).

Ces définitions sont tout à fait discutables.

• D’abord, elles ne peuvent valoir que pour une population où chaque valeur possible n’est observée qu’une fois (à l’exemple des planètes de Littré ou des points de la droite réelle).

Dans le cas d’une variable continue, l’hypothèse d’homogénéité au sein de chaque classe garantit par construction l’unicité de chaque observation. On verra plus loin comment cette hypothèse d’individualisation permet d'associer une valeur différente à chaque rang et de donner une valeur médiane théorique.

Par contre, dans le cas d’une variable discrète rien n'empêche que plusieurs individus présentent la même valeur de caractère que l’individu médian (notre illustration ci­dessus). Dès lors il n’existe pas de valeur telle qu’" il y a autant d’observations supérieures à la médiane que d’observations inférieures à la médiane ".

Il en est bien ainsi dans notre exemple discret précédent : sur un nombre total de 70 observations, 25 observations, soit moins de la moitié, ont donné une valeur inférieure à 3 et 43 observations, soit plus de la moitié, ont donné une valeur inférieure à 4 ; de même, on a observé 27 fois une valeur supérieure à 4 et 45 fois une valeur supérieure à 3.

En fait, il faut distinguer le rangement, qui donne, dans l’espace de rangement, une place individualisée, et le classement, qui tel la valeur donne, dans son, une place possiblement collective (celle de la classe). Une définition sur la valeur ne peut pas en être une, par défaut de généralité.

• Ensuite, même en supposant l’unicité d’observation de chaque valeur possible, il y a le problème de la parité de l’effectif total.

En effet, si N est impair (de la forme 2p+1), il existe bien un individu " au milieu ", le p+1 ème , qui est tel que p observations sont faites avant et p après… mais p ce n’est pas la moitié ! (pas tout à fait).

Si N est pair (de la forme 2p), seuls deux individus pris ensemble sont " au milieu " : les p et p+1 èmes , mais s’ils ont bien le même nombre d’individus, p­1, de part et d’autre, c’est encore moins la moitié que précédemment. Néanmoins, dans ce cas, on décide, par convention, que le p+1ème est l’individu médian, et on a bien, alors, l’exacte moitié p avant, mais pas après, où il n’y en a que p­1.

Nota bene : l’individu médian, le p+1 ème , peut avoir la même valeur que le p ème . Attention à ne pas confondre le rang et le classement, car le rang est unique. S’il peut y avoir des ex­æquo quand on classe (opération abstraite, qui porte sur les valeurs, où les équivalents sont mis dans la même classe), cela ne se peut pas quand on range (opération physique, concrète, qui porte sur les individus eux­mêmes, que l’on met à la suite, en rang, qu’on dispose sur une ligne).

On constate donc qu’il n’est pas correct de dire généralement que la médiane partage la population en deux sous­populations d'effectifs égaux ou que la moitié de la population a une valeur inférieure à la valeur médiane et l’autre moitié une valeur supérieure (les deux propositions sont fausses, parce qu'elles ne pas nécessairement vérifiées – pour des raisons différentes). Rigoureusement parlant, les définitions discutées ne sont pas des définitions mais de simples approximations intuitives de la nature de la médiane.

• Enfin, il n’est pas davantage satisfaisant de se raccrocher à la fonction de répartition (ou courbe cumulative) en disant que la médiane est la valeur M du caractère dont l’image par F est F(M) = p (ou 0,5 ou 50 % en fréquence) : cela suppose que l’on connaisse N et que p (ou 0,5 ou 50 %) n’ait que un antécédent (il suffit pour cela que tous les individus aient une valeur différente, mais ce n’est pas nécessaire).

C’est toujours vrai dans le cas continu, on le verra, sous l’hypothèse d’équirépartition.

Par contre, dans le cas discret, ce n'est plus toujours vrai. Il suffit de regarder le diagramme en escalier pour constater que si l’ordonnée p (ou 0,5 ou 50 %) " tombe " entre deux marches, il y a bien un antécédent déterminé (qui sera la médiane), mais que si p tombe en face une marche de l'escalier correspondant à une observation multiple ( ), alors p a plusieurs antécédents.

multiple ( ), alors p a plusieurs antécédents. Quid alors de la médiane ? On parle

Quid alors de la médiane ? On parle parfois d'intervalle médian (par exemple G. Calot et B. Py, op.cit.), ce qui n'est pas satisfaisant car la médiane n'est plus une modalité du caractère, c'est­à­dire une valeur observée portée par un individu de la population étudiée, mais un ensemble de valeurs dont un nombre infini de valeurs non observables. Dans ce cas, on peut certes déterminer la médiane à partir de l'image

, comme valeur de l'individu médian (cf plus loin), mais comme plusieurs valeurs ont cette même image, on ne peut pas la définir de cette manière : on ne définit pas par le mode de détermination.

manière : on ne définit pas par le mode de détermination. Au total, on ne peut

Au total, on ne peut définir la médiane que par référence à l’individu médian, qui est toujours bien défini, soit " physiquement ", soit par convention, et auquel on peut toujours associer une modalité.

B­ Détermination

Pour déterminer la médiane, on n'a pas besoin de savoir qui est l'individu médian (de toute façon les données numériques dont on dispose ne le permettraient pas), mais seulement quelle modalité il présente. Il nous suffit pour cela de déterminer le rang médian, c’est­à­dire le rang de l’individu médian.

Pour ce faire, on range les individus par valeur croissante. C'est l'habitude, par rapport à la définition de F, mais on pourrait tout aussi bien classer par valeur décroissante, le principe de calcul de la médiane restant le même (il faudrait bien sûr modifier les conventions de calculs pour trouver le même résultat). Puis on procède en deux étapes : détermination du rang médian et " observation " de la valeur.

1. Détermination du rang médian

a) Données en valeur absolue

Dans le cas d'un effectif total N impair (de la forme 2p +1), l'individu médian est le p +1 ème : il est précédé par p individus de valeur inférieure ou égale à la sienne et suivi par p individus de valeur supérieure ou égale. (Rappel : plusieurs individus peuvent avoir une valeur égale à celle du p +1 ème .)

Par contre, si N est pair (de la forme 2p), il n'y a pas d'individu tel qu'un nombre égal d'individus le précèdent ou le suivent : le pème individu est précédé par p—1 individus et suivi par p ; le p +1 ème est précédé par p individus et suivi par p +1. Parce que la médiane est la valeur d’un individu, il faut choisir un individu médian, et comme on l’a déjà indiqué, on choisit par convention le p +1 ème (par cohérence avec la définition de la fonction de répartition).

Le rang de l'individu médian est donc p +1, dans les deux cas, avec :

p

+1 =

si N est pair, N est pair,

p

+1 =

si N N

est impair.

Dans les deux cas, p individus sont rangés avant l’individu médian et ont une valeur inférieure ou égale

l’individu médian et ont une valeur inférieure ou égale à celle de cet individu. Dans notre

à celle de cet individu. Dans notre exemple, le rang médian est = 36 et 35 individus sont rangés avant l’individu médian.

b) Données en " fréquences "

Si les effectifs sont donnés en valeur relative (ou en %), généralement appelée fréquence, on a par

définition

définition et (ou = 100), et on raisonne sur les fréquences cumulées au lieu des effectifs

et

définition et (ou = 100), et on raisonne sur les fréquences cumulées au lieu des effectifs

(ou

définition et (ou = 100), et on raisonne sur les fréquences cumulées au lieu des effectifs

= 100), et on raisonne sur les fréquences cumulées au lieu des effectifs

cumulés.

Dans ce cas, le rang de l'individu médian n’est évidemment pas

le rang de l'individu médian n’est évidemment pas (où est considéré comme impair). Il n'est pas

(où

rang de l'individu médian n’est évidemment pas (où est considéré comme impair). Il n'est pas davantage

est considéré comme

médian n’est évidemment pas (où est considéré comme impair). Il n'est pas davantage % (où =
médian n’est évidemment pas (où est considéré comme impair). Il n'est pas davantage % (où =

impair). Il n'est pas davantage % (où = 100 est considéré comme pair) : si les effectifs sont donnés en fréquence, il probable que c’est parce que N est grand et si N > 100 le rang de l'individu médian est supérieur à 50 et correspond à une fréquence comprise entre 50 % et 51 % (cependant, si N = 100, l'individu médian, le 51 ème , correspond bien exactement à la fréquence 51 %, tandis que si N < 100, le rang médian correspond à une fréquence supérieure à 51 %).

Il y a deux possibilités quant à N (que l'on ne connaît pas) :

• soit N est pair, alors 0,5 (ou 50 %) correspond exactement à p et l’individu médian est celui qui a la valeur qui vient immédiatement après la fréquence 50%, la moitié des individus étant rangés avant ;

50%, la moitié des individus étant rangés avant ; • soit N est impair, alors 0,5

• soit N est impair, alors 0,5 (ou 50 %) correspond à p+

celle de l’individu de rang p+1, d'où l'on conclut comme dans le cas précédent.

et la première valeur venant après 50 % est

Au total, si on a des données en fréquences relatives, l’individu médian est celui dont la valeur apparaît

immédiatement après la fréquence 50 %.

Remarque : une erreur fréquente des étudiants est de confondre N et

et de chercher pour la médianeune erreur fréquente des étudiants est de confondre N et la valeur correspondant à , soit

est de confondre N et et de chercher pour la médiane la valeur correspondant à ,

la valeur correspondant à , soit 51 en points de pourcentage (nombre qui n’a aucune raison particulière d’être égal ou de correspondre à p+1, cf. plus haut) ; comme ils arrivent néanmoins au résultat en suivant la même démarche de calcul qu'avec les effectifs, puisque 0,5 est bien dans tous les cas l’image de la médiane (cf. infra), ils comprennent mal la nécessité de bien raisonner quand ils peuvent trouver le résultat juste en raisonnant faux.

2. Détermination de la médiane

Il s’agit ici de fonder de façon parfois fastidieuse une pratique simple quand les fondements sont compris, ce qui peut paraître inutile quand des recettes paraissent efficaces. Mais ces recettes sont trop souvent des approximations, et les recettes n'ont de sens à l'Université que comme application d'une réflexion, d'une analyse.

a. Lecture du tableau statistique

Les modalités étant rangées par ordre croissant, la colonne des effectifs cumulés donne pour chaque modalité le nombre d'individus qui présentent, selon le mode de cumul, une modalité strictement inférieure ou inférieure ou égale à ladite modalité : elle exprime un classement des individus, le rang de l'individu médian permettant alors de le situer dans ce classement et d’en déduire la valeur de la médiane.

a1. Variable discrète

• Cumul " à la française "

­ Cas général :

, c’est­à­dire que p tombe entre deux lignes du tableau. p tombe entre deux lignes du tableau.

À la ligne i on lit qu’il y a

individus ont une valeur inférieure à

égale à celle du pème , a une valeur supérieure ou égale à celle du

du p ème , a une valeur supérieure ou égale à celle du individus dont la

individus dont la valeur est inférieure à

à celle du individus dont la valeur est inférieure à et à la ligne i +1

et à la ligne i +1 on lit que i+1 on lit que

valeur est inférieure à et à la ligne i +1 on lit que . Or l’individu

. Or l’individu de rang p +1 ayant une valeur supérieure ou

è m e , mais aussi inférieure ou égale ème , mais aussi inférieure ou égale

ou è m e , mais aussi inférieure ou égale à celle du è m e
ou è m e , mais aussi inférieure ou égale à celle du è m e

à celle du ème (puisque par hypothèse ).

égale à celle du è m e (puisque par hypothèse ). L'individu médian a donc une
égale à celle du è m e (puisque par hypothèse ). L'individu médian a donc une
égale à celle du è m e (puisque par hypothèse ). L'individu médian a donc une

L'individu médian a donc une valeur égale ou supérieure à et inférieure à . On a : M < . Comme, par définition, il n'y pas de valeur possible du caractère comprise entre et , on en déduit que la médiane, valeur de l'individu médian, est .

que la médiane, valeur de l'individu médian, est . D'où la recette : on lit la

D'où la recette : on lit la médiane dans la ligne au­dessus de p, c’est­à­dire dans la ligne de

.
.

­ Cas particulier : p =

, c’est­à­dire tombe sur une ligne (la ligne i ). i).

À

l'individu médian, de rang p+1, présente la modalité immédiatement supérieure à moins de . Sa modalité, qui est la médiane, est donc .

la ligne i on lit qu'il y a p = individus dont la valeur est strictement inférieure à . Par conséquent,

valeur est strictement inférieure à . Par conséquent, D'où la recette : on lit la médiane
valeur est strictement inférieure à . Par conséquent, D'où la recette : on lit la médiane
valeur est strictement inférieure à . Par conséquent, D'où la recette : on lit la médiane
valeur est strictement inférieure à . Par conséquent, D'où la recette : on lit la médiane

D'où la recette : on lit la médiane dans la ligne de p, c'est­à­dire de

.
.

• Cumul " à l’américaine "

­ Cas général :

• Cumul " à l’américaine " ­ Cas général : , c’est­à­dire que p tombe entre

, c’est­à­dire que p tombe entre deux lignes du tableau.

À

que individus ont une valeur inférieure ou égale à . On en déduit comme précédemment que

la ligne i on lit qu’il y a individus dont la valeur est inférieure ou égale à et à la ligne i+1 on lit

est inférieure ou égale à et à la ligne i +1 on lit . On a:
est inférieure ou égale à et à la ligne i +1 on lit . On a:
est inférieure ou égale à et à la ligne i +1 on lit . On a:
est inférieure ou égale à et à la ligne i +1 on lit . On a:
. On a:
. On a:

l’individu de rang p +1 ayant une valeur plus grande que le

donc une valeur supérieure à

ème et au plus égale à celle du

< M

supérieure à ème et au plus égale à celle du < M è m e ,
supérieure à ème et au plus égale à celle du < M è m e ,

ème , a

et inférieure ou égale à

Comme, par définition, il n'y pas de valeur possible du caractère comprise entre

qui précède que la médiane, valeur de l'individu médian, est

.
.
et
et

, il résulte de ce

D'où la recette : on lit la médiane dans la ligne en dessous de p, c’est­à­dire dans la ligne de

­ Cas particulier : p =

dans la ligne de ­ Cas particulier : p = , c’est­à­dire tombe sur une ligne

, c’est­à­dire tombe sur une ligne

Cela signifie qu’il y a exactement p =

sur une ligne Cela signifie qu’il y a exactement p = individus de valeur inférieure ou

individus de valeur inférieure ou égale à

.
.

Par conséquent, l'individu de rang p +1 présente la modalité immédiatement supérieure à

La médiane est donc

.
.
.
.
.
.

D'où la recette : on lit la médiane dans la ligne en dessous de p.

Exemple : reprenons l’exemple discret précédent, où p+1 = 36.

Lisons le tableau en regardant

et
et

: 25 observations sont inférieures à 3 et 43 sont inférieures à 4.

La 36ème observation est donc à la fois supérieure ou égale à 3 et inférieure à 4 : la médiane est 3.

Le rang médian 36 est compris entre 25 et 43, on lit bien la médiane dans la ligne au­dessus de 25.

On raisonne de même pour le cumul à l'américaine pour vérifier que la recette fonctionne.

a2. Variable continue

Dans ce cas, on ne peut généralement pas connaître la vraie valeur de la médiane : la partition en sous­ populations étant faite selon des classes de valeurs du caractère, le rang médian détermine de façon certaine la classe à laquelle appartient la médiane, mais pas sa valeur précise.

Rappel : si la variable est continue,

est la borne de gauche (incluse) de l’intervalle inscrit à la ligne i i

et

gauche (incluse) de l’intervalle inscrit à la ligne i et en est la borne droite (exclue).

en est la borne droite (exclue).

• Cumul " à la française "

­ Cas général :

• Cumul " à la française " ­ Cas général : , c’est­à­dire que p tombe

, c’est­à­dire que p tombe entre les lignes i et i+1 du tableau.

À la ligne i on lit qu’il y a

individus ont une valeur inférieure à

on lit qu’il y a individus ont une valeur inférieure à individus dont la valeur est

individus dont la valeur est inférieure à

à individus dont la valeur est inférieure à et à la ligne i +1 on lit

et à la ligne i+1 on lit que

valeur est inférieure à et à la ligne i +1 on lit que . En raisonnant

. En raisonnant comme dans le cas discret, on en déduit que :

valeur est inférieure à et à la ligne i +1 on lit que . En raisonnant

M < <

.
.

On ne peut pas en dire plus car il peut y avoir ici une infinité de valeurs possibles pour les individus dont

une infinité de valeurs possibles pour les individus dont la valeur est dans l'intervalle . Pour

la valeur est dans l'intervalle . Pour aller au delà de cette seule information certaine, on reprend l'hypothèse d'équirépartition que l'on a faite plus haut (p. 4) pour tracer les diagrammes différentiel (histogramme) et intégral (fonction de répartition).

Rappelons que sous cette hypothèse, le premier individu d'une classe présente une valeur de caractère exactement égale à la borne inférieure de l'intervalle tandis que le dernier présente une valeur de caractère exactement égale à la borne supérieure moins un écart . Ainsi, " moins de " signifie précisément et " moins de " signifie précisément .

et " moins de " signifie précisément . Par construction du tableau " à la française
et " moins de " signifie précisément . Par construction du tableau " à la française
et " moins de " signifie précisément . Par construction du tableau " à la française
et " moins de " signifie précisément . Par construction du tableau " à la française
et " moins de " signifie précisément . Par construction du tableau " à la française

Par construction du tableau " à la française ", on inscrit à la ligne i la modalité

) d'individus qui ont une valeur inférieure àla française ", on inscrit à la ligne i la modalité et le nombre (noté et

et le nombre (noté

et
et
qui ont une valeur inférieure à et le nombre (noté et . Ainsi, l'individu de rang

. Ainsi, l'individu de rang

+1 a la valeur

l'individu de rang

a la valeur

.
.

la valeur

a la valeur l'individu de rang a la valeur . la valeur . Dès lors, selon

. Dès lors, selon l'hypothèse d'équirépartition l'individu de rang

Soit m le rang de l’individu médian au sein de sa classe : la valeur médiane est M =

.médian au sein de sa classe : la valeur médiane est M = Mais m est

Mais m est la différence de rang entre l'individu médian et le dernier de la classe précédente,

soit :

médian et le dernier de la classe précédente, soit : dont on déduit : . Se

dont on déduit :

.
.

Se rappelant que :

,
,

on a :

soit : dont on déduit : . Se rappelant que : , on a : ce

ce qui fait apparaître que M est entre d’équirépartition).

fait apparaître que M est entre d’équirépartition). et comme p est entre N i et N
fait apparaître que M est entre d’équirépartition). et comme p est entre N i et N

et

apparaître que M est entre d’équirépartition). et comme p est entre N i et N i+1

comme p est entre Ni et Ni+1 (cela traduit l’hypothèse

En effet, on peut écrire :

(cela traduit l’hypothèse En effet, on peut écrire : ce qui revient bien à la règle

ce qui revient bien à la règle de proportionnalité suivante :

revient bien à la règle de proportionnalité suivante : D'où la recette : quand p tombe

D'où la recette : quand p tombe entre deux lignes, on obtient la valeur médiane en faisant une interpolation

linéaire sur p entre les bornes de gauche des deux classes qui " encadrent " p.

­ Cas particulier : p =

linéaire sur p entre les bornes de gauche des deux classes qui " encadrent " p

Cela signifie qu’il y a exactement p =

de rang p +1 a la valeur immédiatement supérieure à moins de

p +1 a la valeur immédiatement supérieure à moins de individus de valeur inférieure à .

individus de valeur inférieure à

. Par conséquent, l'individuà moins de individus de valeur inférieure à . . La médiane est donc D'où la

.
.

. La médiane est doncvaleur inférieure à . Par conséquent, l'individu . D'où la recette : quand p tombe sur

D'où la recette : quand p tombe sur une ligne, la médiane est la borne de gauche de la classe

correspondante.

(On remarque qu'il s'agit aussi de la borne de droite de la ligne au­dessus de p.)

On notera qu'il s'agit bien d'un cas particulier du cas général vu auparavant, car le résultat de

du cas général vu auparavant, car le résultat de avec p = borne de gauche de

avec p =

borne de gauche de la modalité de la ligne de p.

l'interpolation

de la modalité de la ligne de p . l'interpolation donne effectivement M = , c'est­à­dire

donne effectivement M =

ligne de p . l'interpolation donne effectivement M = , c'est­à­dire la • Cumul " à

, c'est­à­dire la

• Cumul " à l'anglo­saxonne "

­ Cas général :

Cumul " à l'anglo­saxonne " ­ Cas général : , c’est­à­dire que p tombe entre les

, c’est­à­dire que p tombe entre les lignes i et i+1 du tableau.

À la ligne i on lit qu’il y a

individus ont une valeur inférieure à

on lit qu’il y a individus ont une valeur inférieure à individus dont la valeur est

individus dont la valeur est inférieure à

à individus dont la valeur est inférieure à et à la ligne i +1 on lit
à individus dont la valeur est inférieure à et à la ligne i +1 on lit

et à la ligne i+1 on lit que

M < <

.
.

. Comme précédemment, on en déduit :

lit que M < . . Comme précédemment, on en déduit : Comme précédemment, il faut
lit que M < . . Comme précédemment, on en déduit : Comme précédemment, il faut

Comme précédemment, il faut faire une interpolation linéaire sur l'intervalle , mais comme le cumul américain décale simplement les valeurs d’une ligne vers le haut, la borne n’est autre que la borne du cumul français : on a exactement les mêmes nombres dans le calcul et donc, bien évidemment, le même résultat. Le résultat ne dépend pas du mode de cumul, seule la recette change, puisque l'interpolation porte sur les bornes non plus de gauche mais de droite.

porte sur les bornes non plus de gauche mais de droite. Recette : pour trouver la

Recette : pour trouver la valeur médiane, on fait une interpolation linéaire sur p entre les bornes

de droite des deux classes qui " encadrent " p.

­ Cas particulier : p =

qui " encadrent " p . ­ Cas particulier : p = Cela signifie qu’il y
qui " encadrent " p . ­ Cas particulier : p = Cela signifie qu’il y
qui " encadrent " p . ­ Cas particulier : p = Cela signifie qu’il y

Cela signifie qu’il y a exactement p = individus de valeur inférieure à . Par conséquent, l'individu de rang p +1 a la valeur immédiatement supérieure à moins de . La médiane est donc M = .

supérieure à moins de . La médiane est donc M = . D'où la recette :
supérieure à moins de . La médiane est donc M = . D'où la recette :

D'où la recette : la médiane est la borne de droite de la modalité lue dans la ligne de p.

(On remarque qu'il s'agit aussi de la borne de gauche de la ligne en dessous de p.)

Exemple :

Ancienneté

Fréquences

Fréquences

(mois)

cumulées

[0 ; 3[

0,24

0,24

[3 ; 12[

0,39

0,63

[12 ; 24[

0,22

0,85

[24 ; …[

0,15

1

Total :

1

On a ici un cumul " américain " : à la première ligne on lit que 24 % des individus ont une ancienneté inférieure à 3 mois ; à la deuxième ligne on lit que 63 % des individus ont une ancienneté inférieure à 12

mois. L'ancienneté médiane est obtenue en interpolant ainsi :

En résumé, rappel des recettes (avec

interpolant ainsi : En résumé, rappel des recettes (avec p < ) . On trouve M

p <

)
)
ainsi : En résumé, rappel des recettes (avec p < ) . On trouve M =

. On trouve M = 9.

­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­

• Variable discrète

­ cumul " français " : M =

• Variable discrète ­ cumul " français " : M = (ligne au­dessus de p ou

(ligne au­dessus de p ou ligne de p)

­ cumul " anglo­saxon " : M =

p ou ligne de p ) ­ cumul " anglo­saxon " : M = (ligne en

(ligne en dessous de p).

• Variable continue :

: M = (ligne en dessous de p ). • Variable continue : ­ cumul "

­ cumul " français " : interpolation sur les bornes de gauche (M = )

=

" : interpolation sur les bornes de gauche ( M = ) = , borne de
" : interpolation sur les bornes de gauche ( M = ) = , borne de

, borne de gauche si p

­ cumul " anglo­saxon " : interpolation sur les bornes de droite (M =

" : interpolation sur les bornes de droite ( M = , borne de droite si

, borne de droite si p =

sur les bornes de droite ( M = , borne de droite si p = ).

).

(La valeur de la médiane est bien la même dans les deux modes de cumul, car un cumul " à la française

d'un cumul " à l'anglo­saxonne ", ce qui revient

" décale les

dans le cas continu à faire de la borne de droite " américaine " la borne de gauche " française ".)

" la borne de gauche " française ".) d'une ligne vers le bas par rapport aux

d'une ligne vers le bas par rapport aux

".) d'une ligne vers le bas par rapport aux b) Détermination graphique Il s'agit plutôt ici

b) Détermination graphique

Il s'agit plutôt ici de montrer les propriétés graphiques de la médiane. On peut cependant les utiliser pour déterminer la médiane quand on n'a pas les données numériques, mais uniquement une représentation graphique de la distribution.

La médiane étant la valeur du p+1 ème individu, on peut la lire comme image graphique de cet individu dans le diagrammes représentatifs de la distribution. On peut le faire à partir du diagramme différentiel, mais cela se fait bien plus directement en utilisant le diagramme intégral, par nature même de ce diagramme qui représente la distribution à partir des effectifs cumulés en associant à tout point de la droite réelle une longueur cumulée de bâtons (cas discret) ou une aire cumulée de rectangles (cas continu).

b1. À partir du diagramme différentiel

Caractère discret

Le diagramme différentiel représente les effectifs d'une valeur par un bâton. Le p+1 ème individu (médian) a donc "avant lui" la moitié de la longueur totale des bâtons. La médiane est alors l'abscisse du bâton dans lequel il se trouve.

Dans l'exemple ci­dessous, on a :

Dans l'exemple ci­dessous, on a : . La médiane est égale à 4. (En s'aidant d'un

. La médiane est égale à 4.

(En s'aidant d'un instrument de mesure de la longueur tel un décimètre, le lecteur pourra utilement reconstituer le tableau de la distribution " en fréquences " représentée par ce diagramme et vérifier que la médiane de cette distribution est bien 4.)

Caractère continu

L'histogramme représente les effectifs des classes de valeurs par des surfaces d'aires proportionnelles aux effectifs. La médiane est alors la valeur qui partage la surface totale en deux surfaces de même aire, une moitié des effectifs étant de chaque côté de cette valeur. Pour trouver la médiane, on calcule la surface totale, puis on cherche pour quelle valeur de x on a atteint la moitié de cette surface.

valeur de x on a atteint la moitié de cette surface. b2. À partir du diagramme

b2. À partir du diagramme intégral

Comme le diagramme intégral est la représentation graphique de F définie " à la française ", on est de

. (Si on avait défini

F " à l'américaine ", comme cela commence à se faire, sans que ce soit dit, dans les manuels, il faudrait

facto dans le cas d'un cumul à la française : les

facto dans le cas d'un cumul à la française : les dont on parle ci­après sont
facto dans le cas d'un cumul à la française : les dont on parle ci­après sont

dont on parle ci­après sont des

à la française : les dont on parle ci­après sont des transposer le raisonnement sur des

transposer le raisonnement sur des , et on obtiendrait évidemment les mêmes résultats numériques.)

Rappel : si le p +1ème individu vaut la médiane, le pème individu vaut strictement moins que la médiane. Ainsi, par définition de F, l'image par F de la médiane est p (et non p +1, erreur fréquente de l'étudiant).

En fréquences, l’image par F de la médiane est pour la même raison 0,5 (ou 50, en points de pourcentage) et non 0,51 ou 51 comme on le voit trop souvent.

Caractère discret

La fonction de répartition est en escalier et il faut distinguer deux cas :

* p (ou 0,5) est en face d’une marche

deux cas : * p (ou 0,5) est en face d’une marche Dans ce cas, p

Dans ce cas, p est l’image d’un segment de la droite réelle, par exemple

intervalle médian. Cela signifie que p individus valent moins que

, que l’on appelle parfois

.
.
médian. Cela signifie que p individus valent moins que , que l’on appelle parfois . et

et que le p+1ème vaut

Quand p tombe sur une marche, la médiane, valeur possible dont p est l’image, est donc la borne de droite de l’intervalle médian (cette borne est certes exclue de l'intervalle, mais on se rappelle que F associe à tout réel le nombre d'individus dont la valeur est inférieure à ce réel).

D’où la recette : quand p est en face d'une marche, la médiane est la borne droite (exclue) de la marche.

* p tombe entre deux marches

Dans ce cas, p n’a pas d’antécédent. Néanmoins, on peut trouver la médiane en " descendant " entre les

deux marches. En effet, si p est entre

et
et

, cela veut dire que la médiane est supérieure ou égale à .

veut dire que la médiane est supérieure ou égale à . et inférieure à . Donc

et inférieure à

la médiane est supérieure ou égale à . et inférieure à . Donc la médiane est

. Donc la médiane est

D’où la recette : quand p est entre deux marches, la médiane est la borne de gauche (incluse) de la

marche supérieure (c'est aussi la borne de droite, exclue, de la marche inférieure).

Caractère continu

Dans ce cas, la détermination de la médiane ne pose aucune difficulté, puisque le diagramme est une ligne brisée continue : toute valeur de F a un antécédent unique. Il suffit alors de chercher l'antécédent de p (ou de 0,5).

alors de chercher l'antécédent de p (ou de 0,5). Nota bene : il apparaît clairement qu'on

Nota bene : il apparaît clairement qu'on n'a pas de manière générale F(M) = 0,5. Dans le cas continu c'est toujours vrai, certes, par hypothèse d'équirépartition, mais ce n'est pas vrai dans le cas discret. En effet, dans ce cas, si p tombe sur une marche, 0,5 a d'autres antécédents par F que la médiane (tout l'"

antécédents par F que la médiane (tout l'" intervalle médian "), tandis que si p tombe

intervalle médian "), tandis que si p tombe entre deux marches l'image par F de la médiane

est non pas 0,5 mais l'ordonnée de la marche supérieure .

Retour en haut de la page

Retour à l'accueil