Vous êtes sur la page 1sur 3

LES EPREUVES DE STATISTIQUES DANS LES BTS

On observe, dans les propositions de sujets qui sont faites pour les preuves de mathmatiques des dirents e e e BTS, de nombreuses erreurs dans les exercices portant sur les statistiques. Certaines dentre-elles se retrouvent dailleurs dans les preuves proposes aux candidats, ce qui fait dsordre. La crdibilit de la formation dispense e e e e e e aux l`ves est en cause. De plus, il est bien connu que les annales rgulent lenseignement fait. Des sujets ee e correctement rdigs inciteront les professeurs ` amliorer la qualit scientique de leur cours. Lobjet de la e e a e e prsente note est dattirer lattention des inspecteurs sur les plus courantes de ces erreurs. e

I. STATISTIQUE DESCRIPTIVE
1- Le regroupement en classe des donnes e Quand le nombre dobservations dune variable relle est important, il est dusage de faire des classes et de e ` fournir un tableau o` gurent les classes et le nombre dobservations par classe. A noter quil sagit dune u premi`re tape de la dmarche statistique. On ne sintresse plus aux individus mais ` la population en donnant e e e e a une ide de la distribution de celle-ci. En contre-partie, on perd de linformation. e Dans ces conditions, demander aux l`ves de calculer mdiane, moyenne, cart-type de la variable na ee e e pas de sens, car on ne conna plus les valeurs prises par la variable, mais seulement les intervalles dans lesquels t elles se trouvent. Tout au plus peut-on en calculer des valeurs approches. La tradition veut que pour trouver une valeur approche e e de la mdiane on fasse lapproximation suivante : ` lintrieur dune classe les observations sont distribues e a e e uniformment. Cela veut dire que, si n est le nombre dobservations, la fonction de rpartition dite empirique e e 1 e a Fn : x (nombre dobservations infrieures ` x) n qui nest connue quaux extrmits des classes, est approxime par une fonction continue ane par morceaux. e e e En revanche, pour trouver une valeur approche de la moyenne et de lcart-type, on proc`de ` lapproximation e e e a suivante : on fait comme si toutes les observations dune classe avaient comme valeur commune le centre de la classe. Fn (x) est alors approxime par une fonction en escalier dont les points de discontinuit sont les centres e e des classes. Pour le calcul de la moyenne, les deux approximations conduisent ` la mme valeur. Il nen est pas a e de mme pour le calcul de la variance et donc de lcart-type. La variance est systmatiquement sous-estime e e e e 2 car on nglige la variation ` lintrieur de chaque classe. Si 1 est lapproximation de lcart-type 2 de la srie e a e e e 2 statistique calcule ainsi, on a 1 < 2 . e
2 Soit 2 lapproximation de 2 faite en supposant, comme pour la mdiane, les observations uniformment e e distribues ` lintrieur de chaque classe. Sil y a k classes et si Ij est la largeur de la classe j, un calcul simple e a e montre que : 1 2 2 2 2 = 1 + nj Ij . 12n 2 2 2 est en gnral plus proche de 2 que 1 . Cela permet davoir une ide de lerreur faite en remplaant e e e c par 1 et dviter des questions du type : les rsultats sont donns ` 102 pr`s alors que lerreur e e e a e de mthode ainsi calcule montre que lon ne peut obtenir quune approximation de lordre de e e lunit. e

2- La rgression linaire e e On consid`re n observations bivaries (x, y). Dans de nombreux cas on a entre y et x une liaison qui peut e e tre reprsente par une relation ane aux uctuations pr`s. On pose alors yi = axi + b + i o` a et b sont e e e e u
n

deux coecients ` dterminer. La mthode des moindres carrs consiste ` dterminer a et b tels que a e e e a e
i=1

2 soit i

minimum. x est appel variable explicative et y variable ` expliquer. Cette mthode est lie ` la description e a e e a euclidienne des donnes. Si dans lespace euclidien ` n dimensions En , y et x sont les vecteurs de coordonnes e a e

respectives (y1 . . . yn ), (x1 . . . xn ), y et x les vecteurs ayant toutes leurs coordonnes gales respectivement ` la e e a moyenne de y et ` la moyenne de x, le vecteur a(x x) est la projection orthogonale de (y y) sur (x x). Le a vecteur de coordonnes (1 . . . n ) est donc orthogonal ` (x x). e a Si on pose xi = yi + + i , y devient la variable explicative et x la variable ` expliquer. La mme mthode a e e consiste ` dterminer et tels que soit minimum. Les deux droites reprsentatives sont videmment distinctes a e e e et elles se coupent en G point moyen, de coordonnes (x, y). Dans En on projette alors orthogonalement (x x) e sur (y y). Il est donc absurde de faire dterminer dans une premi`re question lquation de la droite des e e e moindres carrs o` y est la variable ` expliquer puis ` faire prvoir x quand y prend une valeur e u a a e donne. Il fallait alors faire la rgression de x en y et non celle de y en x. e e Il doit y avoir une cohrence entre le mod`le et son utilisation. e e La dtermination de a et b (ou de et ) ncessitait avant lusage des calculatrices des calculs longs et pnibles. e e e Aussi avait-on cherch des mthodes empiriques donnant un ajustement ane approximatif dans les cas o` e e u ee e 2 (yi y)2 . Lune des plus cl`bres est la mthode de Meyer. On coupe le nuage des n points dans E2 i (le point Mi a pour coordonnes (xi , yi ) en deux (ou trois) sous-nuages). Celui qui correspond ` des abscisses xi e a infrieures ` t1 , celui qui correspond ` des abscisses suprieures ` t2 , les deux sous-nuages tant de mme eectif. e a a e a e e Si G1 et G2 sont les points moyens de ces deux sous-nuages, la droite reprsentative de la relation ane est la e parall`le ` G1 G2 passant par G voire (G1 G2 ). Cette mthode pla ` des professeurs de mathmatiques car elle e a e t a e fait faire des calculs de moyennes, mais elle ne repose sur aucune modlisation. Elle est donc ` proscrire, e a les calculatrices eectuant les calculs sans dicults. A la limite autant faire ajuster ` loeil une droite sur une e ` a reprsentation graphique de nuage. e Le coecient de corrlation reprsente le cosinus de langle des vecteurs (y y, x x) dans En , il est donc e e caractristique de la qualit de la reprsentation. Dans trop de sujets > 0, 98 ce qui dans beaucoup de cas dits e e e concrets, est trop beau pour tre vrai. Ce sont des donnes articielles quil vaut mieux viter. e e e

2. STATISTIQUE INDUCTIVE
1- Mod`le probabiliste et statistique e Dans les BTS industriels, la statistique inductive est une partie importante du programme. Elle trouve son application en contrle de fabrication et en abilit. Dans lindustrie il existe des procdures normalises dont la o e e e description est faite dans les publications de lAFNOR (normes ISO ou AFNOR). Pour les mettre en uvre nul besoin de comprendre ce quest la statistique inductive, il sut dexcuter les instructions dun algorithme. Trop e souvent les sujets sont du type faites comme on vous a appris ` faire et ngligent la partie comprendre , a e la plus intressante. e Rappelons que la situation concr`te est caractrise par un mod`le probabiliste dont certains param`tres sont e e e e e inconnus. Lobservation faite est considre comme une ralisation de la situation concr`te alatoire modlise. ee e e e e e Lobjet de la statistique est de dire des choses sur les param`tres inconnus du mod`le donc de les mesurer au e e sens large du terme. Il est donc absurde de demander aux l`ves de mettre en uvre une procdure ee e sans spcier le mod`le pour lequel elle est adquate. Au niveau du BTS, sauf en maintenance, les seuls e e e mod`les considrs sont n tirages indpendants dans une urne ` deux catgories ou n reptitions indpendantes e ee e a e e e dune variable gaussienne de moyenne et/ou de variance inconnue. La crdibilit du mod`le dpend des conditions e e e e exprimentales. Il importe donc de rappeler le mod`le, ou bien au moins en partie, les conditions de lexprience e e e qui le valident. Cela est vrai en particulier pour lindpendance des observations. e Il faut aussi tre rigoureux au niveau du langage. 3,5 nest pas une variable alatoire et si est le param`tre e e e inconnu, crire P ( < 3,5) na pas de sens : 3,5 est la ralisation dune variable alatoire suivant par exemple e e e une loi normale de moyenne et dcart-type 1. Il ne faut pas confondre une variable alatoire et sa ralisation. e e e Une fois la ralisation faite, il ny a plus de probabilit, le mod`le probabiliste est dans laction. e e e 2- Les procdures statistiques e Les deux seules procdures statistiques enseignes sont lestimation et le test. Pour lestimation on distingue e e lestimation ponctuelle et lestimation par intervalle. Lestimation ponctuelle ne pose pas probl`me ; en revanche e lestimation par intervalle est loccasion de nombreuses fautes. Souvent on confond conance et probabilit. e Lintervalle de conance avant rsultat exprimental est alatoire. On cherche deux variables alatoires L et U e e e e telles que si est le param`tre ` estimer on ait P [L, U ] = 1 o` est x. En gnral = 0, 05, e a u e e e 2

est inconnu mais x, P est la loi qui rgit le phnom`ne. On a un constat exprimental que lon note , e e e e e L() et U () sont les ralisations de L et de U . On dit que L() < < U () avec la conance 1 pour e rappeler que la procdure utilise est telle que lintervalle alatoire dont L(), U () est une ralisation, avait e e e e une probabilit 1 de recouvrir la valeur inconnue. Il faut bien distinguer conance et probabilit. e e De mme pour les tests. On choisit arbitrairement une hypoth`se nulle. On dtermine dans lensemble des e e e observations une zone de probabilit suprieure ou gale ` 1 si lhypoth`se nulle est vraie et de probabilit e e e a e e la plus petite possible quand elle est fausse. Si lissue observe est dans cette zone, cela ne veut pas dire que e lhypoth`se nulle est vraie, cela veut dire quavec cette hypoth`se lissue observe est vraisemblable au niveau e e e 1 et quil nest pas utile de changer lhypoth`se, celle-ci ayant t choisie en fonction de sa commodit. Il e ee e est indispensable dans un test de prciser lhypoth`se nulle, lalternative (souvent la ngation de la e e e premi`re) et le seuil choisi, et demployer un vocabulaire prcis : Est-ce que = 0 na pas le mme sens e e e que : Tester lhypoth`se = 0 . Dans une procdure statistique, seule la deuxi`me formulation a un sens. e e e Dans le but de ne pas surcharger les programmes, la notion de param`tre nuisible nest pas aborde. Par contre e e elle appara dans les probl`mes dans la situation suivante : Xi . . . Xn sont n variables alatoires indpendantes t e e e de mme loi, la loi normale de moyenne et dcart-type , tous deux inconnus mais linfrence porte sur , e e e est appel param`tre nuisible. e e On introduit la moyenne et la variance de lchantillon : e X= 1 n1 1 n Xi

S2 =

(Xi X)2 .

S2 a On montre que X suit une loi normale de moyenne et dcart- type , 2 suit une loi dite du khi-deux ` e n n 1 degrs de libert. Pour trouver un intervalle de conance pour ou pour excuter un test dont lhypoth`se e e e e X nulle est par exemple = 0 , on a besoin de la quantit e dont la loi de probabilit est connue : cest la e S loi de Student ` n 1 degrs de libert indpendante de et de . Cela permet dexcuter la procdure sans a e e e e e se proccuper de inconnu et nuisible. Mais la loi de Student nest pas au programme. La procdure enseigne e e e X aux l`ves est de faire comme si ee suivait une loi normale de moyenne nulle et dcart-type 1 o` s est la e u s ralisation de S pour les observations faites. Pour tre exact, il importe dans lnonc de signaler que lon e e e e fait cette approximation qui nest valide que si n 20. L` aussi, on observe trop souvent que les observations numriques gurant dans les noncs sont telles que par a e e e exemple X et le suppos sont tr`s pr`s lun de lautre. L` encore, cela sent les exemples fabriqus, cest trop e e e a e beau pour tre vrai. e

OBJECTIF POURSUIVI
Il est indispensable pour que les anciens l`ves des BTS puissent suivre avec prot les cours de la formation ee permanente que la formation initiale soit de qualit et donc que les professeurs ne rp`tent pas des erreurs parce e e e que pour eux les sujets dexamen sont a priori sans tache.

Vous aimerez peut-être aussi