Vous êtes sur la page 1sur 21
CHAPITRE 2 LA MESURE : DES OBSERVATIONS QUI INFORMENT 1. OBSERVER, C'EST MESURER Deux moments importants do la eémarche scientifique peuvent étee bridve- nnent résumés alnsi : tout eabord Vobservateur (ou lexpérimentateur), A partir opinions, de travaux antérieurs... labore des iyporhéses ; & Vissue de Pobser, vation (ou de 'expérimentation) il aboutit A des conehwsions qu'l met on relation ‘vec les hypotheses propostes, Hypothdses confizméos ou infitmées, tel peut étre, {tds schématiquement, le eésultat attend, Dans Ia pratique, bien ae, les choses he sont jamais i simples, Formuler une hypothése, «est supposer une rolation entse des faits, mals crest aussi, chaque fois que la recherche le permet, s‘engager vers lexpliitation de cette relation, Si, au plan pédlagogique, dans un domaine donné, nous supposons quo es résultats qu’obtlennent les filles sont superieurs A ceux qu'obtiennent Jes gargons, non aoulement nous chercherons a vésifior cetto hypothése, mals encore, nous chercherons & expliquer. La statistique nidera le chercheur a védlfier | ‘Mlut reviendta dexpliquer. Une relation entre deux falts (ici: fe sexe influe aur le téussite scolaire) ne peut étre vérifige sans une definition rigourouse des fits. En malidre de méthodo: logic, oes faits sont des variables. I faut distinguor : ~les variables indépondantes (ci le exe) ; los variables dépendantes (it es résultats scolaires) dont Ia modification ‘pend (est fonction) de la modification des variables indSpendanes ; ~ les variables parasites qu'il est nécessaize de controler ou de neutraliser. Précisons davantage. Notre hypothdse serait stritement démontsé si tavs les sgatgons avaient la méme réusste et, si toutes ls files avaient une méme réusit supé- Houre a celle des garcons, autrement dit, sile epoids» dos variables parasites état nul. Ce nest, blen sOx, jamais le cas : en matigre statistique, Ia vatiablité est la gl, Les hypotheses, explcites ou implicites, sont chose courante en pédagogie : Jes gargons réussiseent mioux que les filles; cortains éléves sont littéranys, d'autres sclentifiques ; le niveau général balsse ; les résultats sont meilleurs lorsque sont utilisées des méthodes modemes ; avec la r8forme des mathématiques, les ves xe savent plus compter, ete... Visi ou faux ? La réponse ne pout éire donnée que si elles sont mises ’Spreuve des fits, 28 Sauget: eR Comme toute réalité, In r6alité pédagogique no fournit de réponses qu'eax questions qu’on hui pose, Quelle que soit In recherche, qu’elle se situe aw niveny de Ponsejgnant voulant résoudke un probléme pratique (amstiorer un apprentssage, ‘adapter son enseignement & sa caste.) ou qu'elle s9 situe & un niveau plus global (adapter des programmes, proposor une pédagogie différencié..), le probléme est lo mémo + 9 poser et poser des questions ; formuler des hypothe ; observer ow expérimenter ; collecter des données ; mettre les hypotheses & V'épreuve des fits ; coneture . Certains faits (ou variables) sont directement observables : ago des élBves, sexe... ; d'autres, non : le niveau intellectuel, Panxiété, la néussite scolaire... tablir dos crit3ros pemmettant de définir une classification ‘sur ces variables revient a chercheur jen particulier il choistt le type de données (cf. chap. I)etles instruments utilisés pour lour collecte (test, questionnaire.) : la Fiabilité des données st, c'est Gvidont, lide aux qualité des instruments consteuits ‘Taalter ces données, c'est en titer toute Pinformation possible pour conclure, pour virifier les hypotheses proposées. Parce qu'il travaille fe plus généralement sur un échantilon, le chercheur souhaltera induire, inférer ses résultats sur 1a population d'ensemble, c'esta-tire In population patente dont est extrait cet Echantillon. La phase de généralisation des résultats est sans doute la plus diffi- cile ; elle doit toujours étre abordée avec prudence ; en méme temps, elle préoccu- pe le chercheur tout au long de la recherche, en particulier as moment de Ia descrip- tion des données. Décrire Jos données observées, les combiner, les résumer pour aveéder & une rmeilleure connaissance de Ia population parente, telle est la premiére phase - tou- jours indiponsable - de leur traitement statistique. 2. DECRIRE LES OBSERVATIONS Dans le cdo soolsze, los séries c’observations sont généralement consignées sur des listes nominatives établies par ordre alphabstique. A ce niveau, information ne représente pas encore un caractdro général ; savoir que dans la clase X, '6léve Y a obtenu 15 en mathématiqua, savoir qu'il est orienté en seconde AB, ne nous renseigne pas sur Vensemble des observations offectuées sur cette classe. Cotte information, dont nous ne négligeons pas, bien au contrale, Mintéxét, est entichic si elle eat rapporiée & Fensemble des informations recuellies & intérieur de cette clase. Comment se répartissent los notes de mathématique, combien d’éldves ont obfenu plus ou moins de 25... ;1’ééve classé 10s en éducation physique esta! ou ron le seul & occuper ce rang, quels sont les éléves placés avant ou aprés lui. j combien «éléves ant 6t6 oriont$s en section AB et combien dans les autres sec- tions... ? Tel est le type de question que nous nous posons, La réponse nécessite @abord une organisation, un regroupement, une condensation de F'information collectée. Organiser los données recueillies, représenter los phénoménes observés, regrouper les observations eftectuées, tele est la premidre téche & entreprendre ‘A. Los données do soora Exemple - On a relové au hasard Jes tales exprimées en centimbtres de 30 individus adultes. 2» 172 ~ 117 ~ 158 ~ 173 ~ 164 ~ 179-171 —195 ~ 180 — 169 163 — 373 ~ 176 ~ 166 ~ 172 — 175 — 178 — 192 —179 461 WPL ~ 189 ~ 165 ~ 178 ~ 163 — 183 ~ 165 = 177 — 475 ~173 observation de ce tablews de données faurnit peu d'informations, sinon celle, non négligeable, de In variabilité des talles des individus dans cet échantil Un premier niveau organisation est celui d'un classement, de Ia taille la plus boc & J taille Ia plus élevée, Nous obtiondrons le tablomu suivant : Tableau d'etfectifs “Tales cred {afeetelatal alata beatae elle Donse PEEP PE PPPPPPERRR PH yt ft VATIONS Dans ce cas, la variable (tile en comtimétces) prend das valeurs comprises éntse 158 et 189, Sur Véchantllon, Vintorvale [158, 189] est le domaine de vari tion dete talle des inividus. Chaque valeur de la vaiable (158, 159.. 189) est une eentualte powible. A chacune delles correspond un nontbre d’événements (1.0, 0,1,0,1..). Le lectour notera que, sur cet échantillon de mesure ~ certains événements possibles se sont produits une seule fois (158 em, 161 om..) 5 autres événements se sont produits plusisurs fois (2 individus mesurent 165 em 53 individus mesurent 173 om...) ; autres événements (159 em, 160 om, .. mais aussi les événements infé- rieuss & 158 cm on supérieurs & 189 om) n'ont pat été constatés. Cela ne saurait démontret qu'lls ne se produisent jamais au niveau d'un autre échantillon ow au niveau de la population parente. Cette distribution de mesures peut étre représentée sous forme ePun histo- gramme on rectangles (notons que cette représentation suppose que la variable at continue -ef chap. HD). Ettectts Linformation est certes plus vsualisée, mais elle reste la méme que celle que nous avions obtonue au niveau dh tableau d'effectifs Les tendances n'apperas. sent pas clatement, méme sii’on peut, dij, augurer que les événements cortespo dant aux talles emoyernes» se produisent plus souvent que les autres, Le wtrouso Gcertaines tales ne sont pas apparues dans Pobservation de 'Schanilon considéré) peuvent sexpliquer par Ie fait que le nombre observations (30 aur notte exemple) est trop faible eu égerd au nombre déventuslitss possibles dans le domaine de 30 i | | ! variation considéré - ici ce nombre est égal & 32 (189 — 158 + 1), Comme il n'est pas possible, sur notre exemple, de modifier le nombre des individas observés (rErrncrir TOTAL de P’chantillon) nous regrouperons les taillos en CLASSES, cos classes étant préalublement defines. Supposons que l'on adimstte que les talles des individus pusssent étre regrou- ppéos de 5 en S om, Les éventualilés possibles, sur notre exemple, pourraient event: 160 ~ 165 ~ 170 ~ 175 ~ 180 ~ 185 ~ 190 (chaque taille étant arrondie & sa valeur ln plus proce). La distribution des mesures serait alors la suivante Distribution des effectifs apres groupement crannies ( 2S, | 158162 163467 | 68472 fx73477 | x7e4aa |iaosa7 |ise492 en) Valeurs vats} eo | ses | a70 | 17s | aso | 185 | 190 ~~ BRFECTIFS 2 [4 5 9 6 3 1 Cette distribution est différents de la premlére, Obtenue aprés groupement, elle met davantage en évidence Ia répartition des tales: dans ce groupe, peu dnd! vidus ont des tailles voisines do 1,60m ou de 1,90 m ; 9 entre eux (presque le tiers) ont une taille voisine de 1,75 m. La perte de précision sut le mesure « permis ‘une meilloure information quant & la forme de In distribution, Celle-c peut «ailleurs 6tre visualisée ainst : fects 16 160 110 175180 185190 Taileston) ‘i Pon trait au hasard un autze échantilon de 30 mesures & partir de ka méme population parente, i est probable que st distribution, aprés groupement, serait Yoikine™ de celle-c, C'est pourquoi nous pourrons considérer que cette distribution, ‘aux erreurs ’échantillonnage pris*, eat une estimation de la distaibution des tailles dans In population patente, Prenons un exemple : 9 individas sur 30 ont une taille comprise entre 173 et 177 om (valeur centrale : 175 cm). Ul est done probable que cotte proportion serait approximativement la méme dans la population parente. Elle serait done de 3 sol 0,20 (30%). En termes statistiques, nous dons :suréchantillon obser, la fidquence de I'événement «avoir ume taille comprise entre 173 et 177 em» est égale 8 0,30 jot cotte fréquence est une estimation de Ia fréquence de cet événe- ment dans la popolation perente. Le sens statistique de cos teranes ser prSsi6 fout au Jong des chupiivs suivants ot on parti- case dans es chaptres TV et V. 3 | | Apiés groupement, fes 7 événements possitles n'ont pas la méme fe6quenee, La some de leurs feéquences est égale d lunité : c'est événement certain (chacun 8 une taille). Calculons ces fréquences. Dlles peuvent étre résumées dans le tables suivant : ite os dace Presi 1se482 2 160167 165 4 ee 168-172 [ 10 s W377 iss 135 ~ 9 ma feo ‘ ‘183-187 Ieee | a 188192 : 190 1 Tarai, Z| Sn Ainsi, si échantillon obsorvé est représentatif, on peut estimer que la popu- Jation patente comprendrait approximativement 7 % (0,07) de personnes ayant une taille comprise entre 158 et 162om, 13% (0,13) de personnes ayant une tale comprise entre 163 ot 167 em, et. I ost par conaSquent possible din ine, aux erreux ¢'échantillonnage pres, la forme théorique de 1a distribution des talles dans la population parente, Courbes des fréquences pea Teo 16s 116173 TO aS 19 Tales Remarque -le tracé de cette courbe n'a, mathémetiquement, de sens que si Ja variable est continue. REMARQUIS CONCERNANT LE GROUPEMENT EN CLAS Le groupement on classes est pratique courante en statistique. Il permet de mieux déorire ls distribution obsorvée, de rendre compte de sa forme, et par conss- quent do pr6parer le traitement statistique des données, Par exemple, la distribu tion des tallles étudiée est probablement yoisine dune distribution gaussienne (courbe con clochen - cf chap. Il). Pour effectuer un groupement en classes, il est nécesstire de définit un interval de classe (), Nous evions pris ¢= 5. Le groupement doit correspondro & 32 ‘une hypothése plausible (la taille ost carroncdio» aux 5 om les plus proches). Les classes doivent avoir la méme étondue, sauf, éventuellement, les clases extrémes : sinion In forme de Phistogramme on do In courbe des fréquences en serait artfi clellement alténée, Le nombre de classes doit étre suffisamment grand (dans In pratique 7 classes est souyent un minimum) sl Pon veut adimettre Phypothéso de continutlé de ta variable. Ean, Ia pratique montre que dans de nombreux cas, le choix d'un nombre impair de classes permet do rondro compte do a tendance centrale de la distribution, en méime tomps que de sa dispersion. Nous y vevlendons plustoin (ef. §4). B - Les données da rang ‘L’stude des données de rang se résurne en deux cas: -ou bion les données sont directement callectées en termes de rangs (Scholle ordinale) ~ ot bien Tes données collecides (des notes per exemple) a’stteignent pas le niveau de Péchelle dintervalle (ef. chap. 1). Elles pouvent alors étro remplacées par leurs rangs (échelle ordinale) si 'on peut vérifier qu'elle atteignent ce niveau de mosure. EXUMPLE 1 En édvcation physique, un professeur fait paticiper 10 élaves & une épreuve endurance (un cross par exemple), II était un classement en fonction de Pordre arrivée (pas d’ex aequo). Nous aurons, par exemple, les données sulvantes : Baws ¢ be d@ oe fF og bt La distebution, en Fonction des rangs, s6tablirait sins : Hila PH Crate rate rate st Helter ere eee een: eb Wf ede U1 est facile dimaginer que La roprésontation graphique sorat un histogramme plat : chaque élément (chaque valeur possible de la variable) oceupe un rang ExEMeLe2 Un enseignant eléve, pour un groupe de 20 éléves, le nombre de fautes dune AictSo =e nombre vari do O14. 11 obtient fa distribution suivante = Nombrode faves 0 12.9 4 5 6 7 8 9 10 M19 4 a 1 considére que In mesure n’atteint pas le niveau de Véchello dintorvalles (non équivalence des nutes : chap. 1) mais le niveau de Péchele ordinale (relation orcre :chap, 1). It dco alors do classer cos 6léves en fonction ce leurs résultats: ~Pélve n'ayant fait aucune faut est premier ; ~Péléve ayant fait une faute est second ; ~ deux éléves ont fait trols fates, Is sont ex-apquo ot oceupent ls rangs de trolsdme et quatzibme. Tn statistique, on les classera généralerent au rang moyen G5) * Cot prooSaé statistique pls uss, Toutfos,ertains autour péconisent Jo ure a esa es fags des stots olor eiéne wore. A hea sti, area et nélgab 3 - trois élaves ont fait quatie fautes. De méme ils oceupent les cinquidmne, sixléme et septime places. Nous Tes elaserons au rang 6 ; ~ et ainsi de suite. La distribution des rang stablit done sins: Rembe jo 1 203 4 5 6 7 8 9 1M a To 2 3 a ii 6 i 1 fags [23S 6 8 OS We TSS oe 20 [Nous versons (ef chap. VI) que le traitement statistique des données de rangs n'a do sons que si lo nombre d’ex-aoquo n'est pas trop grand, autrement dit, cest le ‘as ici, si le domaine de variation est suffisamment grand par rapport aux effects observ, Supposons que le professeur souhaite regrouper oes données en classes. Il hoist, par exemplo, los classes suivantos: A-- moins de 3 fautes ; B-de3.& 5 fautos ; C -de6 88 fautos ; D-de 911 fautes Ede 124 14 fautes. Dans co cas Vintorvallo de classe est suivante 3. La distribution des rangs serait la Valeurs NOMDRE ( oxteSmes 6-8 |9-u|a—w trees | Valour vautes (ate, | 2 4 [7 [wo fs EEFECTIFS. 2 |e. RANGS MOYENS J 1s | 3,5 Ii sagt, cartes, encore d'un classement. Mais le nombre resteelnt de clases cst tol que Futilsation des tosts par rangs sera compromise, Bien souvent, on uti- Iisere des tests portant sur ja comparaison des fréquences obtenues & partir des cffectifs obsorvés dans chaque classe (2, 6, 4, 3, 5). Le lectour so reportera & cet effet au chapltce V. Mais au niveau de Pinterprétation des résultats, il nYomettra pas, néanmoins, de noter que les verses catSgories correspondant aux données de rnuinération (2,6, 4, 3, 5) sont, dans co eas, higrarchisées, Dans Ie cas od le niveau de mesure atteint V'échelle orcinale, il n'y a, bien sir, pus liew de procéder & un groupement de données qui conduit & un niveau infrieur do ln mesure, et par conséquent, & Tutilisation de tests statistiques moins ppissants (cf. chap. VII). - Los données de numération Exemple -Bn fin é’année scolaire, un professeur principal d'une classe de troisiéme recueille les décisions d'orientation concernant ses 24 éléves, Les données sont les suivantes : 34 5 1 i | {Cit Biives Doe oF og on TAD wees, 2K DAW aT Loom ON oP } 2C ePind FART (ie gk os r yi iy iw x } ‘Orientation! 2G DER Boo, 2A 2.AB Vionotive BF fico. EP Ind. 2 AT La distribution des orientations s’tablit comme suit: 26 2AB 2 Viesctie 7 6 2 Notons que ees catégorles - de seconde C Vie active - pourttient parattre ordomises, au moins pour certaines dentre elles. La hiérarchisation n'est pourtant pas évidente, en tout cas moins aeceptée que cello que nous avons montrée au pars- ‘gaphe préosdent (nombres do fnutes A une dictée). Au niveau slatistique, il est préférable de ne pas faire Phypothése de leur hiérarchisation, I est néanmoins possible de les représenter graphiquement ; mais il est pré- {erable que la visualisation ninduise pas Vidéo dune relation d'ordre. Ce peut, par exemple, étro un diagramme circulate dans lequel la portion de surface est propor- tionnelie & Peffectf (ou au pourcentage obsorv6). Le call des pourcentages est évident. Exemple- : Seconde C -4 éléves sur 24 soit $x 100% 16,7% ; Seconde AB -6 éléves aur 24 soit $x 100 5 % set... Vie active Notons que si Méchantilon observé est roprétentatif, ces pourcontages sont des estimations des poutoentages correspondant aux différents cas orientation ‘dans la population patente Los doansos de numémation peuvent étre groupées. Par exemple, dans ce cas, 4 pourrait tre intéressant de grouper ies orientations en trois catégores:enscigne- ‘ment long, enseignement court, vie active, Nous aurions alors la distsibution suivante Orientation | Rasegn.tong Ensign, court TOTAL SERS EEE eee eer A Foursntagsi) 62,5 % Dae we iw % 35 Cotte distribution pourrait étce représentée graphiquement, 3, COMBINER LES OBSERVATIONS 1La description des données do mesure que nous venons de présenter porte, quel que soit le niveau do le mosure, sur une seule variable (la fate, la note, le sombre de feutes, Porientation...) En statistique, ll est souvent indispensable de décriro, ensemble, des relations entre doux ou plusicuts phénoménes observés, d'étudier des distributions selon deux ou plusiours variables, Cette démarcho n’exclat pas le démarche précédente ; nvais elle on ost complémentaite, Bt elle est le premier pas, indispensable, vers Toxplication des phénoménes (des fats) cbsorvs, ‘A Données da seore Supposons que nous souhailions étudier la rEussite scolaire d'un méme groupe {éiaves dans dew dlsciplinas, Cette réusste est mosurée par un score (échelle intervals). Non seulement nous souhaitons desire chaque distsbution de mesire, mais encore voulons-rows faite apparaitre la lialson évontual entre cos deux distributions (échantillons apparelés~ef chap. 1). Exemple-Un_psychopédagogue souhaite étudior Ia réossite @un méme groupe de 10 élbves & doux toss, un vorbal, Pautee non verbal, Les deux Lests sont notés de 0 8 5, Il obtient les résultats suivants Afin que 1a construction du tablean pulsse étre vériNlée, nous avons fait figurer, dans chaque case, les élives concernés et leur effect. 36 | | Nous avons volontairemont présenté Ia construction do cette matroe et de co diagramme sur un nombre restreint de couples de mesures ot dens un domaine de variations de faible amplitude (0 ~ 5). Il est bien évident que nous pourtions prooéder de méme sur des domaines plus vastes ct avec vn grand nombre de couples do données. Il est «ailleurs possible, comme nous avons précédemment étudié, procéider A des gtoupements en classes, Nous reviendrons sur cette importante «qiostion dans le chapitre VI et préeiserons on particalier comment ces représonta- tions renseignent non seulement sur Ia présence ou absence de liaison, mais aussi sur aa force ot son sens, B - Donn6os clo rang Deux juges sportifs effectuent séparément un classement de 12 athletes & issue d'une éprouve de gymnastique, ls attribuent les rangs suivants : Bic p ep rf @ wt Ts? as ag Bs_35 10 8 a5 6 1 98 5 7 12 25 it -En cas d'ex-aequo, le tableau indique les rangs moyens, Une représontation graphique peut, comme dens le cas des donnies de score, atre utilisée, La cohérence des jugements serait totale si les mémes rangs avalent 646 attribu6s : diagonale do 1a matrico, droite joignant Jes points représontés sur le diagramme. Le degré d’accord (ou de désaccord) entre les juges s'exprimern (of. chap. VID) en fonction des difféxences de rangs constatées sur chacun des suets, Loraque Ie nombre de sujets est grand, nous pouvons également procéder A des regroupements en classes hi6rarchisées (ef 2-B). - Données de numération Exemple Un proviseur de lyeée étudie Porientation de ses 6léves do termi- nale on fonction du type de baccalauréat obtena, Aprds avoir effectué des regroupe- ments, il obtient la répartition suivante : ~~usttion) Supa ing, Sapo cotta Droaiese | “Wave® “UUESOT). — atabtonanes | TOTAL anion | ag Hl uo TOTAL ais iH w 360 Lex repesentations graphiques possibles sont nombrenses (histograms, diagrams.) ies nécestent i ealbul des poucentags (ow des proportions). Oreeuwel poovent etre établisdo trols mans diferentes: en ligne -Sar les 250 elves ayant oben un baccalaéad’nsegnement ail, 180 (485 = 0,72 soit 12%) ont acctdé A Pensegnement universe lng je méme 35 sur 250 (22°%) oni ac & enseignement supérour court ot 15 sur 250 (6%) a0 sont digs vers Catzestaliement. On prosédeai au méme calcul pov Pautre lige. Le total des pourcentages de chaque ligne ext él 100%. uv = en colonnes Sur 215 doves ayant acotdé & Venseignement supérieur / tng 10 (90080 a 3.7) et hese ee iment génétal et 35 (16,3) un baccnlaurést de technisien, On procéderit do inne pour les ares colonnes. Le total des pourcenteges de chaque colonne est Seal 100%. — sur Vensembe - Sor 360 élees de terminate ayant obtena le buccalaursat, 180 (#89 = 050 sot 50 %)ontobiens un baccalanét densigneient nk et ‘ont acoéd6 8 Vonscignement supérour long - On prooédarit de méme pout les 5 ates eases da laleau. La somme des pourentage est gale & 100 ‘Nous obtiendrons tn tabloa dens loquel effectfs et poureontages sont indiqués de maniére conventionnell Ce 1 pnata + [CiRD) GE] —> owen tee Ponecenaps oe Poeutg semen See [ED @D|—- Eran Co tabloau sorait done 6tabli ai Supérieur long att | utes cert Cnivest6y | GUT — RTs) _[éeblisoments Tassignement [180 92%] 55 22%) 45 6 wl250 100 G6néral 433%153% | 833% 42%| 695% 69.5% = 2 65% 27% |t0 100% Tecknicien | 16.3% 9,7°%| $6,7%20_ 6% 305% 305 He BF aT BT 0 i00 ‘Total 100 59,7 %|100 %35,3% hon % 3 wlio0 % 100 % information extraite des tableaux est souvent, en premier lieu, un probléme e lecture. Hl est indispensable de s'y exercer. Sinon Pinterprétation des résultats risque, tout simploment, tre erronée. Ici, par exemple, nous ne suurions eonfon- dro es povreentages en ligne qui, pour un méme type de baccalauréat obten, indiquent la r6partition do ces 6iévos dans Penseignement supérivur, avec les pour- centages en colonnes qui, pour un méme type denseignement supéxicur suivi, iniquent la répartition de ces 6léves en fonction du type de bacealauréat obtenv, 4, RESUMER LES OBSERVATIONS Las tableaux dPeffectiis, avant ou apres groupement des mesutes, loursrepré- sontations graphiques permettent de décrire Jes distributions de données. Cotte description permet ce mieux corner los caractérstiques essentielles d'une dist: botion, Réalisée & partir d'un échantilion, elle est un premier pas vers Is connais- sance de sa population parente. Mais le but visé, nous avons & plusieurs reprises soullgné, ces le traitement statistique des données. Ce traitemont repose sur des modelos mathématiques, varie en perticulier salon le type de données ot les formes de leurs distributions, Il suppose done Ia connaissance dindices caructérisnt los distributions étadises, 38 sae rm are fr sésumnant Los observations recuellies. Ces indices condensent Pinforetion ; is sont caloulés ou repéés sur les échantlions obsorés ; on mémo temps ils permet- tent destimer les indices, les paramétres qui caraciérisont Ia population parent. Nous nous limiterons & Pétude, on fonetion du type de données, des souls indicos uilsés dans cot ouveage'. ‘A- Les données de score Reprenons Poxemple de ta distribution des taille avant ot eprds groupoment (cl. tableaux p. 30 et 3). , Nous rious appuierons sur eat exemple pour détinir doux catégoris indices: ~ des indices do position, mettant en évidence certaines valeurs caractéristi- ques de la variable 5 ~ des intzes de dispersion rendant compte de I'Stendue dela variation 1) LBS INDICES DE POSITION - Ce sont : —le mode -C’esi In valeur do ta variable pour laquelle ext obsarvde Ia plus srande fréquence, Sur notre exemple les valeurs 173 et 175 (chacune 3 événements) sont les modes de la distribution avant groupement. Aptis groupement, les talles pour lesquelles on observe Ja plus grando fré- quence sont comprises entre 173 ot 177 em (9 événoments sur 30 soit 30 %). Cest ailleurs le sommet de Ie courbe des fréquences (cf 2. A), La classe [173-177], de valeur centrale 175 ext la classe modale. I est probable que le mode de a dstek- bution parente se situe A Pintrieur de cet intarvalle de classe. a médiane -C’est la valeur do la variable toll qu'l existe autant de mosuos «qui Tui soient inférieures que de mesures qui lui solent supériours. 1 agit done identifier un rang, appelé rang médian. Pour un nombre impair de mesures, la dStermination da rang médian est inumédiate, si les mesures ont été préalablement ordonnées : + Exomple sur 5 mosures ordonnées : 2,3, 5, 7,13. J. rang médian est le 38 rang -1a médiane est 5. frour un nombre pair de mesures, 1a éétermination ne pent aire offectués. + Exemple sur 6 mesures ordonnées :4, 7,10, 12, 15,20 On définit alors intervalle médian : [10, 12] -Lamédiane se situe& 'nté- riour de cat interval, ‘« Exemple de la distribution des talles-Le nombre de mesures est 30. La imédiane est Ia valeur de la variable correspondant done & la 158me ou 168me me- sure. Sur Je tableau des effects avant groupement, nous constatons que la 1Séme ot la 168me mesure correspondent & Ja variable 175. La médiane est 175. hen existe d'autres, tele Pentropie, qui dépasent fe cudre que nous nous sommes fix 39 Apres groupernent, les 15éme et 168s mesures appartiennent A Hntervalle de classe [173, 177] dont la valour centrale ost 175, Dans Jo cas d'un nombre restteint de mesures, il estas identifier la mé- diane. Dans le cas dium tiés grand nombre de mesures, on prétérere calculer les eflectifs cumulés etfou les feéquences cumulées. Etudfons cotte méthode sur le méme exemple Jin ce qui conceme les effectifs cumulés, nous aurions araut grouper distribution suivante : TALLLES interoures [etalelefests mt te dealer NowpRe DIODSER- |afoalnfefelonjeheropofofefe VATIONS Aptis groupement nous aurions : TADS tnféeloures ‘ou Sgites a NOMBRE | 162 467 472177 482187 192 2 6 Mm 6 » 3 D'OBSER- VATIONS ‘La médiane appartint & interval méaian paar La détormination de la médiane pout sffectuer & partir de Ia courbe des Sréquences eumulées. Proeédone, sur cot exemple, au calcul des fréquences cumulées. — Nous aurons, apres groupement, le tableau suivant® : cextrémos | contracs | Peete | cumutes | Péamonoes | cs ulees #158462] 160 | 2 OT op? We 100 VM Cos fréquences cumuléos se lisent ainsi: 0,07 ~ 7 % des sajets ont une taille inféricure ou égale & 162 em 1,00 ~ 100 % ds syjets (Gvénoment certain) ont une taille Inérieure ov Galo & 120m * Un tableau pourrait dis consteuit, goon lo mémo principe, avant gioupemen!, 40 | | [La mSdiano serait done la valeur de is variable correspondant a la fréquence 050 (50%). Ello pout done étre déterminéo graphiquement, Son estimation est valable pour tout échantillon extrait c’une méme population parent Priquencss 1,00, cumulies” 9337 oar 067 (650) ~ 037 020 007 ~ la moyenne - C'est V'indiee le plus fiéquernment utilisé dans le cas de don nes de scores. Ona Total des scores Nombre de scores moyenne = Si nous appolons x In variable, la moyenno m de I’échantillon dont Votfoctif est N sera done : [on] ” ‘Ex se lit «sigma de x» : c'est Ia somme de toutes les valeurs prises par la variable dans Péchantillon, Co procédé, consistant & additionner successivement routes les mesures risque tee fort long, surtout si le nombre do mesures eat élevé. Aussi ostil préférable utiliser ies tableanx d’effectis (avant ou apres groupement). . Méthode de caloul avant groupement TAILLES | EFFECTIFS | yy, x " : 75 H 158 159 0 6 188 ° 0 189 4 188 Baya 30 |B = 5222 # x; est ume valour possible do le variable x + il y a, ici, 32 valeurs postibles 58 5x2 = 159 5x3 = 160.2% = 189). ‘#1; est le nombre observations do In variable xy (m, = 1 : a variable 158 & 616 observe 1 fois ; = 0 : a variable 159 a été observée 0 fois jete..). ‘© La somme des événements observés cat N (N= nny ++ 1t2 + 1tg ty). On écrit parfois N= Eny. je a + Au liow deffectuer la somme des N valeurs observées, nous calculerons des produits partils correspondant & chaque valeur possible de la variable : nj x, Nous avons m2, = 1 x 158 = 158 3m, x2 = Ox 159=0 sete... La somme des produits parties est la somme totale des mesuies. Par consd- quent, Ia moyenne m est égle & Cette moyenne, calculée sus I'échantillon, est une estimation de ia moyenne de la population parente dont il est extrait, Remarque-Pour simplifier le tableau, nous aurions pu, dans ta pratique, supprimer les lignes correspondent aux effectf nuls (ny = 0). 5222 714,07 Méthode de calcul apts groupement TAULLES (enem)_| Vatoat | preacrs extromes | contra J PFFECTIFS | yy " 2H 158-162 160 163167 16s 169-172 170 w3a7 V5 70492 180 1935187 18s, 1 130 Le provédé de cateul est Je méme, mais la valeur centrale dune classe (x, = 160 52, = 165 sete...) est considérse comme la valeur de Ia variable attribuée A chacun des groupes de sujets appartenant & cetto elasso (ny = 23112 = 4 5.) Daya, = Reppel m oe “Zn | 5230. Nous aurons done : Sie 1433 Cette moyenne n'est pas fa moyenne de V'échantillon, Blle en est une appro- .ximation. Le lecteur notera cependant que erreur commise (erreur de groupement) ‘st faible : Ia moyenne exacte de 'échantllon (avant groupement) était égale & 174,07. La moyenne caloulée aprés groupement ost aussi une estimation de la moyen re de la population parente. Nous verrons plus loin (chap. I) qu'elle est un para- ante de la distribution normate, b) Lis INDICES DE DISPERSION Notion de variance Prenons un exemple trés simple : deux professouss procédent & la double eonrection de 5 copies. lis attribuent les notes sulvantes : 42 6 16 8 1 3 4s 9 Nous remarquons, d'une part que les moyennes sont identiques (dans les 2 eas m = 11), d’autre part que los rengs de classement sont les mémes. Pourtant, Jes deux enseignants ont noté de maniére-différonte- A a noté entre 6 et 16 ;le domaine de variation de la variable est Pintorvalle [6516]. B a noté entre 3 et 19 ; le domaine de variation deta variable est Pintervalle BB5 19). Un premier indice de dispersion serait I'étendue de la variation (Intervalle centre la note 1a plus basse et la note In plus éeyée), Mais cet indice ne rend pas compte dela dispersion des notes par rapport a la moyenne. Cette dispersion peut tre schématisée sins) € 3 up 3s Professour A Ue i eae m=il 0 8 15 19 3 1 ProfesseurB || +1 a Ul s’agit done de construire empiriquement un indice rendant compte des ‘Gcarts de chaque mesure la moyenne. Cos écarts sont soit positifs (mesures supérieures A la moyenne) soit négatifs (mosures inférioures A la moyenne). Dans Ie cas d’une distribution symétrique (professeur A) 1a somme des écarts serait mulle : cet indice ne mesureralt pas la Asporsion dos mesures, mais la symétee do Ia distribution. Nous caleularons donc la somme es carrés des écarts (tout nombre élevé au caré est posit) [Nous avrons done (cas du professeur A) : ‘Somme des carrés des 6earts = (6—11)* + (9—11)? + (111) + (1311? + (16-11)? = $8, En régle générale, six, 24, ... Xy sont les valeurs de Is variable nous aurions = Somme des carsés des écarts = (xy ~ m)? + (ca ~ m)? +... (tm ~ mi)? ‘ov encore: [[Somaae dos cacrés des carts = © Ge — m)?| Dans le cas des notes attribuées parle professour B: D(x ~ my = (3-11)? + B11)? +(10-11)? + (05-11? + (19-1? = 154, Leeffeotifétant le méme dans los doux cas (N= 5) simple comparison des sommes des carés des écarts permet de conclure & une plus forte dispersion des notes attribuées par le professour B. Dans le cas od les effets serient différents, cette comparsison directe ne 4 5 A 4B Sen pourait pes tre ffectuée. Cet indice doit done étre pondéré en fonction du now Ine N do mesures effectuées, I! suit, pour ce faire, de le divisor par N. Cet variance ompiriqus Somme des carnés des écarts 4 la moyenne. Maeda iffec tif observe soit [vest 2G my ‘La variance de la distribution des notes attribuées par le professeur A est done égale A: 8 11,60. uiance dela distribution des notes attibudes parle profeseur DB: 54 $4 30,80 © Caleut pratique d'une variance : Yoxemple de la distribution des tiles Le calcul de Ia variance pourrait étre cléterminé & partir de la formule présen- (ée ci-dessus, mais le lecteur imaginera facilement sa longueur (N = 30), daatant plus que ta moyenne est un nombre dScimal (complexits des caleuls, méme avec lune ealeulatrice de poche). Or, nous pousrions facilement démontrer que py Gx" 2am ‘dfectfs aprés sroupernent. Nous y avio caleulé leffectif NZ nj) et la somnme des valeurs observées 3x (2nyx;). Ul suffit done de le compléter en calculant tn somme des carnés des valours observées que ‘nous écrirons 3 1} (et que nous expliciterons sur le tablenu) ES (enem) Valera contealoe eevecirs | 4,4, 163-161 165 660 168-172 170 850 M3177 415 1515, 178-182 190 roo 13-187 185 355 92 150, 190 [2apsy= 5230 © 2132 ost In comme der canés des valeurs observées dela variable ; x)? est le card de le valour obiorvées de ls variable. Le lecteur pousravérifer cette formule en Tappli- nt dus distributions de S notes “ | { | i Remarque my est oss ga 8m x37 5 nous autions: yar} = ny x11 = 320 x 160 = $1200 55 x} = 660 x 165 Nous aurons done Smuaj SB 92490 E20 Ea Remarque 1 -Le méme calcul auait pu étto effectué avant groupement. Com- ‘me pour Ia mnoyenne, lerreur de groupement est faible. Cette variance est In va riance cateniée apres groupement sur 'Schantilion effect N= 30 mesures. Ce n'est ‘pas Ia emeilleure» estimation de Ia variance dos tiles dans la population paronte. ‘On montre que la meillure estimation (estimateur sans iais*) est la suivante (08900 ; etc. Variance Zoom? Variance = =" = Remarque 21a quantité N ~ 1 (ou (Em) ~ 1) exprime le nombre de degrés de liberté de la variable, Cette notion et fréquemment utilsée en statistique, Nous nous limiterons, dans cet ouvrage, & en donner une définition en compréhension. Reprenons le cas des notes attribuées par lo professour B (3, 8, 10, 15, 19 - Total 55) + pour un méme tolel (Sx = 55) et pour un méme nombre déventualités (N = 5), il existe un grand nombre de valeurs possibles de le variablo (un autre échantillon était constitué des notes attribuées par le professeur A : 6, 9, 11, 13, 16) ; mais la détermination do 4 valours (N — 1 = 5 —~ 1) suffit fa déteimination Ae la cinguidme (a niéme), Par exemple, pour un méme total et un méme effectf, si 4 valeurs sont attribuées (10, 12, 8, 14) la cingui8me est fixée, dépend des 4 premidres: la seule valeur possible est 55 ~ (10+ 12+8 + 14)= 1. Le nombre de degrés de liberté, dans ce ox, est N-1=S ~1== 4. Sur, Vexemple do Ia distribution des tailes, ln variance estinée sera done gale a = 56,46. Remarquons que l'Goart entre variance caleulée et variance extimée ost d’au- tant plus fable que N est plus grand. = Boart-type Cest un indice fréquemment uiilsé. Il est égal & Ia racine carée de le voriance. Novs Pappellerons x50. Son avantage est d'etre exprimé dans le méme syatdme d'unité que la variable (In varianco avait néceasts des él6vations au cars). En outte, dans fe cas de distributions gaussiennes, il présente une distance-type La moyenne i ext une estimation de tn moyenne M de la population parent La valeur m fst une approximation de M, qu'il feudrat conraftze pour estiner i variance, On montre que |b molleure corzectpn consts b dlvser fe munérateur par N ~ 1. Le Iscteur pourra Padmottre ‘sans démontrstlon bu se roportor aux ouvrages statistiques de type mathématue 4s do lu moyenne (éeart-type) qu'il est possible de définir et de représenter geométa- quement (ef. chap. IM). Cest un poramtire dela distribution nonmale estimation de l'écart-type de a distribution des taille est done $= VS6AF= 751, Dans Ia suite de Pouvrage, estimation do In variance et de Wécart-type une distribution de mesures & partir d'un échantillon observé sera calculée & partt des formules suivantes : VARIANCE* FCART-TYPE, B - Los données de rang Rappelons que ces données peuvent étre soit dos données existantes, soit des données de rang établies & partir do données de score pour lesquelles le échelle intervallen'était pas atteint. INDICES DE POSITION Pour des données de score transformées en données de rang, ex-aequo, Phistogramme est un histogramme plat. TEHETEH ~ le mode est par conséquent indétenminé (tous les rangs et par conséquent tous les scores qu’ilsreprésentont ont la méme fréquence). ~ la médiane est la valeur de la variable correspondant au reng moyen. Sly a des ex-aequo at teh. 1 5 7 BS 10 range = le mode est la valeur de ta variable corsespondant au rang Ie plus fréquent , valeur de la variable correspondant su rang S) ~ la médiane ost la valeur de fa varlable correspondant au rang moyen. n'y a pas 0 ngs Eee valance ($3) est le earé de Méeaet-type (8) 45 Quill y ait ou non des ex-sequo, le caleul do la moyonne des mesures na pps stalistiquement de sens ai le niveau de échelle @’intervalle n'est pas attein, (On démonite que la moyenne de la distribution des rangs (rang moyen) est t : c'est lerang moyen Sin ost pair: 1,2,3,4, 5,6, 7,8 gti ae ma Bt 55 te rang moyen est indéterminé (4 ou 5) INDICES DE DIstERSION Le clout de Ia variance de Ia distribution des mesures n'a pas, statistique- ment, de sens ie niveau de l'échelle «interval n’est pas atteint. On démontre que la variance deta distribution des rangs est : €- Les données de numération Le mode peut toujours étre caloulé : c'est la catégorle (valeur de Ia variable) pour laquelle on observe Ia plus grande fréquence. La médiane n'est déterminge que si les catégories sont hiérarchisées (Ia varie ble est en fait une variable ordinsle),. Dans cortains cas (catégories hiérarchisdes, sible de caleuler Ia variance. le dichotomisée), i est pos 5. EXERCICES PROPOSES A; Le tableau suivant indique incomplétemont lea résultats & un examen d'un grou pe de garcons ot de filles selon qu’ils ont 66: ~ admis A Vissue des épreuves écrites ; ~ admis & Vssue d’épreuves orales complémentairos ; ~ liming, Admis & Porat 41 4) Compléier le tableau des effectifs. ) Bn faisant le minimum dopérations, compléter le tableau des poureen- ages. B-Un professeur reldve, au hasard, 30 notes attribuses & une épreuve d'un ex men 3-14-96 15- 7-12-17 - 19-13 — 9 I-16 14 OO S— 14-18 14 6-13 10-15-1317 — 8-12-20 10— of tésumer ses observations, 48

Vous aimerez peut-être aussi