Vous êtes sur la page 1sur 109

Cned Universit Lyon 2 Universit de Rouen

Licence de sciences de lducation

Carole Daverne Danile Trancart

Mthodes quantitatives
Cours

Directrice de publication : Valrie Brard-Trigo Les cours du Cned sont strictement rservs lusage priv de leurs destinataires et ne sont pas destins une intgrale ou partielle, une traduction sans le consentement du Cned, sexposeraient des poursuites judiciaires et utilisation collective. Les personnes qui sen serviraient pour dautres usages, qui en feraient une reproduction aux sanctions pnales prvues par le Code de la proprit intellectuelle. Les reproductions par reprographie de livres et de priodiques protgs contenues dans cet ouvrage sont effectues par le Cned avec lautorisation du Centre franais dexploitation du droit de copie (20, rue des Grands Augustins, 75006 Paris).

Sommaire
Introduction ........................................................................................................................ 4

Chapitre 1 Production de donnes


1. Mise en uvre des notions fondamentales de la statistique ........................................... 11 1A. Population, individu ..................................................................................................... 11 1B. Recensement et sondage ............................................................................................. 12 1C. Reprsentativit ......................................................................................................................... 12 1D. Caractres ou variables statistiques ............................................................................. 12 2. Prsentation approfondie dun outil : le questionnaire ................................................... 14 2A. Quest-ce quun questionnaire ? .................................................................................. 15 2B. propos de la fabrication du questionnaire ................................................................. 15 2C. Classification des questions selon la nature des variables tudies .............................. 15 2D. Quand le questionnaire est rdig ............................................................................... 17 3. Choix dun chantillon : notions lmentaires sur les sondages ..................................... 18 3A. Mthodes empiriques de sondage................................................................................ 18 3B. Mthodes alatoires de sondage .................................................................................. 19 3C. Les panels ................................................................................................................... 20

Chapitre 2 Description statistique de tableaux une variable


1. Situation gnrale dtude ............................................................................................. 22 2. Traitement des donnes qualitatives nominales ............................................................. 24 2A. Situation dtude ......................................................................................................... 24 2B. Expos thorique ......................................................................................................... 25 2C. Traitement des donnes .............................................................................................. 26 3. Traitement des variables qualitatives ordinales .............................................................. 29 3A. Situation dtude ......................................................................................................... 29 3B. Expos thorique ......................................................................................................... 29 3C. Traitement des donnes .............................................................................................. 30 4. Traitement des variables qualitatives textuelles ............................................................. 34 5. Traitement des variables quantitatives discrtes ............................................................ 34 5A. Situation dtude ......................................................................................................... 34 5B. Expos thorique ......................................................................................................... 35
8 7007 TG WB 00

5C. Traitement des donnes .............................................................................................. 39 6. Traitement des variables quantitatives continues ........................................................... 44 6A. Situation dtude ......................................................................................................... 44 6B. Expos thorique ......................................................................................................... 45 6C. Traitement des donnes .............................................................................................. 52

8 7007 TG WB 00

Chapitre 3 chantillon alatoire : intervalle de confiance dune proportion ou dune moyenne


1. Intervalle de confiance dune proportion .................................................................. 64 1A. Situation dtude ......................................................................................................... 64 1B. Expos thorique ......................................................................................................... 65 1C. Traitement des donnes .............................................................................................. 68 2. Intervalle de confiance dune moyenne .................................................................... 69 2A. Situation dtude ......................................................................................................... 69 2B. Expos thorique ......................................................................................................... 69 2C. Traitement des donnes .............................................................................................. 70

Chapitre 4 Dcrire simultanment deux variables


1. Dcrire simultanment deux variables qualitatives ................................................. 71 1A. Situation dtude ......................................................................................................... 71 1B. Expos thorique ......................................................................................................... 72 1C. Traitement des donnes .............................................................................................. 73 2. La notion fondamentale dindpendance statistique ............................................... 74 2A. Expos thorique ........................................................................................................ 74 2B. Traitement des donnes............................................................................................... 74 3. Une mesure dassociation : le dit dcart lindpendance ............................... 78 3A. Situation dtude ......................................................................................................... 78 3B. Expos thorique ......................................................................................................... 78 3C. Traitement des donnes .............................................................................................. 79 4. Le test du dindpendance de deux variables qualitatives ................................. 80 4A. Situation dtude ......................................................................................................... 80 4B. Expos thorique ......................................................................................................... 80 4C. Traitement des donnes .............................................................................................. 83 5. tude simultane de deux variables quantitatives ................................................... 85 5A. Situation dtude ......................................................................................................... 85 5B. Expos thorique ......................................................................................................... 86 5C. Traitement des donnes .............................................................................................. 90

Exercices .......................................................................................................................... 97 Corrigs ......................................................................................................................... 102


8 7007 TG WB 00

8 7007 TG WB 00

Prsentation des auteurs


Carole DAVERNE
Matre de confrences lUniversit de Nantes et sociologue de lducation au Centre de recherche en ducation de Nantes (CREN EA 2661). Docteur en sciences du langage. (2008). Une jeune lite lycenne. Comment se prparer pour un monde incertain ? (avec Yves Dutercq), Les sciences de lducation. pour lre nouvelle ( paratre). (2006). Les apports de la statistique textuelle face un corpus htrogne : le logiciel ALCESTE confront lhritage social et culturel , in Lglise I., Canut E., LHarmattan, Paris, p.151-175. Desmet I., Garric N. (dir.) Applications et implications en sciences du langage,

Danile TRANCART
Matre de confrences l'Universit de Rouen. Dpartement des Sciences de lEducation. Docteur en Statistiques mathmatiques. (2006). Fragmentations territoriales et ingalits scolaires : des relations complexes lves, ducation & formations, n 74.

entre la distribution spatiale, les conditions de scolarisation et la russite des (2006). Les ingalits rgionales en ducation : capital social et performance institutionnelle, in Bevort, Lallement, Le capital social, La Dcouverte Mauss, 2006.

Ce cours porte sur le thme des mthodes quantitatives et prend appui sur lapproche statistique en apportant les notions et les outils ncessaires la comprhension de ces mthodes dans une perspective dominante technique. L'objectif global de ce cours est de fournir aux tudiants les outils ncessaires llaboration, dans le cadre dune recherche, dune dmarche de terrain et de son analyse. La ralisation de cet objectif passe par la familiarisation avec certains outils et avec certaines techniques danalyse. Tout dabord des informations et conseils aux tudiants. Le premier chapitre traite de la production de donnes. Le deuxime chapitre traite de la description statistique de tableaux une variable. Le troisime chapitre est relatif lchantillon alatoire : intervalle de confiance dune proportion et dune moyenne. Le quatrime chapitre traite de la description statistique de tableaux 2 variables.
8 7007 TG WB 00

Enfin, des exercices de synthse accompagns de leurs corrigs sont proposs.

Informations et conseils aux tudiants


Objectifs et contenu

Objectifs
Expliciter les questions dune problmatique tistique.

Contenu
Des lments thoriques pour : population,

dont les rponses relvent dune approche staDcrire, traiter, analyser des donnes de manire pertinente dans le cadre dune tude en particulier dans le domaine ducatif. Lire avec un regard critique et distanci, les conclusions de diverses tudes statistiques Sciences de lducation, Exploiter des notions et des dmarches mathfier dans un sens positif le rapport souvent ngatif que nombre entretient avec cette science. matiques des fins doutils, et de ce fait modiapparaissant dans des rapports de recherche en

modliser des situations dtude : chantillon,

units statistiques,

recueillir/produire/construire des donnes pertinentes pour ltude : recensement, sondage,

variables statistiques ;

reprsentativit,

dcrire les donnes produites : tableaux statistiques, graphiques statistiques, mode, quartiles, moyenne, variance, cart-type ;

enqute par questionnaire ;

Sexercer un raisonnement intgrant lide de sions.

risque derreur dans lnonc de ses concluSexercer linterprtation de phnomnes

estimer des paramtres inconnus : estimation dune moyenne, estimation de proportion ;

ducatifs sur la base de donnes statistiques sur des faits ducatifs et sur des relations entre ces faits .
8 7007 TG WB 00

tester des hypothses ;

tablir des liaisons entre des variables.

Sexercer la communication des rsultats des

analyses des donnes en distinguant clairement le modle utilis, de la ralit quil est suppos reprsenter, en sparant bien les traitements mens lintrieur du modle, des interprta-

tions reformules dans le contexte du problme.

Comment travailler ce cours ?


Nous vous invitons prendre d'abord connaissance des objectifs que nous avons fixs puis nous vous conseillons de lire l'ensemble du chapitre, non en dtail, mais afin de vous approprier son organisation gnrale dans une perspective de comprtisticien professionnel. Les situations-problmes proposes offrent une approche que nous considrons comme transfrable de nombreuses problmatiques plus relles abordes dans des recherches en ducation. Il convient galement de tenter de rsoudre par vous-mme les situationsproblmes proposes, avant daller vous investir dans le traitement qui vous est suggr. Par ailleurs, nous vous invitons aussi aborder chaque problme par les deux questions : De quoi sagit-il ? Quel traitement peut-on faire ? Dans quel but ? Aprs avoir travaill ce que nous proposons, nous vous incitons complter votre dans les ouvrages cits en bibliographie de base. formation en rsolvant quelques autres situations problmes que vous trouverez

hension de la matire. Notre but nest pas de vous conduire une formation de sta-

En ce qui concerne les traitements numriques, nous vous conseillons l'usage d'une calculatrice avec les fonctions statistiques de base (moyenne, cart-type). Cet usage sera d'ailleurs requis pour l'preuve d'examen afin de rduire le temps des calculs.

Quelle organisation du temps ?


Bien que les rythmes et les styles dapprentissage comportent des caractristiques trs personnelles dans le cadre dun travail en autonomie, chaque activit exige un certain nombre d'heures de travail que nous estimons de la sorte : tude des squences proposes avec les exercices : total = 24 h ainsi rparties Production des donnes : 2 heures. Ce chapitre ne fera pas lobjet dinterrogation lexamen mais il sagit, dune part, de se familiariser avec le vocabulaire de la statistique et dautre part de

8 7007 TG WB 00

fournir un panorama complet de cette question qui pourra tre retravaill lors de lanne de M1, en cas de besoin. Description statistique de tableaux une variable : 8 heures Echantillon alatoire : intervalle de confiance dune proportion et dune moyenne : 4 heures Description statistique de tableaux 2 variables : 6 heures Exercices de synthse : 4 heures

Bibliographie de base conseille


Niveau de lecture N : 1 2 3 N 1 1 1 2 3 1 Documentation de base pour une premire approche Pour aller plus loin Pour approfondir et tayer une rflexion dj engage Rfrences Gueguen N. (1998) Manuel de statistique pour psychologues, Paris, Dunod, 294 p. Langouet G., Porlier J.C. (1989) Mesure et statistique en milieu ducatif, Paris : ESF diteur (3me dition) 201 p. Mialaret G. (1991) Statistiques appliques aux sciences humaines, PUF, 412 p. Martin L., Baillargeon G. (1989) Statistique applique la psychologie Les ditions SMG (2me dition) 799 p. Saporta G. (1990) Probabilits, Analyse des donnes et Statistique, ditions Technip (1re dition) 493 p. Berthier N. (1998) Les techniques denqute, Armand Colin, 254 p.

8 7007 TG WB 00

Quelques sites titre indicatif


http://www.insee.fr/ Site de linstitut National de la Statistique et des Etudes Economiques http://www.cnam.agropolis.fr/ Il sagit dun site du CNAM Rgion Languedoc Roussillon dans lequel vous trouverez un cours de statistiques http://www.cereq.fr/ Site du Centre dEtudes et de Recherches sur les Qualifications. http://centre.quetelet.fr Ressources statistiques http://www.penombre.org http://www.image.cict.fr/ Site dingnierie textuelle (traitement de donnes textuelles)

8 7007 TG WB 00

Chapitre 1 Production de donnes


Si nous considrons que l'objet principal de la statistique est l'interprtation de donnes aprs leur traitement, il est clair que cet objet doit aussi intgrer la question de la production des donnes. Produire, traiter et interprter constituent trois activits du chercheur en sciences de l'ducation qui recourt un modle statistique pour mettre l'preuve ses hypothses. Rappelons ici les principales phases dune recherche La premire phase est relative la conception, cest dire la dfinition de lobjet en fonction des hypothses de recherche. La deuxime phase est relative au choix de la mthode denqute qui sappuie sur lentretien ou le questionnaire, et sa planification. Par planifier lenqute, nous entendons organiser le droulement, dterminer la population susceptible dtre interroge, puis constituer lchantillon de taille fixe, enfin expliciter la faon de conduire les interrogations en fonction des diverses contraintes. La troisime phase concerne la fabrication de linstrument de mesure. Dans le cas du questionnaire, il sagit alors de le construire selon des rgles propres que nous expliciterons, et de le tester auprs dun sous chantillon afin de vrifier la comprhension des questions, les nomenclatures utilises, les ractions de rejet, etc. La quatrime phase porte sur le recueil des donnes en fonction de lchantillon retenu et du mode dadministration associ. La cinquime phase porte sur lanalyse des donnes aprs prparation de celles-ci sous forme spcifique. La sixime phase est relative ltape de rdaction du rapport final. Cette partie est consacre la question de la production des donnes replace dans un cadre thorique empruntant partiellement au domaine de la statistique mathmatique.

1. Mise en uvre des notions fondamentales de la statistique


1A. Population, individu
Lensemble des objets concrets ou conventionnels observables sur lesquels porte ltude dtermine une population. Cette population est constitue dlments appels individus ou units statistiques. La dlimitation de la population doit tre la plus prcise possible. Une population peut tre dfinie par lensemble : des sortants du systme ducatif en 1998 ; des lves de CM2 scolariss dans lacadmie de Rouen ou celle de Lyon ; des lycens des classes de seconde dtablissements franais mtropolitains ; des candidats au baccalaurat en 1999 toutes sries confondues (France entire) ; des dpartements de France mtropolitaine. Les individus ou units statistiques correspondants ces exemples, sont respectivement : un lve de CM2 scolaris dans l'acadmie de Rouen ou de Lyon, un lycen de classe de seconde, un candidat au baccalaurat en 1999, un dpartement de France mtropolitaine, etc.

8 7007 TG WB 00

Chapitre 1 : Production de donnes

1B. Recensement et sondage


Si la collecte des informations concerne lensemble de tous les individus dune population, on parle alors de recensement. La collecte est dite exhaustive. Le recensement national organis par lINSEE en est un exemple. On peut galement citer les statistiques du ministre du Travail et de lEmploi concernant les chmeurs ou encore les statistiques du ministre de lducation nationale qui permettent la gestion du nombre dlves, denseignants ou dtablissements. Les statistiques lectorales ou le rfrendum font partie des recensements. Dans le recensement de lINSEE, il faut noter que des erreurs sont toujours possibles : personnes comptes deux fois, personnes sans domicile fixe chappant toute possibilit dtre enqute, personnes temporairement absentes de leur domicile et voyageant hors de la France. Empiriquement cette erreur de mesure est estime environ 0,5%. Si la collecte nest que partielle, on parle alors de sondage. Toutefois, des conditions fondes sur des rgles explicites prcises sont requises pour dterminer lchantillon sur lequel est effectue la collecte. La collecte partielle est impose par diverses contraintes. conomiquement un recensement peut tre trs onreux. La collecte partielle est alors moins coteuse. Pratiquement un recensement peut tre impossible. Cest le cas si nous envisageons ltude de la fabrication mcanise dune pice mtallique devant avoir des dimensions trs prcises. A priori la machine peut produire une infinit de pices, cest dire que lunivers statistique est un ensemble infini inaccessible au recensement. Pratiquement un recensement peut tre inadapt. Cest le cas des tudes de contrle de fabrication qui vont ncessiter la destruction de lobjet, unit statistique comme par exemple ltude de la dure de vie dune ampoule lectrique. Des questions mergent auxquelles nous tenterons de rpondre dans ce cours. Comment constituer un chantillon ? Que veut dire reprsentatif ? Quelle crdibilit peut-on accorder un sondage ?

1C. Reprsentativit
En quel sens pouvons-nous utiliser le qualificatif reprsentatif pour un chantillon dune population (parente) ? ...dans le sens dun fragment de cette population nous permettant dobtenir une information la plus proche possible de celle que nous obtiendrions par recensement. De l nous pouvons y voir lide dun modle rduit. Une autre faon denvisager cette notion de reprsentativit est de considrer la probabilit dappartenance dune unit statistique lchantillon. Ainsi en nous rattachant aux ides dquit et de compensation, une certaine reprsentativit de lchantillon parat tre recevable si nous respectons la condition suivante : chaque unit statistique a la mme chance dappartenir lchantillon.

1D. Caractres ou variables statistiques


Chaque individu dune population possde des caractristiques propres ou partages par dautres individus. Ltude porte sur ces caractristiques vues au niveau de la population et non pas au niveau de lindividu. Derrire cette perspective, se profile un concept cl de la statistique : la variabilit. Par exemple pour chaque lve de CM2, on peut analyser : son niveau de russite une preuve dans une discipline ; le temps mis pour raliser lpreuve laquelle il est soumis ; son appartenance ou pas un club sportif ;
8 7007 TG WB 00

Chapitre 1 : Production de donnes

la couleur de ses yeux ; son poids ou sa taille ; ses prfrences sur les matires enseignes. Pour faire le relev de chaque caractristique, il faut dfinir un instrument de mesure qui peut tre soit du type de ceux des mesures physiques comme ceux obtenus avec un chronomtre, une balance, une toise, un ampremtre, un pluviomtre, un compteur de passage une entre, etc., soit prendre la forme dun questionnaire, dun entretien, ou dun enregistrement audiovisuel, etc. Ainsi, chaque caractristique, on associe par lintermdiaire dun caractre ou variable statistique qui modlise celle-ci, le rsultat de sa mesure. Par exemple, ces rsultats peuvent tre : les notes entires de 0 20 ; les dures en minutes ; les rponses oui ou non une question pose dans un questionnaire ; les couleurs des yeux ; les masses en kg ; les tailles en cm ; le rang des prfrences des matires enseignes. Les variables statistiques reprsentant ce qui est mesur sur les individus dune population ou dun chantillon, sont classes de la faon suivante. Les variables (qualitatives) nominales Les rsultats sont de nature qualitative. Lensemble des rsultats possibles, que nous nommons modalits, ne possde pas de structure ayant des proprits mathmatiques remarquables habituelles autorisant lusage de la comparaison ou de la grandeur. Les modalits sont codes laide de mots ou dexpressions courtes ou parfois laide de nombres qui nautorisent cependant aucunement une interprtation en termes de grandeur. Par exemple la variable genre possde deux modalits Masculin et Fminin , codes respectivement 1 et 2 . Cela ne signifie nullement que masculin vient avant fminin ni que fminin est le double de masculin. On pourrait citer encore les dpartements franais et leur codage numrique. Les variables (qualitatives) ordinales Les rsultats sont encore de nature qualitative. Mais lensemble des rsultats possibles possde une structure dordre autorisant lusage de la comparaison Les modalits sont codes laide de mots ou dexpressions courtes marquant une gradation ou parfois laide de nombres. Dans ce dernier cas, lordre des nombres traduit la gradation.

8 7007 TG WB 00

Chapitre 1 : Production de donnes

Par exemple la variable got pour la statistique peut tre modlise avec les modalits suivantes : Expression verbale Expression numrique Je naime pas du tout 1 Jaime un peu 2 Jaime beaucoup 3 Jaime la folie 4

Pour ces variables, les analyses statistiques doivent prendre en compte lordre des modalits. Les variables quantitatives discrtes ou continues Les rsultats sont alors de nature quantitative. Lensemble des rsultats possibles, que nous nommons valeurs, est un ensemble de nombres qui possde une structure ayant des proprits mathmatiques remarquables habituelles autorisant lusage de la comparaison, de la grandeur et des oprations arithmtiques ou algbriques. Ce que nous nommons variable quantitative est aussi dsign par variable numrique. Nous distinguons deux types : Les variables quantitatives discrtes correspondent un ensemble fini ou dnombrable de rsultats. Intuitivement chaque rsultat est isolable. Par exemple, les variables statistiques suivantes : nombre denfants par famille ; nombre dlves par classe de seconde ; nombre de russites un QCM ; proportion des filles par classe de terminale scientifique. Les variables quantitatives continues sont celles qui ne sont pas discrtes. Lensemble des rsultats possibles est lensemble des nombres rels ou un sous-ensemble. Lusage de ces variables ncessite des outils mathmatiques plus labors que pour les variables quantitatives discrtes. Une approche mathmatique consiste faire usage des intervalles pour caractriser les rsultats. Cela revient passer par lintermdiaire de modalits. Nous verrons sur des cas particuliers comment nous prenons en considration cette proprit. Les variables textuelles De nombreuses mthodes ont t mises au point grce au dveloppement doutils informatiques qui ont apport un soutien formidable. Le traitement de ce type de variable est abord dans le cours de mthodes qualitatives.

2. Prsentation approfondie dun outil : le questionnaire


Lenqute par questionnaire est une mthode complmentaire de lenqute par entretiens. En effet, avoir recours un questionnaire suppose que lon sache prcisment quelles questions poser. La prparation dun questionnaire va ncessiter, la plupart du temps, davoir effectu et analys quelques entretiens non directifs pralables. Il y a donc complmentarit entre les approches qualitatives et les approches quantitatives. Les enqutes par questionnaire dveloppes ici, permettent de recueillir, de traiter et d'interprter des donnes. Elles constituent un outil essentiel de la perception du rel et de l'laboration de modles permettant d'accder la comprhension de phnomnes complexes. Leurs rsultats sont utiliss pour la gestion de la socit dans les domaines dpendant des dveloppements industriels, agricoles, conomiques et sociaux, mdicaux, environnemen-

8 7007 TG WB 00

Chapitre 1 : Production de donnes

taux, etc. C'est un outil de communication pour informer les citoyens, les acteurs sociaux ou les clients.

2A. Quest-ce quun questionnaire ?


Un questionnaire est une suite organise de questions intentionnellement conues pour tre poses un individu enqut dans une situation particulire. Son but est de recueillir systmatiquement des informations, de nature parfois trs diverse, qui doivent pouvoir tre exploitables. Le questionnaire est un outil frquemment utilis en sciences humaines et sociales pour recueillir des informations qui seront analyses l'aide des mthodes quantitatives. Entretien et questionnaire sont deux outils complmentaires. Lentretien est un instrument particulirement bien adapt une approche comprhensive des phnomnes humains, alors que le questionnaire s'avre tre plus efficace pour expliciter les lois statistiques qui rgissent les phnomnes tudis et pour fonder une approche explicative. Les enqutes par questionnaire apparaissent ds la fin du 19e sicle, prcdant ainsi lavnement des thories des sondages dveloppes au 20e sicle. Dans le domaine des enqutes conomiques et sociales, le recours cet outil de production de linformation est ncessaire pour se doter dune bonne reprsentation de la ralit. Cest une forme dinformation standardise sur des comportements, des opinions ou des attitudes. Les phnomnes tudis sont divers : rubriques prfres des lecteurs de tel magazine, modes de consommation ou modes de vie privilgis, trajectoires dinsertion des jeunes sur le march du travail... Une enqute par questionnaire requiert quelques rgles techniques qui reposent, bien entendu, sur une rflexion thorique lie lobjet tudi. Selon les phases de lenqute, les savoirs mis en uvre sont diffrents.

2B. propos de la fabrication du questionnaire


Le plus souvent, un questionnaire est compos de deux parties. Lune est relative lobjet de lenqute proprement dit et lautre aux variables sociodmographiques ou signaltiques. Les questions sur lobjet de lenqute se prsentent sous la forme de faits, dopinions, dattitudes, de reprsentations, ou de connaissances. Les questions de signaltique portent, pour la plupart, sur le sexe, lge, la catgorie socioprofessionnelle, la situation de famille, le type dhabitat, etc. Les rponses fournies par les personnes interroges ne sont que des discours sur des pratiques ou des reprsentations. Cette mise en garde explique pourquoi il ne faut pas se contenter dune seule mesure ou dune seule question pour apprhender un phnomne. Il faut multiplier les indicateurs afin de rduire limprcision de la mesure unique.

2C. Classification des questions selon la nature des variables tudies


Les variables tudies sont, nous lavons vu, soit nominales, ordinales, textuelles ou numriques. Par extension les questions poses seront du mme type. Les questions rponses nominales Nous donnerons trois exemples selon la nature des rponses possibles : Lorsque la question propose ne possde que deux modalits nominales de rponses, on dit que les rponses sont dichotomiques. Exemple 1 : Envisagez-vous de suivre des tudes suprieures ? Oui Non

8 7007 TG WB 00

Chapitre 1 : Production de donnes

Lorsque la question propose prsente plus de deux modalits de rponses, on dit que les rponses sont plusieurs modalits. Exemple 2 : Quelle est votre situation de famille ? Mari Clibataire Divorc Veuf Lorsque lon propose un ensemble de modalits et que la personne enqute peut choisir plusieurs rponses, on dit que la question est choix multiples. On peut prciser le nombre de rponses choisir. Exemple 3 : Aprs la formation que vous suivez actuellement, quenvisagez-vous de faire ? Vous choisirez deux modalits. Chercher du travail Continuer une formation Voyager, visiter le monde Fonder une famille Partir travailler ltranger Autres. Prciser .. La modalit autres permet la personne interroge de proposer de nouvelles possibilits qui pourront tre analyses grce une grille de post-codification labore a posteriori en dpouillant une partie des questionnaires. Les questions ordinales Dans les trois exemples donns ci-dessous, les rponses sont toutes ordonnes selon une gradation. Exemple 1 : Le mtier denseignant comporte un certain nombre de taches diffrentes. Toutes ne sont pas perues comme dgale importance. Par exemple, choisir et mettre en uvre les mthodes pdagogiques les mieux adaptes aux objectifs poursuivis. Est-ce : 1 Trs peu important 2 Peu important 3 Moyennement important 4 Important 5 Trs important Cette chelle de rponses possibles pourrait ne comporter que 4 chelons en supprimant lchelon moyen, en forant ainsi lenqut se positionner. On peut galement le remplacer par litem indcis ou ne sait pas , sachant que les experts ne sont pas tous daccord sur le bien fond de cette rubrique. Exemple 2 : Comment voyez-vous votre avenir ? Rpondez la question pose en notant une croix sur chacune des chelles proposes comme dans lexemple suivant : Gai Gai Gai X X X Triste Triste Triste Je vois mon avenir trs gai Je vois mon avenir plutt triste Je vois mon avenir ni triste ni gai

8 7007 TG WB 00

Chapitre 1 : Production de donnes

Plus la rponse est porte prs dun des deux ples, plus ce ple caractrise le sentiment ou la reprsentation. Gai Agrable Plein Beau X X X Triste Dsagrable Vide Laid

Exemple 3 : tant donne une srie de propositions, 5 par exemple, les classer selon lordre de prfrence. La proposition prfre reoit le rang 1, et ainsi de suite jusqu 5. Dans une tude portant sur des points de vue relatifs lapport dune formation en grontologie, il a t demand de ranger les items suivants : Rang propos noncs des items Actualiser ses connaissances thoriques professionnelles Sortir de la routine quotidienne Mieux comprendre la relation avec les personnes ges Se confronter des situations de formation Complter sa formation Esprer une meilleure reconnaissance professionnelle L de nombreux traitements, plus ou moins complexes, existent mettant en uvre ce qui est dnomm les statistiques de rang. Les questions rponses numriques ou quantitatives Les rponses aux questions poses se prsentent alors sous la forme dun nombre : un revenu ou un salaire en euros, un poids en kg, une taille en cm, un temps pass tudier telle matire durant une semaine en heures, etc. Elles renvoient aux variables quantitatives discrtes ou continues selon le cas.

2D. Quand le questionnaire est rdig


Une fois le questionnaire rdig, il faut le tester auprs dun sous-chantillon et ventuellement le corriger en fonction des rsultats obtenus et des critiques exprimes relativement la pertinence et la clart des questions. Le questionnaire dfinitif peut alors tre administr selon un protocole de passation prcis auprs dun chantillon. Celui-ci sera choisi selon un plan prtabli au sein de la population dlimite concerne par ltude. La taille de lchantillon tient compte tant de critres conomiques et scientifiques que des contraintes de la ralit du terrain et du mode de passation.

Exercice
Recherchez dans des journaux, des revues ou des livres que vous avez consults pour vos tudes en licence, ou mme dans votre vie quotidienne, des exemples de questionnaires. Analysez-les.

8 7007 TG WB 00

Chapitre 1 : Production de donnes

3. Choix dun chantillon : notions lmentaires sur les sondages


Les mthodes de sondage diffrent par la manire de prlever lchantillon dindividus observer. Pour que linformation recueillie auprs dun chantillon de n personnes puisse stendre de manire pertinente et avec un risque minimal la population parente, il faut respecter des rgles prcises de choix. Un chantillon peut tre obtenu selon l'une des quatre modalits gnrales suivantes : Tirage avec remise Mthode alatoire Mthode empirique (non altoire) A_R nA_R Tirage sans remise A_nR nA_nR

Si une population est compose de N individus, nous appelons le rapport sondage.

n : le taux de N

Par exemple : on extrait 10 jetons d'un sac contenant 100 jetons distinctement numrots : le tirage peut s'effectuer sans remise ce qui signifie que l'on tire les jetons du sac les uns la suite des autres ou encore que l'on tire les 10 jetons simultanment ; le tirage peut s'effectuer avec remise, dans ce cas on tire un jeton. On note l'information recherche, le numro, puis on le remet dans le sac pour nouveau tirer un jeton. On rpte cette manipulation 10 fois. Le calcul des probabilits correspondant est plus simple dans le cas de tirage avec remise et l'on admet couramment que lorsque la population concerne est d'effectif important le tirage d'un chantillon effectu sans remise est assimil un tirage avec remise. En effet il est trs peu probable de tirer plusieurs fois le mme individu !

3A. Mthodes empiriques de sondage


Il s'agit des procdures nA_R ou nA_nR du tableau prcdent. Elles sont les plus connues du grand public et les plus utilises par les instituts de sondages dopinion. Mthode des quotas ou sondage raisonn Lenquteur prlve librement son chantillon condition de respecter une composition donne lavance : sexe, ge, catgorie professionnelle. Cette mthode est facile mettre en uvre et ne ncessite pas de liste de la population tudier et suppose implicitement que les catgories retenues pour la dtermination des quotas sont pertinentes quant lobjet dtude, ce qui est bien difficile tablir. Puisquon ne possde pas de liste de personnes susceptibles dtre interroges, la probabilit pour quun individu de la population figure dans lchantillon, reste a priori inconnue. Mais on procde par choix raisonn, en supposant que si lchantillon reproduit fidlement certaines caractristiques (dites variables de contrle) de la population tudie, alors il sera bon (on dit parfois reprsentatif par abus de langage) pour dautres caractristiques tudier. Ainsi, si la population se compose de 50% dhommes, on imposera lenquteur charg de raliser 10 interviews, un quota de 5 hommes pour 10 personnes enqutes. Puis si la mme population compte 10% dagriculteurs, il devra y avoir une et une seule interview dagriculteurs. Pour raliser cette maquette chelle rduite de la population, un recensement antrieur est ncessaire. Cette mthode est utilise par la plupart des instituts de sondage, qui ont depuis peu lobligation de citer la mthode utilise pour raliser leur plan de sondage. Par exemple, on pourra lire que telle enqute mene par la SOFRES a t ralise du 15 au 22 mars 2008 auprs dun chantillon de 1 100 personnes en utilisant la mthode des quotas par sexe, ge et catgorie socioprofessionnelle. Ces quotas sont le plus souvent utiliss dans les

8 7007 TG WB 00

Chapitre 1 : Production de donnes

tudes en sciences humaines, on peut galement ajouter cette liste le lieu dhabitation, dans sa composante rurale ou urbaine. Le choix des individus est laiss lenquteur qui on impose quelques restrictions : dispersion gographique, interdiction dinterroger des personnes se connaissant entre elles et connaissant lenquteur, interdiction dinterroger des passants dans la rue sans respecter quelques rgles etc. Si au retour des enquteurs, les quotas ne sont pas respects, on peut procder un redressement en pondrant les individus. B Mthode des units types On choisit des units dindividus que lon considre comme fortement reprsentatives de certaines catgories de la population. Exemples : les cantons-types utiliss par lINSEE pour tudier les rgions agricoles : les cantons dtermins dans chaque rgion par des spcialistes ; les bureaux de vote pilotes pour des lections : bureaux de vote dont les rsultats vrifis sur de longues priodes figurent les rsultats dfinitifs dune ville, dune rgion, etc. Cette mthode repose sur une bonne connaissance pralable de ce qui caractrise lobjet tudier, et elle a tendance augmenter les contrastes. Il existe dautres mthodes empiriques mais aucune nest rellement scientifique. Elles rassemblent bon nombre de mthodes mises en uvre intuitivement dans diverses tudes.

3B. Mthodes alatoires de sondage


Elles reposent sur le tirage au hasard des chantillons et le calcul des probabilits. Il s'agit des procdures A_R ou A_nR du tableau prcdent. Simples ou stratifies, elles ncessitent la connaissance dune liste de noms ou dadresses de toutes les personnes interroger. Cette liste est appele base de sondage. Sondages alatoires simples La mthode consiste tirer au hasard, laide dune table de nombres au hasard ou avec le gnrateur de nombres pseudo-alatoires dun tableur, n individus dans une population de taille N. Ce sondage peut tre avec ou sans remise. Dans les deux cas, chaque individu a la probabilit 1/N dtre tir. On dit alors que lchantillon est reprsentatif de la population tudie en ce sens que tous les individus ont la mme probabilit de figurer dans lchantillon. Cette procdure est quivalente un tirage dans une urne, o chaque individu possde un numro de 1 N. chaque tirage dit avec remise 1 toutes les boules ont la mme probabilit ou la mme chance dtre tires. Pratiquement, il existe des procds de tirage automatique en utilisant des programmes de gnration de nombres alatoires ou des tables de nombres au hasard. Les individus sont alors dsigns par le sort, contacts (courrier, visite, appel tlphonique) et lenquteur ne peut en aucun cas remplacer une personne par une autre de sa propre initiative. Dans le cas dun tirage sans remise, le choix de lchantillon prend en compte le taux de sondage

n . N

Exemple : si une entreprise dsire mener une enqute auprs de ses clients, elle peut utiliser son fichier de la clientle. Ainsi, La Redoute procde souvent ce type denqute auprs de tous ses clients. On compte prs dun mnage sur deux qui aurait au moins une fois procd un achat par correspondance auprs de La Redoute, soit prs de 10 millions
Lorsque la taille de la population est trs importante par rapport la taille de lchantillon, tirage avec remise ou sans remise sont quivalents du point de vue dun certain nombre de traitement mathmatiques.
8 7007 TG WB 00
1

Chapitre 1 : Production de donnes

dindividus au sens statistique. Le Ministre de lducation Nationale gre galement des fichiers dlves, comme ceux des candidats divers examens et concours ou ceux des tablissements (coles, collges, lyces). Des enqutes par sondage alatoire sont souvent menes selon ce principe de construction. Ces mthodes alatoires simples permettent, par lintermdiaire du calcul des probabilits, de donner, comme on le verra, un degr de confiance des rsultats obtenus pour une proportion ou une moyenne dans lestimation par intervalle de confiance ou dappliquer des tests statistiques dhypothses. Sondages alatoires stratifis Lide consiste prlever lchantillon dans des groupes homognes de la population ou strates. Cette mthode permet damliorer considrablement la prcision des estimations. Les strates tant fixes, on peut chercher le nombre optimal dindividus tirer dans chaque strate, ou inversement trouver les meilleures strates possibles. Ainsi lutilisation de la stratification vise le plus souvent amliorer la qualit de linformation apporte par lchantillon et ainsi agir sur la prcision des rsultats obtenus. Dans ce cas, la dfinition du plan de sondage prend en compte une information supplmentaire caractrise par une variable de contrle. Cette variable connue pour tous les individus de la population permet de raliser une partition de cette population. On dcoupe alors la population en strates Ci deffectif Ni, puis on considre chaque strate comme un univers particulier dans lequel on effectue un sondage alatoire simple en tirant un chantillon de taille ni. On pourra choisir un taux de sondage proportionnel permettant dviter les redressements. On peut dmontrer mathmatiquement que la stratification est une mthode plus prcise que le sondage alatoire simple ou lmentaire, au sens de lestimation des rsultats. Sondages systmatiques Ils consistent prendre non pas des individus au hasard sur une liste mais des individus rgulirement espacs sur la liste. La valeur de lespace est obtenue alatoirement. Si le critre de classement des individus sur la liste est indpendant du caractre tudi; cette mthode est quivalente au sondage simple. Sondages par grappes On tire au hasard des grappes ou familles dindividus et on examine tous les individus de la grappe. Exemple : on tire des immeubles puis on interroge tous les habitants des immeubles tirs. Son avantage est la simplicit et son faible cot, la mthode est dautant meilleure que les grappes se ressemblent plus entre elles et que les individus dune mme grappe sont plus diffrents contrairement la stratification. Le sondage en grappes est utilis trs souvent par lINSEE qui procde en trois tapes : regroupement de la population en grappes selon un critre (lots dimmeubles ou grappes de mnages), tirage de certaines grappes alatoirement et examen de tous les individus des grappes tires. Sondages probabilits ingales Si les units sont de taille trs variable comme des agglomrations, on tire avec des probabilits proportionnelles au nombre dhabitants ou tout autre caractre dterminant. Sondages plusieurs degrs Cest un tirage en cascade : on tire au hasard dabord des villes, puis dans les villes tires, des quartiers au hasard, puis des immeubles, puis des habitants.

3C. Les panels


Lorsque lon dsire tudier lvolution dun phnomne au cours du temps, il est possible de construire un panel, cest dire un chantillon permanent qui sera interrog priodiquement.
8 7007 TG WB 00

Chapitre 1 : Production de donnes

Les panels de consommation permettent danalyser les comportements dachat des consommateurs. LINSEE et de nombreuses socits spcialises dans ces domaines utilisent cette technique. Il existe galement des panels daudience radio ou tlvision. Afin de ne pas introduire de biais systmatique li lappartenance au panel, un renouvellement dune partie des individus simpose aprs 3 ou 4 interrogations. Le Ministre de lducation Nationale gre galement des panels. En particulier, tous les 10 12 ans, un nouveau panel de suivi des scolarits des entrants en classe de 6e ou en Section dducation Spcialise (SES) est lanc. Par exemple, en 1989, prs de 27 000 lves taient suivis tout au long de leur scolarit ; ils reprsentent les 1/30e dune gnration. Il sagit dun chantillon alatoire o figurent tous les lves ns le 5 de chaque mois (soit prs de 1/30). Lenqute comprend une prise dinformation annuelle auprs des chefs dtablissement. Les cheminements des lves sont observs au fur et mesure de leur droulement (accs la classe suprieure, redoublement, sortie du systme ducatif, choix doptions ou de filires). On dispose ainsi, dune reconstitution des scolarits de lenseignement lmentaire la fin de la scolarit secondaire. De nombreuses tudes statistiques prennent pour base ce panel : parcours scolaires et effets des variables telles que lorigine sociale, le sexe, lge, la zone dhabitation, etc.

Exercice
Dans les exemples que vous avez rencontrs dans vos diverses lectures, identifiez comment lchantillon a t obtenu.

8 7007 TG WB 00

Chapitre 2 Description statistique de tableaux une variable


L'information recueillie et transcrite dans le tableau des donnes est soumise un traitement par analyse, synthse et interprtation. Une premire forme de traitement consiste tudier chaque colonne du tableau en ralisant une description des donnes. C'est l'objet du traitement statistique une variable. Nous apportons des outils pour la description de cinq types de variables statistiques : les variables qualitatives nominales, les variables qualitatives ordinales, les variables qualitatives textuelles, les variables quantitatives discrtes et les variables quantitatives continues. Les outils dvelopps dans ce chapitre consistent dcrire et rsumer linformation, afin de la communiquer plus aisment. Dans le cadre de ce chapitre, aucune diffrence ne sera faite entre les notions dchantillon et de population. Nous travaillerons gnralement partir dchantillons.

1. Situation gnrale dtude


Les donnes de lenqute rtrospective Gnration 98 du CEREQ (voir site internet : http://www.cereq.fr/) permettent de suivre pendant trois ans le parcours professionnel dune cohorte de dbutants sortant du systme ducatif en 1998. Prs de 57 000 jeunes ont t interrogs de manire rtrospective en 2001. Cet chantillon, qui couvre la quasi-totalit des sortants ( lexclusion de quelques professions mdicales), a une large reprsentativit. Outre la description des squences professionnelles mensuelles, figurent des donnes sur le cursus de formation initiale, sur la famille dorigine et des questions dopinion sur lattitude des enquts lgard de lemploi. Les donnes de la Haute-Normandie constituent le fil conducteur de ce cours. Lchantillon est constitu de 1352 individus. Une slection de quelques variables a t effectue. Il sagit : de variables socio-dmographiques et scolaires : ge en 1998 (V01), dpartement (V02), origine trangre (V03), sexe (V04), retard en sixime (V05), niveau scolaire atteint en 1998 (V06), catgorie sociale des parents (V07) ; de variables de parcours : emploi (V08), temps daccs au premier emploi (V09), situation professionnelle du jeune en janvier 1999 (V10) et avril 2001 (V11). Ces variables sont dcrites succinctement dans le tableau suivant.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Tableau des variables de lenqute CEREQ Code de la variable V01 V02 Descriptif succinct et types de rponse (avec codage) ge en 1998 (en annes) (entre 16 et 35 ans) Dpartement 27 = Eure 76 = Seine-Maritime Origine trangre (au moins un des deux parents) O = Oui N = Non Sexe 1 = Homme 2 = Femme Retard en sixime O = Oui N = Non Niveau scolaire atteint en 1998 (Nomenclature INSEE des niveaux avec ou sans le diplme correspondant) NIV II et I = Niveau suprieur bac+2 NIV III = Niveau bac+2 NIV IV = Niveau bac (avec ou sans le bac) NIV V = Niveau CAP ou BEP NIV VI = Sortie sans qualification Catgorie sociale des parents CD = Catgorie dfavorise (employ, ouvrier, chmeur) CF = Catgorie favorise Trouve un emploi ou non sur la priode 1998-2001 O = Oui N = Non Temps daccs au premier emploi (en mois) (entre 0 et 35 mois) Situation professionnelle du jeune en janvier 1999 CH = Chmage IN = Inactivit RE = Reprise dtudes SN = Service national CPI = Cadre ou profession intermdiaire ENQ = Employ non qualifi EQ = Employ qualifi OQ = Ouvrier qualifi ONQ = Ouvrier non qualifi

V03

V04

V05

V06

V07

V08

V09 V10

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

V11

Situation professionnelle du jeune en avril 2001 CH = Chmage IN = Inactivit RE = Reprise dtudes SN = Service national CPI = Cadre ou profession intermdiaire ENQ = Employ non qualifi EQ = Employ qualifi OQ = Ouvrier qualifi ONQ = Ouvrier non qualifi

Exercice 1
Dans cette tude, reprez la population et lchantillon. Prcisez sil sagit de variables qualitatives (nominales, ordinales ou textuelles) ou quantitatives (discrtes ou continues).

Corrig 1
Les variables V01 ge et V09 temps daccs au premier emploi sont des variables quantitatives discrtes. Ces deux variables peuvent aisment se transformer en variables quantitatives continues, ds lors que lon recoure des intervalles. Les variables V02 dpartement , V03 origine trangre , V04 sexe , V05 retard en sixime , V07 catgorie sociale des parents , V08 trouv un emploi sur la priode 1998-2001 , V10 situation professionnelle du jeune en janvier 1999 et V11 situation professionnelle du jeune en avril 2001 sont des variables qualitatives nominales. La variable V06 niveau scolaire atteint en 1998 est une variable qualitative ordinale.

2. Traitement des donnes qualitatives nominales


La premire tape est relative la statistique descriptive de variables qualitatives nominales.

2A. Situation dtude


La variable V08 trouv un emploi ou non sur la priode 1998-2001 est une variable statistique nominale, dont les modalits sont O (oui) et N (non). Le tableau statistique de cette variable est le suivant : Tableau statistique de la variable V08 Modalits de V08 Oui Non Effectif total Effectifs 1 277 75 1 352

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

2B. Expos thorique


X est une variable statistique qualitative nominale, dfinie sur une population statistique deffectif total N et tudie sur un chantillon de taille n. N o n dsigne le nombre de modalits. La somme des effectifs ni est gale leffectif total de lchantillon tudi. On la note n sur un chantillon (N sur une population). Cette somme se note galement laide de la lettre grecque

sigma : n =

n
i =1

i= p

On dsigne la frquence par fi =

ni . n

Cette frquence est souvent ramene en pourcentage, en multipliant fi par 100. La somme des frquences, exprimes en pourcentage, est gale 100. Reprsentations graphiques usuelles Les reprsentations graphiques des variables qualitatives nominales sont : le diagramme en btons ; le diagramme circulaire. Diagramme en btons Cette reprsentation graphique fournit une visualisation de la distribution des frquences ou des effectifs. On fait figurer sur un axe (gnralement en abscisse) les diffrentes modalits et sur lautre axe (gnralement en ordonne) les effectifs ou les frquences relatives. La gradation de laxe des modalits ne traduit ni un ordre, ni une quantit, tandis que celles des frquences ou des effectifs est gradue quantitativement. Diagramme circulaire Cette reprsentation graphique fournit une autre visualisation de la distribution des frquences ou des effectifs, mais en restituant limportance de chaque modalit relativement lensemble des rsultats. On obtient une telle reprsentation en tablissant une correspondance entre la mesure en degr des angles et la valeur des effectifs ou des frquences. On partage un disque en secteurs, dont les aires sont proportionnelles aux effectifs ou aux frquences donnes. Le calcul des angles correspondant chacune des modalits se fait ainsi : Dfinition des caractristiques usuelles Le mode est la valeur de la variable correspondant leffectif (ou la frquence) le plus lev. Dit autrement, cest la valeur de la variable qui revient le plus souvent loccasion des observations faites. Ainsi, le sexe modal de la population franaise est fminin (car il y a plus de femmes que dhommes), lorigine sociale modale des tudiants est professions librales et cadres suprieurs

360 f i % 100

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

2C. Traitement des donnes


Variable V08 trouv un emploi ou non sur la priode 1998-2001 Modalits de V08 Oui Non Effectif total n Effectifs ni 1277 75 1352 Frquences fi 0,945 0,055 1 Frquences en pourcentage fi % 94,5% 5,5% 100%

laide du tableau ci-dessus, on apprend que 1277 individus ont trouv un emploi sur la priode 1998-2001 et 75 individus nen ont pas trouv. La somme des effectifs ni est gale leffectif total de lchantillon tudi, soit : n = n1 + n2 = 1277 + 75 = 1352 La frquence associe la modalit oui est : f1 =

n1 1277 = = 0.9445, soit 94,45% (que lon peut arrondir 94,5%). n 1352

Diagramme en btons - Trouv un emploi ou non


1400 1200

Effectifs

1000 800 600 400 200 0

Oui

Non

Pour construire le diagramme circulaire, il faut au pralable calculer langle en degrs correspondant chaque modalit, soit pour la modalit Non :

360 5,5 = 19,8 100

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Diagramme circulaire - Trouv un emploi ou non

Non 5,5%

Oui 94,5% Le mode de la variable V08 est la rponse oui , cest--dire trouv un emploi . Il correspond au bton du diagramme en btons (ou au secteur du diagramme circulaire) le plus grand.

Exercice 2
Soit le tableau statistique suivant : Origine socioprofessionnelle des tudiants franais dans les universits en 2000-2001 (France mtropolitaine) Origine socioprofessionnelle Agriculteurs Artisans, commerants, chefs dentreprise Professions librales, cadres suprieurs Professions intermdiaires Employs Ouvriers Retraits, inactifs Indtermins Ensemble Effectifs 27 150 88 300 413 967 207 988 160 170 138 202 128 139 100 573 1 264 489

Source : Repres et rfrences statistiques sur les enseignements, la formation et la recherche, 2001, DPD.

Question 1 Calculez les frquences en pourcentage. Question 2 Faites deux reprsentations graphiques. Question 3 Dterminez le mode.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Corrig 2
Rponse 1 Origine socioprofessionnelle Agriculteurs Artisans, commerants, chefs dentreprise Professions librales, cadres suprieurs Professions intermdiaires Employs Ouvriers Retraits, inactifs Indtermins Ensemble Effectifs 27 150 88 300 413 967 207 988 160 170 138 202 128 139 100 573 1 264 489 Frquence en % 2,1 7,0 32,7 16,4 12,7 10,9 10,1 8,0 100

Rponse 2

Diagramme en btons - Origine socioprofessionnelle


450000 400000 350000 300000 250000 200000 150000 100000 50000 0

Effectifs

Pr Ar Pr Re Ind Em Ag Ou ofe ti s ofe tra ri c t vri plo an ss ss erm ul t i t e s y i on rs i on ,c s eu s, in om i sl rs si n a s ib nte cti me f r rm s a le ra d s, nt i ai s, ca re ch dr s es efs su de p n.. r. . ..

Catgories socioprofessionnelles

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Diagramme circulaire - Origine socioprofessionnelle


Indtermins 8,0% Agriculteurs 2,1% Retraits, inactifs 10,1% Professions librales, cadres suprieurs 32,7% Professions intermdiaires 16,4% Artisans, commerants, chefs dentreprise 7,0%

Ouvriers 10,9% Employs 12,7%

Rponse 3 Le mode est professions librales, cadres suprieurs .

3. Traitement des variables qualitatives ordinales


3A. Situation dtude
La variable V06 niveau scolaire atteint en 1998 est une variable statistique ordinale, dont les modalits sont NIV II et I, NIV III, NIV IV, NIV V et NIV VI. Le tableau statistique de cette variable est le suivant : Tableau statistique de la variable V06 Modalits de V06 NIV II et I NIV III NIV IV NIV V NIV VI Effectif total Effectifs 273 290 342 316 131 1 352

3B. Expos thorique


X est une variable statistique qualitative ordinale dfinie sur une population statistique deffectif total N et tudie sur un chantillon de taille n. Tableau statistique En ce qui concerne le tableau statistique, il ny a aucune diffrence de forme mis part le fait que les modalits sont ordonnes et que cette proprit doit tre maintenue dans celuici.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Reprsentations graphiques usuelles Le recours aux reprsentations graphiques est identique celui mis en uvre dans le traitement des variables nominales. Toutefois, ces graphiques se doivent de prserver la structure dordre des modalits. Ainsi, dans le diagramme en btons, les modalits doivent tre places sur laxe des modalits selon lordre qui les qualifie. De mme, cet ordre se retrouve sur le diagramme circulaire. Dfinition des caractristiques usuelles Le mode, cest la modalit ou les modalits de la variable deffectif maximum ou de frquence maximum. Ltendue, cest lintervalle dont la borne infrieure est la modalit de rang 1 prise par X et la borne suprieure est la modalit de rang p prise par X, cest--dire [x1 ; xp]. La mdiane Q2 est la modalit qui permet le partage de la population ou de l'chantillon, ordonn(e) de faon croissante, en deux parties de mme effectif. On repre la mdiane Q2 de la faon suivante : on divise le nombre N ou n dobservations par 2 : le reste de la division peut tre 0 ou 1; on procde un rangement des n ou N individus dans lordre des modalits croissantes, cest--dire quon ordonne les valeurs ; on calcule les effectifs cumuls : leffectif cumul jusqu la valeur i est la somme des effectifs des valeurs infrieures ou gales i ; on applique les rgles de dtermination ci-aprs. N ou n 2q 2q + 1 parit pair impair reste 0 1 Mdiane Q2 entre la modalit de rang q et celle de rang q+1 la modalit de rang q+1

La mdiane d'une variable X sur une population sur un chantillon une caractristique de position ou de tendance centrale. Elle prsente lavantage de ne pas tre influence par des valeurs extrmes. Par exemple, en matire de revenus, on prfre parler de revenu mdian que de revenu moyen, car les salaires trs levs tirent la moyenne vers le haut, de sorte quelle nest pas reprsentative de la tendance gnrale.

3C. Traitement des donnes


Variable V06 niveau scolaire atteint en 1998 Modalits de V06 NIV II et I NIV III NIV IV NIV V NIV VI Effectif total n Effectifs ni 273 290 342 316 131 1352 Frquences fi 0,202 0,214 0,253 0,234 0,097 1 Frquences en pourcentage fi % 20,2% 21,4% 25,3% 23,4% 9,7% 100%

laide du tableau ci-dessus, on dnombre les individus qui ont la mme modalit. Ainsi, 273 individus ont un niveau suprieur bac+2, 290 individus ont un niveau bac+2, 342 individus ont un niveau bac
8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

La somme des effectifs ni est gale leffectif total de lchantillon tudi, soit : n = 273 + 290 + 342 + 316 + 131 = 1352. La frquence associe la modalit NIV II et I est : f1 =

n1 273 = = 0.2019, soit 20,19% (que lon peut arrondir 20,2%). n 1352
Diagramme en btons - Niveau scolaire
400 350 300

Effectifs

250 200 150 100 50 0

NIV II et I

NIV III

NIV IV

NIV V

NIV VI

Pour construire le diagramme circulaire, il faut au pralable calculer langle en degrs correspondant chaque modalit, soit pour la modalit NIV II et I :

360 20,2 = 72,72 100

Diagramme circulaire - Niveau scolaire

NIV VI 9,70% NIV V 23,40%

NIV II et I 20,20%

NIV III 21,40% NIV IV 25,30%

Le mode de la variable V06 est le NIV IV , cest--dire le niveau baccalaurat. Il correspond au bton du diagramme en btons (ou au secteur du diagramme circulaire) le plus grand.

Ltendue est [NIV II et I ; NIV VI]. La mdiane se dtermine de la manire suivante :

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

n = 1352, do

1352 = 676. Le reste de la division est 0, ce qui correspond une modalit 2

comprise entre la modalit de rang 676 et celle de rang 677. Pour obtenir la modalit de rang 676 et celle de rang 677, on procde au calcul des effectifs cumuls. Les 273 premiers individus ont un niveau suprieur bac+2, les 290 suivants ont un niveau bac+2 (cest--dire que 273 + 290 = 563 individus ont au moins un niveau bac+2) Modalits de V06 Effectifs ni Frquences fi NIV II et I NIV III NIV IV NIV V NIV VI Effectif total n 273 290 342 316 131 1 352 0,202 0,214 0,253 0,234 0,097 1

La modalit de rang 676 est la modalit NIV IV et celle de rang 677 est galement la modalit NIV IV. Ainsi, la modalit mdiane est celle qui correspond un niveau baccalaurat. On peut aussi vrifier que la modalit de rang 1221 est la modalit NIV V, tandis que celle de rang 1222 est la modalit NIV VI.

Exercice 3
En 1980, la population amricaine comportait environ 100 millions dadultes (25 ans et plus) qui se rpartissaient de la faon suivante en fonction du niveau dinstruction et du sexe. Niveau dinstruction tablissements denseignement frquents jusquau bout Effectifs Hommes Aucun Primaire Secondaire Collge 4 000 000 10 000 000 23 000 000 10 000 000 Femmes 5 000 000 12 000 000 29 000 000 7 000 000

Source : U.S. Current Population Reports, Series P.20, n390, mars 1981 et 1980.

Question 1 Faites deux reprsentations graphiques, pour le sexe masculin uniquement. Question 2 Dterminez le mode chacun des deux sexes. Question 3 Dterminez la mdiane pour chacun des deux sexes.

Corrig 3
8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Rponse 1
Diagramme en btons - Niveau d'instruction
25000000 20000000

Effectifs

15000000 10000000 5000000 0

Aucun

Primaire

Secondaire

Collge

Niveaux

Diagramme circulaire - Niveau d'instruction

Collge 21%

Aucun 9% Primaire 21%

Secondaire 49%

Rponse 2 Le niveau dinstruction modal des hommes est secondaire . Celui des femmes est galement secondaire . Rponse 3 Pour les hommes, la mdiane se dtermine de la manire suivante : n = 47 000 000, do

47000000 = 23 500 000. Le reste de la division est 0, ce qui corres2

pond une modalit comprise entre la modalit de rang 23 500 000 et celle de rang 23 500 001. Pour obtenir la modalit de rang 23 500 000 et celle de rang 23 500 001, on procde au calcul des effectifs cumuls. Etablissements denseignement frquents jusquau bout Aucun Effectifs Hommes 4 000 000 Effectifs cumuls hommes 4 000 000 Femmes 5 000 000 Effectifs cumuls femmes 5 000 000

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Primaire Secondaire Collge

10 000 000 23 000 000 10 000 000

14 000 000 37 000 000 47 000 000

12 000 000 29 000 000 7 000 000

17 000 000 46 000 000 53 000 000

La modalit de rang 23 500 000 est la modalit secondaire et celle de rang 23 500 001 est galement la modalit secondaire . Ainsi, la modalit mdiane est celle qui correspond un niveau dinstruction secondaire.

Pour les femmes, on procde de manire identique. n = 53 000 000, do

53000000 = 26 500 000. Le reste de la division est 0, ce qui corres2

pond une modalit comprise entre la modalit de rang 26 500 000 et celle de rang 26 500 001. La modalit mdiane est galement celle qui correspond un niveau dinstruction secondaire.

4. Traitement de variables qualitatives textuelles


X est une variable statistique qualitative textuelle dfinie sur une population statistique deffectif total N et tudie sur un chantillon de taille n. Dans ce cas, les rsultats sont dun type plus complexe dans la mesure o il sagit de phrases nonces par un individu dans le contexte particulier de lobservation . Mathmatiquement, cela correspond une variable qualitative dont lespace des rsultats est quasi-infini. De nombreuses mthodes ont t mises au point auxquelles les outils informatiques ont apport un soutien formidable. Le traitement de ce type de variable est abord dans le cours de mthodes qualitatives.

5. Traitement des variables quantitatives discrtes


Nous allons maintenant dvelopper quelques traitements relatifs aux variables quantitatives discrtes. Notons tout dabord que les outils explicits pour les traitements des variables qualitatives se transportent sans obstacle ceux des variables quantitatives. Ainsi, ce qui suit sera un enrichissement de cette panoplie. Dans le cas des variables qualitatives, la seule information de nature quantitative est fournie par les effectifs. Dans celui des variables quantitatives, nous pouvons prendre aussi en compte la nature quantitative des rsultats eux-mmes.

5A. Situation dtude


La variable V01 ge en 1998 est une variable statistique quantitative discrte.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Le tableau statistique de cette variable est le suivant : Tableau statistique de la variable V01 Modalits de V01 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Effectif total Effectifs 19 48 153 168 173 178 150 115 119 79 48 26 14 28 12 6 6 2 2 6 1352

5B. Expos thorique


X est une variable statistique quantitative discrte dfinie sur une population statistique deffectif total N et tudie sur un chantillon de taille n. Reprsentations graphiques usuelles On recourt aux deux reprsentations exposes prcdemment, cest--dire aux diagrammes en btons et aux diagrammes circulaires. La diffrence fondamentale avec le cas des variables qualitatives tient au fait que laxe des abscisses, qui reprsente laxe des valeurs de la variable, est un axe gradu. Lchelle est quantitativement interprtable. Dfinition des caractristiques usuelles Deux types de paramtres permettent de caractriser une distribution : les caractristiques de position (ou de tendance centrale) et les caractristiques de dispersion. Les caractristiques que nous allons dabord tudier le mode, la mdiane et la moyenne sont des caractristiques de position ou de tendance centrale.
8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Le mode est la valeur de la variable deffectif maximum ou de frquence maximum. La mdiane Q2 est la valeur qui partage la population ou lchantillon en deux parties de mme effectif. On repre la mdiane Q2 de la faon suivante : on divise le nombre N ou n dobservations par 2, comme prcdemment : le reste de la division peut tre 0 ou 1. on procde un rangement des N ou n individus dans lordre des valeurs croissantes, cest--dire quon ordonne les valeurs. on calcule les effectifs cumuls. on applique les rgles de dtermination ci-aprs. N ou n 2q 2q + 1 parit pair impair 0 1 reste Mdiane Q2 Entre la valeur Vq de rang q et celle Vq+1 de rang q+1

Q2 =

Vq + Vq +1

La valeur Q2 = Vq+1

Du point de vue interprtatif, la mdiane d'une variable X sur une population ou sur un chantillon est une caractristique de position ou de tendance centrale. La moyenne est la valeur de la variable X obtenue par lune des trois procdures de calcul suivante : Le premier calcul consiste effectuer la somme de toutes les valeurs obtenues, puis diviser le rsultat par leffectif total. Ce calcul, qui correspond la moyenne arithmtique, est souvent long conduire, si bien que lon privilgie lune des deux autres mthodes.

m=

1 i =n oi n i =1

Dans le second calcul, on additionne les produits des diffrentes valeurs xk par leffectif correspondant nk. Le rsultat obtenu est divis par leffectif total.

m=

1 k=p nk xk n k =1

Dans la troisime expression, on additionne les produits des valeurs nk par les frquences fk correspondantes.

m = f k xk
k =1

k= p

Les deux derniers calculs correspondent ce que nous dsignons par la moyenne pondre. Du point de vue interprtatif, la moyenne d'une variable X sur une population ou sur un chantillon est une caractristique de tendance centrale Les caractristiques que nous allons maintenant tudier - ltendue, la variance, lcart-type et le coefficient de variation - sont des caractristiques de dispersion. Ltendue, cest lintervalle dont la borne infrieure est la valeur la plus faible prise par X et la borne suprieure est la valeur la plus forte prise par X, cest--dire [x1 ; xp].

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Du point de vue interprtatif, l'tendue d'une variable X sur une population ou sur un chantillon est une caractristique de dispersion. Cependant sa faiblesse rside dans le fait qu'elle demeure trop sensible aux donnes extrmes et aberrantes. Lamplitude de cet intervalle est mesurable et se calcule par la diffrence xp -x1. La varianceou moment centr dordre 2 dune variable quantitative discrte est la valeur obtenue par lune des deux procdures de calcul suivantes : Selon la premire formule, la variance est la moyenne pondre des carrs des carts des valeurs leur moyenne.
ech =

1 k=p nk ( xk m) n k =1

La seconde procdure correspond une dmarche simplifie, par laquelle la variance est le rsultat de la diffrence entre la moyenne pondre des carrs des valeurs et le carr de la moyenne de ces valeurs.
ech =

1 k= p nk xk m n k =1

Lcart-type est la racine carre de la variance. Il indique la dispersion des valeurs de la variable par rapport la moyenne de la srie statistique.

ech =

1 k= p nk ( xk m) n k =1

ou

ech =

1 k= p nk x k m n k =1

Du point de vue interprtatif, la variance et l'cart-type d'une variable X sur une population ou sur un chantillon sont des caractristiques de dispersion. Notons que l'cart-type est exprim avec la mme unit que les valeurs de la variable, alors que la variance est exprime en unit au carr. La variance est dautant plus faible donc aussi lcart-type que les donnes sont regroupes proximit de la moyenne. Dit autrement, plus lcart-type de la srie est faible, plus la dispersion des valeurs par rapport la moyenne est faible. Mais pour comparer deux distributions dont les moyennes sont diffrentes, nous sommes amens calculer le coefficient de variation qui ne dpend plus des units de mesure. Le coefficient de variation est obtenu en calculant le rapport de l'cart-type la moyenne.

CV =

cart type moyenne cart type 100 moyenne

Il est parfois exprim en % :

CV % =

Le coefficient de variation permet, nous lavons indiqu, de s'affranchir des units de mesure et des ordres de grandeur de la variable. Il permet ainsi de comparer plusieurs distributions de variables exprimes avec des units diffrentes ou dont les moyennes sont diffrentes. Plus le coefficient de variation a un faible pourcentage, moins la srie est disperse. Remarque 1 Les paramtres de position ou de tendance centrale sont le mode, la moyenne et la mdiane. Ils permettent de situer la valeur centrale dans la suite de nombre. La notion de position se rapporte la situation de la valeur centrale. Ces paramtres de position ne suffisent pas, la plupart du temps, pour rendre compte dune srie de valeurs. Par exemple, deux sries statistiques peuvent avoir une moyenne identique, mais lune peut tre caractrise par
8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

une distribution homogne et lautre par une distribution htrogne. Il convient donc dutiliser des indicateurs de dispersion, comme ltendue, la variance, lcart-type et le coefficient de variation. Remarque 2 Il existe des cas o les trois paramtres de position (mode, moyenne et mdiane) sont semblables : la distribution est alors symtrique et unimodale. La loi normale vrifie ces proprits. Remarque 3 Les trois paramtres de position prsentent des avantages et des inconvnients : Le mode reprsente le plus grand nombre dindividus ; la valeur correspondante est toujours une valeur vraie (alors que la mdiane et la moyenne peuvent correspondre des valeurs absentes des donnes) ; il sapplique des donnes nominales (ce qui nest videmment pas le cas de la mdiane ou de la moyenne). Son inconvnient principal est quil nest pas toujours reprsentatif de lensemble des donnes et dpend de la manire dont les observations sont regroupes. La mdiane prsente le principal avantage de ne pas tre influence par des valeurs extrmes, mais elle ne se prte pas directement aux quations. La moyenne permet de raliser de nombreux calculs, mais elle est influence par des valeurs aberrantes .

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

5C. Traitement des donnes


Variable V01 ge en 1998 Modalits de V01 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Effectif total Effectifs 19 48 153 168 173 178 150 115 119 79 48 26 14 28 12 6 6 2 2 6 1352 Effectifs cumuls 19 67 220 388 561 739 889 1004 1123 1202 1250 1276 1290 1318 1330 1336 1342 1344 1346 1352

Diagramme en btons - Age en 1998


200 150 100 50 0 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Effectifs

Ages

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Ltendue de la srie statique est [16 ; 35]. Lge modal est 21 ans. Le nombre dobservations divis par 2 est 676. Le reste de la division tant zro, la mdiane correspond la moyenne de la valeur de rang 676 et celle de rang 677, soit :
Valeur de rang 676 Valeur de rang 677 Mdiane 21 21 21

Pour obtenir la valeur de rang 676 et celle de rang 677, on a procd au calcul des effectifs cumuls de la faon suivante : 19 + 48 + 153 + 168 + 173 = 561. Ainsi, la 561me observation correspond la valeur 20. Le nombre d'individus ayant un rsultat infrieur 21 est de 561 + 178 = 739. Ainsi, l'individu de rang 676 et celui de rang 677 ont un ge de 21 ans. Lge mdian est donc de 21 ans. Le dtail des algorithmes de calcul de la moyenne, de la variance et de lcart type est prsent dans le tableau suivant :
Modalits de V01 xk 16 17 18 19 20 21 (mode) 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Effectif total : 1352 Effectifs nk 19 48 153 168 173 178 150 115 119 79 48 26 14 28 12 6 6 2 2 6 Somme : 29276 Moyenne : 21,65 nk xk 304 816 2 754 3 192 3 460 3 738 3 300 2 645 2 856 1 975 1 248 702 392 812 360 186 192 66 68 210 nk (xk m) 606,53 1 037,88 2 038,34 1 179,78 470,99 75,20 18,38 209,59 657,18 886,58 908,28 744,19 564,52 1 512,63 836,67 524,54 642,74 257,65 305,05 1 069,34 Somme : 14546,02 Variance : 10,76 cart-type : 3,28

Dtail des calculs 1 de la premire ligne :


1

Les calculs peuvent tre effectus avec une calculatrice programmable de type simple.
8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

nk xk = 16 x 19 = 304 nk (xk m) = 19 (16 21,65) = 19 (-5,65) = 19 x 31,9225 = 606,53 Dtail du calcul de la moyenne : m =

29276 = 21,65 1352 14546,02 = 10,76 1352

Dtail du calcul de la variance : Dtail du calcul de lcart-type : Le coefficient de variation est :

ech =

ech = 10,76 = 3,28

CV =

3,28 = 0,15 21,65

CV % = 15%
Nous obtenons donc un ge moyen de 21,65 ans, avec un cart-type de 3,28. Le mode et la mdiane ont une valeur de 21 ans. Le coefficient de variation vaut 15%, ce qui correspond une assez faible dispersion des ges autour de la moyenne.

Exercice 4
Deux groupes dtudiants ont pass la mme preuve de statistiques. Les enseignants qui ont corrig lpreuve du 1er groupe lont note sur 100, alors que ceux du 2e groupe ont t nots sur 20. Les rsultats des deux groupes sont les suivants : Moyenne et cart-type des notes obtenues une preuve de statistiques Moyenne Groupe 1 Groupe 2 Quen dduisez-vous ? 60 13 cart-type 15 5

Corrig 4
Le calcul du coefficient de variation permet daffirmer que par rapport au groupe 2, les notes du groupe 1 sont plus homognes. Moyenne Groupe 1 Groupe 2 60 13 cart-type 15 5 Coefficient de variation en % 25 % 38,5 %

CVgroupe1 =

15 = 0,25 60

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

CVgroupe 2 =

5 = 0,3846 13

Exercice 5
Soit la distribution statistique des notes de 50 lves de 3e, obtenues une preuve de franais : Notes obtenues une preuve de franais
Notes 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Effectifs 1 2 2 2 2 3 5 7 6 4 4 3 2 2 2 1 2

Question 1 Faites une reprsentation graphique de la srie statistique. Question 2 Calculez les paramtres de tendance centrale : mode, moyenne et mdiane. Question 3 Calculez les paramtres de dispersion : tendue, variance et cart-type.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Corrig 5
Rponse 1

Diagramme en btons - Notes


8 7 6 5 4 3 2 1 0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Effectifs

Notes

Rponse 2 La note modale est 9. La note moyenne est 9,92. Le nombre dobservations divis par 2 est 25. Le reste de la division tant zro, la mdiane correspond la moyenne de la valeur de rang 25 et celle de rang 26, soit : Valeur de rang 25 Valeur de rang 26 Mdiane La note mdiane est donc 10. Rponse 3 Ltendue de la srie statique est [2 ; 18]. La variance est 14,95 et lcart-type 3,87. Le dtail des algorithmes de calcul de la moyenne, de la variance et de lcart type est prsent dans le tableau suivant : Notes xk 2 3 4 5 6 7 8 9 (mode)
8 7007 TG WB 00

10 10 10

Effectifs nk 1 2 2 2 2 3 5 7

Effectifs cumuls 1 3 5 7 9 12 17 24

nk xk 2 6 8 10 12 21 40 63

nk (xk m) 62,7264 95,7728 70,0928 48,4128 30,7328 25,5792 18,4320 5,9248

Chapitre 2 : Description statistique de tableaux une variable

10 11 12 13 14 15 16 17 18 Effectif total : 50

6 4 4 3 2 2 2 1 2

30 34 38 41 43 45 47 48 50 Somme : 496 Moyenne : 9,92

60 44 48 39 28 30 32 17 36

0,0384 4,6656 17,3056 28,4592 33,2928 51,6128 73,9328 50,1264 130,5728 Somme : 747,68 Variance : 14,95 Ecart-type : 3,87

Exercice 6
Soit le nombre dlves par classe dans les tablissements : 22 ; 24 ; 25 ; 29 ; 30 ; 31 ; 32 ; 33 ; 34 ; 35 ; 36 Calculez la mdiane.

Corrig 6
Le nombre dtablissements est impair (11). Le reste de la division par 2 tant 1, la mdiane correspond la valeur de rang 6. Le nombre dlves mdian par classe est donc 31.

6. Traitement des variables quantitatives continues


6A. Situation dtude
La variable V09 temps daccs au premier emploi (en mois) est une variable statistique quantitative continue, ce qui signifie que lensemble des valeurs de la variable nest pas dnombrable. Dit autrement, la variable V09 peut prendre non seulement des valeurs entires, mais aussi nimporte quelle valeur intermdiaire. Le tableau statistique de cette variable est le suivant :

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Tableau statistique de la variable V09 Modalits de V09 [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20[ [20 ; 25[ [25 ; 30[ [30 ; 35] Effectif total Effectifs 926 153 88 43 29 26 12 1 277

Leffectif total est ici de 1277 (et non plus 1352) ; il correspond aux individus qui ont trouv un emploi. De nombreuses approches requirent un regroupement des donnes en classes dtermines par des intervalles pouvant tre damplitudes gales ou ingales. Etudier une variable quantitative continue telle que lge (la variable V01 tudie prcdemment aurait pu tre transforme en une variable quantitative continue), le revenu, le poids, la consommation d'eau, la distance parcourue, etc., consiste : analyser le tableau statistique de la distribution des effectifs ou des frquences des classes, reprsenter cette distribution par un graphique appel histogramme, calculer les caractristiques usuelles telles que mode, tendue, mdiane et plus gnralement fractiles, moyenne, variance et cart-type.

6B. Expos thorique


X est une variable statistique quantitative continue dfinie sur une population statistique deffectif total N et tudie sur un chantillon de taille n. Nous disposons de la srie statistique (i ; oi ) avec i = 1,..., N sur la population ou i = 1,, n sur lchantillon, des rsultats rangs dans lordre du recueil. Pour construire le tableau statistique de la distribution des effectifs et des frquences de la variable X, la procdure consiste dabord regrouper les individus en catgories dfinies par lintervalle auquel appartient la valeur obtenue, puis dnombrer ces individus. Pour chaque intervalle, ceci nous donne leffectif des individus relatif celui-ci. Nous supposons que lespace des rsultats de la variable X peut tre dcoup en p intervalles que nous noterons [x1,x2[, [x2,x3[,, [xp,xp+1[. Il se peut aussi que soit utilise la demidroite]- ; x1[ ou [xp+1 ; +[. Il faut remarquer que lintervalle [x1,x2[ contient la valeur x1 mais ne contient pas x2. De la mme manire, nous noterons n1,n2,, np les effectifs correspondant. Leffectif total est :
k=p k =1

n = nk fk = nk n

La frquence est :

Cette frquence est souvent ramene en pourcentage en multipliant fk par 100. Travailler partir de variables quantitatives continues ncessite de dterminer le centre de chaque intervalle de type [a ; b[. Ce calcul se fonde sur un prsuppos thorique : nous fai8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

sons lhypothse que tous les rsultats sur cet intervalle ont potentiellement la mme frquence dapparition en tant que rsultat exact. Le centre de lintervalle [a ; b[ est :

c=

a+b 2

Reprsentations graphiques usuelles Pour reprsenter dune autre manire linformation contenue dans le tableau statistique, on recourt habituellement deux reprsentations graphiques : lhistogramme et la courbe cumulative croissante. Evidemment, il est possible de recourir une multitude dautres reprsentations graphiques plus ou moins illustratives ou figuratives. Histogramme et densit de frquence Dans un histogramme, chaque classe est reprsente par un rectangle de surface proportionnelle la frquence (ou leffectif). Deux cas de figure sont envisager : 1er cas : Les classes dintervalles sont damplitudes gales La hauteur des rectangles peut tre choisie gale la frquence (ou leffectif). La base est gale lamplitude de la classe. 2e cas : Les classes dintervalles sont damplitudes ingales Il faut rectifier la hauteur du rectangle, afin que sa surface soit proportionnelle leffectif ou la frquence. Par exemple, si une classe est deux fois plus tendue que les autres, alors il faudra diviser par 2 le pourcentage et leffectif pour que la surface respecte le principe gnral de la construction : la proportionnalit des aires aux effectifs. Dans certains cas, pour visualiser correctement le tableau des donnes, il convient d'utiliser la notion de densit de frquence ou de densit deffectif de la variable sur chaque intervalle. Dans les cas tudis ici, le calcul de cette densit s'obtient de la manire suivante : Densit de frquence :

di = ni ai

fi ai

avec ai lamplitude de lintervalle.

Densit deffectif :

di =

avec ai lamplitude de lintervalle.

Pour diverses raisons qui pourraient tre discutes, nous considrons que sur un intervalle toutes les valeurs ont la mme chance dtre le rsultat dune mesure. Ceci se traduit par le fait que la densit de frquence est constante sur un intervalle. Le graphique ci-dessous traduit cette ide. L'aire du rectangle ABCD reprsente alors la frquence fi. Le calcul de laire du rectangle ABCD revient crire la relation : (xi+1 - xi ) di = fi =

D d i = f(x)

ni n

de laquelle nous dduisons : A xi B x i+1

di =

fi ni = xi +1 xi n( xi +1 xi )

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Lorsque les classes dintervalles sont damplitudes ingales, la hauteur des rectangles peut tre choisie gale la densit de frquence (ou densit deffectif). La base est gale lamplitude de la classe. Ainsi, un histogramme a lallure suivante :

d d
1 3

d
2

d
5

d
4

x1

x2

x3

x4

x5

x6

Courbe cumulative croissante On peut aussi estimer la frquence des mesures infrieures une valeur fixe quelconque. On reprsente pour cela une fonction cumulative croissante, de la manire suivante : en abscisse : on indique les classes en ordonne : on indique la valeur de la frquence cumule croissante associe la borne suprieure de chacune des classes ( lexception du 1er point, dont lordonne = 0 et labscisse = borne infrieure de la 1re classe). La courbe est celle dune fonction croissante affine par intervalle 2 du type :
Frquences cumules

1 F(x)

Classes

x1

x2

x3 x x4

x5

x6

La frquence cumule associe une valeur x est le % dobservations dont la valeur est infrieure x. Cette courbe permet de dterminer graphiquement la mdiane et dautres fractiles (voir ciaprs). La mdiane est la valeur de la variable qui correspond 0,5 (50%) sur la courbe des frquences cumules.

Une fonction affine est reprsente par une droite d'quation y=ax+b. Ici la reprsentation graphique est compose de morceaux de droites : la fonction est appele affine par morceaux ou affine par intervalles. 8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Frquences cumules
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 35.

Courbe des frquences cumules croissantes dune variable quantitative continue

Classes
40. 45. 50. 55. 60. 65. 70. 75. 80. 85.

mdiane

Dfinition des caractristiques usuelles Nous allons tudier successivement les caractristiques de tendance et celles de dispersion. Parmi les caractristiques de tendance, il y a le mode, les fractiles et la moyenne. La classe modale : Cest la valeur de la variable de densit de frquence (ou deffectif) maximale. Les fractiles sont les quartiles Q1, Q2 et Q3 (en fait, le 2me quartile concide avec la mdiane). Dune faon gnrale, on peut dfinir les fractiles de la manire suivante : il sagit de valeurs de la distribution qui partagent la srie statistique en parties deffectifs gaux. Ainsi, la mdiane Q2 partage la srie en deux parties deffectifs gaux. Les quartiles (Q1, Q2, Q3) partagent la srie en 4 parties deffectifs gaux. Q1, Q2, Q3 sont trois valeurs de la variable X qui vrifient les proprits suivantes : Concernant Q1 : Prop ({X Q1}) = 0,25 et Prop ({X Q1}) = 0,75 Cela signifie que deux conditions sont satisfaites par Q1 : la proportion des individus ayant un rsultat infrieur ou gal la valeur Q1 est gale 25% ; celle des individus ayant un rsultat suprieur ou gal la valeur Q1 est gale 75%. Concernant Q2, de manire similaire : Prop ({X Q2}) = 0,5 et Prop ({X Q2}) = 0,5 La proportion des individus ayant un rsultat infrieur ou gal la valeur Q2 est gale 50% ; celle des individus ayant un rsultat suprieur ou gal la valeur Q2 est gale 50%. Concernant Q3, toujours de manire similaire : Prop ({X Q3}) = 0,75 et Prop ({X Q3}) = 0,25 La proportion des individus ayant un rsultat infrieur ou gal la valeur Q3 est gale 75% ; celle des individus ayant un rsultat suprieur ou gal la valeur Q3 est gale 25%. On peut utiliser la courbe des frquences cumules croissantes pour dterminer graphiquement la mdiane Q2, les autres quartiles Q1 et Q3. La procdure correspondante pour la mdiane est de rechercher la valeur de variable dont l'image (cest--dire la frquence cumule) est 0.5. Pour Q1 il convient de prendre la valeur 0.25 et pour Q3 la valeur 0.75 Le graphique ci-dessous indique que la mdiane se situe dans la classe [60 ; 65[ et correspond une valeur approximative de 62,5.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Frquences cumules
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 35.

Courbe des frquences cumules croissantes dune variable quantitative continue

Classes
40. 45. 50. 55. 60. 65. 70. 75. 80. 85.

mdiane

Il convient maintenant de dterminer de manire prcise les fractiles. La procdure algbrique sous-jacente n'est autre que de l'interpolation linaire et utilise le raisonnement selon lequel pour tout point de coordonnes (x ; y) situ sur la courbe (assimile une ligne brise), on peut crire par application du thorme de Thals :
d y c A a x b M B

d c = y c = d y b a x a b x
Avec, dans le cas de la mdiane : a et b : les bornes de la classe mdiane x : la mdiane Q2 y = leffectif total divis par 2 (ou 0,5) c et d : les effectifs cumuls croissants (ou les frquences cumules croissantes)

Prcisons le calcul de la mdiane Q2. Celui-ci seffectue de la faon suivante : on divise leffectif total par 2, soit

n si on travaille sur un chantillon. 2

on procde un rangement de tous les individus dans lordre des valeurs croissantes, cest--dire quon ordonne les valeurs. on calcule les effectifs cumuls croissants (ou les frquences cumules croissantes). on repre quelle classe appartient la mdiane : la mdiane appartient la premire classe dont leffectif cumul croissant est suprieur croissante est suprieure 0,5). on applique la formule gnrale suivante :

n (ou dont la frquence cumule 2

Q 2 = Binf +

ampl n ( ni 1 ) ni 2

Avec Binf : Borne infrieure de la classe qui contient la mdiane, cest--dire borne infrieure de la classe
8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

mdiane (sur la graphique : a) ampl : Amplitude de la classe mdiane (sur le graphique : b-a) ni : Nombre dobservations contenues dans la classe mdiane (sur le graphique : d-c)

n : Effectif total divis par 2 2


ni-1 : Nombre dobservations situes avant la classe mdiane (sur le graphique : c) De faon analogue, le calcul de Q1 seffectue de la manire suivante : on divise leffectif total par 4, soit

n si on travaille sur un chantillon, 4

on procde un rangement de tous les individus dans lordre des valeurs croissantes, cest--dire quon ordonne les valeurs ; on calcule les effectifs cumuls croissants (ou les frquences cumules croissantes). on repre quelle classe appartient le 1er quartile : Q1 appartient la premire classe dont leffectif cumul croissant est suprieur suprieure est 0,25) ; on applique la formule gnrale suivante :

n (ou la frquence cumule croissante 4

Q1 = Binf +

ampl n ( ni 1 ) ni 4

Avec Binf : Borne infrieure de la classe qui contient le 1er quartile ampl : Amplitude de la classe qui contient le 1er quartile ni : Nombre dobservations contenues dans la classe qui contient le 1er quartile

n : Effectif total divis par 4 4


ni-1 : Nombre dobservations situes avant la classe qui contient le 1er quartile Pour le calcul de Q3, il faudra diviser leffectif total par chantillon. Pour le calcul de D1, il faudra diviser leffectif total par 10, soit chantillon En raison du point de vue adopt, le calcul de la moyenne se ralise partir des centres des intervalles borns (il en sera de mme pour les calculs de la variance et de lcart-type). Les formules sont analogues celles dfinies prcdemment pour les variables quantitatives discrtes, dans lesquelles on remplace les xk par des ck. La moyenne est la valeur de la variable X obtenue par lune des deux procdures de calcul suivantes :

3 3n , soit si on travaille sur un 4 4

n si on travaille sur un 10

m=

1 k= p n k ck n k =1

ou

m = f k ck
k =1

k= p

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Parmi les caractristiques de dispersion, il y a ltendue, lintervalle interquartile, la variance et lcart-type. Ltendue est lintervalle dont la borne infrieure est la valeur la plus faible prise par X et la borne suprieure la valeur la plus forte prise par X, cest--dire [x1 ; xp+1] ou ]- ; xp+1[ ou [x1 ; +[. Lamplitude de cet intervalle est mesurable et vaut (xp+1 - x1) dans le premier cas ou linfini dans les deux autres cas. Du point de vue interprtatif, l'tendue d'une variable X sur une population ou sur un chantillon est une caractristique de dispersion. Cependant, sa faiblesse rside dans le fait qu'elle demeure trop sensible aux donnes extrmes et aberrantes. De plus, dans le cas infini, elle n'apporte pas d'information intressante. Lintervalle interquartile est la valeur (Q3 - Q1). Il reprsente thoriquement les 50% des rsultats qui encadrent la mdiane Q2. Son amplitude (Q3 - Q1) est une mesure de dispersion autour de la mdiane Q2.

La variance ou moment centr dordre 2 dune variable quantitative continue est la valeur obtenue par lune des deux procdures de calcul suivante :
ech =

1 k= p nk (ck m) n k =1
1 k=p nk (ck m) n k =1

ou

ech =

1 k= p nk ck m n k =1
1 k= p n k ck m n k =1

Lcart-type est la racine carre de la variance :

ech =

ou

ech =

Il est noter qu'en ce qui concerne la moyenne, la variance et l'cart-type, le traitement utilis est celui dcrit propos des variables quantitatives discrtes. Les remarques que nous y avons faites demeurent valables dans le cas des variables quantitatives continues. Le coefficient de variation est obtenu en calculant le rapport de l'cart-type la moyenne. Il permet de s'affranchir des units de mesure et des ordres de grandeur de la variable ; il permet ainsi de comparer plusieurs distributions de variables.

CV =

cart type moyenne cart type 100 moyenne

Il est parfois exprim en %.

CV % =

6C. Traitement des donnes


Variable V09 temps daccs au premier emploi (en mois) Modalits de V09 [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20[
8 7007 TG WB 00

Centres dintervalle 2,5 7,5 12,5 17,5

Effectifs 926 153 88 43

Effectifs cumuls 926 1 079 1 167 1 210

Frquences 0,7251 0,1198 0,0689 0,0337

Frquences cumules 0,7251 0,8449 0,9139 0,9475

Frquences en % 72,51% 11,98% 6,89% 3,37%

Chapitre 2 : Description statistique de tableaux une variable

[20 ; 25[ [25 ; 30[ [30 ; 35] Effectif total

22,5 27,5 32,5

29 26 12 1277

1 239 1 265 1 277

0,0227 0,0204 0,0094 1

0,9702 0,9906 1

2,27% 2,04% 0,94% 100%

Les amplitudes de classes tant constantes, le calcul des densits de frquence ou deffectif est inutile. Lhistogramme se construit de la manire suivante : en abscisse : les classes, qui correspondent au temps daccs au 1er emploi ; en ordonne : les effectifs ou les frquences de chaque intervalle de classe.

Histogramme - Temps d'accs au premier emploi


1000 800

Effectifs

600 400 200 0 0 5 .10 .15 .20 .25 .30 .35

Mois

La courbe cumulative croissante se construit de la manire suivante : en abscisse : on indique les classes ; en ordonne : le 1er point est (0 ; 0), le 2nd point est (5 ; 0,7251), le 3e point est (10 ; 0,8449), le 4e point est (15 ; 0,9139) etc.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Courbe cumulative croissante - Temps d'accs au premier emploi


Frquences cumules
1,2 1 0,8 0,6 0,4 0,2 0 0 5 10 15 20 25 30 35

Mois

La classe modale de la srie statistique est [0 ; 5[. Il nest pas ncessaire de calculer les densits de frquence ou deffectif, car les amplitudes de classe sont constantes. La mdiane appartient la classe [0 ; 5[. En effet,

n = 638,5 et le 1er effectif cumul crois2

sant suprieur 638,5 est leffectif cumul 926 ; celui-ci correspond la classe [0 ; 5[. Un raisonnement similaire peut tre ralis laide des frquences cumules : la 1re frquence cumule croissante suprieure 0,5 est la frquence cumule 0,7251 ; celle-ci correspond bien la classe [0 ; 5[.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

On applique la formule gnrale suivante :

Q 2 = Binf +

5 ampl n ( ni 1 ) = 0 + (638,5 0) = 3,45 (pour simplifier, on arrondit 3 926 ni 2

mois et demi) Ainsi, la moiti des jeunes interrogs met moins de 3 mois et demi trouver un 1er emploi, tandis que lautre moiti des jeunes interrogs met plus de 3 mois et demi trouver un 1er emploi. Le premier quartile appartient la classe [0 ; 5[. En effet,

n = 319,25 et le 1er effectif cumul 4

croissant suprieur 319,25 est leffectif cumul 926 ; celui-ci correspond la classe [0 ; 5[. Un raisonnement similaire peut tre ralis laide des frquences cumules : la 1re frquence cumule croissante suprieure 0,25 est la frquence cumule 0,7251 ; celle-ci correspond bien la classe [0 ; 5[. On applique la formule gnrale suivante :

Q1 = Binf +
mois)

5 ampl n ( ni 1 ) = 0 + (319,25 0) = 1,72 (pour simplifier, on arrondit 2 926 ni 4

Ainsi, un quart des jeunes interrogs met moins de 2 mois trouver un 1er emploi, tandis que trois quarts des jeunes interrogs mettent plus de 2 mois trouver un 1er emploi. Le troisime quartile appartient la classe [5 ; 10[. En effet,

3n = 957,75 et le 1er effectif 4

cumul croissant suprieur 957,75 est leffectif cumul 1079 ; celui-ci correspond la classe [5 ; 10[. Un raisonnement similaire peut tre ralis laide des frquences cumules : la 1re frquence cumule croissante suprieure 0,75 est la frquence cumule 0,8449 ; celle-ci correspond bien la classe [0 ; 5[. On applique la formule gnrale suivante :

Q3 = Binf +

5 ampl 3n ( ni 1 ) = 5 + (957,75 926) = 6,04 4 153 ni

Ainsi, trois quarts des jeunes interrogs mettent moins de 6 mois trouver un 1er emploi, tandis que un quart des jeunes interrogs met plus de 6 mois trouver un 1er emploi. La moyenne vaut

7072,5 = 5,54 1277

Nous constatons que les valeurs s'tendent de 0 35, c'est--dire que ltendue est [0 ; 35] et son amplitude vaut 35. En dautres termes, les jeunes interrogs mettent entre 0 et 35 mois pour trouver un 1er emploi. Lintervalle interquartile vaut Q3 - Q1 = 6,63 - 1,72 = 4,91 Ainsi, 50% des observations qui encadrent la mdiane se situe dans un intervalle de presque 5 mois. La variance vaut Lcart-type vaut
8 7007 TG WB 00

49161,12 = 38,5 1277


38,5 = 6,2

Chapitre 2 : Description statistique de tableaux une variable

Le nombre de mois moyen pour accder un 1er emploi est de 5 mois et demi, avec un cart-type de 6 mois. Le coefficient de variation est de se. Dans le tableau suivant, nous prsentons le dtail des algorithmes de calcul de la moyenne, de la variance et de lcart-type de la variable V09 Modalits de V09 [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20[ [20 ; 25[ [25 ; 30[ [30 ; 35] Centres dintervalle 2,5 7,5 12,5 17,5 22,5 27,5 32,5 Effectifs 926 153 88 43 29 26 12 Effectif total : 1277 nk ck 2315 1147,5 1100 752,5 652,5 715 390 Somme : 7072,5 Moyenne : 5,54 nk (ck m) 8557,72 587,76 4262,86 6150,79 8341,61 12538,28 8722,10 Somme : 49161,12 Variance : 38,5 Ecart-type : 6,2

6,2 = 1,12 ce qui signifie que la srie est assez disper5,54

Exercice 7
Une enqute vie universitaire a t mene auprs dun chantillon dtudiants. Ces derniers ont d noter, pendant une semaine, le temps quils consacraient diffrentes activits (dtente, travail universitaire, transport). Dans le tableau ci-dessous, les informations recueillies sont relatives au nombre dheures consacres aux tudes. Nombre dheures consacres aux tudes Modalits (temps en heures) [30 ; 32[ [32 ; 35[ [35 ; 38[ [38 ; 40[ [40 ; 42] Effectifs (nombre dtudiants) 19 24 58 24 35

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Question 1 : Dcrivez la variable tudie. Question 2 : Indiquez la classe modale et ltendue de la srie statistique. Question 3 : Calculez la moyenne et lcart-type (avec 2 formules diffrentes) de cette distribution. Question 4 : Dterminez par le calcul la valeur mdiane du temps consacr aux tudes. Vrifiez graphiquement votre rsultat. Question 5 : Dterminez lintervalle interquartile. Question 6 : Calculez le coefficient de variation. Question 7 : Dterminez la proportion dtudiants travaillant plus de 39 heures. Question 8 : Faites une reprsentation graphique.

Corrig 7
Rponse 1 La variable tudie est une variable quantitative continue. Lchantillon est constitu de 160 individus. Rponse 2 Pour dterminer la classe modale, il est ncessaire de calculer les densits de frquence ou deffectif (car les amplitudes de classe ne sont pas constantes). Modalits [30 ; 32[ [32 ; 35[ [35 ; 38[ [38 ; 40[ [40 ; 42] Effectifs 19 24 58 24 35 Amplitude 2 3 3 2 2 Densit deffectif 9,5 8 19,33 12 17,5

La classe modale est la classe [35 ; 38[car la densit de frquence maximale est 19,33. Ltendue de la srie statistique est [30 ; 42].

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Rponse 3 Modalits [30 ; 32[ [32 ; 35[ [35 ; 38[ [38 ; 40[ [40 ; 42] Centres dintervalle 31 33,5 36,5 39 41 Effectifs 19 24 58 24 35 Effectif total : 160 nk ck 589 804 2117 936 1435 Somme : 5 881 Moyenne : 36,76 nk (ck m) 630,37 255,06 3,92 120,42 629,22 Somme : 1 639 Variance : 10,24 Ecart-type : 3,2 nici 18259 26934 77271 36504 58835 Somme : 217 803 Variance : 10,24 Ecart-type : 3,2

Le nombre dheures moyen consacres aux tudes est de 36 h 46 mn, avec un cart-type de 3 h 12 mn. Rponse 4 Modalits [30 ; 32[ [32 ; 35[ [35 ; 38[ [38 ; 40[ [40 ; 42] Effectifs 19 24 58 24 35 Effectifs cumuls 19 43 101 125 160

n = 80 et le 1er effectif cumul croissant suprieur 80 est leffectif cumul 101 ; celui-ci 2
correspond la classe [35 ; 38[.

Q 2 = 35 +

3 (80 43) = 36,91 58

Ainsi, la moiti des jeunes interrogs consacre moins de 36h55mn aux tudes, tandis que lautre moiti des jeunes interrogs consacre plus de 36h55mn aux tudes.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Courbe cumulative croissante - Nombre d'heures consacres aux tudes


200 Effectifs cumuls 150 100 50 0 30 32 35 38 40 42

Heures

Rponse 5 Pour dterminer lintervalle interquartile, il est ncessaire de calculer Q1 et Q3.

n = 40 et le 1er effectif cumul croissant suprieur 40 est leffectif cumul 43 ; celui-ci cor4
respond la classe [32 ; 35[.

Q1 = 32 +

3 ( 40 19) = 34,63 24

3n = 120 et le 1er effectif cumul croissant suprieur 120 est leffectif cumul 125 ; celui-ci 4
correspond la classe [38 ; 40[.

Q 3 = 38 +

2 (120 101) = 39,58 24

Lintervalle interquartile est donc 39,58-34,63 = 4,95. Cela signifie que 50% des observations situes autour de la mdiane se rpartissent dans un intervalle de 4h57mn. Rponse 6 Le coefficient de variation est Rponse 7 La proportion dtudiants travaillant plus de 39h est :

3,2 = 0,087 soit 8,7% 36,76 12 + 35 = 0,2938 soit 29,38%. 160

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Rponse 8

Histogramme - Nombre d'heures consacres aux tudes


25

20

Densit d'effectifs

15

10

Heures

Exercice 8
Le tableau ci-dessous indique les rsultats une preuve de franais de deux classes dlves (A et B) considres comme des chantillons. Rsultats une preuve de franais Classes de notes [0-4[ [4-8[ [8-12[ [12-16[ [16-20] Question 1 Calculez la mdiane et lcart interquartile de la distribution des notes de la classe A, puis de la classe B. Interprtez les rsultats. Question 2 Calculez la moyenne et lcart type de la distribution des notes de la classe A, puis de la classe B. Nombre dobservations dans la classe A 1 6 8 10 16 Nombre dobservations dans la classe B 0 8 6 3 9

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Question 3 En faisant lhypothse dune quirpartition des rsultats des lves dans chaque classe, quelle est la proportion dlves qui obtient une note infrieure 11 dans la classe A ? Dans la classe B ? Dfinition de lquirpartition : rpartition rgulire des individus sur toute ltendue de la classe. Question 4 Faites une reprsentation graphique de chacune des deux classes. Question 5 lissue de ces calculs, comparez les deux classes.

Corrig 8
Rponse 1 Classes de notes [0-4[ [4-8[ [8-12[ [12-16[ [16-20] Effectifs classe A 1 6 8 10 16 41 Commenons par calculer la mdiane et les quartiles de la classe A. Effectifs cumuls classe A 1 7 15 25 41 Effectifs classe B 0 8 6 3 9 26 Effectifs cumuls classe B 0 8 14 17 26

n = 20,5 et le 1er effectif cumul croissant suprieur 20,5 est leffectif cumul 25 ; celui-ci 2
correspond la classe [12 ; 16[.

Q 2 = 12 +

4 (20,5 15) = 14,2 10

Ainsi, la moiti des lves de la classe A a obtenu une note infrieure 14,2 lpreuve de franais, tandis que lautre moiti des lves a obtenu une note suprieure 14,2.

n = 10,25 si bien que le 1er quartile se situe dans la classe [8 ; 12[. 4


4 Q1 = 8 + (10,25 7) = 9,63 8 3n = 30,75 si bien que le 3e quartile se situe dans la classe [16 ; 20[. 4

Q3 = 16 +

4 (30,75 25) = 17,44 16

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Lintervalle interquartile de la classe A est donc 17,44-9,63 = 7,81. Cela signifie que 50% des observations situes autour de la mdiane se rpartissent dans un intervalle de 7,81. Calculons maintenant la mdiane et les quartiles de la classe B.

n = 13 et le 1er effectif cumul croissant suprieur 13 est leffectif cumul 14 ; celui-ci cor2
respond la classe [8 ; 12[.

4 Q 2 = 8 + (13 8) = 11,33 6
Ainsi, la moiti des lves de la classe B a obtenu une note infrieure 11,33 lpreuve de franais, tandis que lautre moiti des lves a obtenu une note suprieure 11,33.

n = 6,5 si bien que le 1er quartile se situe dans la classe [4 ; 8[. 4


4 Q1 = 4 + (6,5 0) = 7,25 8 3n = 19,5 si bien que le 3e quartile se situe dans la classe [16 ; 20[. 4 4 Q 3 = 16 + (19,5 17) = 17,1 9
Lintervalle interquartile est donc 17,1-7,25 = 9,85. Cela signifie que 50% des observations situes autour de la mdiane se rpartissent dans un intervalle de 9,85. Rponse 2 nouveau, commenons par la classe A. Classes de notes [0-4[ [4-8[ [8-12[ [12-16[ [16-20] Centres dintervalle 2 6 10 14 18 Effectifs classe A 1 6 8 10 16 41 nk ck 2 36 80 140 288 Somme : 546 Moyenne : 13,32 nk (ck m) 128,14 321,49 88,18 4,62 350,44 Somme : 892,87 Variance : 21,78 Ecart-type : 4,67 La note moyenne des lves de la classe A est 13,32 avec un cart-type de 4,67.

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Continuons par la classe B. Classes de notes [0-4[ [4-8[ [8-12[ [12-16[ [16-20] Centres dintervalle 2 6 10 14 18 Effectifs classe B 0 8 6 3 9 26 nk ck 0 48 60 42 162 Somme : 312 Moyenne : 12 nk (ck m) 0 288 24 12 324 Somme : 648 Variance : 24.92 Ecart-type : 4.99 La note moyenne des lves de la classe B est 12 avec un cart-type de 6,81. Rponse 3 La proportion dlves qui obtient une note infrieure 11 dans la classe A est

1+ 6 + 6 = 0,3170 , soit 31,7% des lves. 41

La proportion dlves qui obtient une note infrieure 11 dans la classe B est

0 + 8 + 4,5 = 0,4808 , soit 48,08% des lves. 26

Rponse 4

Histogramme - Rsultats de la classe A


18 16 14 12

Effectifs

10 8 6 4 2 0 0 4 .8 .12 .16 .20

Notes

8 7007 TG WB 00

Chapitre 2 : Description statistique de tableaux une variable

Histogramme - Rsultats de la classe B


10 9 8 7

Effectifs

6 5 4 3 2 1 0 0 4 .8 .12 .16 .20

Notes

Rponse 5 Autour dune moyenne relativement proche dans les classes A et B, les lves se rpartissent diffremment : en effet, les valeurs de lcart interquartile et lcart-type de la classe A sont plus faibles que celles de la classe B, ce qui indique une plus faible dispersion des notes des lves de la classe A autour de la moyenne. Les reprsentations graphiques illustrent dailleurs ce rsultat.

8 7007 TG WB 00

Chapitre 3 chantillon alatoire : intervalle de confiance dune proportion ou dune moyenne


La description statistique ne constitue que la premire tape de l'analyse des donnes en rapportant un ensemble d'informations synthtiques relatives un chantillon extrait d'une population. L'intrt de l'approche statistique est de fournir des outils permettant une extension contrle des proprits observes sur l'chantilles concepts, techniques et mthodes de la statistique dite infrentielle. Estimer des paramtres de variables relatives une population et tester des hypothses constivants.

lon, l'ensemble de la population parente. Cette extrapolation est instrumente par

tuent les principaux outils daide la dcision dvelopps dans les chapitres suiDe faon gnrale, lorsque lon ne dispose pas dinformations compltes sur une un sondage alatoire. Schmatiquement, un sondage alatoire repose sur linterrogation dun chantillon alatoire de taille n extrait dune population de taille

population et que lon dsire connatre la valeur de certains paramtres, on effectue

N. Les individus sont dcrits par des variables qualitatives (sexe, niveau de diplme, dpartement, diplm ou non, etc.) ou quantitatives (ge, temps daccs au premier des caractristiques telles que frquence ou proportion d'une modalit pour une variable qualitative ou moyenne ou cart-type pour une variable quantitative.

emploi). A lchantillon alatoire extrait partir dune population, on peut associer

1. Intervalle de confiance dune proportion


1A. Situation dtude
partir de lenqute G98 ralise sur un chantillon de 1352 sortants du systme ducatif en Haute-Normandie, on se propose de dterminer la proportion de sortants ayant atteint au moins le niveau du baccalaurat (niveau I, II, III ou IV avec ou

sans le diplme correspondant), Cette proportion nous est inconnue 1 sur lensemble de la population (tous les sortants de lanne 1998, en Haute Normandie) et il sagit de lestimer. Rappelons que dans notre chantillon, 273 personnes sortent du systme ducatif avec un niveau I ou II, 290 avec un niveau III et 342 avec un niveau IV ; soit un total de 905 personnes sur 1352 avec un niveau au moins gal au baccalaurat, c'est--dire 66,9%. Avec un autre chantillon de sortants, nous aurions

Un recensement de lensemble des lves de cette gnration de sortants nous permettrait dobtenir la valeur exacte de ces proportions mais il sagit alors dinterroger prs de 800 000 personnes !
8 7007 TG WB 00

moyenne

Chapitre 3 : chantillon alatoire : intervalle de confiance dune proportion ou dune

trs probablement obtenu des rsultats diffrents. Comment peut-on alors estimer la valeur relle dans la population, partir de ces lments ?

1B. Expos thorique


Un exemple d'estimation trs connu du grand public est fourni par les fourchettes de pourcentages donnes les soirs de scrutins nationaux. Estimer la valeur inconnue dun pourcentage ou dune proportion, cest chercher attribuer une valeur numrique approximative ce paramtre. La valeur obtenue est une estimation ponctuelle. A cette estimation ponctuelle, il convient galement dassocier un inter-

valle de confiance afin de prendre en compte la variabilit des rsultats obtenus chantillons de la population des lecteurs, il est clair que l'on a peu de chance dats, A par exemple. De mme, on peut aussi s'attendre trouver une valeur diff-

dun chantillon lautre. En effet, lorsque l'on extrait indpendamment deux d'obtenir exactement la mme proportion de personnes favorables un des candirente de celle relative la population entire. Cependant la thorie mathmatique

montre que si lon prenait tous les chantillons possibles de taille n (avec remise) et

que sur chacun d'eux on calcule la proportion des lecteurs favorables A puis que l'on tablisse le tableau statistique de la distribution des frquences et enfin que l'on construise le diagramme en btons, ce dernier aurait une forme proche de celle-ci-dessous (densit de la loi normale, centre sur la vraie valeur inconnue).

Cette ressemblance sera d'autant plus forte que n sera grand. Le mme constat pourrait tre fait avec une variable quantitative en tudiant la distribution des moyennes obtenues sur lensemble des chantillons. Cette courbe est mathmatiquement bien connue. Elle n'est autre que l'histogramme d'une variable elle-mme bien connue : la variable de Laplace-Gauss. La courbe porte divers noms : courbe de Gauss, courbe en cloche, courbe de la loi normale. Ses principales proprits sont : sa symtrie par rapport laxe vertical, sa moyenne est gale sa mdiane et son mode.

De nombreux phnomnes donnant lieu des mesures de grandeur peuvent tre modliss statistiquement par cette distribution de frquences ; en particulier des mesures physiques, conomiques, biologiques, des relevs de tests ou de notes etc.
8 7007 TG WB 00

moyenne

Chapitre 3 : chantillon alatoire : intervalle de confiance dune proportion ou dune

Cest partir des proprits de cette courbe que lon peut calculer les intervalles de confiance. Conditions dutilisation La proportion p dune caractristique dtermine par une variable X sur la population est inconnue (on note f la proportion calcule sur lchantillon). Lchantillon est obtenu par n tirages alatoires avec remise dans une population de taille finie N ; sans remise dans une population de taille finie N si le taux de sondage est tel que n < 0,1.

Pour des conditions optimales, la taille n de lchantillon devrait tre suprieure 50 et lestimation ponctuelle devrait tre comprise entre 0,1 et 0,9, sinon il conviendrait de consulter des documents de statistique prcisant dautres conditions. lation Elle est tout simplement obtenue partir de la proportion calcule avec les valeurs observes sur lchantillon. On dit que f frquence ou proportion obtenue sur lchantillon est une estimation ponctuelle de p. Estimation de la proportion par intervalle de confiance bilatral symtrique Il sagit cette fois de proposer une procdure permettant dobtenir une fourchette destimation de la proportion p affecte dun niveau de confiance. On dmontre ( partir des proprits de la Loi Normale prcdente) que pour un niveau de confiance de 95% (risque de confiance ou risque de se tromper de 5%), la proportion p est comprise dans lintervalle : [f e ; f + e] o f dsigne la frquence dans lchantillon et e lerreur dchantillonnage qui vaut approximativement : e= 2 Estimation ponctuelle de la proportion inconnue dune caractristique sur la popu-

f (1 f ) 2 n

Interprtation : Il y a 95 chances sur 100 pour que la valeur relle p dans la population soit comprise entre f-e et f+e.

La valeur relle de e gale 1,96

f (1 f ) n

. Pour un risque plus faible, 1% par exemple, il faut remplacer

1,96 par 2,57. Ces valeurs se lisent dans une table de la Loi Normale.
8 7007 TG WB 00

moyenne

Chapitre 3 : chantillon alatoire : intervalle de confiance dune proportion ou dune

Le tableau ci-dessous permet de mesurer les marges derreur dans les rsultats des mthode qui permette de mesurer ces marges. Or, pour des raisons pratiques, la trs grande majorit des sondages est ralise par la mthode des quotas. Dans ce

sondages effectus selon la mthode alatoire, pour une proportion. Cest la seule

cadre, la marge derreur ne peut pas tre calcule avec prcision. Mais, pratiquement on considre que ces marges derreur sont du mme ordre dans les deux mthodes. Marge derreur pour un sondage alatoire
f en % 5% ou Echantillon (taille) 50 100 200 300 500 1000 2000 95% 6,2 4,4 3,1 2,8 2 1,4 1 10% ou 90% 8,5 6 4,3 3,8 2,7 1,8 1,3 15% ou 85% 10,2 7,2 5,1 4,5 3,2 2,2 1,6 20% ou 80% 11,3 8 5,7 5 3,6 2,5 1,8 25% ou 75% 12,2 8,6 6,1 5,4 3,9 2,6 1,9 30% ou 70% 13 9,2 6,5 5,8 4,1 2,8 2,1 35% ou 65% 13,3 9,6 6,8 6 4,3 3 2,1 40% ou 60% 13,9 9,8 6,9 6,2 4,4 3 2,2 45% ou 55% 14,1 10 7,1 6,3 4,5 3,1 2,2 50% 14,1 10 7,1 6,3 4,5 3,1 2,3

Note de lecture : La marge derreur dun sondage ralise selon la mthode ala-

toire est dtermine par la taille de lchantillon et la frquence obtenue pour la et une frquence de 25%, la marge derreur est de 8,6%. Le pourcentage dans la population rpondant la question pose est donc compris dans lintervalle 25consenti de 5%, partir de la formule donne ci-dessus).

modalit considre dans lchantillon. Ainsi, pour un chantillon de 100 personnes

8,6=16,4% et 25+8,6=33,6% (les chiffres de ce tableau sont calculs avec un risque

8 7007 TG WB 00

moyenne

Chapitre 3 : chantillon alatoire : intervalle de confiance dune proportion ou dune

1C. Traitement des donnes


Reprenons les donnes prsentes dans la situation dtude. Pour estimer la proportion de sortants avec un niveau au moins gal au baccalaurat, on a : n= 1352 (taille de lchantillon) f =0,669 (66,9%) Lestimation ponctuelle de p est donc de 0,669 (66,9%). Avec un risque de confiance de 5%, on peut calculer lintervalle de confiance de la faon suivante : [f e ; f + e ] o e dsigne lerreur dchantillonnage et vaut approximativement :

f (1 f ) 0,669(1 0,669) = 0,026 e = 2 =2 1352 n


Ainsi, il y a 95 chances sur 100 pour que la proportion p dans la population soit comprise entre 0,643 et 0,695 soit 64,3% et 69,5%.

Exercice
Dterminer lestimation ponctuelle de la proportion de sortants sans qualification (niveau V bis et VI).

Corrig
Pour estimer la proportion de sortants sans qualification, on a : n= 1352 (taille de lchantillon) f =131 / 1352 = 0,097 soit 9,7% Lestimation ponctuelle de p est donc de 0,097 soit 9,7%. Avec un risque de confiance de 5%, on peut calculer lintervalle de confiance de la faon suivante : [f e ; f + e] o e dsigne lerreur dchantillonnage et vaut approximativement :

8 7007 TG WB 00

moyenne

Chapitre 3 : chantillon alatoire : intervalle de confiance dune proportion ou dune

f (1 f ) 0,097(1 0,097) = 0,016 e = 2 =2 1352 n


Ainsi, il y a 95 chances sur 100 pour que la proportion p de sortants sans qualification dans la population soit comprise entre 0,081 et 0,113 soit 8,1% et 11,3%.

2. Intervalle de confiance dune moyenne


2A. Situation dtude
partir de lenqute G98 ralise sur un chantillon de 1352 sortants du systme ducatif en Haute-Normandie, on se propose destimer lge moyen de sortie du systme ducatif.

2B. Expos thorique


Conditions dutilisation La moyenne de la variable X sur la population est inconnue La variance 2 de la variable X sur la population est inconnue Lchantillon est obtenu par n tirages alatoires avec remise dans une population de taille finie N 80) tion La taille n de lchantillon est suprieure 50 (dans certains ouvrages, n>30 ou Estimation ponctuelle de la moyenne inconnue dune caractristique sur la populaElle est le rsultat dune ralisation de la moyenne empirique sur lchantillon choisi. Elle est tout simplement obtenue partir de la moyenne m calcule avec les valeurs observes sur lchantillon : m=

1 k= p nk x k n k =1

Si lon prend comme estimation ponctuelle de la variance de X sur la population, la valeur de la variance de lchantillon, la thorie des estimateurs montre que cette valeur conduit une estimation dite biaise de la variance. Finalement la valeur retenue est tout simplement obtenue partir de la variance calcule avec les valeurs

8 7007 TG WB 00

moyenne

Chapitre 3 : chantillon alatoire : intervalle de confiance dune proportion ou dune

observes sur lchantillon laquelle on applique le coefficient multiplicateur

n corrigeant le biais n 1
1 i= p n 2 ni ( x i m ) = echantillo s= n n 1 i =1 n 1
2

est assez grand , les valeurs de s ou

s est appele la variance corrige. s dsigne donc lcart-type corrig. Lorsque n


2 echantillo n

sont approximativement gales.

Estimation de la moyenne par intervalle de confiance bilatral symtrique Il sagit cette fois de proposer une procdure qui permette dobtenir une fourchette destimation affecte dun niveau de confiance. comprise dans lintervalle : [m e ; m + e] o e dsigne lerreur dchantillonnage et vaut e= 2 On dmontre galement que pour un niveau de confiance de 95%, la moyenne est

s n

2C. Traitement des donnes


Statistiques descriptives n Age en 98 (anne de sortie) 1352 Minimum 16,00 Maximum 35,00 Moyenne 21,65 Ecart-type corrig 3,28

Lge moyen de lchantillon de 1352 personnes est approximativement de 21,65 ans. Ce chiffre constitue une estimation ponctuelle de la moyenne inconnue. Lcart-type corrig de lchantillon est de 3,28 ans. lge moyen pour un risque de confiance de 5%. de lchantillon est grande. Lerreur dchantillonnage vaut : e= 2

A partir de ces informations, nous pouvons dterminer lintervalle de confiance de Remarque : lcart-type corrig ou non corrig sont sensiblement gaux car la taille

s = 0,18 ans n

Il y a donc 95 chances sur 100 pour que lge moyen de sortie soit compris entre 21,47 ans et 21,83 ans (environ entre 21,5 ans et 22 ans).
8 7007 TG WB 00

moyenne

Chapitre 3 : chantillon alatoire : intervalle de confiance dune proportion ou dune

Exercice
Une enqute auprs dun chantillon de 176 tudiants dune filire de second cycle universitaire. Deux groupes dtudiants sont interrogs : ceux ayant suivi une formation par alternance et les autres. Une des questions porte sur le degr doptimisme quils dclarent en songeant leur avenir. La rpartition (en effectifs) des tudiants est donne ci-aprs :
1= trs inquiet Non alternance Alternance 12 4 2= inquiet 30 22 3= optimiste 38 50 4= trs optimiste 6 14

On suppose que lon peut calculer un score moyen doptimisme dans les deux groupes, score not de 1 4 comme indiqu 1 Calculer ce score moyen dans les deux groupes (vous vrifierez que ces scores moyens sont bien compris entre 1 et 4). 2 Calculer lcart type corrig dans les deux groupes. 3 Donner lintervalle de confiance de ce score dans les deux groupes, au risque de 5%. Conclure.

8 7007 TG WB 00

moyenne

Chapitre 3 : chantillon alatoire : intervalle de confiance dune proportion ou dune

Corrig
Notations : n1 et n2 dsignent les tailles respectives des deux chantillons m1 et m2 dsignent les moyennes observes s1 et s2 les carts-types corrigs des chantillons Calculs : m1=2,44 ; s1= 0,82 ; e1=0,18 m2=2,82 ; s2= 0,74 ; e2= 0,16 Il suffit de conclure : Il y a 95 chances sur 100 pour que le score moyen doptimisme des tudiants non alternance soit compris entre 2,26 et 2,62 et que le score moyen des tudiants en alternance soit compris entre 2,66 et 2,98. La formation par alternance lavenir (les intervalles de confiance sont disjoints et celui relatif aux tudiants par alternance contient des valeurs de moyennes suprieures). semble donc avoir un impact positif sur la perception que les tudiants ont de

8 7007 TG WB 00

Chapitre 4 Dcrire simultanment deux variables


Dans une enqute par questionnaire, la premire tape du traitement des donnes consiste effectuer une analyse dite univarie des caractres qualitatifs et dances et de la dispersion) en procdant question par question. quantitatifs fonde sur la description des donnes (tris plat, analyses des tenEnsuite lexploitation des rsultats permet de rpondre des interrogations mettant en uvre des procdures destimation ou des tests statistiques dhypothses mais en ne prenant en considration quune seule question la fois. Mais il est aussi trs intressant daborder des analyses qui vont tenir compte de questions suivantes :

ltude conjointe de deux variables. Dans cette perspective nous allons aborder les Comment peut-on analyser simultanment les rponses deux questions qualitatives ? Peut-on ou non tablir une dpendance entre les rponses fournies deux dance/indpendance ? Ceci est lobjet de la partie traitant du tableau crois et du test dindpendance par la mthode du Khi-deux () Comment peut-on analyser simultanment les rponses deux questions quantitatives? 1 Ceci est lobjet de la partie traitant de ltude de 2 variables quantitatives (coefficient de corrlation et analyse de la rgression linaire). questions qualitatives fermes ? Comment tester les hypothses de dpen-

1. Dcrire simultanment deux variables qualitatives


1A. Situation dtude
Dans cette partie, il sagit, en particulier, danalyser conjointement les rponses deux questions qualitatives. Pour cela, nous sommes amens procder un tri outil trs efficace.

crois , construire ce que nous appelons un tableau crois qui constitue un Par exemple, supposons que lobjectif soit danalyser la relation entre le niveau de sortie du systme ducatif et le sexe, il convient de croiser les deux variables : VA dsignant le niveau de sortie dont les modalits sont :

Le cas dune variable qualitative et dune variable quantitative sera trait dans le cours de

Master 1.
8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

(A1, A2, A3, A4, A5)= (niveau suprieur Bac + 2, Niveau Bac +2, Niveau Bac, Niveau CAP ou BEP, Sans qualification) VB dsignant la variable sexe dont les modalits sont : (B1, B2)= (Garon, Fille).

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Supposons que le tableau crois obtenu soit le suivant : VA : Niveau de sortie Suprieur Bac + 2 Bac + 2 Bac CAP ou BEP Sans qualification Total VB : Sexe Garon 134 130 174 188 76 702 Fille 139 160 168 128 55 650 Total 273 290 342 316 131 1352

1B. Expos thorique


Le tableau crois Considrons les N individus interrogs qui ont rpondu tout un ensemble de riables) nominaux ou qualitatifs 2 . Rappelons que le tri plat donne la rpartition des individus interrogs selon toutes les modalits de chaque caractre. Ainsi, (A1, A2, ..Al) sont les modalits de VA et (B1, B2, ..BC) sont les modalits de Soit VA et VB les deux variables tudier ayant respectivement L et C modalits. questions. Supposons que lon souhaite tudier simultanment 2 caractres (ou va-

VB.

Le tri crois est lopration qui consiste dnombrer les individus relatifs tous les croisements. Le nombre de croisements est L x C (tableau L lignes et C colonnes). lusage de double indice, pour reprer la ligne et la colonne : VB Gnralisons maintenant la notation une situation quelconque en recourant

VA A1 A2 Ai

B1 N 11 N 21

B2 N 12 N 22

Bj N 1j N 2J

Bc N 1C N 2C

Total N 1. N 2.

N i1

i2

N ij

N iC

N i.

On peut galement tudier 2 caractres numriques dcoups en classes ou bien encore un caractre numrique dcoup en classes et un caractre qualitatif
8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

AL Total NL1 N
.1

N L2 N. 2

N Lj N. j

N LC N.
c

N c. N

Pour lire le tableau, il faut donc savoir que : N


ij

dsigne leffectif de la case (i, j), situ sur la ie ligne et sur la je colonne ;

lonne j, situe sur la dernire ligne et dans la je colonne ;

N.j dsigne leffectif de la colonne j, C'est la somme des effectifs situs dans la coN i dsigne leffectif de la ligne i, situe sur la dernire colonne et dans la ire ligne.

Transformations du tableau crois Afin danalyser les lments remarquables de ce tableau, une transformation est ncessaire. Selon le type dinformation recherch, on peut soit le remplacer par un tableau de pourcentage, en divisant tous les nombres par leffectif total N et en des pourcentages colonnes.

multipliant par 100, ou bien, le plus souvent, calculer des pourcentages lignes ou Dans le cas des pourcentages lignes (profils lignes), la modalit Ai, on associe la suite des pourcentages, selon la variable VB des N
i.

dalit Ai. Sur la ligne total , on calcule galement des pourcentages corresponrpartition des modalits de la variable B (voir exemple ci-aprs).

individus qui possdent la mo-

dant aux pourcentages moyens (profil moyen), ce sont les pourcentages de la Dans le cas des pourcentages colonnes (profils colonnes), la modalit Bj, on assola modalit B j. Sur la colonne total, on calcule galement des pourcentages corresmodalits de la variable VA pondant aux pourcentages moyens, ce sont les pourcentages de la rpartition des cie la suite des pourcentages, selon la variable VA des N. j individus qui possdent

1C. Traitement des donnes


Pour la situation dtude prcdente, on peut construire les profils lignes puis les profils colonnes. Tableau des profils lignes : rpartition des garons et des filles selon le niveau de sortie VB : Sexe

VA : Niveau de sortie Suprieur Bac + 2 Bac + 2

Garon 49,1% 44,8%

Fille 50,9% 55,2%

Total 100% 100%

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Bac CAP ou BEP Sans qualification Profil moyen

50,9% 59,9% 58,0% 51,9%

49,1% 40,5% 42,0% 48,1%

100% 100% 100% 100%

(*) le pourcentage de 49,1% est obtenu par le quotient de N11 par N1. :

N 11 134 = 0,491 N 1. 273


Interprtation de ces rsultats
Parmi, les sortants de niveau Bac +2 et plus, on compte 49,1% de garons et 50,9% de filles. Par ailleurs, la rpartition des garons et des filles, indpendamment de la filles. Ce rsultat illustre la meilleure russite scolaire des filles. de filles. Parmi les sortants Sans qualification, on compte 58% de garons et 50,9%

connaissance de leur niveau de sortie est la suivante : 51,9% de garons et 48,1% de On peut de mme dterminer le tableau des profils colonnes qui sintitulera : tableau des profils colonnes : rpartition des niveaux de sortie selon le sexe.

2. La notion fondamentale dindpendance statistique


2A. Expos thorique
Caractrisation de lindpendance Dans lchantillon, si les deux variables VA et VB sont indpendantes, tous les profils lignes sont alors gaux entre eux et gaux au profil-ligne moyen. Les profilscolonnes vrifient galement cette proprit (gaux entre eux et gaux au profil cothse dindpendance. Ces effectifs sont appels effectifs thoriques. gal : N N
i. i.

lonne moyen). On peut alors dterminer les effectifs correspondant cette hypoLeffectif thorique de la case (i, j) correspondant lhypothse dindpendance est x N. j / N (Produit des marges divis par leffectif total) dsignant le total de la ligne i

N. j dsignant le total de la colonne j N dsignant leffectif total

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

2B. Traitement des donnes


Le tableau suivant (obtenu par EXCEL) correspond aux effectifs thoriques associ au tableau observ. Les marges des 2 tableaux doivent tre identiques (effectifs totaux). Tableau des effectifs thoriques VA : Niveau de sortie Suprieur Bac + 2 Bac + 2 Bac CAP ou BEP Sans qualification Total VB : Sexe Garon 141,75 150,576923 177,576923 164,076923 68,0192308 702 Fille 131,25 139,423077 164,423077 151.923077 62,9807692 650 Total 273 290 342 316 131 1352

Remarque : ce tableau obtenu par EXCEL donne les valeurs exactes des effectifs thoriques. 141,75=273 * 702/1352 ; 150,576923..=290 * 702 / 1352 etc. versement. On dit que les deux variables sont indpendantes. profil moyen. Dans ce tableau la distribution des niveaux de sortie ne dpend pas du sexe et inOn peut galement calculer les profils lignes et vrifier quils sont tous gaux au Mme remarque pour les profils colonnes.

3. Une mesure dassociation : le dit dcart lindpendance


3A. Situation dtude
On peut reprendre le tableau observ et le tableau thorique calcul partir de la formule prcdente (produit des marges divis par leffectif total).

3B. Expos thorique


Afin de comparer les effectifs observs lors du sondage aux effectifs thoriques de deux 22e lettre de lalphabet grec) construit partir des carts entre le tableau crois des effectifs observs que nous rebaptiserons [O ; O comme observ] et le tableau crois des effectifs thoriques que nous appellerons [T ; T comme thorique].
8 7007 TG WB 00

lhypothse dindpendance, on utilise un indice baptis le ( prononcer Khi-

Chapitre 4 : Dcrire simultanment deux variables

Pour chaque case (i, j) on calcule lcart : Oij - Tij puis on lve cet cart au carr et enfin on le divise par leffectif thorique T
ij

On calcule ensuite le en sommant sur toutes les cases du tableau. La formule qui dcrit lopration prcdente, scrit : =

ij

(Oi j Tij ) Tij

Cette expression, tablie par le statisticien Pearson, exprime limportance de lcart entre une distribution observe et une distribution thorique. Il faut associer cette valeur de un nombre de degrs de libert qui dpend de la taille du tableau. Ce nombre not ddl est calcul par : ddl = (L-1) * (C-1) ; o L dsigne le nombre de lignes et C le nombre de colonnes du tableau. thoriques fournies par des tables statistiques. Ensuite, il faut comparer cette valeur associe son ddl des valeurs critiques Ainsi dans notre exemple L=5 ; C=2, donc ddl= (5-1) *( 2-1) = 4. On peut remar-

quer que le chiffre 4 correspond exactement au nombre de cases pour lesquelles il a fallu calculer les effectifs thoriques, les autres se dduisant en rfrence aux marges du tableau.

Remarques et conditions dutilisation :


Lindice du est toujours positif ou nul. Sil est nul, les deux variables VA et VB sont strictement indpendantes Les valeurs du sont dautant plus grandes que les carts entre effectifs observs et effectifs thoriques sont grands Lusage du pour tester lhypothse dindpendance avec un risque contrl nest pertinent que si tous les effectifs thoriques sont suprieurs ou gaux 5. Dans le cas contraire, il faut procder des regroupements de modalits selon le sens des donnes. Si on multiplie tous les effectifs du tableau observ par un nombre k, le calcul est alors multipli par k.

3C. Traitement des donnes


Dans lexemple que nous avons propos sur le croisement des deux variables, la valeur du = 16,1 (obtenu par Excel). Cette valeur est obtenue en effectuant la somme de tous les lments du tableau suivant. En particulier 0,45761905 sobtient de la manire suivante : (139-131,25) /131,25. Tableau des (Oij Tij)2 / Tij : VA : Niveau de sortie
8 7007 TG WB 00

VB : Sexe

Garon

Fille

Chapitre 4 : Dcrire simultanment deux variables

Suprieur Bac + 2 Bac + 2 Bac CAP ou BEP Sans qualification

0,42372134 2,81191669 0,07204978 3,48808107 0,93639221

0,45761905 3,03687003 0,07781377 3,76712756 1,01130358

4. Le test du dindpendance de deux variables qualitatives


4A. Situation dtude
On peut reprendre le tableau observ et le tableau thorique tudis Et = 16,1

4B. Expos thorique


La dmarche du test du Nous y reprons quatre grandes tapes comme dans la plupart des tests statistiques :

tape 1 : formulation dhypothses


Comme pour tout test statistique, deux hypothses contradictoires sont prendre exprimentale note H1 qui nous intresse ici H0 : Il ny a pas de diffrence entre la rpartition des effectifs observs et la rpartition des effectifs thoriques des effectifs thoriques Ou bien : H0 : Il ny a pas de liaison entre les variables VA et VB H1 : Il y a une liaison entre les variables VA et VB Ou encore : H0 : les variables VA et VB sont indpendantes H1 : les variables VA et VB sont dpendantes
8 7007 TG WB 00

en compte : lhypothse dite nulle note H0 et une hypothse alternative dite Par exemple, voici trois formulations quivalentes en ce qui concerne la proprit

H1 : Il y a une diffrence entre la rpartition des effectifs observs et la rpartition

Chapitre 4 : Dcrire simultanment deux variables

tape 2 : calcul du et du nombre de degrs de libert ddl


Le calcul du est tabli partir des effectifs observs et des effectifs thoriques, comme il a t indiqu prcdemment. Cest la statistique du test. On calcule galement le nombre de degrs de libert associ. Ici, dans lexemple, rappelons que sont bien suprieurs ou gaux 5 =16,1 et ddl = 4 (5-1)*(2-1) ; On vrifie galement que les effectifs thoriques

tape 3 : lecture du thorique pour un risque donn


Dans la table statistique du , sur la ligne ddl = 4, on peut lire (table en annexe et extrait ci-dessous) que pour un risque donn de 0,05 (5%), le thorique ou lu, not t, est gal 9,49. Cest dire quil ny a que 5 chances sur 100 pour que la entre les 2 variables. Extrait de la table du pour les risques =0,05 ou =0,01 = 0,01 6,6349 9,2104 11,3449 13,2767 15,0863 16,8119 18,4753 20,0902 = 0,05 3,8415 5,9915 7,8147 9,4877 11,0705 12,5916 14,0671 15,5073 statistique du dpasse cette valeur de 9,49, sous lhypothse de lindpendance

ddl 1 2 3 4 5 6 7 8

tape 4 : dcision statistique

Si > t on rejette H0 avec un risque


Si la valeur du calcul est suprieure au thorique, alors on rejette lhypothse nulle H0 pour le risque donn. La diffrence entre les effectifs observs et les effectifs thoriques est trop grande, elle dchantillonnage. Au risque prs, les deux variables VA et VB sont statistiquement dpendantes ou lies, lhypothse H1 est retenue. Lanalyse des profils lignes ou colonnes ou bien lanalyse des effectifs thoriques et observs nous permet un lien causal. ne peut donc pas rsulter du hasard ou des seules fluctuations

dinterprter le sens de ce lien quil faut se garder de considrer demble comme

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Si < t on conserve H0
Dans le cas contraire, si la valeur du calcul est infrieure ou gale au thorique alors la diffrence entre les effectifs observs et les effectifs thoriques nest donc H0. pas significative, elle rsulte des seules fluctuations dchantillonnage. On retient Remarquons, pour terminer, que le test du na de sens que si lon tudie un recueil de donnes partir dun chantillon. Dans le cas dun recensement, il servira seulement comme mesure dassociation entre variables. Il pourra servir, par exemple, la recherche des caractres les plus lis un caractre donn.

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

4C. Traitement des donnes


Revenons lexemple du croisement des variables Sexe et Niveau de sortie Il sagit de tester lhypothse H0 contre H1 :

tape 1 : formulation dhypothses


H0 : les variables Sexe et Niveau de sortie sont indpendantes (pas de lien entre les 2 variables) H1 : les variables Sexe et Niveau sont dpendantes (Lien entre les deux variables)

tape 2 : Calcul du et du nombre de degrs de libert ddl


= 16,1 avec 4 degrs de liberts (d.d.l)

tape 3 : Lecture du thorique pour un risque donn


Le t (valeur thorique ou lue dans la table) vaut 9,49 pour un risque de 5% (0,05) ou 13,28 pour un risque de 1% (0,01)

tape 4 : Dcision statistique


La valeur observe 16,1 tant plus grande que la valeur thorique au risque de 5% (risque le plus souvent accept), on dcide de rejeter lhypothse H0 au risque de 5% (risque de se tromper). Le rsultat est le mme avec un risque de 1%. Les variables sexe et niveau de sortie sont donc dpendantes.

Pour conclure, il est ncessaire dinterprter le sens de la liaison entre les variables

Sexe et niveau de sortie. On peut utiliser les profils-lignes ou colonnes ou bien les sentation des filles par rapport la moyenne dans les sorties sans qualification (ou rieurs au bac. Ce rsultat est conforme aux donnes nationales qui montrent la plus grande russite scolaire des filles.

tableaux observs et thoriques. Dans ce dernier cas, on observe une sous reprune sur reprsentation des garons) et une sur reprsentation aux niveaux sup-

Ainsi, les diffrences observes au niveau de lchantillon sont significatives statistiquement, c'est--dire quelles sont extrapolables lensemble de la population.

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Exercice
Un chantillon de salaris est compos de 300 hommes et 200 femmes de niveau de diplme comparable. On compte galement 150 personnes occupant un emploi non qualifi, le reste occupant un emploi qualifi. 1. Construire le tableau d'effectifs thoriques sous l'hypothse d'indpendance des caractres "sexe" et "situation demploi rsume". Quelle est prcisment sa signification ? 2. On compte parmi les femmes de lchantillon, 40% demploi non qualifis. Construire le tableau des effectifs observs croisant les deux caractres. 3. Y a t-il une relation entre les deux caractres (risque de 5%) ?

Corrig
1. Tableau des effectifs thoriques Hommes Emploi Qualifi Emploi Non Qualifi Total 210 = 350 x300 /500 90 300 Femmes 140 60 200 Total 350 150 500

Ce tableau correspond une situation dtude dans laquelle les deux variables sont

statistiquement indpendantes, cest dire que la distribution des emplois ne daux profils marginaux moyens.

pend pas du sexe. On peut vrifier que les profils lignes (ou colonnes) sont gaux 2. Tableau des effectifs observs Hommes Emploi Qualifi Emploi Non Qualifi Total 3. Test du 230 70 300 Femmes 120 80 = 200 x 40/100 200 Total 350 150 500

tape 1 : formulation dhypothses


H0 : Il ny a pas de liaison entre les variables statut de lemploi et sexe
8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

H1 : Il y a une liaison entre les variables statut de lemploi et sexe Soumettons H0 lpreuve des faits

tape 2 : calcul du et du nombre de degrs de libert ddl


Le calcul du est fait partir des effectifs observs et des effectifs thoriques, comme il a t indiqu prcdemment. Cest la statistique du test. On calcule ga= 1 ; On vrifie galement que les effectifs thoriques sont bien suprieurs ou gaux 5. En effet lement le nombre de degrs de libert associ. Ici, dans lexemple, =15,87 et ddl

(230 210) 2 (120 140) 2 (70 90) 2 (80 60) 2 = 15,87 + + + 210 140 90 60

tape 3 : lecture du thorique pour un risque donn


Dans la table statistique du , sur la ligne ddl=1, on peut lire que pour un risque de premire espce donn de 0,05 (5%), le thorique ou lu, not t, est gal dpasse cette valeur de 3,84. Pour un risque de 0,01 (1%), on lit une valeur de 6,63

3,84. Cest dire quil ny a que 5 chances sur 100 pour que la statistique du

tape 4 : dcision statistique


Pour un risque de 5%, 15,87 > 3,84 donc on peut rejeter lhypothse H0 et admettre une dpendance entre les 2 caractres, avec un risque =5%. Lanalyse des effectifs thoriques et observs montre que lon peut retenir

lhypothse avec un risque de 5% que les femmes dans la population considre, occupent, moins souvent que les hommes, des emplois qualifis (120 femmes en emploi qualifi contre 140 thoriquement (on dit aussi en moyenne) ou 230 hommes en emploi qualifi contre 210 en moyenne.

5. tude simultane de deux variables quantitatives


5A. Situation dtude
On a relev pour 8 dpartements les effectifs par sexe des centres de formation dapprentis (CFA) pour lanne 1998. On suppose par ailleurs que cet chantillon mer le nombre de filles dans les CFA (du Rhne), connaissant seulement le nombre de garons.

est jug reprsentatif de la population. A partir de ces donnes on cherche esti-

Dpartements Calvados

Garons 1 894

Filles 643

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Eure Manche Oise Orne Seine Maritime Somme Rhne

1 933 1 873 1 664 1 260 4 480 1 451 12 380

643 873 428 398 1 455 541 ?

5B. Expos thorique


Diffrentes tapes sont ncessaires pour rsoudre ce problme. Il faut dans un premier temps se poser la question dune relation entre les deux sries deffectifs. Puis, dans laffirmative, trouver la relation qui relie les deux caractres tudis, et cadre de statistique explicative. enfin dterminer la valeur manquante par estimation. On se place donc dans un Pour fixer les ides, nous dsignerons par Y la variable expliquer et par X la vacorrle la variable X. Et si oui quelle relation les relie ? Nuage statistique de points La reprsentation graphique des donnes sous forme de nuage de points est inde deux axes orthogonaux, ce nuage statistique. Pour lensemble des 7 premiers couples de points : CFA Laxe vertical (axe des y) est gradu selon les valeurs de Y : effectifs filles des CFA dispensable la comprhension des phnomnes. On trace donc dans un plan muni

riable explicative. La question prcdente est de savoir si la variable Y est lie ou

Laxe horizontal (axe des x) est gradu selon les valeurs de X : effectifs garons des

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Rpartition des effectifs des apprenties en fonction des effectifs des apprentis
1600

Effectifs des Apprenties (Filles)

1400 1200 1000 800 600 400 200 0 0 1000 2000 3000 4000 5000

Effectifs Apprentis (Garons)

Dans ce graphique, chaque dpartement est reprsent par un point admettant pour coordonnes les valeurs des deux variables X et Y. Ainsi, on peut remarquer que plus leffectif des apprentis (garons) est important, plus celui des apprenties (filles) lest galement. Dans certaines tudes statistiques, linterprtation peut dgager une relation de cause effet mais il faut beaucoup de prudence. Cette relation causale ne peut en aucun cas tre immdiatement dduite du graphique ou du modle mis en vidence. La connaissance approfondie du domaine tudi est requise pour conclure. Dans ce cas, la variable cause est la variable dite explicative . La variable causal . effet est la variable dite expliquer et lanalyse du phnomne est de type Dans notre exemple seul laspect explicatif est retenu. Modle explicatif et Ajustement linaire Dans le graphique du nuage de points, on cherche savoir si les points semblent du nuage. La courbe la plus simple est la droite. Il est possible de faire appel des sorganiser autour dune courbe mathmatique connu donnant la tendance gnrale logiciels statistiques ou graphiques pour la tracer, condition de donner le critre
8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

dajustement. Avant de prciser la mthode dajustement retenu, il est utile de dfinir une mesure de liaison entre deux variables quantitatives, savoir la covariance. Covariance entre deux variables quantitatives La covariance est un indicateur de co-variation entre deux sries numriques X et Y. la moyenne du carr des carts la moyenne. La covariance est dfinie comme la moyenne du produit des carts la moyenne. On peut alors calculer cette covariance de la manire suivante : Rappelons-nous que la variance dune variable statistique X peut sexprimer comme

cov( X , Y ) =

(x
i

m x )( y i m y ) n

On peut vrifier que cette formule est quivalente la formule suivante :

cov( X , Y ) =

x .y
i i

mx m y

Cette expression 3 sinterprte comme tant : la moyenne des produits moins le produit des moyennes La covariance augmente lorsque les deux carts relatifs un mme individu sont de mme signe ; elle diminue sinon. La covariance est dautant plus leve quil y a beaucoup de couples de points dont les carts aux moyennes sont de mme signe. sures les variables X et Y. Ajustement linaire par la mthode des moindres carrs La mthode des moindres carrs permet de dterminer lquation de la droite dajustement reliant les valeurs de X yi = a xi + b + ei des points. Si a et b sont connus, le rsidu ei est donc lcart entre la valeur observe et la valeur prdite de lajustement par une droite (ajustement linaire) ei = yi - (axi + b) o ei est une valeur rsiduelle non prvisible mais nulle en moyenne, sur lensemble aux valeurs de Y. On suppose quil existe deux nombres a et b tels que chaque valeur yi peut scrire sous la forme

Mais la valeur de la covariance dpend galement des units dans lesquels sont me-

Lorsque les donnes sont pondres, on utilise le coefficient de pondration ni/n comme dans le cas du calcul de la moyenne et de lcart-type dune variable mais ici, on considre que chaque couple de points est associ un coefficient de pondration gal 1/n.
8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Si lon trace la droite dquation y = ax + b, les carts ou rsidus sont reprsents par la valeur algbrique des segments de droite verticaux dabscisse xi Pour dterminer la droite des moindres carrs, on retient le critre suivant : Problme pos : Existe-t-il une droite qui rende minimum la somme des carrs des rsidus ? Cest dire : minimiser

ei =

(yi - (axi + b))

Mathmatiquement, on montre qu'il existe une seule droite appele droite de rblme pos. vantes.

gression linaire de y en x par la mthode des moindres carrs, rpondant au proOn admettra que : Les coefficients a et b se calculent l'aide des formules sui-

a=

Cov ( X , Y ) et b = m y am x Var ( X )

Rpartition des effectifs des apprenties en fonction des effectifs des apprentis
1600

Effectifs des Apprenties (Filles)

1400 1200 1000 800 600 400 200 0 0 1000 2000 3000 4000 5000

Effectifs Apprentis (Garons)


Ainsi, le problme de la prvision de la valeur manquante peut tre maintenant rsolu. Il suffit de remplacer la valeur de x8 dans lquation de la droite dajustement et de calculer la valeur prdite par le modle
8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Qualit de lajustement et coefficient de corrlation linaire (coefficient de BravaisPearson) Les calculs prcdents permettent toujours de dfinir une droite dajustement linaire quelle que soit la forme du nuage de points, mme si lajustement ne se juscoefficient de corrlation linaire not r. Il est dfini par : r = On peut montrer que : -1<= r <= 1 Le coefficient de corrlation linaire est un nombre sans unit ; il permet, contrairement la covariance, de saffranchir des problmes dunit de mesure. Les proprits du coefficient de corrlation linaire sont donnes ci-aprs : rement. Le nuage de points na pas de direction privilgie. Si r est positif, la droite dajustement a une pente positive, ou croissante. Les variables X et Y varient dans le mme sens. Si r est ngatif, la droite dajustement a une pente ngative, ou dcroissante. Les variables X et Y varient dans le mme contraire. points sont aligns sur une droite. Remarque : la droite de rgression passe par le point moyen de coordonnes Dans les cas particuliers o r = -1 ou r = 1, la liaison linaire est parfait et tous les Si r est nul ou proche de zro, les deux variables tudies sont non corrles linaitifie pas. On mesure donc la qualit dun ajustement par un coefficient appel

cov( X , Y )) . ( X ). (Y )

mx , m y
5C. Traitement des donnes
Covariance entre deux variables quantitatives En reprenant le tableau prcdent relatif aux 7 premiers couples de points, on peut nire suivante (calcul raliss avec Excel) : Dpartements Calvados Eure Manche Oise Orne Garons xi 1 894 1 933 1 873 1 664 1 260 Filles yi 643 643 873 428 398 Produit xi yi 1 217 842 1 242 919 1 635 129 712 192 501 480 calculer la covariance des deux variables X et Y. Les calculs se prsentent de la ma-

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Seine Maritime Somme Totaux covariance : Cov (X,Y) =

4 480 1 451 14 555

1 455 541 4 981

6 518 400 784 991 12 612 953

De ce tableau et en utilisant la seconde formule, on peut en dduire la valeur de la

12612953 14555 4981 =322 290,13 * 7 7 7


lquation de la droite dajustement est la sui-

Ajustement linaire par la mthode des moindres carrs Dans notre exemple, vante y = 0,31x + 50,89

Var(X) = 1014306,78 ; a =

Cov ( X , Y ) = 0,318 et b = m y am x = 50,89 Var ( X )

Les lments de calcul figurent dans le tableau ci-dessous (on pourra raliser ces calculs avec une calculette programmable) 4 : Dpartements Calvados Eure Manche Oise Orne Seine Maritime Somme Totaux Garons 1 894 1 933 1 873 1 664 1 260 4 480 1 451 14 555 Filles 643 643 873 428 398 1 455 541 4 981

xi2 3 587 236 3 736 489 3 508 129 2 768 896 1 587 600 20 070 400 2 105 401 37 364 151

Produit xi yi 1 217 842 1 242 919 1 635 129 712 192 501 480 6 518 400 784 991 12 612 953

On peut alors tracer la droite dquation :

y = 0,31x + 50,89

Tous ces calculs ne seront pas exigs le jours de lexamen, il faut tre en mesure de les comprendre et dobtenir les rsultats principaux (a,b, cov(X,Y)) partir de calculs intermdiaires (voir exercices).
8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Rpartition des effectifs des apprenties en fonction des effectifs des apprentis
1600

Effectifs des Apprenties (Filles)

1400 1200 1000 800 600 400 200 0 0 1000 2000 3000 4000 5000

Effectifs Apprentis (Garons)

Qualit de lajustement et coefficient de corrlation linaire (coefficient de BravaisPearson) choisi. Dpartements Calvados Eure Manche Oise Orne Seine Maritime Somme Totaux Garons 1 894 1 933 1 873 1 664 1 260 4 480 1 451 14 555 Filles 643 643 873 428 398 1 455 541 4 981 xi2 3 587 236 3 736 489 3 508 129 2 768 896 1 587 600 20 070 400 2 105 401 37 364 151 yi2 413 449 413 449 762 129 183 184 158 404 2 117 025 292 681 4 340 321 Produit xi yi 1 217 842 1 242 919 1 635 129 712 192 501 480 6 518 400 784 991 12 612 953 On trouve r = 0,95, qui permet de justifier de la qualit de l'ajustement linaire

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Exercice
On slectionne 12 personnes un stage de formation. Avant le dbut de la formation ces stagiaires subissent une preuve A note de 0 20 ; lissue de ce stage, une preuve B identique la premire est note de 0 20.
Stagiaires 1 2 3 4 5 6 7 8 9 10 11 12 Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4 Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19

1. Dessiner le nuage de points reprsentant les 12 couples de points. 2. Deux stagiaires se distinguent des autres. Avant dtudier la corrlation entre les 2 caractres statistiques, on limine de ltude ces deux candidats qui doivent tre tudis part. On ne garde donc que 10 stagiaires. Calculer alors les moyennes, variances, cart-types et la covariance des 2 caractres. 3. En dduire le coefficient de corrlation entre les deux sries et lquation de la droite de rgression ajustant au mieux le nuage de points. Tracer cette droite.

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

Corrig
1.

Nuage de points
20 15 10 5 0 0 2 4 6 8 X 10 12 14 16 Y

2. n=10 xi = 84 yi = 130 xi = 806 yi = 1790 xi yi = 1182 Lquation de la droite de rgression : Y= 0,9 X + 5,47. partir des rsultats rsums dans le tableau prcdent on vrifie par exemple que Cov (X,Y)= 9 r(X,Y) = 0,9 (valeur arrondie) a = 0,9 (valeur arrondie) b = 5,47 (valeur arrondie)

cov( X , Y ) =

1182 84 130 . =9 10 10 10
2 i

VarY =

y
i

m y = 179 132 = 10
2

8 7007 TG WB 00

Chapitre 4 : Dcrire simultanment deux variables

VarX =

x
i

2 i

m x = 80,6 8,4 2 = 10,04


2

a=

valeur arrondie 0,9 Cov ( X , Y ) 9 = = 0,8964 VarX 10,04 (valeur arrondie)

b = 13 0 , 8964 * 8 , 4 = 5 , 47

r=

cov( X , Y )) 9 = = 0,9 (valeur arrondie) ( X ). (Y ) 10,04. 10

3.

Nuage de points donnes corriges


20 15 10 5 0 0 2 4 6 X 8 10 12 14 Y

8 7007 TG WB 00

Exercices de synthse
Exercice 1
Le terme DEFM ci-dessous dsigne les demandeurs demploi en fin de mois de la catgorie 1, cest--dire les personnes sans emploi, immdiatement disponibles, la recherche dun emploi dure dtermine temps plein . Une enqute sur les DEFM de Haute-Normandie a t effectue sur un chantillon de 1345 personnes de cette catgorie. Parmi les relevs effectus sur ces chmeurs, on ne retient ici que les trois critres concernant lge, le sexe et le lieu dhabitation selon le dpartement (Eure ou Seine-Maritime). Le dpouillement de cette enqute a permis dlaborer le tableau crois dordre 3 suivant : Infrieur 25 ans Hommes Seine-Maritime Eure Question 1 On ne sintresse quaux DEFM de la Seine-Maritime et on admet que lchantillon retenu est reprsentatif de lensemble des DEFM. Peut-on affirmer au vu de cet chantillon que les caractres ges et sexe sont indpendants ? Question 2 On sintresse aux femmes DEFM de la Seine-Maritime. Calculez la proportion dans lchantillon de celles qui ont moins de 25 ans. 102 66 Femmes 125 68 25 / 50 ans Hommes 220 146 Femmes 249 222 Suprieur 50 ans Hommes 46 34 Femmes 37 30

Exercice 2
Afin de mieux cerner la population lycenne, une tude quantitative est ralise auprs de 1000 jeunes. Parmi lensemble des questions poses, lune porte sur le temps de transport entre le domicile et ltablissement scolaire. Le tableau ci-dessous fournit la rpartition des temps consacrs au transport pour un chantillon de 150 lycens. Les temps sont exprims en minutes et ont t classs en cinq intervalles. Temps (en minutes) [0-15[ [15-25[ [25-35[ [35-55[ [55-80] Nombre de lycens 40 40 30 30 10

Question 1

8 7007 TG WB 00

Exercices

Caractrisez les lments de cette tude : population, chantillon, individus et variable. Question 2 Reprsentez cette distribution par un histogramme. Question 3 Calculez la moyenne et lcart type de cette distribution. Question 4 Dterminez la mdiane. Question 5 Que pouvez-vous dire des 32% de lycens qui mettent le moins de temps pour aller au lyce ?

Exercice 3
Un questionnaire a t soumis 132 tudiants ayant pass les preuves dvaluation du cours de mthodes quantitatives. 297 tudiants taient inscrits dans cette licence. 86 tudiants ont rendu le questionnaire. Voici un extrait du questionnaire : Q1. Situation professionnelle actuelle : -------------------------------------------------Q2. Votre activit professionnelle require-t-elle des connaissances en statistiques ? 1. Pas du tout 2. Rarement 3. Quelquefois 4. Souvent 5. Trs souvent 6. Toujours Q3. A lentre dans cette formation en licence, quvoquait pour vous la statistique ? ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Q4. Dure estime pour la ralisation du dossier de mthodologie qualitative : entre -------- et --------- heures.

Identifiez clairement les lments de cette tude statistique (population, chantillon, individus, variables).

8 7007 TG WB 00

Exercices

Exercice 4
Pour 10 lves, on relve le temps (en heures) pass regarder la tlvision et le temps (en heures) consacr la lecture. Elves 1 2 3 4 5 6 7 8 9 10 Tlvision 7 8 12 13 7 14 5 7 8 9 Lecture 5 3 2 1 8 1 9 7 3 1

Faites une tude de ces donnes, en calculant les indicateurs ncessaires.

Exercice 5
(Une enqute a t ralise auprs dun chantillon de 400 salaris dune entreprise. Dans un premier temps, on sintresse lanciennet que lon appellera X. La rpartition pour lchantillon est donne dans le tableau ci-dessous. Anciennet [0-4[ [4-6[ [6-8[ [8-10[ [10-14] Question 1 Compltez le tableau et reprsentez lhistogramme de cette distribution Question 2 Dterminez lanciennet moyenne, lanciennet mdiane. Comparez vos rsultats. Question 3 Dterminez lcart-type et la variance. 120 80 Effectifs Frquences en % 15 20

8 7007 TG WB 00

Exercices

Question 4 Quelle est la proportion de salaris dont lanciennet est suprieure 5 ans ? Question 5 En supposant que lchantillon soit reprsentatif, dterminez lintervalle de confiance correspondant, avec un seuil de confiance de 95% (cest--dire un risque de 5%).

Exercice 6
On extrait par un tirage au hasard 100 individus de la population. On constate que sur ces 100 sujets, 15 sont atteints dune maladie M. Donner une estimation ponctuelle. Donner un intervalle de confiance avec un niveau de confiance de 95%.

Exercice 7
Soit un chantillon de 250 individus, extrait dune population de 5000 lycens. Lenqute porte sur les performances en saut en hauteur, mesures en cm. Hauteur du saut [95 ;105[ [105 ;110[ [110 ; 115[ [115 ; 120[ [120 ; 125[ [125 ; 135] 20 40 80 60 30 20 250 Estimez ponctuellement la hauteur moyenne du saut, la variance et lcart-type. Estimez la hauteur moyenne du saut sur la population par une fourchette, avec un niveau de confiance de 95%. Effectifs

8 7007 TG WB 00

Exercices

Annexe : Table des distributions de frquences des variables du Khi-deux de ddl = 1 24.

Variable 2 (Khi deux)


La table a t obtenue partir de la fonction KHIDEUX.INVERSE du logiciel Microsoft Excel 5. Elle fournit pour 3 valeurs particulires de probabilit, une valeur approche de la valeur de la variable telle que Prob ( 2 > x) = . Exemple : Il y ny a que 1 chance sur 100 (0,01) pour que le 2 1 degr de libert dpasse 6,6349. Histogramme de la variable du Khi-deux ddl = 6
0,14 0,12 0,1 0,08 0,06 0,04 0,02 0

= 0,01 ddl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 6,6349 9,2104 11,3449 13,2767 15,0863 16,8119 18,4753 20,0902 21,6660 23,2093 24,7250 26,2170 27,6882 29,1412 30,5780 31,9999 33,4087 34,8052 36,1908 37,5663 38,9322 40,2894 41,6383 42,9798

= 0,05 3,8415 5,9915 7,8147 9,4877 11,0705 12,5916 14,0671 15,5073 16,9190 18,3070 19,6752 21,0261 22,3620 23,6848 24,9958 26,2962 27,5871 28,8693 30,1435 31,4104 32,6706 33,9245 35,1725 36,4150

= 0,10 2,7055 4,6052 6,2514 7,7794 9,2363 10,6446 12,0170 13,3616 14,6837 15,9872 17,2750 18,5493 19,8119 21,0641 22,3071 23,5418 24,7690 25,9894 27,2036 28,4120 29,6151 30,8133 32,0069 33,1962

8 7007 TG WB 00

Corrig 1
Rponse 1 Il sagit de faire un test du Khi, en tablissant 4 tapes. tape 1 : Formulation des hypothses H0 : Il ny a pas de diffrence entre la rpartition des effectifs observs et la rpartition des effectifs thoriques, cest--dire que les variables sexes et ges sont indpendantes. H1 : Il y a une diffrence entre la rpartition des effectifs observs et la rpartition des effectifs thoriques, cest--dire que les variables sexes et ges sont dpendantes. tape 2 : Calcul du Khi et du nombre de degr de libert Commenons par le calcul les marges : Infrieur 25 ans Hommes Femmes Total 102 125 227 25 / 50 ans 220 249 469 Suprieur 50 ans 46 37 83 Total 368 411 779

Puis, calculons les valeurs thoriques : Infrieur 25 ans Hommes Femmes Total 107,23 119,77 227 25 / 50 ans 221,56 247,44 469 Suprieur 50 ans 39,21 43,79 83 Total 368 411 779

Enfin, calculons les carts entre les effectifs observs et les effectifs thoriques : Infrieur 25 ans Hommes Femmes - 5,23 5,23 25 / 50 ans - 1,56 1,56 Suprieur 50 ans -6,79 - 6,79

Nous pouvons maintenant dterminer la valeur du Khi : Khi =

5,23 1,56 6,79 5,23 1,56 6,79 + + + + + = 2,734 107,23 221,56 39,21 119,77 247,44 43,79

Le nombre de degrs de libert est : ddl = (2 1) (3 1) = 2 tape 3 : Lecture du Khi thorique pour un risque donn Avec un seuil de 0.05, le Khi thorique = 5.991 (lecture dans la table)

8 7007 TG WB 00

Corrigs

tape 4 : Dcision statistique Khi calcul < Khi thorique : On conserve H0, ce qui signifie que les caractres sexes et ges sont indpendants. Dit autrement, il ny a pas de lien entre le sexe et lge des chmeurs. Les carts de rpartition entre les chmeurs selon leur sexe et leur ge ne sont pas significativement diffrents. Rponse 2 On ne retient que les femmes de la Seine-Maritime : Infrieur 25 ans Femmes Frquences 125 0,3041 25 / 50 ans 249 0,6058 Suprieur 50 ans 37 0,0900 Total 411 1

Femmes de la Seine-Maritime de moins de 25 ans =

125 = 0,3041 soit 30,41%. 125 + 249 + 37

Corrig 2
Rponse 1 La population est compose de 1000 lycens, parmi lesquels on extrait un chantillon de 150 lycens. Un individu correspond un lycen. Il sagit dune variable quantitative continue. Rponse 2 Les amplitudes de classes ne sont pas constantes : il est donc ncessaire de calculer les densits de frquence ou deffectif. Temps [0-15[ [15-25[ [25-35[ [35-55[ [55-80] Effectifs 40 40 30 30 10 150 Centres de classe 7,5 20 30 45 67,5 Amplitudes 15 10 10 20 25 Frquences 0,2667 0,2667 0,2000 0,2000 0,0667 1 Densits de frquence 0,0178 0,0267 0,0200 0,0100 0,0027 Densits de frquence en % 1,78 2,67 2 1 0,27

8 7007 TG WB 00

Corrigs

Histogramme - Temps de transport


0,03

0,025

Densit de frquence

0,02

0,015

0,01

0,005

0
15 25 35 55 80

Minutes

Rponse 3 Temps [0-15[ [15-25[ [25-35[ [35-55[ [55-80] Effectifs 40 40 30 30 10 150 Centres de classe 7,5 20 30 45 67,5
nk ck ci ni

300 800 900 1 350 675 Somme : 4 025 Moyenne : 26,83

2 250 16 000 27 000 60 750 45 562,5 Somme : 151 562,5 Variance : 290,39 cart-type : 17,04

Le temps de transport moyen est de presque 27 minutes, avec un cart-type de 17 minutes.

8 7007 TG WB 00

Corrigs

Rponse 4 Temps [0-15[ [15-25[ [25-35[ [35-55[ [55-80] Effectifs 40 40 30 30 10 150 Effectifs cumuls 40 80 110 140 150

n = 75 et le 1er effectif cumul croissant suprieur 75 est leffectif cumul 80 ; celui-ci cor2
respond la classe [15-25[.

Q 2 = 15 +

10 (75 40) = 23,75 40

Il y a 50% des lycens qui consacrent moins de 23 minutes et 45 secondes au transport et 50% des lycens qui consacrent plus de 23 minutes et 45 secondes au transport. Rponse 5 Nous pouvons procder de la mme manire que pour le calcul des quartiles : 32% de lycens correspond 48 lycens. Le 1er effectif cumul croissant suprieur 48 est leffectif cumul 80 ; celui-ci correspond la classe [15-25[.

C 32 = 15 +

10 ( 48 40) = 17 40

Les 32% de lycens qui mettent le moins de temps pour aller au lyce mettent un temps infrieur ou gal 17 minutes.

Corrig 3
La population est compose de 297 tudiants. On extrait un chantillon de 132 tudiants. Un individu correspond un tudiant en situation dvaluation. Q1 est une variable qualitative nominale. Q2 est une variable qualitative ordinale Q3 est une variable qualitative textuelle Q4 est une variable quantitative continue

Corrig 4
Il sagit de savoir si les deux variables tudies varient ou non en sens contraire. Pour cela, il est ncessaire de calculer la covariance et le coefficient de corrlation linaire (on pourra au pralable reprsenter le nuage de points).

8 7007 TG WB 00

Corrigs

Elves 1 2 3 4 5 6 7 8 9 10

Tl x i 7 8 12 13 7 14 5 7 8 9 Somme : 90 Moyenne : 9

Lecture y i 5 3 2 1 8 1 9 7 3 1 Somme : 40 Moyenne : 4

( x i - x ) 4 1 9 16 4 25 16 4 1 0

( y i - y ) 1 1 4 9 16 9 25 9 1 9

( xi - x )( y i - y ) -2 1 -6 -12 -8 -15 -20 -6 1 0 Somme : -67

xi y i
35 24 24 13 56 14 45 49 24 9 Somme : 293

Somme : 80 Somme : 84 Variance : 8 Variance : 8,4 Ecart-type : 2,828 Ecart-type : 2,898

La covariance est : Cov(X,Y) =

x y
i

mx m y =

293 9 4 = 6,7 10

Lquation de la droite de rgression est :

a=

Cov( X , Y ) 6,7 = = 0,838 8 Var ( X )

b = m y am x = 4 ( 0,838 9) = 11,542

y = 0,838 x + 11,542
Le coefficient de corrlation linaire est : r=

r=

Cov( X , Y )

XY

6,7 = 0,818 2,828 2,898

Les deux variables tudies varient en sens contraire.

8 7007 TG WB 00

Corrigs

Corrig 5
Rponse 1 Les amplitudes de classes ntant pas constantes, il est ncessaire de calculer les densits de frquence (ou deffectif) avant de construire un histogramme. Anciennet [0-4[ [4-6[ [6-8[ [8-10[ [10-14] Effectifs 60 80 120 80 60 400 Frquences en % 15 20 30 20 15 100 Amplitudes 4 2 2 2 4 Densits de frquences en % 3,75 10 15 10 3,75

Histogramme - Anciennet des salaris


16 14
Densit de frquence

12 10 8 6 4 2 0
0 4 6 8 Annes 10 14

8 7007 TG WB 00

Corrigs

Rponse 2 Anciennet [0-4[ [4-6[ [6-8[ [8-10[ [10-14] 400 Effectifs 60 80 120 80 60 Centres de classe 2 5 7 9 12 nk ck 120 400 840 720 720 Somme : 2800 Moyenne : 7 Effectifs cumuls 60 140 260 340 400 Somme : 3640 Variance : 9,1 Ecart-type : 3,02 Lanciennet moyenne est de 7 ans. nk (ck m) 1500 320 0 320 1500

n = 200 si bien que la mdiane appartient la classe [6-8[. 2 Q2 = 6 + 2 ( 200 140) = 7 . 120

Lanciennet mdiane est de 7 ans, ce qui signifie que 50% des salaris ont une anciennet infrieure 7 ans et 50% des salaris ont une anciennet suprieure 7 ans. Les valeurs de la moyenne et de la mdiane sont identiques. Rponse 3 Les calculs de la variance et de lcart-type sont indiqus dans le tableau prcdent. Rponse 4 La

40 + 120 + 80 + 60 = 0,75 soit 75% des salaris. 400

proportion

de

salaris

dont

lanciennet

est

suprieure

ans

est :

Rponse 5 Nous connaissons la taille de lchantillon (400) et la proportion de salaris dont lanciennet est suprieure 5 ans (75%). Lestimation ponctuelle de p est donc 0,75. Avec un niveau de confiance de 95%, on peut calculer lintervalle de confiance de la manire suivante :

0,75(1 0,75) e = 2 = 0,0433 400


Il y a donc 95 chances sur 100 pour que la proportion p dans la population soit comprise entre (0,75-0,0433) et (0,75+0,0433), cest--dire entre 70,67% et 79,33%.

8 7007 TG WB 00

Corrigs

Corrig 6
Nous connaissons la taille de lchantillon (100) et la proportion dindividus atteints dune maladie (15%). Lestimation ponctuelle de p est donc 0,15. Avec un niveau de confiance de 95%, on peut calculer lintervalle de confiance de la manire suivante :

0,15(1 0,15) e = 2 = 0,0714 100


Il y a donc 95 chances sur 100 pour que la proportion p dans la population soit comprise entre (0,15-0,0714) et (0,15+0,0714), cest--dire entre 7,86% et 22,14%.

Corrig 7
Hauteur du saut [95 ;105[ [105 ;110[ [110 ; 115[ [115 ; 120[ [120 ; 125[ [125 ; 135] Somme : 250 Effectifs 20 40 80 60 30 20 Centres de classe 100 107,5 112,5 117,5 122,5 130 nk ck 2000 4300 9000 7050 3675 2600 Somme : 28625 Moyenne : 114,5 Somme : 13750 Variance : 55 Ecart-type : 7,42 Lestimation ponctuelle de la hauteur moyenne du saut est 114,5 cm. La variance corrige est : s = Lcart-type corrig est : s = Pour un niveau de nk (ck m) 4205 1960 320 540 1920 4805

n 250 chantillon = 55 = 55,22 n 1 249


55,22 = 7,43

confiance

de

95%,

lerreur

dchantillonnage

vaut :

s 7,43 2 = 2 = 0,94 25 0 n
Il y a donc 95 chances sur 100 pour que la hauteur moyenne du saut soit comprise entre (114,5-0,94) et (114,5+0,94), cest--dire entre 113,56 cm et 115,44 cm.

8 7007 TG WB 00