Académique Documents
Professionnel Documents
Culture Documents
Mthodes quantitatives
Cours
Directrice de publication : Valrie Brard-Trigo Les cours du Cned sont strictement rservs lusage priv de leurs destinataires et ne sont pas destins une intgrale ou partielle, une traduction sans le consentement du Cned, sexposeraient des poursuites judiciaires et utilisation collective. Les personnes qui sen serviraient pour dautres usages, qui en feraient une reproduction aux sanctions pnales prvues par le Code de la proprit intellectuelle. Les reproductions par reprographie de livres et de priodiques protgs contenues dans cet ouvrage sont effectues par le Cned avec lautorisation du Centre franais dexploitation du droit de copie (20, rue des Grands Augustins, 75006 Paris).
Sommaire
Introduction ........................................................................................................................ 4
5C. Traitement des donnes .............................................................................................. 39 6. Traitement des variables quantitatives continues ........................................................... 44 6A. Situation dtude ......................................................................................................... 44 6B. Expos thorique ......................................................................................................... 45 6C. Traitement des donnes .............................................................................................. 52
8 7007 TG WB 00
8 7007 TG WB 00
Danile TRANCART
Matre de confrences l'Universit de Rouen. Dpartement des Sciences de lEducation. Docteur en Statistiques mathmatiques. (2006). Fragmentations territoriales et ingalits scolaires : des relations complexes lves, ducation & formations, n 74.
entre la distribution spatiale, les conditions de scolarisation et la russite des (2006). Les ingalits rgionales en ducation : capital social et performance institutionnelle, in Bevort, Lallement, Le capital social, La Dcouverte Mauss, 2006.
Ce cours porte sur le thme des mthodes quantitatives et prend appui sur lapproche statistique en apportant les notions et les outils ncessaires la comprhension de ces mthodes dans une perspective dominante technique. L'objectif global de ce cours est de fournir aux tudiants les outils ncessaires llaboration, dans le cadre dune recherche, dune dmarche de terrain et de son analyse. La ralisation de cet objectif passe par la familiarisation avec certains outils et avec certaines techniques danalyse. Tout dabord des informations et conseils aux tudiants. Le premier chapitre traite de la production de donnes. Le deuxime chapitre traite de la description statistique de tableaux une variable. Le troisime chapitre est relatif lchantillon alatoire : intervalle de confiance dune proportion et dune moyenne. Le quatrime chapitre traite de la description statistique de tableaux 2 variables.
8 7007 TG WB 00
Objectifs
Expliciter les questions dune problmatique tistique.
Contenu
Des lments thoriques pour : population,
dont les rponses relvent dune approche staDcrire, traiter, analyser des donnes de manire pertinente dans le cadre dune tude en particulier dans le domaine ducatif. Lire avec un regard critique et distanci, les conclusions de diverses tudes statistiques Sciences de lducation, Exploiter des notions et des dmarches mathfier dans un sens positif le rapport souvent ngatif que nombre entretient avec cette science. matiques des fins doutils, et de ce fait modiapparaissant dans des rapports de recherche en
units statistiques,
variables statistiques ;
reprsentativit,
dcrire les donnes produites : tableaux statistiques, graphiques statistiques, mode, quartiles, moyenne, variance, cart-type ;
ducatifs sur la base de donnes statistiques sur des faits ducatifs et sur des relations entre ces faits .
8 7007 TG WB 00
analyses des donnes en distinguant clairement le modle utilis, de la ralit quil est suppos reprsenter, en sparant bien les traitements mens lintrieur du modle, des interprta-
hension de la matire. Notre but nest pas de vous conduire une formation de sta-
En ce qui concerne les traitements numriques, nous vous conseillons l'usage d'une calculatrice avec les fonctions statistiques de base (moyenne, cart-type). Cet usage sera d'ailleurs requis pour l'preuve d'examen afin de rduire le temps des calculs.
8 7007 TG WB 00
fournir un panorama complet de cette question qui pourra tre retravaill lors de lanne de M1, en cas de besoin. Description statistique de tableaux une variable : 8 heures Echantillon alatoire : intervalle de confiance dune proportion et dune moyenne : 4 heures Description statistique de tableaux 2 variables : 6 heures Exercices de synthse : 4 heures
8 7007 TG WB 00
8 7007 TG WB 00
8 7007 TG WB 00
1C. Reprsentativit
En quel sens pouvons-nous utiliser le qualificatif reprsentatif pour un chantillon dune population (parente) ? ...dans le sens dun fragment de cette population nous permettant dobtenir une information la plus proche possible de celle que nous obtiendrions par recensement. De l nous pouvons y voir lide dun modle rduit. Une autre faon denvisager cette notion de reprsentativit est de considrer la probabilit dappartenance dune unit statistique lchantillon. Ainsi en nous rattachant aux ides dquit et de compensation, une certaine reprsentativit de lchantillon parat tre recevable si nous respectons la condition suivante : chaque unit statistique a la mme chance dappartenir lchantillon.
la couleur de ses yeux ; son poids ou sa taille ; ses prfrences sur les matires enseignes. Pour faire le relev de chaque caractristique, il faut dfinir un instrument de mesure qui peut tre soit du type de ceux des mesures physiques comme ceux obtenus avec un chronomtre, une balance, une toise, un ampremtre, un pluviomtre, un compteur de passage une entre, etc., soit prendre la forme dun questionnaire, dun entretien, ou dun enregistrement audiovisuel, etc. Ainsi, chaque caractristique, on associe par lintermdiaire dun caractre ou variable statistique qui modlise celle-ci, le rsultat de sa mesure. Par exemple, ces rsultats peuvent tre : les notes entires de 0 20 ; les dures en minutes ; les rponses oui ou non une question pose dans un questionnaire ; les couleurs des yeux ; les masses en kg ; les tailles en cm ; le rang des prfrences des matires enseignes. Les variables statistiques reprsentant ce qui est mesur sur les individus dune population ou dun chantillon, sont classes de la faon suivante. Les variables (qualitatives) nominales Les rsultats sont de nature qualitative. Lensemble des rsultats possibles, que nous nommons modalits, ne possde pas de structure ayant des proprits mathmatiques remarquables habituelles autorisant lusage de la comparaison ou de la grandeur. Les modalits sont codes laide de mots ou dexpressions courtes ou parfois laide de nombres qui nautorisent cependant aucunement une interprtation en termes de grandeur. Par exemple la variable genre possde deux modalits Masculin et Fminin , codes respectivement 1 et 2 . Cela ne signifie nullement que masculin vient avant fminin ni que fminin est le double de masculin. On pourrait citer encore les dpartements franais et leur codage numrique. Les variables (qualitatives) ordinales Les rsultats sont encore de nature qualitative. Mais lensemble des rsultats possibles possde une structure dordre autorisant lusage de la comparaison Les modalits sont codes laide de mots ou dexpressions courtes marquant une gradation ou parfois laide de nombres. Dans ce dernier cas, lordre des nombres traduit la gradation.
8 7007 TG WB 00
Par exemple la variable got pour la statistique peut tre modlise avec les modalits suivantes : Expression verbale Expression numrique Je naime pas du tout 1 Jaime un peu 2 Jaime beaucoup 3 Jaime la folie 4
Pour ces variables, les analyses statistiques doivent prendre en compte lordre des modalits. Les variables quantitatives discrtes ou continues Les rsultats sont alors de nature quantitative. Lensemble des rsultats possibles, que nous nommons valeurs, est un ensemble de nombres qui possde une structure ayant des proprits mathmatiques remarquables habituelles autorisant lusage de la comparaison, de la grandeur et des oprations arithmtiques ou algbriques. Ce que nous nommons variable quantitative est aussi dsign par variable numrique. Nous distinguons deux types : Les variables quantitatives discrtes correspondent un ensemble fini ou dnombrable de rsultats. Intuitivement chaque rsultat est isolable. Par exemple, les variables statistiques suivantes : nombre denfants par famille ; nombre dlves par classe de seconde ; nombre de russites un QCM ; proportion des filles par classe de terminale scientifique. Les variables quantitatives continues sont celles qui ne sont pas discrtes. Lensemble des rsultats possibles est lensemble des nombres rels ou un sous-ensemble. Lusage de ces variables ncessite des outils mathmatiques plus labors que pour les variables quantitatives discrtes. Une approche mathmatique consiste faire usage des intervalles pour caractriser les rsultats. Cela revient passer par lintermdiaire de modalits. Nous verrons sur des cas particuliers comment nous prenons en considration cette proprit. Les variables textuelles De nombreuses mthodes ont t mises au point grce au dveloppement doutils informatiques qui ont apport un soutien formidable. Le traitement de ce type de variable est abord dans le cours de mthodes qualitatives.
8 7007 TG WB 00
taux, etc. C'est un outil de communication pour informer les citoyens, les acteurs sociaux ou les clients.
8 7007 TG WB 00
Lorsque la question propose prsente plus de deux modalits de rponses, on dit que les rponses sont plusieurs modalits. Exemple 2 : Quelle est votre situation de famille ? Mari Clibataire Divorc Veuf Lorsque lon propose un ensemble de modalits et que la personne enqute peut choisir plusieurs rponses, on dit que la question est choix multiples. On peut prciser le nombre de rponses choisir. Exemple 3 : Aprs la formation que vous suivez actuellement, quenvisagez-vous de faire ? Vous choisirez deux modalits. Chercher du travail Continuer une formation Voyager, visiter le monde Fonder une famille Partir travailler ltranger Autres. Prciser .. La modalit autres permet la personne interroge de proposer de nouvelles possibilits qui pourront tre analyses grce une grille de post-codification labore a posteriori en dpouillant une partie des questionnaires. Les questions ordinales Dans les trois exemples donns ci-dessous, les rponses sont toutes ordonnes selon une gradation. Exemple 1 : Le mtier denseignant comporte un certain nombre de taches diffrentes. Toutes ne sont pas perues comme dgale importance. Par exemple, choisir et mettre en uvre les mthodes pdagogiques les mieux adaptes aux objectifs poursuivis. Est-ce : 1 Trs peu important 2 Peu important 3 Moyennement important 4 Important 5 Trs important Cette chelle de rponses possibles pourrait ne comporter que 4 chelons en supprimant lchelon moyen, en forant ainsi lenqut se positionner. On peut galement le remplacer par litem indcis ou ne sait pas , sachant que les experts ne sont pas tous daccord sur le bien fond de cette rubrique. Exemple 2 : Comment voyez-vous votre avenir ? Rpondez la question pose en notant une croix sur chacune des chelles proposes comme dans lexemple suivant : Gai Gai Gai X X X Triste Triste Triste Je vois mon avenir trs gai Je vois mon avenir plutt triste Je vois mon avenir ni triste ni gai
8 7007 TG WB 00
Plus la rponse est porte prs dun des deux ples, plus ce ple caractrise le sentiment ou la reprsentation. Gai Agrable Plein Beau X X X Triste Dsagrable Vide Laid
Exemple 3 : tant donne une srie de propositions, 5 par exemple, les classer selon lordre de prfrence. La proposition prfre reoit le rang 1, et ainsi de suite jusqu 5. Dans une tude portant sur des points de vue relatifs lapport dune formation en grontologie, il a t demand de ranger les items suivants : Rang propos noncs des items Actualiser ses connaissances thoriques professionnelles Sortir de la routine quotidienne Mieux comprendre la relation avec les personnes ges Se confronter des situations de formation Complter sa formation Esprer une meilleure reconnaissance professionnelle L de nombreux traitements, plus ou moins complexes, existent mettant en uvre ce qui est dnomm les statistiques de rang. Les questions rponses numriques ou quantitatives Les rponses aux questions poses se prsentent alors sous la forme dun nombre : un revenu ou un salaire en euros, un poids en kg, une taille en cm, un temps pass tudier telle matire durant une semaine en heures, etc. Elles renvoient aux variables quantitatives discrtes ou continues selon le cas.
Exercice
Recherchez dans des journaux, des revues ou des livres que vous avez consults pour vos tudes en licence, ou mme dans votre vie quotidienne, des exemples de questionnaires. Analysez-les.
8 7007 TG WB 00
n : le taux de N
Par exemple : on extrait 10 jetons d'un sac contenant 100 jetons distinctement numrots : le tirage peut s'effectuer sans remise ce qui signifie que l'on tire les jetons du sac les uns la suite des autres ou encore que l'on tire les 10 jetons simultanment ; le tirage peut s'effectuer avec remise, dans ce cas on tire un jeton. On note l'information recherche, le numro, puis on le remet dans le sac pour nouveau tirer un jeton. On rpte cette manipulation 10 fois. Le calcul des probabilits correspondant est plus simple dans le cas de tirage avec remise et l'on admet couramment que lorsque la population concerne est d'effectif important le tirage d'un chantillon effectu sans remise est assimil un tirage avec remise. En effet il est trs peu probable de tirer plusieurs fois le mme individu !
8 7007 TG WB 00
tudes en sciences humaines, on peut galement ajouter cette liste le lieu dhabitation, dans sa composante rurale ou urbaine. Le choix des individus est laiss lenquteur qui on impose quelques restrictions : dispersion gographique, interdiction dinterroger des personnes se connaissant entre elles et connaissant lenquteur, interdiction dinterroger des passants dans la rue sans respecter quelques rgles etc. Si au retour des enquteurs, les quotas ne sont pas respects, on peut procder un redressement en pondrant les individus. B Mthode des units types On choisit des units dindividus que lon considre comme fortement reprsentatives de certaines catgories de la population. Exemples : les cantons-types utiliss par lINSEE pour tudier les rgions agricoles : les cantons dtermins dans chaque rgion par des spcialistes ; les bureaux de vote pilotes pour des lections : bureaux de vote dont les rsultats vrifis sur de longues priodes figurent les rsultats dfinitifs dune ville, dune rgion, etc. Cette mthode repose sur une bonne connaissance pralable de ce qui caractrise lobjet tudier, et elle a tendance augmenter les contrastes. Il existe dautres mthodes empiriques mais aucune nest rellement scientifique. Elles rassemblent bon nombre de mthodes mises en uvre intuitivement dans diverses tudes.
n . N
Exemple : si une entreprise dsire mener une enqute auprs de ses clients, elle peut utiliser son fichier de la clientle. Ainsi, La Redoute procde souvent ce type denqute auprs de tous ses clients. On compte prs dun mnage sur deux qui aurait au moins une fois procd un achat par correspondance auprs de La Redoute, soit prs de 10 millions
Lorsque la taille de la population est trs importante par rapport la taille de lchantillon, tirage avec remise ou sans remise sont quivalents du point de vue dun certain nombre de traitement mathmatiques.
8 7007 TG WB 00
1
dindividus au sens statistique. Le Ministre de lducation Nationale gre galement des fichiers dlves, comme ceux des candidats divers examens et concours ou ceux des tablissements (coles, collges, lyces). Des enqutes par sondage alatoire sont souvent menes selon ce principe de construction. Ces mthodes alatoires simples permettent, par lintermdiaire du calcul des probabilits, de donner, comme on le verra, un degr de confiance des rsultats obtenus pour une proportion ou une moyenne dans lestimation par intervalle de confiance ou dappliquer des tests statistiques dhypothses. Sondages alatoires stratifis Lide consiste prlever lchantillon dans des groupes homognes de la population ou strates. Cette mthode permet damliorer considrablement la prcision des estimations. Les strates tant fixes, on peut chercher le nombre optimal dindividus tirer dans chaque strate, ou inversement trouver les meilleures strates possibles. Ainsi lutilisation de la stratification vise le plus souvent amliorer la qualit de linformation apporte par lchantillon et ainsi agir sur la prcision des rsultats obtenus. Dans ce cas, la dfinition du plan de sondage prend en compte une information supplmentaire caractrise par une variable de contrle. Cette variable connue pour tous les individus de la population permet de raliser une partition de cette population. On dcoupe alors la population en strates Ci deffectif Ni, puis on considre chaque strate comme un univers particulier dans lequel on effectue un sondage alatoire simple en tirant un chantillon de taille ni. On pourra choisir un taux de sondage proportionnel permettant dviter les redressements. On peut dmontrer mathmatiquement que la stratification est une mthode plus prcise que le sondage alatoire simple ou lmentaire, au sens de lestimation des rsultats. Sondages systmatiques Ils consistent prendre non pas des individus au hasard sur une liste mais des individus rgulirement espacs sur la liste. La valeur de lespace est obtenue alatoirement. Si le critre de classement des individus sur la liste est indpendant du caractre tudi; cette mthode est quivalente au sondage simple. Sondages par grappes On tire au hasard des grappes ou familles dindividus et on examine tous les individus de la grappe. Exemple : on tire des immeubles puis on interroge tous les habitants des immeubles tirs. Son avantage est la simplicit et son faible cot, la mthode est dautant meilleure que les grappes se ressemblent plus entre elles et que les individus dune mme grappe sont plus diffrents contrairement la stratification. Le sondage en grappes est utilis trs souvent par lINSEE qui procde en trois tapes : regroupement de la population en grappes selon un critre (lots dimmeubles ou grappes de mnages), tirage de certaines grappes alatoirement et examen de tous les individus des grappes tires. Sondages probabilits ingales Si les units sont de taille trs variable comme des agglomrations, on tire avec des probabilits proportionnelles au nombre dhabitants ou tout autre caractre dterminant. Sondages plusieurs degrs Cest un tirage en cascade : on tire au hasard dabord des villes, puis dans les villes tires, des quartiers au hasard, puis des immeubles, puis des habitants.
Les panels de consommation permettent danalyser les comportements dachat des consommateurs. LINSEE et de nombreuses socits spcialises dans ces domaines utilisent cette technique. Il existe galement des panels daudience radio ou tlvision. Afin de ne pas introduire de biais systmatique li lappartenance au panel, un renouvellement dune partie des individus simpose aprs 3 ou 4 interrogations. Le Ministre de lducation Nationale gre galement des panels. En particulier, tous les 10 12 ans, un nouveau panel de suivi des scolarits des entrants en classe de 6e ou en Section dducation Spcialise (SES) est lanc. Par exemple, en 1989, prs de 27 000 lves taient suivis tout au long de leur scolarit ; ils reprsentent les 1/30e dune gnration. Il sagit dun chantillon alatoire o figurent tous les lves ns le 5 de chaque mois (soit prs de 1/30). Lenqute comprend une prise dinformation annuelle auprs des chefs dtablissement. Les cheminements des lves sont observs au fur et mesure de leur droulement (accs la classe suprieure, redoublement, sortie du systme ducatif, choix doptions ou de filires). On dispose ainsi, dune reconstitution des scolarits de lenseignement lmentaire la fin de la scolarit secondaire. De nombreuses tudes statistiques prennent pour base ce panel : parcours scolaires et effets des variables telles que lorigine sociale, le sexe, lge, la zone dhabitation, etc.
Exercice
Dans les exemples que vous avez rencontrs dans vos diverses lectures, identifiez comment lchantillon a t obtenu.
8 7007 TG WB 00
8 7007 TG WB 00
Tableau des variables de lenqute CEREQ Code de la variable V01 V02 Descriptif succinct et types de rponse (avec codage) ge en 1998 (en annes) (entre 16 et 35 ans) Dpartement 27 = Eure 76 = Seine-Maritime Origine trangre (au moins un des deux parents) O = Oui N = Non Sexe 1 = Homme 2 = Femme Retard en sixime O = Oui N = Non Niveau scolaire atteint en 1998 (Nomenclature INSEE des niveaux avec ou sans le diplme correspondant) NIV II et I = Niveau suprieur bac+2 NIV III = Niveau bac+2 NIV IV = Niveau bac (avec ou sans le bac) NIV V = Niveau CAP ou BEP NIV VI = Sortie sans qualification Catgorie sociale des parents CD = Catgorie dfavorise (employ, ouvrier, chmeur) CF = Catgorie favorise Trouve un emploi ou non sur la priode 1998-2001 O = Oui N = Non Temps daccs au premier emploi (en mois) (entre 0 et 35 mois) Situation professionnelle du jeune en janvier 1999 CH = Chmage IN = Inactivit RE = Reprise dtudes SN = Service national CPI = Cadre ou profession intermdiaire ENQ = Employ non qualifi EQ = Employ qualifi OQ = Ouvrier qualifi ONQ = Ouvrier non qualifi
V03
V04
V05
V06
V07
V08
V09 V10
8 7007 TG WB 00
V11
Situation professionnelle du jeune en avril 2001 CH = Chmage IN = Inactivit RE = Reprise dtudes SN = Service national CPI = Cadre ou profession intermdiaire ENQ = Employ non qualifi EQ = Employ qualifi OQ = Ouvrier qualifi ONQ = Ouvrier non qualifi
Exercice 1
Dans cette tude, reprez la population et lchantillon. Prcisez sil sagit de variables qualitatives (nominales, ordinales ou textuelles) ou quantitatives (discrtes ou continues).
Corrig 1
Les variables V01 ge et V09 temps daccs au premier emploi sont des variables quantitatives discrtes. Ces deux variables peuvent aisment se transformer en variables quantitatives continues, ds lors que lon recoure des intervalles. Les variables V02 dpartement , V03 origine trangre , V04 sexe , V05 retard en sixime , V07 catgorie sociale des parents , V08 trouv un emploi sur la priode 1998-2001 , V10 situation professionnelle du jeune en janvier 1999 et V11 situation professionnelle du jeune en avril 2001 sont des variables qualitatives nominales. La variable V06 niveau scolaire atteint en 1998 est une variable qualitative ordinale.
8 7007 TG WB 00
sigma : n =
n
i =1
i= p
ni . n
Cette frquence est souvent ramene en pourcentage, en multipliant fi par 100. La somme des frquences, exprimes en pourcentage, est gale 100. Reprsentations graphiques usuelles Les reprsentations graphiques des variables qualitatives nominales sont : le diagramme en btons ; le diagramme circulaire. Diagramme en btons Cette reprsentation graphique fournit une visualisation de la distribution des frquences ou des effectifs. On fait figurer sur un axe (gnralement en abscisse) les diffrentes modalits et sur lautre axe (gnralement en ordonne) les effectifs ou les frquences relatives. La gradation de laxe des modalits ne traduit ni un ordre, ni une quantit, tandis que celles des frquences ou des effectifs est gradue quantitativement. Diagramme circulaire Cette reprsentation graphique fournit une autre visualisation de la distribution des frquences ou des effectifs, mais en restituant limportance de chaque modalit relativement lensemble des rsultats. On obtient une telle reprsentation en tablissant une correspondance entre la mesure en degr des angles et la valeur des effectifs ou des frquences. On partage un disque en secteurs, dont les aires sont proportionnelles aux effectifs ou aux frquences donnes. Le calcul des angles correspondant chacune des modalits se fait ainsi : Dfinition des caractristiques usuelles Le mode est la valeur de la variable correspondant leffectif (ou la frquence) le plus lev. Dit autrement, cest la valeur de la variable qui revient le plus souvent loccasion des observations faites. Ainsi, le sexe modal de la population franaise est fminin (car il y a plus de femmes que dhommes), lorigine sociale modale des tudiants est professions librales et cadres suprieurs
360 f i % 100
8 7007 TG WB 00
laide du tableau ci-dessus, on apprend que 1277 individus ont trouv un emploi sur la priode 1998-2001 et 75 individus nen ont pas trouv. La somme des effectifs ni est gale leffectif total de lchantillon tudi, soit : n = n1 + n2 = 1277 + 75 = 1352 La frquence associe la modalit oui est : f1 =
n1 1277 = = 0.9445, soit 94,45% (que lon peut arrondir 94,5%). n 1352
Effectifs
Oui
Non
Pour construire le diagramme circulaire, il faut au pralable calculer langle en degrs correspondant chaque modalit, soit pour la modalit Non :
8 7007 TG WB 00
Non 5,5%
Oui 94,5% Le mode de la variable V08 est la rponse oui , cest--dire trouv un emploi . Il correspond au bton du diagramme en btons (ou au secteur du diagramme circulaire) le plus grand.
Exercice 2
Soit le tableau statistique suivant : Origine socioprofessionnelle des tudiants franais dans les universits en 2000-2001 (France mtropolitaine) Origine socioprofessionnelle Agriculteurs Artisans, commerants, chefs dentreprise Professions librales, cadres suprieurs Professions intermdiaires Employs Ouvriers Retraits, inactifs Indtermins Ensemble Effectifs 27 150 88 300 413 967 207 988 160 170 138 202 128 139 100 573 1 264 489
Source : Repres et rfrences statistiques sur les enseignements, la formation et la recherche, 2001, DPD.
Question 1 Calculez les frquences en pourcentage. Question 2 Faites deux reprsentations graphiques. Question 3 Dterminez le mode.
8 7007 TG WB 00
Corrig 2
Rponse 1 Origine socioprofessionnelle Agriculteurs Artisans, commerants, chefs dentreprise Professions librales, cadres suprieurs Professions intermdiaires Employs Ouvriers Retraits, inactifs Indtermins Ensemble Effectifs 27 150 88 300 413 967 207 988 160 170 138 202 128 139 100 573 1 264 489 Frquence en % 2,1 7,0 32,7 16,4 12,7 10,9 10,1 8,0 100
Rponse 2
Effectifs
Pr Ar Pr Re Ind Em Ag Ou ofe ti s ofe tra ri c t vri plo an ss ss erm ul t i t e s y i on rs i on ,c s eu s, in om i sl rs si n a s ib nte cti me f r rm s a le ra d s, nt i ai s, ca re ch dr s es efs su de p n.. r. . ..
Catgories socioprofessionnelles
8 7007 TG WB 00
8 7007 TG WB 00
Reprsentations graphiques usuelles Le recours aux reprsentations graphiques est identique celui mis en uvre dans le traitement des variables nominales. Toutefois, ces graphiques se doivent de prserver la structure dordre des modalits. Ainsi, dans le diagramme en btons, les modalits doivent tre places sur laxe des modalits selon lordre qui les qualifie. De mme, cet ordre se retrouve sur le diagramme circulaire. Dfinition des caractristiques usuelles Le mode, cest la modalit ou les modalits de la variable deffectif maximum ou de frquence maximum. Ltendue, cest lintervalle dont la borne infrieure est la modalit de rang 1 prise par X et la borne suprieure est la modalit de rang p prise par X, cest--dire [x1 ; xp]. La mdiane Q2 est la modalit qui permet le partage de la population ou de l'chantillon, ordonn(e) de faon croissante, en deux parties de mme effectif. On repre la mdiane Q2 de la faon suivante : on divise le nombre N ou n dobservations par 2 : le reste de la division peut tre 0 ou 1; on procde un rangement des n ou N individus dans lordre des modalits croissantes, cest--dire quon ordonne les valeurs ; on calcule les effectifs cumuls : leffectif cumul jusqu la valeur i est la somme des effectifs des valeurs infrieures ou gales i ; on applique les rgles de dtermination ci-aprs. N ou n 2q 2q + 1 parit pair impair reste 0 1 Mdiane Q2 entre la modalit de rang q et celle de rang q+1 la modalit de rang q+1
La mdiane d'une variable X sur une population sur un chantillon une caractristique de position ou de tendance centrale. Elle prsente lavantage de ne pas tre influence par des valeurs extrmes. Par exemple, en matire de revenus, on prfre parler de revenu mdian que de revenu moyen, car les salaires trs levs tirent la moyenne vers le haut, de sorte quelle nest pas reprsentative de la tendance gnrale.
laide du tableau ci-dessus, on dnombre les individus qui ont la mme modalit. Ainsi, 273 individus ont un niveau suprieur bac+2, 290 individus ont un niveau bac+2, 342 individus ont un niveau bac
8 7007 TG WB 00
La somme des effectifs ni est gale leffectif total de lchantillon tudi, soit : n = 273 + 290 + 342 + 316 + 131 = 1352. La frquence associe la modalit NIV II et I est : f1 =
n1 273 = = 0.2019, soit 20,19% (que lon peut arrondir 20,2%). n 1352
Diagramme en btons - Niveau scolaire
400 350 300
Effectifs
NIV II et I
NIV III
NIV IV
NIV V
NIV VI
Pour construire le diagramme circulaire, il faut au pralable calculer langle en degrs correspondant chaque modalit, soit pour la modalit NIV II et I :
NIV II et I 20,20%
Le mode de la variable V06 est le NIV IV , cest--dire le niveau baccalaurat. Il correspond au bton du diagramme en btons (ou au secteur du diagramme circulaire) le plus grand.
8 7007 TG WB 00
n = 1352, do
comprise entre la modalit de rang 676 et celle de rang 677. Pour obtenir la modalit de rang 676 et celle de rang 677, on procde au calcul des effectifs cumuls. Les 273 premiers individus ont un niveau suprieur bac+2, les 290 suivants ont un niveau bac+2 (cest--dire que 273 + 290 = 563 individus ont au moins un niveau bac+2) Modalits de V06 Effectifs ni Frquences fi NIV II et I NIV III NIV IV NIV V NIV VI Effectif total n 273 290 342 316 131 1 352 0,202 0,214 0,253 0,234 0,097 1
La modalit de rang 676 est la modalit NIV IV et celle de rang 677 est galement la modalit NIV IV. Ainsi, la modalit mdiane est celle qui correspond un niveau baccalaurat. On peut aussi vrifier que la modalit de rang 1221 est la modalit NIV V, tandis que celle de rang 1222 est la modalit NIV VI.
Exercice 3
En 1980, la population amricaine comportait environ 100 millions dadultes (25 ans et plus) qui se rpartissaient de la faon suivante en fonction du niveau dinstruction et du sexe. Niveau dinstruction tablissements denseignement frquents jusquau bout Effectifs Hommes Aucun Primaire Secondaire Collge 4 000 000 10 000 000 23 000 000 10 000 000 Femmes 5 000 000 12 000 000 29 000 000 7 000 000
Source : U.S. Current Population Reports, Series P.20, n390, mars 1981 et 1980.
Question 1 Faites deux reprsentations graphiques, pour le sexe masculin uniquement. Question 2 Dterminez le mode chacun des deux sexes. Question 3 Dterminez la mdiane pour chacun des deux sexes.
Corrig 3
8 7007 TG WB 00
Rponse 1
Diagramme en btons - Niveau d'instruction
25000000 20000000
Effectifs
Aucun
Primaire
Secondaire
Collge
Niveaux
Collge 21%
Secondaire 49%
Rponse 2 Le niveau dinstruction modal des hommes est secondaire . Celui des femmes est galement secondaire . Rponse 3 Pour les hommes, la mdiane se dtermine de la manire suivante : n = 47 000 000, do
pond une modalit comprise entre la modalit de rang 23 500 000 et celle de rang 23 500 001. Pour obtenir la modalit de rang 23 500 000 et celle de rang 23 500 001, on procde au calcul des effectifs cumuls. Etablissements denseignement frquents jusquau bout Aucun Effectifs Hommes 4 000 000 Effectifs cumuls hommes 4 000 000 Femmes 5 000 000 Effectifs cumuls femmes 5 000 000
8 7007 TG WB 00
La modalit de rang 23 500 000 est la modalit secondaire et celle de rang 23 500 001 est galement la modalit secondaire . Ainsi, la modalit mdiane est celle qui correspond un niveau dinstruction secondaire.
pond une modalit comprise entre la modalit de rang 26 500 000 et celle de rang 26 500 001. La modalit mdiane est galement celle qui correspond un niveau dinstruction secondaire.
8 7007 TG WB 00
Le tableau statistique de cette variable est le suivant : Tableau statistique de la variable V01 Modalits de V01 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Effectif total Effectifs 19 48 153 168 173 178 150 115 119 79 48 26 14 28 12 6 6 2 2 6 1352
Le mode est la valeur de la variable deffectif maximum ou de frquence maximum. La mdiane Q2 est la valeur qui partage la population ou lchantillon en deux parties de mme effectif. On repre la mdiane Q2 de la faon suivante : on divise le nombre N ou n dobservations par 2, comme prcdemment : le reste de la division peut tre 0 ou 1. on procde un rangement des N ou n individus dans lordre des valeurs croissantes, cest--dire quon ordonne les valeurs. on calcule les effectifs cumuls. on applique les rgles de dtermination ci-aprs. N ou n 2q 2q + 1 parit pair impair 0 1 reste Mdiane Q2 Entre la valeur Vq de rang q et celle Vq+1 de rang q+1
Q2 =
Vq + Vq +1
La valeur Q2 = Vq+1
Du point de vue interprtatif, la mdiane d'une variable X sur une population ou sur un chantillon est une caractristique de position ou de tendance centrale. La moyenne est la valeur de la variable X obtenue par lune des trois procdures de calcul suivante : Le premier calcul consiste effectuer la somme de toutes les valeurs obtenues, puis diviser le rsultat par leffectif total. Ce calcul, qui correspond la moyenne arithmtique, est souvent long conduire, si bien que lon privilgie lune des deux autres mthodes.
m=
1 i =n oi n i =1
Dans le second calcul, on additionne les produits des diffrentes valeurs xk par leffectif correspondant nk. Le rsultat obtenu est divis par leffectif total.
m=
1 k=p nk xk n k =1
Dans la troisime expression, on additionne les produits des valeurs nk par les frquences fk correspondantes.
m = f k xk
k =1
k= p
Les deux derniers calculs correspondent ce que nous dsignons par la moyenne pondre. Du point de vue interprtatif, la moyenne d'une variable X sur une population ou sur un chantillon est une caractristique de tendance centrale Les caractristiques que nous allons maintenant tudier - ltendue, la variance, lcart-type et le coefficient de variation - sont des caractristiques de dispersion. Ltendue, cest lintervalle dont la borne infrieure est la valeur la plus faible prise par X et la borne suprieure est la valeur la plus forte prise par X, cest--dire [x1 ; xp].
8 7007 TG WB 00
Du point de vue interprtatif, l'tendue d'une variable X sur une population ou sur un chantillon est une caractristique de dispersion. Cependant sa faiblesse rside dans le fait qu'elle demeure trop sensible aux donnes extrmes et aberrantes. Lamplitude de cet intervalle est mesurable et se calcule par la diffrence xp -x1. La varianceou moment centr dordre 2 dune variable quantitative discrte est la valeur obtenue par lune des deux procdures de calcul suivantes : Selon la premire formule, la variance est la moyenne pondre des carrs des carts des valeurs leur moyenne.
ech =
1 k=p nk ( xk m) n k =1
La seconde procdure correspond une dmarche simplifie, par laquelle la variance est le rsultat de la diffrence entre la moyenne pondre des carrs des valeurs et le carr de la moyenne de ces valeurs.
ech =
1 k= p nk xk m n k =1
Lcart-type est la racine carre de la variance. Il indique la dispersion des valeurs de la variable par rapport la moyenne de la srie statistique.
ech =
1 k= p nk ( xk m) n k =1
ou
ech =
1 k= p nk x k m n k =1
Du point de vue interprtatif, la variance et l'cart-type d'une variable X sur une population ou sur un chantillon sont des caractristiques de dispersion. Notons que l'cart-type est exprim avec la mme unit que les valeurs de la variable, alors que la variance est exprime en unit au carr. La variance est dautant plus faible donc aussi lcart-type que les donnes sont regroupes proximit de la moyenne. Dit autrement, plus lcart-type de la srie est faible, plus la dispersion des valeurs par rapport la moyenne est faible. Mais pour comparer deux distributions dont les moyennes sont diffrentes, nous sommes amens calculer le coefficient de variation qui ne dpend plus des units de mesure. Le coefficient de variation est obtenu en calculant le rapport de l'cart-type la moyenne.
CV =
CV % =
Le coefficient de variation permet, nous lavons indiqu, de s'affranchir des units de mesure et des ordres de grandeur de la variable. Il permet ainsi de comparer plusieurs distributions de variables exprimes avec des units diffrentes ou dont les moyennes sont diffrentes. Plus le coefficient de variation a un faible pourcentage, moins la srie est disperse. Remarque 1 Les paramtres de position ou de tendance centrale sont le mode, la moyenne et la mdiane. Ils permettent de situer la valeur centrale dans la suite de nombre. La notion de position se rapporte la situation de la valeur centrale. Ces paramtres de position ne suffisent pas, la plupart du temps, pour rendre compte dune srie de valeurs. Par exemple, deux sries statistiques peuvent avoir une moyenne identique, mais lune peut tre caractrise par
8 7007 TG WB 00
une distribution homogne et lautre par une distribution htrogne. Il convient donc dutiliser des indicateurs de dispersion, comme ltendue, la variance, lcart-type et le coefficient de variation. Remarque 2 Il existe des cas o les trois paramtres de position (mode, moyenne et mdiane) sont semblables : la distribution est alors symtrique et unimodale. La loi normale vrifie ces proprits. Remarque 3 Les trois paramtres de position prsentent des avantages et des inconvnients : Le mode reprsente le plus grand nombre dindividus ; la valeur correspondante est toujours une valeur vraie (alors que la mdiane et la moyenne peuvent correspondre des valeurs absentes des donnes) ; il sapplique des donnes nominales (ce qui nest videmment pas le cas de la mdiane ou de la moyenne). Son inconvnient principal est quil nest pas toujours reprsentatif de lensemble des donnes et dpend de la manire dont les observations sont regroupes. La mdiane prsente le principal avantage de ne pas tre influence par des valeurs extrmes, mais elle ne se prte pas directement aux quations. La moyenne permet de raliser de nombreux calculs, mais elle est influence par des valeurs aberrantes .
8 7007 TG WB 00
Effectifs
Ages
8 7007 TG WB 00
Ltendue de la srie statique est [16 ; 35]. Lge modal est 21 ans. Le nombre dobservations divis par 2 est 676. Le reste de la division tant zro, la mdiane correspond la moyenne de la valeur de rang 676 et celle de rang 677, soit :
Valeur de rang 676 Valeur de rang 677 Mdiane 21 21 21
Pour obtenir la valeur de rang 676 et celle de rang 677, on a procd au calcul des effectifs cumuls de la faon suivante : 19 + 48 + 153 + 168 + 173 = 561. Ainsi, la 561me observation correspond la valeur 20. Le nombre d'individus ayant un rsultat infrieur 21 est de 561 + 178 = 739. Ainsi, l'individu de rang 676 et celui de rang 677 ont un ge de 21 ans. Lge mdian est donc de 21 ans. Le dtail des algorithmes de calcul de la moyenne, de la variance et de lcart type est prsent dans le tableau suivant :
Modalits de V01 xk 16 17 18 19 20 21 (mode) 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Effectif total : 1352 Effectifs nk 19 48 153 168 173 178 150 115 119 79 48 26 14 28 12 6 6 2 2 6 Somme : 29276 Moyenne : 21,65 nk xk 304 816 2 754 3 192 3 460 3 738 3 300 2 645 2 856 1 975 1 248 702 392 812 360 186 192 66 68 210 nk (xk m) 606,53 1 037,88 2 038,34 1 179,78 470,99 75,20 18,38 209,59 657,18 886,58 908,28 744,19 564,52 1 512,63 836,67 524,54 642,74 257,65 305,05 1 069,34 Somme : 14546,02 Variance : 10,76 cart-type : 3,28
Les calculs peuvent tre effectus avec une calculatrice programmable de type simple.
8 7007 TG WB 00
nk xk = 16 x 19 = 304 nk (xk m) = 19 (16 21,65) = 19 (-5,65) = 19 x 31,9225 = 606,53 Dtail du calcul de la moyenne : m =
ech =
CV =
CV % = 15%
Nous obtenons donc un ge moyen de 21,65 ans, avec un cart-type de 3,28. Le mode et la mdiane ont une valeur de 21 ans. Le coefficient de variation vaut 15%, ce qui correspond une assez faible dispersion des ges autour de la moyenne.
Exercice 4
Deux groupes dtudiants ont pass la mme preuve de statistiques. Les enseignants qui ont corrig lpreuve du 1er groupe lont note sur 100, alors que ceux du 2e groupe ont t nots sur 20. Les rsultats des deux groupes sont les suivants : Moyenne et cart-type des notes obtenues une preuve de statistiques Moyenne Groupe 1 Groupe 2 Quen dduisez-vous ? 60 13 cart-type 15 5
Corrig 4
Le calcul du coefficient de variation permet daffirmer que par rapport au groupe 2, les notes du groupe 1 sont plus homognes. Moyenne Groupe 1 Groupe 2 60 13 cart-type 15 5 Coefficient de variation en % 25 % 38,5 %
CVgroupe1 =
15 = 0,25 60
8 7007 TG WB 00
CVgroupe 2 =
5 = 0,3846 13
Exercice 5
Soit la distribution statistique des notes de 50 lves de 3e, obtenues une preuve de franais : Notes obtenues une preuve de franais
Notes 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Effectifs 1 2 2 2 2 3 5 7 6 4 4 3 2 2 2 1 2
Question 1 Faites une reprsentation graphique de la srie statistique. Question 2 Calculez les paramtres de tendance centrale : mode, moyenne et mdiane. Question 3 Calculez les paramtres de dispersion : tendue, variance et cart-type.
8 7007 TG WB 00
Corrig 5
Rponse 1
Effectifs
Notes
Rponse 2 La note modale est 9. La note moyenne est 9,92. Le nombre dobservations divis par 2 est 25. Le reste de la division tant zro, la mdiane correspond la moyenne de la valeur de rang 25 et celle de rang 26, soit : Valeur de rang 25 Valeur de rang 26 Mdiane La note mdiane est donc 10. Rponse 3 Ltendue de la srie statique est [2 ; 18]. La variance est 14,95 et lcart-type 3,87. Le dtail des algorithmes de calcul de la moyenne, de la variance et de lcart type est prsent dans le tableau suivant : Notes xk 2 3 4 5 6 7 8 9 (mode)
8 7007 TG WB 00
10 10 10
Effectifs nk 1 2 2 2 2 3 5 7
Effectifs cumuls 1 3 5 7 9 12 17 24
nk xk 2 6 8 10 12 21 40 63
10 11 12 13 14 15 16 17 18 Effectif total : 50
6 4 4 3 2 2 2 1 2
60 44 48 39 28 30 32 17 36
0,0384 4,6656 17,3056 28,4592 33,2928 51,6128 73,9328 50,1264 130,5728 Somme : 747,68 Variance : 14,95 Ecart-type : 3,87
Exercice 6
Soit le nombre dlves par classe dans les tablissements : 22 ; 24 ; 25 ; 29 ; 30 ; 31 ; 32 ; 33 ; 34 ; 35 ; 36 Calculez la mdiane.
Corrig 6
Le nombre dtablissements est impair (11). Le reste de la division par 2 tant 1, la mdiane correspond la valeur de rang 6. Le nombre dlves mdian par classe est donc 31.
8 7007 TG WB 00
Tableau statistique de la variable V09 Modalits de V09 [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20[ [20 ; 25[ [25 ; 30[ [30 ; 35] Effectif total Effectifs 926 153 88 43 29 26 12 1 277
Leffectif total est ici de 1277 (et non plus 1352) ; il correspond aux individus qui ont trouv un emploi. De nombreuses approches requirent un regroupement des donnes en classes dtermines par des intervalles pouvant tre damplitudes gales ou ingales. Etudier une variable quantitative continue telle que lge (la variable V01 tudie prcdemment aurait pu tre transforme en une variable quantitative continue), le revenu, le poids, la consommation d'eau, la distance parcourue, etc., consiste : analyser le tableau statistique de la distribution des effectifs ou des frquences des classes, reprsenter cette distribution par un graphique appel histogramme, calculer les caractristiques usuelles telles que mode, tendue, mdiane et plus gnralement fractiles, moyenne, variance et cart-type.
n = nk fk = nk n
La frquence est :
Cette frquence est souvent ramene en pourcentage en multipliant fk par 100. Travailler partir de variables quantitatives continues ncessite de dterminer le centre de chaque intervalle de type [a ; b[. Ce calcul se fonde sur un prsuppos thorique : nous fai8 7007 TG WB 00
sons lhypothse que tous les rsultats sur cet intervalle ont potentiellement la mme frquence dapparition en tant que rsultat exact. Le centre de lintervalle [a ; b[ est :
c=
a+b 2
Reprsentations graphiques usuelles Pour reprsenter dune autre manire linformation contenue dans le tableau statistique, on recourt habituellement deux reprsentations graphiques : lhistogramme et la courbe cumulative croissante. Evidemment, il est possible de recourir une multitude dautres reprsentations graphiques plus ou moins illustratives ou figuratives. Histogramme et densit de frquence Dans un histogramme, chaque classe est reprsente par un rectangle de surface proportionnelle la frquence (ou leffectif). Deux cas de figure sont envisager : 1er cas : Les classes dintervalles sont damplitudes gales La hauteur des rectangles peut tre choisie gale la frquence (ou leffectif). La base est gale lamplitude de la classe. 2e cas : Les classes dintervalles sont damplitudes ingales Il faut rectifier la hauteur du rectangle, afin que sa surface soit proportionnelle leffectif ou la frquence. Par exemple, si une classe est deux fois plus tendue que les autres, alors il faudra diviser par 2 le pourcentage et leffectif pour que la surface respecte le principe gnral de la construction : la proportionnalit des aires aux effectifs. Dans certains cas, pour visualiser correctement le tableau des donnes, il convient d'utiliser la notion de densit de frquence ou de densit deffectif de la variable sur chaque intervalle. Dans les cas tudis ici, le calcul de cette densit s'obtient de la manire suivante : Densit de frquence :
di = ni ai
fi ai
Densit deffectif :
di =
Pour diverses raisons qui pourraient tre discutes, nous considrons que sur un intervalle toutes les valeurs ont la mme chance dtre le rsultat dune mesure. Ceci se traduit par le fait que la densit de frquence est constante sur un intervalle. Le graphique ci-dessous traduit cette ide. L'aire du rectangle ABCD reprsente alors la frquence fi. Le calcul de laire du rectangle ABCD revient crire la relation : (xi+1 - xi ) di = fi =
D d i = f(x)
ni n
di =
fi ni = xi +1 xi n( xi +1 xi )
8 7007 TG WB 00
Lorsque les classes dintervalles sont damplitudes ingales, la hauteur des rectangles peut tre choisie gale la densit de frquence (ou densit deffectif). La base est gale lamplitude de la classe. Ainsi, un histogramme a lallure suivante :
d d
1 3
d
2
d
5
d
4
x1
x2
x3
x4
x5
x6
Courbe cumulative croissante On peut aussi estimer la frquence des mesures infrieures une valeur fixe quelconque. On reprsente pour cela une fonction cumulative croissante, de la manire suivante : en abscisse : on indique les classes en ordonne : on indique la valeur de la frquence cumule croissante associe la borne suprieure de chacune des classes ( lexception du 1er point, dont lordonne = 0 et labscisse = borne infrieure de la 1re classe). La courbe est celle dune fonction croissante affine par intervalle 2 du type :
Frquences cumules
1 F(x)
Classes
x1
x2
x3 x x4
x5
x6
La frquence cumule associe une valeur x est le % dobservations dont la valeur est infrieure x. Cette courbe permet de dterminer graphiquement la mdiane et dautres fractiles (voir ciaprs). La mdiane est la valeur de la variable qui correspond 0,5 (50%) sur la courbe des frquences cumules.
Une fonction affine est reprsente par une droite d'quation y=ax+b. Ici la reprsentation graphique est compose de morceaux de droites : la fonction est appele affine par morceaux ou affine par intervalles. 8 7007 TG WB 00
Frquences cumules
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 35.
Classes
40. 45. 50. 55. 60. 65. 70. 75. 80. 85.
mdiane
Dfinition des caractristiques usuelles Nous allons tudier successivement les caractristiques de tendance et celles de dispersion. Parmi les caractristiques de tendance, il y a le mode, les fractiles et la moyenne. La classe modale : Cest la valeur de la variable de densit de frquence (ou deffectif) maximale. Les fractiles sont les quartiles Q1, Q2 et Q3 (en fait, le 2me quartile concide avec la mdiane). Dune faon gnrale, on peut dfinir les fractiles de la manire suivante : il sagit de valeurs de la distribution qui partagent la srie statistique en parties deffectifs gaux. Ainsi, la mdiane Q2 partage la srie en deux parties deffectifs gaux. Les quartiles (Q1, Q2, Q3) partagent la srie en 4 parties deffectifs gaux. Q1, Q2, Q3 sont trois valeurs de la variable X qui vrifient les proprits suivantes : Concernant Q1 : Prop ({X Q1}) = 0,25 et Prop ({X Q1}) = 0,75 Cela signifie que deux conditions sont satisfaites par Q1 : la proportion des individus ayant un rsultat infrieur ou gal la valeur Q1 est gale 25% ; celle des individus ayant un rsultat suprieur ou gal la valeur Q1 est gale 75%. Concernant Q2, de manire similaire : Prop ({X Q2}) = 0,5 et Prop ({X Q2}) = 0,5 La proportion des individus ayant un rsultat infrieur ou gal la valeur Q2 est gale 50% ; celle des individus ayant un rsultat suprieur ou gal la valeur Q2 est gale 50%. Concernant Q3, toujours de manire similaire : Prop ({X Q3}) = 0,75 et Prop ({X Q3}) = 0,25 La proportion des individus ayant un rsultat infrieur ou gal la valeur Q3 est gale 75% ; celle des individus ayant un rsultat suprieur ou gal la valeur Q3 est gale 25%. On peut utiliser la courbe des frquences cumules croissantes pour dterminer graphiquement la mdiane Q2, les autres quartiles Q1 et Q3. La procdure correspondante pour la mdiane est de rechercher la valeur de variable dont l'image (cest--dire la frquence cumule) est 0.5. Pour Q1 il convient de prendre la valeur 0.25 et pour Q3 la valeur 0.75 Le graphique ci-dessous indique que la mdiane se situe dans la classe [60 ; 65[ et correspond une valeur approximative de 62,5.
8 7007 TG WB 00
Frquences cumules
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 35.
Classes
40. 45. 50. 55. 60. 65. 70. 75. 80. 85.
mdiane
Il convient maintenant de dterminer de manire prcise les fractiles. La procdure algbrique sous-jacente n'est autre que de l'interpolation linaire et utilise le raisonnement selon lequel pour tout point de coordonnes (x ; y) situ sur la courbe (assimile une ligne brise), on peut crire par application du thorme de Thals :
d y c A a x b M B
d c = y c = d y b a x a b x
Avec, dans le cas de la mdiane : a et b : les bornes de la classe mdiane x : la mdiane Q2 y = leffectif total divis par 2 (ou 0,5) c et d : les effectifs cumuls croissants (ou les frquences cumules croissantes)
Prcisons le calcul de la mdiane Q2. Celui-ci seffectue de la faon suivante : on divise leffectif total par 2, soit
on procde un rangement de tous les individus dans lordre des valeurs croissantes, cest--dire quon ordonne les valeurs. on calcule les effectifs cumuls croissants (ou les frquences cumules croissantes). on repre quelle classe appartient la mdiane : la mdiane appartient la premire classe dont leffectif cumul croissant est suprieur croissante est suprieure 0,5). on applique la formule gnrale suivante :
Q 2 = Binf +
ampl n ( ni 1 ) ni 2
Avec Binf : Borne infrieure de la classe qui contient la mdiane, cest--dire borne infrieure de la classe
8 7007 TG WB 00
mdiane (sur la graphique : a) ampl : Amplitude de la classe mdiane (sur le graphique : b-a) ni : Nombre dobservations contenues dans la classe mdiane (sur le graphique : d-c)
on procde un rangement de tous les individus dans lordre des valeurs croissantes, cest--dire quon ordonne les valeurs ; on calcule les effectifs cumuls croissants (ou les frquences cumules croissantes). on repre quelle classe appartient le 1er quartile : Q1 appartient la premire classe dont leffectif cumul croissant est suprieur suprieure est 0,25) ; on applique la formule gnrale suivante :
Q1 = Binf +
ampl n ( ni 1 ) ni 4
Avec Binf : Borne infrieure de la classe qui contient le 1er quartile ampl : Amplitude de la classe qui contient le 1er quartile ni : Nombre dobservations contenues dans la classe qui contient le 1er quartile
n si on travaille sur un 10
m=
1 k= p n k ck n k =1
ou
m = f k ck
k =1
k= p
8 7007 TG WB 00
Parmi les caractristiques de dispersion, il y a ltendue, lintervalle interquartile, la variance et lcart-type. Ltendue est lintervalle dont la borne infrieure est la valeur la plus faible prise par X et la borne suprieure la valeur la plus forte prise par X, cest--dire [x1 ; xp+1] ou ]- ; xp+1[ ou [x1 ; +[. Lamplitude de cet intervalle est mesurable et vaut (xp+1 - x1) dans le premier cas ou linfini dans les deux autres cas. Du point de vue interprtatif, l'tendue d'une variable X sur une population ou sur un chantillon est une caractristique de dispersion. Cependant, sa faiblesse rside dans le fait qu'elle demeure trop sensible aux donnes extrmes et aberrantes. De plus, dans le cas infini, elle n'apporte pas d'information intressante. Lintervalle interquartile est la valeur (Q3 - Q1). Il reprsente thoriquement les 50% des rsultats qui encadrent la mdiane Q2. Son amplitude (Q3 - Q1) est une mesure de dispersion autour de la mdiane Q2.
La variance ou moment centr dordre 2 dune variable quantitative continue est la valeur obtenue par lune des deux procdures de calcul suivante :
ech =
1 k= p nk (ck m) n k =1
1 k=p nk (ck m) n k =1
ou
ech =
1 k= p nk ck m n k =1
1 k= p n k ck m n k =1
ech =
ou
ech =
Il est noter qu'en ce qui concerne la moyenne, la variance et l'cart-type, le traitement utilis est celui dcrit propos des variables quantitatives discrtes. Les remarques que nous y avons faites demeurent valables dans le cas des variables quantitatives continues. Le coefficient de variation est obtenu en calculant le rapport de l'cart-type la moyenne. Il permet de s'affranchir des units de mesure et des ordres de grandeur de la variable ; il permet ainsi de comparer plusieurs distributions de variables.
CV =
CV % =
29 26 12 1277
0,9702 0,9906 1
Les amplitudes de classes tant constantes, le calcul des densits de frquence ou deffectif est inutile. Lhistogramme se construit de la manire suivante : en abscisse : les classes, qui correspondent au temps daccs au 1er emploi ; en ordonne : les effectifs ou les frquences de chaque intervalle de classe.
Effectifs
Mois
La courbe cumulative croissante se construit de la manire suivante : en abscisse : on indique les classes ; en ordonne : le 1er point est (0 ; 0), le 2nd point est (5 ; 0,7251), le 3e point est (10 ; 0,8449), le 4e point est (15 ; 0,9139) etc.
8 7007 TG WB 00
Mois
La classe modale de la srie statistique est [0 ; 5[. Il nest pas ncessaire de calculer les densits de frquence ou deffectif, car les amplitudes de classe sont constantes. La mdiane appartient la classe [0 ; 5[. En effet,
sant suprieur 638,5 est leffectif cumul 926 ; celui-ci correspond la classe [0 ; 5[. Un raisonnement similaire peut tre ralis laide des frquences cumules : la 1re frquence cumule croissante suprieure 0,5 est la frquence cumule 0,7251 ; celle-ci correspond bien la classe [0 ; 5[.
8 7007 TG WB 00
Q 2 = Binf +
mois et demi) Ainsi, la moiti des jeunes interrogs met moins de 3 mois et demi trouver un 1er emploi, tandis que lautre moiti des jeunes interrogs met plus de 3 mois et demi trouver un 1er emploi. Le premier quartile appartient la classe [0 ; 5[. En effet,
croissant suprieur 319,25 est leffectif cumul 926 ; celui-ci correspond la classe [0 ; 5[. Un raisonnement similaire peut tre ralis laide des frquences cumules : la 1re frquence cumule croissante suprieure 0,25 est la frquence cumule 0,7251 ; celle-ci correspond bien la classe [0 ; 5[. On applique la formule gnrale suivante :
Q1 = Binf +
mois)
Ainsi, un quart des jeunes interrogs met moins de 2 mois trouver un 1er emploi, tandis que trois quarts des jeunes interrogs mettent plus de 2 mois trouver un 1er emploi. Le troisime quartile appartient la classe [5 ; 10[. En effet,
cumul croissant suprieur 957,75 est leffectif cumul 1079 ; celui-ci correspond la classe [5 ; 10[. Un raisonnement similaire peut tre ralis laide des frquences cumules : la 1re frquence cumule croissante suprieure 0,75 est la frquence cumule 0,8449 ; celle-ci correspond bien la classe [0 ; 5[. On applique la formule gnrale suivante :
Q3 = Binf +
Ainsi, trois quarts des jeunes interrogs mettent moins de 6 mois trouver un 1er emploi, tandis que un quart des jeunes interrogs met plus de 6 mois trouver un 1er emploi. La moyenne vaut
Nous constatons que les valeurs s'tendent de 0 35, c'est--dire que ltendue est [0 ; 35] et son amplitude vaut 35. En dautres termes, les jeunes interrogs mettent entre 0 et 35 mois pour trouver un 1er emploi. Lintervalle interquartile vaut Q3 - Q1 = 6,63 - 1,72 = 4,91 Ainsi, 50% des observations qui encadrent la mdiane se situe dans un intervalle de presque 5 mois. La variance vaut Lcart-type vaut
8 7007 TG WB 00
Le nombre de mois moyen pour accder un 1er emploi est de 5 mois et demi, avec un cart-type de 6 mois. Le coefficient de variation est de se. Dans le tableau suivant, nous prsentons le dtail des algorithmes de calcul de la moyenne, de la variance et de lcart-type de la variable V09 Modalits de V09 [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20[ [20 ; 25[ [25 ; 30[ [30 ; 35] Centres dintervalle 2,5 7,5 12,5 17,5 22,5 27,5 32,5 Effectifs 926 153 88 43 29 26 12 Effectif total : 1277 nk ck 2315 1147,5 1100 752,5 652,5 715 390 Somme : 7072,5 Moyenne : 5,54 nk (ck m) 8557,72 587,76 4262,86 6150,79 8341,61 12538,28 8722,10 Somme : 49161,12 Variance : 38,5 Ecart-type : 6,2
Exercice 7
Une enqute vie universitaire a t mene auprs dun chantillon dtudiants. Ces derniers ont d noter, pendant une semaine, le temps quils consacraient diffrentes activits (dtente, travail universitaire, transport). Dans le tableau ci-dessous, les informations recueillies sont relatives au nombre dheures consacres aux tudes. Nombre dheures consacres aux tudes Modalits (temps en heures) [30 ; 32[ [32 ; 35[ [35 ; 38[ [38 ; 40[ [40 ; 42] Effectifs (nombre dtudiants) 19 24 58 24 35
8 7007 TG WB 00
Question 1 : Dcrivez la variable tudie. Question 2 : Indiquez la classe modale et ltendue de la srie statistique. Question 3 : Calculez la moyenne et lcart-type (avec 2 formules diffrentes) de cette distribution. Question 4 : Dterminez par le calcul la valeur mdiane du temps consacr aux tudes. Vrifiez graphiquement votre rsultat. Question 5 : Dterminez lintervalle interquartile. Question 6 : Calculez le coefficient de variation. Question 7 : Dterminez la proportion dtudiants travaillant plus de 39 heures. Question 8 : Faites une reprsentation graphique.
Corrig 7
Rponse 1 La variable tudie est une variable quantitative continue. Lchantillon est constitu de 160 individus. Rponse 2 Pour dterminer la classe modale, il est ncessaire de calculer les densits de frquence ou deffectif (car les amplitudes de classe ne sont pas constantes). Modalits [30 ; 32[ [32 ; 35[ [35 ; 38[ [38 ; 40[ [40 ; 42] Effectifs 19 24 58 24 35 Amplitude 2 3 3 2 2 Densit deffectif 9,5 8 19,33 12 17,5
La classe modale est la classe [35 ; 38[car la densit de frquence maximale est 19,33. Ltendue de la srie statistique est [30 ; 42].
8 7007 TG WB 00
Rponse 3 Modalits [30 ; 32[ [32 ; 35[ [35 ; 38[ [38 ; 40[ [40 ; 42] Centres dintervalle 31 33,5 36,5 39 41 Effectifs 19 24 58 24 35 Effectif total : 160 nk ck 589 804 2117 936 1435 Somme : 5 881 Moyenne : 36,76 nk (ck m) 630,37 255,06 3,92 120,42 629,22 Somme : 1 639 Variance : 10,24 Ecart-type : 3,2 nici 18259 26934 77271 36504 58835 Somme : 217 803 Variance : 10,24 Ecart-type : 3,2
Le nombre dheures moyen consacres aux tudes est de 36 h 46 mn, avec un cart-type de 3 h 12 mn. Rponse 4 Modalits [30 ; 32[ [32 ; 35[ [35 ; 38[ [38 ; 40[ [40 ; 42] Effectifs 19 24 58 24 35 Effectifs cumuls 19 43 101 125 160
n = 80 et le 1er effectif cumul croissant suprieur 80 est leffectif cumul 101 ; celui-ci 2
correspond la classe [35 ; 38[.
Q 2 = 35 +
Ainsi, la moiti des jeunes interrogs consacre moins de 36h55mn aux tudes, tandis que lautre moiti des jeunes interrogs consacre plus de 36h55mn aux tudes.
8 7007 TG WB 00
Heures
n = 40 et le 1er effectif cumul croissant suprieur 40 est leffectif cumul 43 ; celui-ci cor4
respond la classe [32 ; 35[.
Q1 = 32 +
3 ( 40 19) = 34,63 24
3n = 120 et le 1er effectif cumul croissant suprieur 120 est leffectif cumul 125 ; celui-ci 4
correspond la classe [38 ; 40[.
Q 3 = 38 +
Lintervalle interquartile est donc 39,58-34,63 = 4,95. Cela signifie que 50% des observations situes autour de la mdiane se rpartissent dans un intervalle de 4h57mn. Rponse 6 Le coefficient de variation est Rponse 7 La proportion dtudiants travaillant plus de 39h est :
8 7007 TG WB 00
Rponse 8
20
Densit d'effectifs
15
10
Heures
Exercice 8
Le tableau ci-dessous indique les rsultats une preuve de franais de deux classes dlves (A et B) considres comme des chantillons. Rsultats une preuve de franais Classes de notes [0-4[ [4-8[ [8-12[ [12-16[ [16-20] Question 1 Calculez la mdiane et lcart interquartile de la distribution des notes de la classe A, puis de la classe B. Interprtez les rsultats. Question 2 Calculez la moyenne et lcart type de la distribution des notes de la classe A, puis de la classe B. Nombre dobservations dans la classe A 1 6 8 10 16 Nombre dobservations dans la classe B 0 8 6 3 9
8 7007 TG WB 00
Question 3 En faisant lhypothse dune quirpartition des rsultats des lves dans chaque classe, quelle est la proportion dlves qui obtient une note infrieure 11 dans la classe A ? Dans la classe B ? Dfinition de lquirpartition : rpartition rgulire des individus sur toute ltendue de la classe. Question 4 Faites une reprsentation graphique de chacune des deux classes. Question 5 lissue de ces calculs, comparez les deux classes.
Corrig 8
Rponse 1 Classes de notes [0-4[ [4-8[ [8-12[ [12-16[ [16-20] Effectifs classe A 1 6 8 10 16 41 Commenons par calculer la mdiane et les quartiles de la classe A. Effectifs cumuls classe A 1 7 15 25 41 Effectifs classe B 0 8 6 3 9 26 Effectifs cumuls classe B 0 8 14 17 26
n = 20,5 et le 1er effectif cumul croissant suprieur 20,5 est leffectif cumul 25 ; celui-ci 2
correspond la classe [12 ; 16[.
Q 2 = 12 +
Ainsi, la moiti des lves de la classe A a obtenu une note infrieure 14,2 lpreuve de franais, tandis que lautre moiti des lves a obtenu une note suprieure 14,2.
Q3 = 16 +
8 7007 TG WB 00
Lintervalle interquartile de la classe A est donc 17,44-9,63 = 7,81. Cela signifie que 50% des observations situes autour de la mdiane se rpartissent dans un intervalle de 7,81. Calculons maintenant la mdiane et les quartiles de la classe B.
n = 13 et le 1er effectif cumul croissant suprieur 13 est leffectif cumul 14 ; celui-ci cor2
respond la classe [8 ; 12[.
4 Q 2 = 8 + (13 8) = 11,33 6
Ainsi, la moiti des lves de la classe B a obtenu une note infrieure 11,33 lpreuve de franais, tandis que lautre moiti des lves a obtenu une note suprieure 11,33.
8 7007 TG WB 00
Continuons par la classe B. Classes de notes [0-4[ [4-8[ [8-12[ [12-16[ [16-20] Centres dintervalle 2 6 10 14 18 Effectifs classe B 0 8 6 3 9 26 nk ck 0 48 60 42 162 Somme : 312 Moyenne : 12 nk (ck m) 0 288 24 12 324 Somme : 648 Variance : 24.92 Ecart-type : 4.99 La note moyenne des lves de la classe B est 12 avec un cart-type de 6,81. Rponse 3 La proportion dlves qui obtient une note infrieure 11 dans la classe A est
La proportion dlves qui obtient une note infrieure 11 dans la classe B est
Rponse 4
Effectifs
Notes
8 7007 TG WB 00
Effectifs
Notes
Rponse 5 Autour dune moyenne relativement proche dans les classes A et B, les lves se rpartissent diffremment : en effet, les valeurs de lcart interquartile et lcart-type de la classe A sont plus faibles que celles de la classe B, ce qui indique une plus faible dispersion des notes des lves de la classe A autour de la moyenne. Les reprsentations graphiques illustrent dailleurs ce rsultat.
8 7007 TG WB 00
tuent les principaux outils daide la dcision dvelopps dans les chapitres suiDe faon gnrale, lorsque lon ne dispose pas dinformations compltes sur une un sondage alatoire. Schmatiquement, un sondage alatoire repose sur linterrogation dun chantillon alatoire de taille n extrait dune population de taille
N. Les individus sont dcrits par des variables qualitatives (sexe, niveau de diplme, dpartement, diplm ou non, etc.) ou quantitatives (ge, temps daccs au premier des caractristiques telles que frquence ou proportion d'une modalit pour une variable qualitative ou moyenne ou cart-type pour une variable quantitative.
sans le diplme correspondant), Cette proportion nous est inconnue 1 sur lensemble de la population (tous les sortants de lanne 1998, en Haute Normandie) et il sagit de lestimer. Rappelons que dans notre chantillon, 273 personnes sortent du systme ducatif avec un niveau I ou II, 290 avec un niveau III et 342 avec un niveau IV ; soit un total de 905 personnes sur 1352 avec un niveau au moins gal au baccalaurat, c'est--dire 66,9%. Avec un autre chantillon de sortants, nous aurions
Un recensement de lensemble des lves de cette gnration de sortants nous permettrait dobtenir la valeur exacte de ces proportions mais il sagit alors dinterroger prs de 800 000 personnes !
8 7007 TG WB 00
moyenne
trs probablement obtenu des rsultats diffrents. Comment peut-on alors estimer la valeur relle dans la population, partir de ces lments ?
valle de confiance afin de prendre en compte la variabilit des rsultats obtenus chantillons de la population des lecteurs, il est clair que l'on a peu de chance dats, A par exemple. De mme, on peut aussi s'attendre trouver une valeur diff-
dun chantillon lautre. En effet, lorsque l'on extrait indpendamment deux d'obtenir exactement la mme proportion de personnes favorables un des candirente de celle relative la population entire. Cependant la thorie mathmatique
montre que si lon prenait tous les chantillons possibles de taille n (avec remise) et
que sur chacun d'eux on calcule la proportion des lecteurs favorables A puis que l'on tablisse le tableau statistique de la distribution des frquences et enfin que l'on construise le diagramme en btons, ce dernier aurait une forme proche de celle-ci-dessous (densit de la loi normale, centre sur la vraie valeur inconnue).
Cette ressemblance sera d'autant plus forte que n sera grand. Le mme constat pourrait tre fait avec une variable quantitative en tudiant la distribution des moyennes obtenues sur lensemble des chantillons. Cette courbe est mathmatiquement bien connue. Elle n'est autre que l'histogramme d'une variable elle-mme bien connue : la variable de Laplace-Gauss. La courbe porte divers noms : courbe de Gauss, courbe en cloche, courbe de la loi normale. Ses principales proprits sont : sa symtrie par rapport laxe vertical, sa moyenne est gale sa mdiane et son mode.
De nombreux phnomnes donnant lieu des mesures de grandeur peuvent tre modliss statistiquement par cette distribution de frquences ; en particulier des mesures physiques, conomiques, biologiques, des relevs de tests ou de notes etc.
8 7007 TG WB 00
moyenne
Cest partir des proprits de cette courbe que lon peut calculer les intervalles de confiance. Conditions dutilisation La proportion p dune caractristique dtermine par une variable X sur la population est inconnue (on note f la proportion calcule sur lchantillon). Lchantillon est obtenu par n tirages alatoires avec remise dans une population de taille finie N ; sans remise dans une population de taille finie N si le taux de sondage est tel que n < 0,1.
Pour des conditions optimales, la taille n de lchantillon devrait tre suprieure 50 et lestimation ponctuelle devrait tre comprise entre 0,1 et 0,9, sinon il conviendrait de consulter des documents de statistique prcisant dautres conditions. lation Elle est tout simplement obtenue partir de la proportion calcule avec les valeurs observes sur lchantillon. On dit que f frquence ou proportion obtenue sur lchantillon est une estimation ponctuelle de p. Estimation de la proportion par intervalle de confiance bilatral symtrique Il sagit cette fois de proposer une procdure permettant dobtenir une fourchette destimation de la proportion p affecte dun niveau de confiance. On dmontre ( partir des proprits de la Loi Normale prcdente) que pour un niveau de confiance de 95% (risque de confiance ou risque de se tromper de 5%), la proportion p est comprise dans lintervalle : [f e ; f + e] o f dsigne la frquence dans lchantillon et e lerreur dchantillonnage qui vaut approximativement : e= 2 Estimation ponctuelle de la proportion inconnue dune caractristique sur la popu-
f (1 f ) 2 n
Interprtation : Il y a 95 chances sur 100 pour que la valeur relle p dans la population soit comprise entre f-e et f+e.
f (1 f ) n
1,96 par 2,57. Ces valeurs se lisent dans une table de la Loi Normale.
8 7007 TG WB 00
moyenne
Le tableau ci-dessous permet de mesurer les marges derreur dans les rsultats des mthode qui permette de mesurer ces marges. Or, pour des raisons pratiques, la trs grande majorit des sondages est ralise par la mthode des quotas. Dans ce
sondages effectus selon la mthode alatoire, pour une proportion. Cest la seule
cadre, la marge derreur ne peut pas tre calcule avec prcision. Mais, pratiquement on considre que ces marges derreur sont du mme ordre dans les deux mthodes. Marge derreur pour un sondage alatoire
f en % 5% ou Echantillon (taille) 50 100 200 300 500 1000 2000 95% 6,2 4,4 3,1 2,8 2 1,4 1 10% ou 90% 8,5 6 4,3 3,8 2,7 1,8 1,3 15% ou 85% 10,2 7,2 5,1 4,5 3,2 2,2 1,6 20% ou 80% 11,3 8 5,7 5 3,6 2,5 1,8 25% ou 75% 12,2 8,6 6,1 5,4 3,9 2,6 1,9 30% ou 70% 13 9,2 6,5 5,8 4,1 2,8 2,1 35% ou 65% 13,3 9,6 6,8 6 4,3 3 2,1 40% ou 60% 13,9 9,8 6,9 6,2 4,4 3 2,2 45% ou 55% 14,1 10 7,1 6,3 4,5 3,1 2,2 50% 14,1 10 7,1 6,3 4,5 3,1 2,3
Note de lecture : La marge derreur dun sondage ralise selon la mthode ala-
toire est dtermine par la taille de lchantillon et la frquence obtenue pour la et une frquence de 25%, la marge derreur est de 8,6%. Le pourcentage dans la population rpondant la question pose est donc compris dans lintervalle 25consenti de 5%, partir de la formule donne ci-dessus).
8 7007 TG WB 00
moyenne
Exercice
Dterminer lestimation ponctuelle de la proportion de sortants sans qualification (niveau V bis et VI).
Corrig
Pour estimer la proportion de sortants sans qualification, on a : n= 1352 (taille de lchantillon) f =131 / 1352 = 0,097 soit 9,7% Lestimation ponctuelle de p est donc de 0,097 soit 9,7%. Avec un risque de confiance de 5%, on peut calculer lintervalle de confiance de la faon suivante : [f e ; f + e] o e dsigne lerreur dchantillonnage et vaut approximativement :
8 7007 TG WB 00
moyenne
1 k= p nk x k n k =1
Si lon prend comme estimation ponctuelle de la variance de X sur la population, la valeur de la variance de lchantillon, la thorie des estimateurs montre que cette valeur conduit une estimation dite biaise de la variance. Finalement la valeur retenue est tout simplement obtenue partir de la variance calcule avec les valeurs
8 7007 TG WB 00
moyenne
n corrigeant le biais n 1
1 i= p n 2 ni ( x i m ) = echantillo s= n n 1 i =1 n 1
2
Estimation de la moyenne par intervalle de confiance bilatral symtrique Il sagit cette fois de proposer une procdure qui permette dobtenir une fourchette destimation affecte dun niveau de confiance. comprise dans lintervalle : [m e ; m + e] o e dsigne lerreur dchantillonnage et vaut e= 2 On dmontre galement que pour un niveau de confiance de 95%, la moyenne est
s n
Lge moyen de lchantillon de 1352 personnes est approximativement de 21,65 ans. Ce chiffre constitue une estimation ponctuelle de la moyenne inconnue. Lcart-type corrig de lchantillon est de 3,28 ans. lge moyen pour un risque de confiance de 5%. de lchantillon est grande. Lerreur dchantillonnage vaut : e= 2
A partir de ces informations, nous pouvons dterminer lintervalle de confiance de Remarque : lcart-type corrig ou non corrig sont sensiblement gaux car la taille
s = 0,18 ans n
Il y a donc 95 chances sur 100 pour que lge moyen de sortie soit compris entre 21,47 ans et 21,83 ans (environ entre 21,5 ans et 22 ans).
8 7007 TG WB 00
moyenne
Exercice
Une enqute auprs dun chantillon de 176 tudiants dune filire de second cycle universitaire. Deux groupes dtudiants sont interrogs : ceux ayant suivi une formation par alternance et les autres. Une des questions porte sur le degr doptimisme quils dclarent en songeant leur avenir. La rpartition (en effectifs) des tudiants est donne ci-aprs :
1= trs inquiet Non alternance Alternance 12 4 2= inquiet 30 22 3= optimiste 38 50 4= trs optimiste 6 14
On suppose que lon peut calculer un score moyen doptimisme dans les deux groupes, score not de 1 4 comme indiqu 1 Calculer ce score moyen dans les deux groupes (vous vrifierez que ces scores moyens sont bien compris entre 1 et 4). 2 Calculer lcart type corrig dans les deux groupes. 3 Donner lintervalle de confiance de ce score dans les deux groupes, au risque de 5%. Conclure.
8 7007 TG WB 00
moyenne
Corrig
Notations : n1 et n2 dsignent les tailles respectives des deux chantillons m1 et m2 dsignent les moyennes observes s1 et s2 les carts-types corrigs des chantillons Calculs : m1=2,44 ; s1= 0,82 ; e1=0,18 m2=2,82 ; s2= 0,74 ; e2= 0,16 Il suffit de conclure : Il y a 95 chances sur 100 pour que le score moyen doptimisme des tudiants non alternance soit compris entre 2,26 et 2,62 et que le score moyen des tudiants en alternance soit compris entre 2,66 et 2,98. La formation par alternance lavenir (les intervalles de confiance sont disjoints et celui relatif aux tudiants par alternance contient des valeurs de moyennes suprieures). semble donc avoir un impact positif sur la perception que les tudiants ont de
8 7007 TG WB 00
ltude conjointe de deux variables. Dans cette perspective nous allons aborder les Comment peut-on analyser simultanment les rponses deux questions qualitatives ? Peut-on ou non tablir une dpendance entre les rponses fournies deux dance/indpendance ? Ceci est lobjet de la partie traitant du tableau crois et du test dindpendance par la mthode du Khi-deux () Comment peut-on analyser simultanment les rponses deux questions quantitatives? 1 Ceci est lobjet de la partie traitant de ltude de 2 variables quantitatives (coefficient de corrlation et analyse de la rgression linaire). questions qualitatives fermes ? Comment tester les hypothses de dpen-
crois , construire ce que nous appelons un tableau crois qui constitue un Par exemple, supposons que lobjectif soit danalyser la relation entre le niveau de sortie du systme ducatif et le sexe, il convient de croiser les deux variables : VA dsignant le niveau de sortie dont les modalits sont :
Le cas dune variable qualitative et dune variable quantitative sera trait dans le cours de
Master 1.
8 7007 TG WB 00
(A1, A2, A3, A4, A5)= (niveau suprieur Bac + 2, Niveau Bac +2, Niveau Bac, Niveau CAP ou BEP, Sans qualification) VB dsignant la variable sexe dont les modalits sont : (B1, B2)= (Garon, Fille).
8 7007 TG WB 00
Supposons que le tableau crois obtenu soit le suivant : VA : Niveau de sortie Suprieur Bac + 2 Bac + 2 Bac CAP ou BEP Sans qualification Total VB : Sexe Garon 134 130 174 188 76 702 Fille 139 160 168 128 55 650 Total 273 290 342 316 131 1352
VB.
Le tri crois est lopration qui consiste dnombrer les individus relatifs tous les croisements. Le nombre de croisements est L x C (tableau L lignes et C colonnes). lusage de double indice, pour reprer la ligne et la colonne : VB Gnralisons maintenant la notation une situation quelconque en recourant
VA A1 A2 Ai
B1 N 11 N 21
B2 N 12 N 22
Bj N 1j N 2J
Bc N 1C N 2C
Total N 1. N 2.
N i1
i2
N ij
N iC
N i.
On peut galement tudier 2 caractres numriques dcoups en classes ou bien encore un caractre numrique dcoup en classes et un caractre qualitatif
8 7007 TG WB 00
AL Total NL1 N
.1
N L2 N. 2
N Lj N. j
N LC N.
c
N c. N
dsigne leffectif de la case (i, j), situ sur la ie ligne et sur la je colonne ;
N.j dsigne leffectif de la colonne j, C'est la somme des effectifs situs dans la coN i dsigne leffectif de la ligne i, situe sur la dernire colonne et dans la ire ligne.
Transformations du tableau crois Afin danalyser les lments remarquables de ce tableau, une transformation est ncessaire. Selon le type dinformation recherch, on peut soit le remplacer par un tableau de pourcentage, en divisant tous les nombres par leffectif total N et en des pourcentages colonnes.
multipliant par 100, ou bien, le plus souvent, calculer des pourcentages lignes ou Dans le cas des pourcentages lignes (profils lignes), la modalit Ai, on associe la suite des pourcentages, selon la variable VB des N
i.
dalit Ai. Sur la ligne total , on calcule galement des pourcentages corresponrpartition des modalits de la variable B (voir exemple ci-aprs).
dant aux pourcentages moyens (profil moyen), ce sont les pourcentages de la Dans le cas des pourcentages colonnes (profils colonnes), la modalit Bj, on assola modalit B j. Sur la colonne total, on calcule galement des pourcentages corresmodalits de la variable VA pondant aux pourcentages moyens, ce sont les pourcentages de la rpartition des cie la suite des pourcentages, selon la variable VA des N. j individus qui possdent
8 7007 TG WB 00
(*) le pourcentage de 49,1% est obtenu par le quotient de N11 par N1. :
connaissance de leur niveau de sortie est la suivante : 51,9% de garons et 48,1% de On peut de mme dterminer le tableau des profils colonnes qui sintitulera : tableau des profils colonnes : rpartition des niveaux de sortie selon le sexe.
lonne moyen). On peut alors dterminer les effectifs correspondant cette hypoLeffectif thorique de la case (i, j) correspondant lhypothse dindpendance est x N. j / N (Produit des marges divis par leffectif total) dsignant le total de la ligne i
8 7007 TG WB 00
Remarque : ce tableau obtenu par EXCEL donne les valeurs exactes des effectifs thoriques. 141,75=273 * 702/1352 ; 150,576923..=290 * 702 / 1352 etc. versement. On dit que les deux variables sont indpendantes. profil moyen. Dans ce tableau la distribution des niveaux de sortie ne dpend pas du sexe et inOn peut galement calculer les profils lignes et vrifier quils sont tous gaux au Mme remarque pour les profils colonnes.
Pour chaque case (i, j) on calcule lcart : Oij - Tij puis on lve cet cart au carr et enfin on le divise par leffectif thorique T
ij
On calcule ensuite le en sommant sur toutes les cases du tableau. La formule qui dcrit lopration prcdente, scrit : =
ij
Cette expression, tablie par le statisticien Pearson, exprime limportance de lcart entre une distribution observe et une distribution thorique. Il faut associer cette valeur de un nombre de degrs de libert qui dpend de la taille du tableau. Ce nombre not ddl est calcul par : ddl = (L-1) * (C-1) ; o L dsigne le nombre de lignes et C le nombre de colonnes du tableau. thoriques fournies par des tables statistiques. Ensuite, il faut comparer cette valeur associe son ddl des valeurs critiques Ainsi dans notre exemple L=5 ; C=2, donc ddl= (5-1) *( 2-1) = 4. On peut remar-
quer que le chiffre 4 correspond exactement au nombre de cases pour lesquelles il a fallu calculer les effectifs thoriques, les autres se dduisant en rfrence aux marges du tableau.
VB : Sexe
Garon
Fille
en compte : lhypothse dite nulle note H0 et une hypothse alternative dite Par exemple, voici trois formulations quivalentes en ce qui concerne la proprit
ddl 1 2 3 4 5 6 7 8
8 7007 TG WB 00
Si < t on conserve H0
Dans le cas contraire, si la valeur du calcul est infrieure ou gale au thorique alors la diffrence entre les effectifs observs et les effectifs thoriques nest donc H0. pas significative, elle rsulte des seules fluctuations dchantillonnage. On retient Remarquons, pour terminer, que le test du na de sens que si lon tudie un recueil de donnes partir dun chantillon. Dans le cas dun recensement, il servira seulement comme mesure dassociation entre variables. Il pourra servir, par exemple, la recherche des caractres les plus lis un caractre donn.
8 7007 TG WB 00
Pour conclure, il est ncessaire dinterprter le sens de la liaison entre les variables
Sexe et niveau de sortie. On peut utiliser les profils-lignes ou colonnes ou bien les sentation des filles par rapport la moyenne dans les sorties sans qualification (ou rieurs au bac. Ce rsultat est conforme aux donnes nationales qui montrent la plus grande russite scolaire des filles.
tableaux observs et thoriques. Dans ce dernier cas, on observe une sous reprune sur reprsentation des garons) et une sur reprsentation aux niveaux sup-
Ainsi, les diffrences observes au niveau de lchantillon sont significatives statistiquement, c'est--dire quelles sont extrapolables lensemble de la population.
8 7007 TG WB 00
Exercice
Un chantillon de salaris est compos de 300 hommes et 200 femmes de niveau de diplme comparable. On compte galement 150 personnes occupant un emploi non qualifi, le reste occupant un emploi qualifi. 1. Construire le tableau d'effectifs thoriques sous l'hypothse d'indpendance des caractres "sexe" et "situation demploi rsume". Quelle est prcisment sa signification ? 2. On compte parmi les femmes de lchantillon, 40% demploi non qualifis. Construire le tableau des effectifs observs croisant les deux caractres. 3. Y a t-il une relation entre les deux caractres (risque de 5%) ?
Corrig
1. Tableau des effectifs thoriques Hommes Emploi Qualifi Emploi Non Qualifi Total 210 = 350 x300 /500 90 300 Femmes 140 60 200 Total 350 150 500
Ce tableau correspond une situation dtude dans laquelle les deux variables sont
statistiquement indpendantes, cest dire que la distribution des emplois ne daux profils marginaux moyens.
pend pas du sexe. On peut vrifier que les profils lignes (ou colonnes) sont gaux 2. Tableau des effectifs observs Hommes Emploi Qualifi Emploi Non Qualifi Total 3. Test du 230 70 300 Femmes 120 80 = 200 x 40/100 200 Total 350 150 500
H1 : Il y a une liaison entre les variables statut de lemploi et sexe Soumettons H0 lpreuve des faits
(230 210) 2 (120 140) 2 (70 90) 2 (80 60) 2 = 15,87 + + + 210 140 90 60
3,84. Cest dire quil ny a que 5 chances sur 100 pour que la statistique du
lhypothse avec un risque de 5% que les femmes dans la population considre, occupent, moins souvent que les hommes, des emplois qualifis (120 femmes en emploi qualifi contre 140 thoriquement (on dit aussi en moyenne) ou 230 hommes en emploi qualifi contre 210 en moyenne.
Dpartements Calvados
Garons 1 894
Filles 643
8 7007 TG WB 00
Laxe horizontal (axe des x) est gradu selon les valeurs de X : effectifs garons des
8 7007 TG WB 00
Rpartition des effectifs des apprenties en fonction des effectifs des apprentis
1600
1400 1200 1000 800 600 400 200 0 0 1000 2000 3000 4000 5000
Dans ce graphique, chaque dpartement est reprsent par un point admettant pour coordonnes les valeurs des deux variables X et Y. Ainsi, on peut remarquer que plus leffectif des apprentis (garons) est important, plus celui des apprenties (filles) lest galement. Dans certaines tudes statistiques, linterprtation peut dgager une relation de cause effet mais il faut beaucoup de prudence. Cette relation causale ne peut en aucun cas tre immdiatement dduite du graphique ou du modle mis en vidence. La connaissance approfondie du domaine tudi est requise pour conclure. Dans ce cas, la variable cause est la variable dite explicative . La variable causal . effet est la variable dite expliquer et lanalyse du phnomne est de type Dans notre exemple seul laspect explicatif est retenu. Modle explicatif et Ajustement linaire Dans le graphique du nuage de points, on cherche savoir si les points semblent du nuage. La courbe la plus simple est la droite. Il est possible de faire appel des sorganiser autour dune courbe mathmatique connu donnant la tendance gnrale logiciels statistiques ou graphiques pour la tracer, condition de donner le critre
8 7007 TG WB 00
dajustement. Avant de prciser la mthode dajustement retenu, il est utile de dfinir une mesure de liaison entre deux variables quantitatives, savoir la covariance. Covariance entre deux variables quantitatives La covariance est un indicateur de co-variation entre deux sries numriques X et Y. la moyenne du carr des carts la moyenne. La covariance est dfinie comme la moyenne du produit des carts la moyenne. On peut alors calculer cette covariance de la manire suivante : Rappelons-nous que la variance dune variable statistique X peut sexprimer comme
cov( X , Y ) =
(x
i
m x )( y i m y ) n
cov( X , Y ) =
x .y
i i
mx m y
Cette expression 3 sinterprte comme tant : la moyenne des produits moins le produit des moyennes La covariance augmente lorsque les deux carts relatifs un mme individu sont de mme signe ; elle diminue sinon. La covariance est dautant plus leve quil y a beaucoup de couples de points dont les carts aux moyennes sont de mme signe. sures les variables X et Y. Ajustement linaire par la mthode des moindres carrs La mthode des moindres carrs permet de dterminer lquation de la droite dajustement reliant les valeurs de X yi = a xi + b + ei des points. Si a et b sont connus, le rsidu ei est donc lcart entre la valeur observe et la valeur prdite de lajustement par une droite (ajustement linaire) ei = yi - (axi + b) o ei est une valeur rsiduelle non prvisible mais nulle en moyenne, sur lensemble aux valeurs de Y. On suppose quil existe deux nombres a et b tels que chaque valeur yi peut scrire sous la forme
Mais la valeur de la covariance dpend galement des units dans lesquels sont me-
Lorsque les donnes sont pondres, on utilise le coefficient de pondration ni/n comme dans le cas du calcul de la moyenne et de lcart-type dune variable mais ici, on considre que chaque couple de points est associ un coefficient de pondration gal 1/n.
8 7007 TG WB 00
Si lon trace la droite dquation y = ax + b, les carts ou rsidus sont reprsents par la valeur algbrique des segments de droite verticaux dabscisse xi Pour dterminer la droite des moindres carrs, on retient le critre suivant : Problme pos : Existe-t-il une droite qui rende minimum la somme des carrs des rsidus ? Cest dire : minimiser
ei =
Mathmatiquement, on montre qu'il existe une seule droite appele droite de rblme pos. vantes.
gression linaire de y en x par la mthode des moindres carrs, rpondant au proOn admettra que : Les coefficients a et b se calculent l'aide des formules sui-
a=
Cov ( X , Y ) et b = m y am x Var ( X )
Rpartition des effectifs des apprenties en fonction des effectifs des apprentis
1600
1400 1200 1000 800 600 400 200 0 0 1000 2000 3000 4000 5000
Qualit de lajustement et coefficient de corrlation linaire (coefficient de BravaisPearson) Les calculs prcdents permettent toujours de dfinir une droite dajustement linaire quelle que soit la forme du nuage de points, mme si lajustement ne se juscoefficient de corrlation linaire not r. Il est dfini par : r = On peut montrer que : -1<= r <= 1 Le coefficient de corrlation linaire est un nombre sans unit ; il permet, contrairement la covariance, de saffranchir des problmes dunit de mesure. Les proprits du coefficient de corrlation linaire sont donnes ci-aprs : rement. Le nuage de points na pas de direction privilgie. Si r est positif, la droite dajustement a une pente positive, ou croissante. Les variables X et Y varient dans le mme sens. Si r est ngatif, la droite dajustement a une pente ngative, ou dcroissante. Les variables X et Y varient dans le mme contraire. points sont aligns sur une droite. Remarque : la droite de rgression passe par le point moyen de coordonnes Dans les cas particuliers o r = -1 ou r = 1, la liaison linaire est parfait et tous les Si r est nul ou proche de zro, les deux variables tudies sont non corrles linaitifie pas. On mesure donc la qualit dun ajustement par un coefficient appel
cov( X , Y )) . ( X ). (Y )
mx , m y
5C. Traitement des donnes
Covariance entre deux variables quantitatives En reprenant le tableau prcdent relatif aux 7 premiers couples de points, on peut nire suivante (calcul raliss avec Excel) : Dpartements Calvados Eure Manche Oise Orne Garons xi 1 894 1 933 1 873 1 664 1 260 Filles yi 643 643 873 428 398 Produit xi yi 1 217 842 1 242 919 1 635 129 712 192 501 480 calculer la covariance des deux variables X et Y. Les calculs se prsentent de la ma-
8 7007 TG WB 00
Ajustement linaire par la mthode des moindres carrs Dans notre exemple, vante y = 0,31x + 50,89
Var(X) = 1014306,78 ; a =
Les lments de calcul figurent dans le tableau ci-dessous (on pourra raliser ces calculs avec une calculette programmable) 4 : Dpartements Calvados Eure Manche Oise Orne Seine Maritime Somme Totaux Garons 1 894 1 933 1 873 1 664 1 260 4 480 1 451 14 555 Filles 643 643 873 428 398 1 455 541 4 981
xi2 3 587 236 3 736 489 3 508 129 2 768 896 1 587 600 20 070 400 2 105 401 37 364 151
Produit xi yi 1 217 842 1 242 919 1 635 129 712 192 501 480 6 518 400 784 991 12 612 953
y = 0,31x + 50,89
Tous ces calculs ne seront pas exigs le jours de lexamen, il faut tre en mesure de les comprendre et dobtenir les rsultats principaux (a,b, cov(X,Y)) partir de calculs intermdiaires (voir exercices).
8 7007 TG WB 00
Rpartition des effectifs des apprenties en fonction des effectifs des apprentis
1600
1400 1200 1000 800 600 400 200 0 0 1000 2000 3000 4000 5000
Qualit de lajustement et coefficient de corrlation linaire (coefficient de BravaisPearson) choisi. Dpartements Calvados Eure Manche Oise Orne Seine Maritime Somme Totaux Garons 1 894 1 933 1 873 1 664 1 260 4 480 1 451 14 555 Filles 643 643 873 428 398 1 455 541 4 981 xi2 3 587 236 3 736 489 3 508 129 2 768 896 1 587 600 20 070 400 2 105 401 37 364 151 yi2 413 449 413 449 762 129 183 184 158 404 2 117 025 292 681 4 340 321 Produit xi yi 1 217 842 1 242 919 1 635 129 712 192 501 480 6 518 400 784 991 12 612 953 On trouve r = 0,95, qui permet de justifier de la qualit de l'ajustement linaire
8 7007 TG WB 00
Exercice
On slectionne 12 personnes un stage de formation. Avant le dbut de la formation ces stagiaires subissent une preuve A note de 0 20 ; lissue de ce stage, une preuve B identique la premire est note de 0 20.
Stagiaires 1 2 3 4 5 6 7 8 9 10 11 12 Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4 Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19
1. Dessiner le nuage de points reprsentant les 12 couples de points. 2. Deux stagiaires se distinguent des autres. Avant dtudier la corrlation entre les 2 caractres statistiques, on limine de ltude ces deux candidats qui doivent tre tudis part. On ne garde donc que 10 stagiaires. Calculer alors les moyennes, variances, cart-types et la covariance des 2 caractres. 3. En dduire le coefficient de corrlation entre les deux sries et lquation de la droite de rgression ajustant au mieux le nuage de points. Tracer cette droite.
8 7007 TG WB 00
Corrig
1.
Nuage de points
20 15 10 5 0 0 2 4 6 8 X 10 12 14 16 Y
2. n=10 xi = 84 yi = 130 xi = 806 yi = 1790 xi yi = 1182 Lquation de la droite de rgression : Y= 0,9 X + 5,47. partir des rsultats rsums dans le tableau prcdent on vrifie par exemple que Cov (X,Y)= 9 r(X,Y) = 0,9 (valeur arrondie) a = 0,9 (valeur arrondie) b = 5,47 (valeur arrondie)
cov( X , Y ) =
1182 84 130 . =9 10 10 10
2 i
VarY =
y
i
m y = 179 132 = 10
2
8 7007 TG WB 00
VarX =
x
i
2 i
a=
b = 13 0 , 8964 * 8 , 4 = 5 , 47
r=
3.
8 7007 TG WB 00
Exercices de synthse
Exercice 1
Le terme DEFM ci-dessous dsigne les demandeurs demploi en fin de mois de la catgorie 1, cest--dire les personnes sans emploi, immdiatement disponibles, la recherche dun emploi dure dtermine temps plein . Une enqute sur les DEFM de Haute-Normandie a t effectue sur un chantillon de 1345 personnes de cette catgorie. Parmi les relevs effectus sur ces chmeurs, on ne retient ici que les trois critres concernant lge, le sexe et le lieu dhabitation selon le dpartement (Eure ou Seine-Maritime). Le dpouillement de cette enqute a permis dlaborer le tableau crois dordre 3 suivant : Infrieur 25 ans Hommes Seine-Maritime Eure Question 1 On ne sintresse quaux DEFM de la Seine-Maritime et on admet que lchantillon retenu est reprsentatif de lensemble des DEFM. Peut-on affirmer au vu de cet chantillon que les caractres ges et sexe sont indpendants ? Question 2 On sintresse aux femmes DEFM de la Seine-Maritime. Calculez la proportion dans lchantillon de celles qui ont moins de 25 ans. 102 66 Femmes 125 68 25 / 50 ans Hommes 220 146 Femmes 249 222 Suprieur 50 ans Hommes 46 34 Femmes 37 30
Exercice 2
Afin de mieux cerner la population lycenne, une tude quantitative est ralise auprs de 1000 jeunes. Parmi lensemble des questions poses, lune porte sur le temps de transport entre le domicile et ltablissement scolaire. Le tableau ci-dessous fournit la rpartition des temps consacrs au transport pour un chantillon de 150 lycens. Les temps sont exprims en minutes et ont t classs en cinq intervalles. Temps (en minutes) [0-15[ [15-25[ [25-35[ [35-55[ [55-80] Nombre de lycens 40 40 30 30 10
Question 1
8 7007 TG WB 00
Exercices
Caractrisez les lments de cette tude : population, chantillon, individus et variable. Question 2 Reprsentez cette distribution par un histogramme. Question 3 Calculez la moyenne et lcart type de cette distribution. Question 4 Dterminez la mdiane. Question 5 Que pouvez-vous dire des 32% de lycens qui mettent le moins de temps pour aller au lyce ?
Exercice 3
Un questionnaire a t soumis 132 tudiants ayant pass les preuves dvaluation du cours de mthodes quantitatives. 297 tudiants taient inscrits dans cette licence. 86 tudiants ont rendu le questionnaire. Voici un extrait du questionnaire : Q1. Situation professionnelle actuelle : -------------------------------------------------Q2. Votre activit professionnelle require-t-elle des connaissances en statistiques ? 1. Pas du tout 2. Rarement 3. Quelquefois 4. Souvent 5. Trs souvent 6. Toujours Q3. A lentre dans cette formation en licence, quvoquait pour vous la statistique ? ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Q4. Dure estime pour la ralisation du dossier de mthodologie qualitative : entre -------- et --------- heures.
Identifiez clairement les lments de cette tude statistique (population, chantillon, individus, variables).
8 7007 TG WB 00
Exercices
Exercice 4
Pour 10 lves, on relve le temps (en heures) pass regarder la tlvision et le temps (en heures) consacr la lecture. Elves 1 2 3 4 5 6 7 8 9 10 Tlvision 7 8 12 13 7 14 5 7 8 9 Lecture 5 3 2 1 8 1 9 7 3 1
Exercice 5
(Une enqute a t ralise auprs dun chantillon de 400 salaris dune entreprise. Dans un premier temps, on sintresse lanciennet que lon appellera X. La rpartition pour lchantillon est donne dans le tableau ci-dessous. Anciennet [0-4[ [4-6[ [6-8[ [8-10[ [10-14] Question 1 Compltez le tableau et reprsentez lhistogramme de cette distribution Question 2 Dterminez lanciennet moyenne, lanciennet mdiane. Comparez vos rsultats. Question 3 Dterminez lcart-type et la variance. 120 80 Effectifs Frquences en % 15 20
8 7007 TG WB 00
Exercices
Question 4 Quelle est la proportion de salaris dont lanciennet est suprieure 5 ans ? Question 5 En supposant que lchantillon soit reprsentatif, dterminez lintervalle de confiance correspondant, avec un seuil de confiance de 95% (cest--dire un risque de 5%).
Exercice 6
On extrait par un tirage au hasard 100 individus de la population. On constate que sur ces 100 sujets, 15 sont atteints dune maladie M. Donner une estimation ponctuelle. Donner un intervalle de confiance avec un niveau de confiance de 95%.
Exercice 7
Soit un chantillon de 250 individus, extrait dune population de 5000 lycens. Lenqute porte sur les performances en saut en hauteur, mesures en cm. Hauteur du saut [95 ;105[ [105 ;110[ [110 ; 115[ [115 ; 120[ [120 ; 125[ [125 ; 135] 20 40 80 60 30 20 250 Estimez ponctuellement la hauteur moyenne du saut, la variance et lcart-type. Estimez la hauteur moyenne du saut sur la population par une fourchette, avec un niveau de confiance de 95%. Effectifs
8 7007 TG WB 00
Exercices
Annexe : Table des distributions de frquences des variables du Khi-deux de ddl = 1 24.
= 0,01 ddl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 6,6349 9,2104 11,3449 13,2767 15,0863 16,8119 18,4753 20,0902 21,6660 23,2093 24,7250 26,2170 27,6882 29,1412 30,5780 31,9999 33,4087 34,8052 36,1908 37,5663 38,9322 40,2894 41,6383 42,9798
= 0,05 3,8415 5,9915 7,8147 9,4877 11,0705 12,5916 14,0671 15,5073 16,9190 18,3070 19,6752 21,0261 22,3620 23,6848 24,9958 26,2962 27,5871 28,8693 30,1435 31,4104 32,6706 33,9245 35,1725 36,4150
= 0,10 2,7055 4,6052 6,2514 7,7794 9,2363 10,6446 12,0170 13,3616 14,6837 15,9872 17,2750 18,5493 19,8119 21,0641 22,3071 23,5418 24,7690 25,9894 27,2036 28,4120 29,6151 30,8133 32,0069 33,1962
8 7007 TG WB 00
Corrig 1
Rponse 1 Il sagit de faire un test du Khi, en tablissant 4 tapes. tape 1 : Formulation des hypothses H0 : Il ny a pas de diffrence entre la rpartition des effectifs observs et la rpartition des effectifs thoriques, cest--dire que les variables sexes et ges sont indpendantes. H1 : Il y a une diffrence entre la rpartition des effectifs observs et la rpartition des effectifs thoriques, cest--dire que les variables sexes et ges sont dpendantes. tape 2 : Calcul du Khi et du nombre de degr de libert Commenons par le calcul les marges : Infrieur 25 ans Hommes Femmes Total 102 125 227 25 / 50 ans 220 249 469 Suprieur 50 ans 46 37 83 Total 368 411 779
Puis, calculons les valeurs thoriques : Infrieur 25 ans Hommes Femmes Total 107,23 119,77 227 25 / 50 ans 221,56 247,44 469 Suprieur 50 ans 39,21 43,79 83 Total 368 411 779
Enfin, calculons les carts entre les effectifs observs et les effectifs thoriques : Infrieur 25 ans Hommes Femmes - 5,23 5,23 25 / 50 ans - 1,56 1,56 Suprieur 50 ans -6,79 - 6,79
5,23 1,56 6,79 5,23 1,56 6,79 + + + + + = 2,734 107,23 221,56 39,21 119,77 247,44 43,79
Le nombre de degrs de libert est : ddl = (2 1) (3 1) = 2 tape 3 : Lecture du Khi thorique pour un risque donn Avec un seuil de 0.05, le Khi thorique = 5.991 (lecture dans la table)
8 7007 TG WB 00
Corrigs
tape 4 : Dcision statistique Khi calcul < Khi thorique : On conserve H0, ce qui signifie que les caractres sexes et ges sont indpendants. Dit autrement, il ny a pas de lien entre le sexe et lge des chmeurs. Les carts de rpartition entre les chmeurs selon leur sexe et leur ge ne sont pas significativement diffrents. Rponse 2 On ne retient que les femmes de la Seine-Maritime : Infrieur 25 ans Femmes Frquences 125 0,3041 25 / 50 ans 249 0,6058 Suprieur 50 ans 37 0,0900 Total 411 1
Corrig 2
Rponse 1 La population est compose de 1000 lycens, parmi lesquels on extrait un chantillon de 150 lycens. Un individu correspond un lycen. Il sagit dune variable quantitative continue. Rponse 2 Les amplitudes de classes ne sont pas constantes : il est donc ncessaire de calculer les densits de frquence ou deffectif. Temps [0-15[ [15-25[ [25-35[ [35-55[ [55-80] Effectifs 40 40 30 30 10 150 Centres de classe 7,5 20 30 45 67,5 Amplitudes 15 10 10 20 25 Frquences 0,2667 0,2667 0,2000 0,2000 0,0667 1 Densits de frquence 0,0178 0,0267 0,0200 0,0100 0,0027 Densits de frquence en % 1,78 2,67 2 1 0,27
8 7007 TG WB 00
Corrigs
0,025
Densit de frquence
0,02
0,015
0,01
0,005
0
15 25 35 55 80
Minutes
Rponse 3 Temps [0-15[ [15-25[ [25-35[ [35-55[ [55-80] Effectifs 40 40 30 30 10 150 Centres de classe 7,5 20 30 45 67,5
nk ck ci ni
2 250 16 000 27 000 60 750 45 562,5 Somme : 151 562,5 Variance : 290,39 cart-type : 17,04
8 7007 TG WB 00
Corrigs
Rponse 4 Temps [0-15[ [15-25[ [25-35[ [35-55[ [55-80] Effectifs 40 40 30 30 10 150 Effectifs cumuls 40 80 110 140 150
n = 75 et le 1er effectif cumul croissant suprieur 75 est leffectif cumul 80 ; celui-ci cor2
respond la classe [15-25[.
Q 2 = 15 +
Il y a 50% des lycens qui consacrent moins de 23 minutes et 45 secondes au transport et 50% des lycens qui consacrent plus de 23 minutes et 45 secondes au transport. Rponse 5 Nous pouvons procder de la mme manire que pour le calcul des quartiles : 32% de lycens correspond 48 lycens. Le 1er effectif cumul croissant suprieur 48 est leffectif cumul 80 ; celui-ci correspond la classe [15-25[.
C 32 = 15 +
10 ( 48 40) = 17 40
Les 32% de lycens qui mettent le moins de temps pour aller au lyce mettent un temps infrieur ou gal 17 minutes.
Corrig 3
La population est compose de 297 tudiants. On extrait un chantillon de 132 tudiants. Un individu correspond un tudiant en situation dvaluation. Q1 est une variable qualitative nominale. Q2 est une variable qualitative ordinale Q3 est une variable qualitative textuelle Q4 est une variable quantitative continue
Corrig 4
Il sagit de savoir si les deux variables tudies varient ou non en sens contraire. Pour cela, il est ncessaire de calculer la covariance et le coefficient de corrlation linaire (on pourra au pralable reprsenter le nuage de points).
8 7007 TG WB 00
Corrigs
Elves 1 2 3 4 5 6 7 8 9 10
Tl x i 7 8 12 13 7 14 5 7 8 9 Somme : 90 Moyenne : 9
( x i - x ) 4 1 9 16 4 25 16 4 1 0
( y i - y ) 1 1 4 9 16 9 25 9 1 9
xi y i
35 24 24 13 56 14 45 49 24 9 Somme : 293
x y
i
mx m y =
293 9 4 = 6,7 10
a=
b = m y am x = 4 ( 0,838 9) = 11,542
y = 0,838 x + 11,542
Le coefficient de corrlation linaire est : r=
r=
Cov( X , Y )
XY
8 7007 TG WB 00
Corrigs
Corrig 5
Rponse 1 Les amplitudes de classes ntant pas constantes, il est ncessaire de calculer les densits de frquence (ou deffectif) avant de construire un histogramme. Anciennet [0-4[ [4-6[ [6-8[ [8-10[ [10-14] Effectifs 60 80 120 80 60 400 Frquences en % 15 20 30 20 15 100 Amplitudes 4 2 2 2 4 Densits de frquences en % 3,75 10 15 10 3,75
12 10 8 6 4 2 0
0 4 6 8 Annes 10 14
8 7007 TG WB 00
Corrigs
Rponse 2 Anciennet [0-4[ [4-6[ [6-8[ [8-10[ [10-14] 400 Effectifs 60 80 120 80 60 Centres de classe 2 5 7 9 12 nk ck 120 400 840 720 720 Somme : 2800 Moyenne : 7 Effectifs cumuls 60 140 260 340 400 Somme : 3640 Variance : 9,1 Ecart-type : 3,02 Lanciennet moyenne est de 7 ans. nk (ck m) 1500 320 0 320 1500
n = 200 si bien que la mdiane appartient la classe [6-8[. 2 Q2 = 6 + 2 ( 200 140) = 7 . 120
Lanciennet mdiane est de 7 ans, ce qui signifie que 50% des salaris ont une anciennet infrieure 7 ans et 50% des salaris ont une anciennet suprieure 7 ans. Les valeurs de la moyenne et de la mdiane sont identiques. Rponse 3 Les calculs de la variance et de lcart-type sont indiqus dans le tableau prcdent. Rponse 4 La
proportion
de
salaris
dont
lanciennet
est
suprieure
ans
est :
Rponse 5 Nous connaissons la taille de lchantillon (400) et la proportion de salaris dont lanciennet est suprieure 5 ans (75%). Lestimation ponctuelle de p est donc 0,75. Avec un niveau de confiance de 95%, on peut calculer lintervalle de confiance de la manire suivante :
8 7007 TG WB 00
Corrigs
Corrig 6
Nous connaissons la taille de lchantillon (100) et la proportion dindividus atteints dune maladie (15%). Lestimation ponctuelle de p est donc 0,15. Avec un niveau de confiance de 95%, on peut calculer lintervalle de confiance de la manire suivante :
Corrig 7
Hauteur du saut [95 ;105[ [105 ;110[ [110 ; 115[ [115 ; 120[ [120 ; 125[ [125 ; 135] Somme : 250 Effectifs 20 40 80 60 30 20 Centres de classe 100 107,5 112,5 117,5 122,5 130 nk ck 2000 4300 9000 7050 3675 2600 Somme : 28625 Moyenne : 114,5 Somme : 13750 Variance : 55 Ecart-type : 7,42 Lestimation ponctuelle de la hauteur moyenne du saut est 114,5 cm. La variance corrige est : s = Lcart-type corrig est : s = Pour un niveau de nk (ck m) 4205 1960 320 540 1920 4805
confiance
de
95%,
lerreur
dchantillonnage
vaut :
s 7,43 2 = 2 = 0,94 25 0 n
Il y a donc 95 chances sur 100 pour que la hauteur moyenne du saut soit comprise entre (114,5-0,94) et (114,5+0,94), cest--dire entre 113,56 cm et 115,44 cm.
8 7007 TG WB 00