7589 Chap01 PDF

Partie I – Statistique descriptive
Chapitre 1
Présenter pour informer
Objectifs
• Découvrir les enjeux de la statistique et la démarche du statisticien
• Se familiariser avec les concepts de base
• Mesurer l’importance du travail de présentation des données
Les grandes lignes

1. Réaliser une étude statistique
2. Communiquer : le vocabulaire du statisticien
3. Communiquer : la présentation des données
4. Observer une population ou observer un échantillon ?
© 2013 Pearson France – Statistique pour économistes et gestionnaires, 3e éd. – Brigitte Tribout
9782744075896.indb 3 22/07/13 16:42

4 Partie I – Statistique descriptive
arrêt au stand
Défi
Emerson Fittipaldi a détenu le record du plus jeune champion du monde de Formule 1

(25 ans et 274 jours) de 1972 à 2005, année où il fut détrôné par Fernando Alonso
(24 ans et 59 jours). Depuis, ce record a été battu deux fois : le pilote britannique
Lewis Hamilton fut sacré en 2008 à 23 ans et 301 jours, et l’Allemand Sebastian Vettel,
remporta le titre en 2010 à seulement 23 ans et 135 jours.
Ces champions très précoces sont entourés d’équipes chevronnées. En effet, les facteurs
de succès en F1 sont très nombreux : moteur, châssis, aérodynamisme, pneumatiques,
etc., mais aussi, bien sûr, pilotage et stratégie de course. Un des éléments importants
de la stratégie de course est la gestion des arrêts au stand. Les pit stops pour le ravitail-
lement en essence sont en général décidés avant la course, en fonction du circuit et des
positions sur la grille de départ obtenues lors des qualifications. Pour les changements
de pneumatiques, le pilote et l’équipe doivent s’adapter aux conditions météorologiques
qui peuvent être très changeantes. Lors d’un grand prix de Belgique, Ralf Schumacher
a démarré avec des pneus pluie, a fait monter des pneus rainurés adaptés à une piste
sèche au 24e tour, pour remettre des pneus pluie au 25e tour. Quelles que soient les
décisions prises, l’opération de changement de pneumatiques, toujours spectaculaire,
se doit d’être extrêmement rapide.
Une écurie dispose de deux équipes (A et B) de techniciens chargés du changement de
pneumatiques. Cette écurie décide d’utiliser l’intersaison pour effectuer des essais. Ainsi,
chaque équipe a répété 100 fois l’opération de changement de pneumatiques et a été
chronométrée entre le moment où la voiture s’immobilise au stand et celui où elle repart.
Les tableaux 1.1 et 1.2 donnent les temps réalisés pour cette opération par l’équipe A et
l’équipe B.
L’objectif pour l’écurie est d’analyser et de comparer ces performances, réalisées à l’entraî-
nement, pour définir une stratégie de choix d’équipe (A ou B) en course.
Tableau 1.1 Temps en secondes réalisés lors des 100 essais de l’équipe A
6,80 7,99 6,09 6,69 3,70 7,59 4,63 6,15 7,89 8,07 5,92 7,98 7,65 5,76 8,63
6,68 5,78 9,27 6,27 9,36 6,25 6,21 9,16 6,12 6,80 8,75 6,94 5,44 5,93 6,14
7,53 6,62 7,87 5,00 5,69 5,60 4,93 4,90 7,72 8,28 8,78 7,61 8,11 9,23 5,98
8,13 5,97 7,34 6,15 6,97 7,81 8,28 4,72 6,09 6,17 6,28 7,22 4,37 6,06 6,59
7,60 5,39 8,42 6,44 5,94 8,42 5,39 5,77 7,91 6,18 6,58 7,14 7,94 9,22 6,68
6,71 6,03 7,11 4,93 4,96 6,35 7,30 6,81 9,92 9,67 8,50 5,59 7,22 6,99 7,77
6,26 7,31 6,92 7,96 7,88 9,67 6,13 8,83 5,49 5,45
9782744075896.indb 4 22/07/13 16:42

Chapitre 1 – Présenter pour informer 5
Tableau 1.2 Temps en secondes réalisés lors des 100 essais de l’équipe B
Défi
7,83 7,51 6,32 7,42 7,02 7,78 6,97 7,24 7,29 7,19 7,10 6,80 6,92 7,79 7,21
8,12 7,63 6,72 7,95 7,37 8,05 7,35 8,36 7,85 7,05 7,69 7,86 6,67 7,97 7,71
8,36 7,04 7,02 6,83 8,22 8,06 8,19 7,96 7,31 7,10 7,18 7,90 8,03 7,48 7,45
7,61 6,81 7,69 6,93 7,96 7,95 8,36 7,56 6,89 7,91 6,74 6,42 7,44 7,38 8,17
7,57 6,93 7,51 7,79 7,87 6,93 8,07 8,22 7,92 7,70 6,80 7,14 6,72 7,25 7,79
8,01 7,14 6,79 7,47 7,14 7,76 7,85 8,03 7,74 7,21 6,67 7,64 7,27 6,97 7,40
7,24 7,72 7,57 7,49 7,98 8,26 7,64 7,95 7,38 7,67
Le processus de décision de choix d’une équipe doit ainsi être éclairé par la présenta-
tion des données figurant dans ces deux tableaux.
Pour relever le défi

1. Modélisez le déroulement de cette étude en explicitant les étapes de la figure 1.1
ci-après.
2. Représentez graphiquement les données des tableaux 1.1 et 1.2 afin de mettre en
évidence la variabilité des performances des deux équipes dans le but d’élaborer
une stratégie de choix d’équipe en course. Quelle est votre stratégie ? ■
Les grandes lignes

Une étude statistique naît d’un besoin d’information pour alimenter un processus de
décision. Les exemples sont innombrables :
• identifier les populations à risque afin d’optimiser une campagne de prévention,
• connaître l’évolution démographique pour décider des modalités du système de retraite,
• prévoir la répartition de la population afin de planifier les futurs quotas de médecins,
• localiser des clients ou des prospects dans le but d’optimiser la ventilation des forces
de ventes,
• etc.
Ce chapitre commence par la description des étapes à suivre pour mener une étude statis-
tique. Le vocabulaire technique afférent aux concepts de base de la statistique est ensuite
développé. Après quelques conseils généraux relatifs à la présentation des données, la
dernière section s’attache à expliciter rapidement le déroulement général de l’ouvrage en
fonction des grandes problématiques traitées.
9782744075896.indb 5 22/07/13 16:42

1. réaliser une étude statistique

Une étude statistique comprend six étapes (figure 1.1), dont les grandes lignes sont
décrites ci-après.
Figure 1.1 Les six grandes étapes d’une étude statistique.
Choix de
Quel type Choix des
la méthode
Campagne Traitement Prise
(présentation,
de données de recueil de de
résumé, etc.)
problématique ? à observer des données mesures des données décision
Tous les choix sont guidés

par le type de problématique
1.1 Quel type de problématique ?

La statistique est un outil d’aide à la décision. Une étude statistique n’a de chances d’être
utile qu’à condition de commencer par cette question : « Quel type de problématique
intéresse le commanditaire de l’étude ? »
Supposons, pour éclairer ce point, qu’un stagiaire soit chargé par le directeur d’un
hypermarché de mettre en place et de traiter dans son intégralité une enquête de satis-
faction auprès de la clientèle. Ainsi formulée la consigne (d’une enquête de satisfaction)
est beaucoup trop vague. Pour avoir une chance d’obtenir des résultats opérationnels, le
stagiaire doit interviewer le directeur. Envisage-t-il :
• de transformer la configuration générale du magasin,
• de modifier la mise en place des produits dans les rayons,
• d’améliorer l’affichage des informations relatives aux produits,
• de mieux répondre aux attentes des clients en termes de choix des produits, de conseil,
de prix, d’horaires, de temps d’attente, etc. ?
9782744075896.indb 6 22/07/13 16:42

1.2 Choix des données à observer

Les réponses doivent être suffisamment précises pour que le stagiaire puisse établir la liste
des variables statistiques sur lesquelles va reposer l’étude. Une variable statistique associe
par exemple à un client son degré de satisfaction sur le choix proposé au rayon boucherie.
Une fois identifié l’objet de l’étude (étudier quoi ?), il faut définir sur quels individus
ou unités statistiques les observations vont être réalisées (étudier qui ?). Un sociologue
qui s’intéresse aux méthodes de recherche d’emploi doit-il interroger des chômeurs, le
personnel de Pôle emploi, des sociétés d’intérim, des associations d’aide à la réinsertion
comme les Missions locales ? Quel que soit son choix, la population concernée (le champ
de l’étude dans le vocabulaire de l’INSEE1) doit être clairement délimitée.
La taille de la population est parfois connue, mais le plus souvent, elle ne l’est pas. Obtenir
une estimation fiable de cette taille est l’une des raisons qui poussent à réaliser des études
de marché.
1.3 Choix de la méthode de recueil des données

Cette étape répond à la question « Comment ? ». Plus précisément, comment recueillir
les données ?
Les cinq principales méthodes de recueil des données sont présentées à la figure 1.2.
Figure 1.2 Les cinq principales méthodes de recueil des données.
Réunion
de groupe
Expérimentation Observation
Données Obtention
de seconde des Enquête
main données
expérimentation
Comme son nom l’indique, l’expérimentation suppose de pouvoir réaliser des expériences,
c’est-à-dire de faire varier un paramètre (la variable de contrôle) et d’observer l’impact de
cette variation sur une autre grandeur (la variable de réponse).
1. Institut national de la statistique et des études économiques.
9782744075896.indb 7 22/07/13 16:42

Ainsi, afin de mettre en évidence l’efficacité d’un nouvel engrais, un laboratoire d’agro-
nomie a la possibilité de faire varier la quantité d’engrais sur une vingtaine de parcelles
et de mesurer le rendement obtenu. Dans cet exemple, la population est composée de 20
parcelles. Pour chacune d’elles, deux variables sont relevées : la quantité d’engrais, qui est
la variable de contrôle, et le rendement, qui est la variable de réponse. De telles situations
sont traitées aux chapitres 4 et 11.
Observation1
Au sens propre du terme, l’observation est la méthode qui consiste par exemple à filmer
les clients d’une librairie. L’objectif est d’identifier d’éventuelles différences de compor-
tements entre ceux qui terminent leur visite par un achat et ceux qui quittent la boutique
les mains vides. Cette technique d’étude est riche d’enseignements, mais ne relève pas à
proprement parler de la statistique. Les observations qui relèvent de la statistique sont des
observations structurées (via des grilles d’observation) ou automatisées (via des compteurs).
réunion de groupe
Elle consiste à réunir les individus pour les interroger. Par nature, cette méthode est
plutôt destinée à recueillir des données qualitatives : des impressions, des sentiments,
des envies, etc. Cette technique est également utilisée pour déterminer les questions qui
doivent apparaître dans un questionnaire, ou bien pour tester la compréhension d’un
questionnaire avant son lancement grandeur nature.
Données de seconde main

Ce sont les données que le chargé d’études ne recueille pas lui-même, mais qu’il récupère
à partir de sources existantes. De telles données, appelées également données secondaires2,
méritent une attention particulière. En effet, afficher la source des données numériques
de seconde main est important à plusieurs titres :
• Raisons déontologiques. Récolter et saisir des données est un travail, et les auteurs de
ce travail méritent d’être cités.
• Raisons juridiques. Les droits de copie (copyright) sont réglementés.
• Vérification des sources. L’utilisateur doit pouvoir remonter à la source pour vérifier
l’absence d’erreur de saisie ou de modification volontaire des données. La vigilance s’im-
pose particulièrement lorsque les données sont récupérées sur un réseau tel qu’Internet.
• Obtention de compléments d’informations. Certains travaux demandent d’accéder
non seulement au document d’origine, mais également à son auteur afin de pouvoir
contrôler la pertinence des données par rapport aux besoins de la nouvelle étude.
enquête
L’enquête est certainement la méthode de collecte de données la plus connue et la plus
courante. Elle demande :
• d’élaborer un questionnaire,
• de choisir son mode d’administration (support utilisé pour transmettre le question-
naire et le faire remplir).
1. Le terme d’observation est aussi utilisé par certains auteurs pour désigner la réalisation d’une variable aléatoire
réelle.
2. A contrario, les données recueillies par le chargé d’études s’appellent des données primaires.
9782744075896.indb 8 22/07/13 16:42

Certains ouvrages1 sont consacrés à la construction de questionnaires. Ils détaillent en

particulier les types de questions (fermées, ouvertes) et les différentes échelles de mesure
associées : dichotomiques (oui, non), à choix multiple (lundi, mardi, etc.), échelle de Likert
(pas du tout d’accord, plutôt pas d’accord, etc.), échelle numérique (0, 1, 2, etc.), etc.
La formulation des questions cherche en premier lieu à éviter les erreurs liées à une
mauvaise compréhension du répondant. Les questions qui touchent à des sujets tabous
ou indiscrets sont délicates à formuler. Pour limiter les erreurs, un procédé consiste à se
mettre, dans un premier temps, à la place du répondant : « Franchement, si cette question
m’était posée, est-ce que je la comprendrais ? Est-ce que j’accepterais d’y répondre ? »
Dans un second temps, lorsque le questionnaire est débarrassé de ses plus gros défauts,
l’organisation d’une réunion de groupe permet de le soumettre à un échantillon d’indi-
vidus qui le testent.
L’élaboration d’un questionnaire pertinent requiert un minimum de psychologie, de bon
sens et de pratique. Toutefois, même s’il est élaboré dans les règles de l’art, les surprises
sont souvent au rendez-vous, comme l’illustrent les multiples réponses à la question
« Comment ça va ? » qu’a imaginées Umberto Eco :
Comment répondre à la question « Comment ça va ? »

Icare : « Je me suis planté. » Proserpine : « Je suis au trente-sixième dessous. » Thésée :
« J’ai un fil à la patte. » Œdipe : « La question est complexe. » Pythagore : « Tout
est d’équerre. » Hippocrate : « Tant qu’on a la santé... » Socrate : « Je ne sais pas. »
Pascal : « Et vous ? Bien, je parie. » Galilée : « Ça tourne rond. » Torricelli : « J’ai des
hauts et des bas. » Vivaldi : « Ça dépend des saisons. » Newton : « Votre question
tombe à pic ! » Larousse : « En un mot comme en cent, mal. » Marie Curie : « Je
suis radieuse. » Dracula : « J’ai de la veine. » Boole : « Soit bien soit mal. » Cantor :
« Dans l’ensemble, bien. » Picasso : « Ça dépend des périodes. » Lénine : « Que faire
en avril ? » Hitler : « J’ai peut-être trouvé la solution. » Sotheby : « Bien. Qui dit
mieux ? » Gallup : « Question insondable. » Freud : « Et vous ? » Popper : « Prouvez
que je vais mal. » Spielberg : « Vous avez un téléphone ? » Einstein : « Relativement
bien. » Barnard : « J’ai le cœur à l’ouvrage. »
Umberto Eco, Comment voyager avec un saumon, Le Livre de Poche, 2000, p. 208.
Le bon sens et des raisons financières orientent le choix du mode d’administration du

questionnaire. Le téléphone, la voie postale, l’entretien en face à face ou Internet présen-
tent tous des inconvénients et des avantages. Le contexte et ses contraintes permettent
d’arbitrer entre ces différents modes d’administration.
1.4 Campagne de mesures

C’est souvent la phase la plus coûteuse de l’étude notamment si elle nécessite de faire
appel à une équipe d’enquêteurs. Le niveau de formation et de motivation des enquêteurs
influence sensiblement la qualité des données relevées. Les économies effectuées à ce
niveau risquent, en définitive, de s’avérer coûteuses.
1. Consulter par exemple Naresh Malhotra adapté par Jean Marc Décaudin, Afifa Bouquerra, Denis Bories,
Études Marketing, Pearson Education, 6e éd. 2011.
9782744075896.indb 9 22/07/13 16:42

Quand recueillir les données ?

La question « Quand relever les données ? » influe elle aussi sur la qualité et la pertinence
des futurs résultats. Les enquêtes par téléphone ont lieu en général en dehors des heures
habituelles de travail pour trouver les personnes à leur domicile, au risque de les déranger.
Combien d’individus faut-il choisir ?

À l’issue de la seconde étape, les limites de la population à observer ont été posées. Il
reste à définir exactement combien d’individus vont être sollicités. L’idéal1 est souvent
d’interroger toute la population. Lorsque cela est impossible, les relevés de données sont
faits sur un échantillon. Plusieurs facteurs doivent alors être pris en compte : la durée et
le coût de la collecte mais aussi la précision souhaitée (chapitre 10).
Dans les exemples précédemment cités, les individus étaient des personnes. Ce n’est pas
toujours le cas, en particulier dans l’industrie où les contrôles de qualité sont effectués
sur des produits fabriqués. Les individus ou unités statistiques sont alors des textiles, des
composants électroniques, etc.
À la fin de la campagne de mesures, les données vierges de tout traitement sont dispo-
nibles. Ces données s’appellent des données brutes.
1.5 Traitement des données brutes

La matière première à partir de laquelle une enquête est exploitée est constituée essentiel-
lement de données numériques. Le produit à fabriquer est de l’information. Une question
doit guider tous les traitements :
Comment traiter les données pour en extraire de l’information utile à la prise de décision ?
Les traitements, non exclusifs les uns des autres, correspondent à six2 grandes probléma-
tiques présentées ci-après en même temps qu’une partie du plan de l’ouvrage :
Présenter pour informer (chapitre 1)

L’enjeu est primordial : présenter les données sous forme de tableaux et de graphiques,
de manière à faciliter la lecture et l’interprétation des données.
La situation idéale est celle où la seule présentation des données (sans modification ni perte de
données brutes) suffit à prendre des décisions.
résumer pour informer (chapitre 2)

Le résumé des données s’impose en général lorsque les données sont à la fois nombreuses
et variées. En 2012, par exemple, les trois fonctions publiques françaises (État, collectivités
territoriales, hôpitaux) employaient environ 5,3 millions d’agents. Les études sur les salaires
de ces agents publiées par l’INSEE ne présentent évidemment pas individuellement tous
ces salaires, mais des nombres-résumé (salaires moyens, salaires médians, etc.).
1. Ce n’est pas toujours l’idéal pour des populations de très grande taille.
2. Les deux derniers titres comportent deux problématiques.
9782744075896.indb 10 22/07/13 16:42

Par définition, le résumé des données entraîne une perte de données brutes. Cette perte doit se
faire au profit d’un gain d’information.
Comparer et mesurer l’évolution pour informer (chapitre 3)

Certaines décisions reposent sur une analyse comparative de plusieurs populations. Dans
ce cas, des indicateurs de comparaison comme les parts, les ratios, les écarts absolus et
relatifs sont construits.
Connaître l’évolution des ventes, savoir si le degré de satisfaction des clients s’améliore,
si le taux de chômage augmente, etc. sont autant de problèmes de mesure de l’évolution.
Les variations absolues, les variations relatives et les indices sont des indicateurs qui
permettent de quantifier numériquement l’évolution de tels phénomènes. Ce chapitre
traite également des séries chronologiques et des indices synthétiques. Les indicateurs de
comparaison et de mesure de l’évolution contribuent à alimenter le système d’information
qui nourrit la prise de décision.
Croiser et modéliser pour informer (chapitres 4 et 11)

Y a-t-il un lien entre le montant des dépenses publicitaires et le montant des ventes ?
Entre le type d’habitat et le niveau de délinquance ? Le croisement de variables et, dans
le meilleur des cas, la modélisation de ce croisement donnent des éléments d’information
qui permettent de répondre à la question du lien entre variables. Cette problématique
montre le plus directement en quoi le traitement statistique des données est un outil
d’aide à la décision.
Concernant les phases d’une étude statistique, l’idéal est de prévoir dès le début de la
préparation les types de traitement à appliquer aux données.
1.6 Prise de décision

Une méthode de présentation des résultats consiste à rédiger un rapport de synthèse réso-
lument orienté vers la prise de décision (levée des incertitudes et recommandations), ainsi
qu’un rapport détaillé exposant la totalité des résultats, des traitements et des méthodes
statistiques.
La conception des documents est guidée par le souci permanent de produire un outil
d’aide à la décision.
Quelles que soient la qualité et la pertinence de l’étude, in fine, les décisions sont toujours
d’ordre politique, au sens noble du terme. En effet, les décisions se prennent en général
dans le cadre de contraintes budgétaires (figure 1.3).
Le domaine de la santé publique offre des exemples probants. Les médecins sont capables
d’estimer la proportion de cancers du sein qui peuvent être diagnostiqués précocement
grâce à une mammographie. La décision de l’âge limite où un tel dépistage doit être
rendu, ou non, systématique appartient aux politiques. Ce dépistage a un coût et le rendre
obligatoire pour toutes les femmes a pour conséquence de ne pas allouer de moyens pour
prévenir d’autres risques.
Aucune étude ne produit directement de décision. La prise de décision est toujours d’ordre politique.
9782744075896.indb 11 22/07/13 16:42

Le processus de réalisation d’une étude conduit à faire un grand nombre de choix. La

plupart d’entre eux sont à la fois contextuels et dépendants. Ainsi une étude isolée ne répond
pas aux mêmes exigences qu’une étude amenée à être répétée (parfois appelée baromètre).
Figure 1.3 Aucune étude ne produit directement de décision.
Conclusions
de l’étude
Décision
politique
Contraintes
(budgétaires)
2. Communiquer : le vocabulaire du statisticien

La maîtrise du vocabulaire technique est indispensable à plusieurs titres :
• progresser dans l’acquisition des méthodes statistiques,
• échanger avec d’autres spécialistes,
• utiliser les logiciels de statistique (XLSTAT, SPHINX, SPSS, SPAAD, SAS, EXCEL, etc.).
Les sous-sections qui suivent sont consacrées aux principaux concepts de la statistique.
2.1 Population, individu, variable statistique et modalité

Sur le terrain, le chargé d’études observe des personnes, des pièces mécaniques, des
accidents de la route et relève des données. D’un point de vue conceptuel, les objets mathé-
matiques manipulés sont des ensembles, leur cardinal, les éléments de ces ensembles et
des applications. Toute la statistique repose sur les définitions ci-après.
Définition 1.1
1. L’ensemble étudié s’appelle une population (c’est un ensemble au sens mathématique
du terme).
2. Les éléments de la population s’appellent des individus ou unités statistiques.
3. Le nombre d’individus ou d’unités statistiques appartenant à la population est appelé
taille de la population ou effectif total.
4. Une variable statistique (ou un caractère) est une application qui, à chaque individu
de la population, associe une valeur (numérique ou non).
9782744075896.indb 12 22/07/13 16:42

5. Les valeurs que peut prendre une variable statistique s’appellent des modalités.
6. Le nombre d’individus qui présentent une modalité de la variable statistique est ap-
pelé effectif de cette modalité.
remarques
1. Une variable statistique (ou un caractère) est une application d’un ensemble dans un
autre. Le vocable de variable n’est pas pertinent, puisqu’il ne s’agit pas d’une variable
(c’est-à-dire l’argument d’une fonction) mais d’une application parfaitement définie.
L’utilisation du terme variable statistique est cependant, a priori, plus répandue que
celui de caractère.
2. Si, en mathématique, l’usage est plutôt d’appeler f, g ou h les applications, en statistique
celles-ci sont notées X, Y ou Z.
3. Traditionnellement, la population est notée Ω (oméga majuscule) et ses éléments sont
notés ω i (oméga minuscule).
4. L’ensemble des modalités est l’image de l’ensemble Ω par l’application X. Cet ensemble
se note X (Ω), comme f(I) désigne l’image d’un intervalle I par une application f.
5. La figure 1.4 représente une variable statistique X. Une telle figure s’appelle un dia-
gramme sagittal – du latin sagitta, qui signifie « flèche ». Par définition, une et une seule
flèche part de chaque ω i .
Figure 1.4 Diagramme sagittal d’une variable statistique.
Ensemble
Population des modalités
Variable X( )
1 statistique X
x1
2
x2
3
4
x3
5
6. Les termes individu et population sont issus des premiers travaux statistiques qui furent
des travaux de recensement (comptage des hommes d’une armée, d’une contrée, etc.).
Cependant un individu peut être également une entreprise, un logement, un jour ou-
vrable, etc.
Dans tout l’ouvrage, les variables statistiques sont notées en majuscules (X) et leurs modalités,
en minuscules (xi).
9782744075896.indb 13 22/07/13 16:42

exemple 1.1 reconnaître les concepts de base

Le ministère de l’Intérieur et la direction de l’Administration pénitentiaire dirigent tous
les ans une étude concernant les aspects de la criminalité et de la délinquance. Une partie
des résultats de cette étude est rendue publique ; ainsi, la répartition (ou distribution)
observée des crimes et délits en France en 2009 selon la catégorie de délits est présentée
dans le tableau 1.3.
Tableau 1.3 Crimes et délits constatés en 2009
Catégorie Nombre d’infractions

Vols (dont recels) 1 899 291
Infractions économiques et financières 380 395
Crimes et délits contre des personnes 430 633
Autres infractions (dont stupéfiants) 918 265
ensemble 3 628 584
Source : SDSE ; Direction de l’Administration pénitentiaire ; Tableaux économiques régionaux, INSEE.
Il s’agit d’identifier la population étudiée, sa taille, les unités statistiques ou individus, la

variable statistique, les modalités du caractère et l’effectif de la modalité « vols ».
La population étudiée est celle des crimes et délits constatés en France en 2009. L’unité
statistique (ou individu) est un crime ou un délit constaté. Cette population est étudiée
suivant la variable statistique « catégorie ». Le caractère « catégorie » distingue quatre
modalités :
• les vols, dont le recel (c’est-à-dire le stockage d’objets volés),
• les infractions économiques et financières,
• les crimes et délits contre les personnes, y compris les mauvais traitements et abandons
d’enfants,
• les autres infractions, dont le trafic et l’usage de stupéfiants.
La taille de la population, c’est-à-dire le nombre total de crimes et délits, est de 3 628 584.
La campagne de mesure cherche justement (entre autres) à recueillir cette donnée. L’effectif
de la modalité « vols » est de 1 899 291.
Un bon moyen de s’assurer que les réponses aux questions sont correctes est de modéliser
graphiquement la situation (figure 1.5). Un délit ne doit pas être comptabilisé plusieurs
fois, une seule modalité doit lui être associée. Par ailleurs, chaque délit doit avoir une
image, c’est le rôle de la modalité « autres infractions ». Au final, une et une seule flèche
part de chaque délit.
9782744075896.indb 14 22/07/13 16:42

Figure 1.5 Diagramme sagittal de la variable « catégorie ».
Ensemble
Population Variable
des modalités
Délit 1
statistique X :
Vols
X( )
« Catégorie »
Infractions
économiques
et financières
Délit k Crimes et délits
contre des personnes
Délit 3 628 584 Autres infractions
Ça va mieux en le disant
Qu’est-ce qu’une application ?
Les applications sont omniprésentes en statistique. Il est important de savoir ce qu'est
une application et de connaître ses modes de représentations.
Une application est un mécanisme d’association entre deux ensembles d’objets. Pour définir
une application, trois éléments doivent être décrits : l’ensemble de départ, l’ensemble d’arrivée
et le mécanisme d’association.
Trois types de représentation d’une application sont principalement utilisés : le diagramme

sagittal (déjà présenté), la représentation formelle et le diagramme cartésien.
• La représentation formelle décrit le mécanisme d’association par une formule mathé-
matique :
N→R
f
 y = x 2 + 3 − sin x
x →
Une telle représentation se comprend en connaissant les conventions de lecture sous-
jacentes. Ainsi, l’ensemble de départ est celui des entiers naturels et l’ensemble d’arrivée
est celui des nombres réels. La seconde ligne définit la transformation à opérer ; à x est
associé x 2 + 3 − sin x .
Dans un premier temps, dans une étude statistique, l’associé d’un individu n’est pas
connu par le résultat d’une formule. En effet, si c’était le cas, recueillir les données sur
le terrain serait inutile. Dans un second temps, si le phénomène étudié a été modélisé,
on pourra prévoir, par exemple, qu’avec 10 kg d’engrais à l’hectare sur une parcelle de
terrain, le rendement devrait être de 1 tonne par hectare (chapitres 4 et 11, les modèles
dits de régression linéaire).
• Le diagramme cartésien : pour trouver l’associé de x1 à la figure 1.6, il convient de suivre
la verticale jusqu’à la courbe, puis l’horizontale vers la gauche. Sur l’axe vertical, qui
symbolise l’ensemble d’arrivée, se trouve y1 l’associé recherché.
9782744075896.indb 15 22/07/13 16:42

Figure 1.6 Diagramme cartésien.
Ensemble d’arrivée
y1 Sens du mécanisme
d’association
x1 Ensemble de départ
2.2 Variables qualitatives et variables quantitatives

La classification habituelle distingue deux types et quatre sous-types de variables statis-
tiques. La distinction (figure 1.7) porte sur la nature des modalités du caractère.
Figure 1.7 Deux types et quatre sous-types de variables statistiques.
Variable
statistique
Qualitative Quantitative
Les modalités ne sont Les modalités
pas des nombres sont des nombres
Nominale Ordinale Discrète Continue

Pas de classement Classement possible La valeur des La valeur
possible des modalités des modalités modalités relève des modalités relève
suivant un ordre suivant un ordre d’un comptage d’une mesure
qui a du sens qui a du sens
1. Variable qualitative nominale. Les variables « sexe », « situation matrimoniale »

et « langue maternelle » sont qualitatives nominales. Les modalités d’une variable
qualitative nominale sont parfois codées numériquement, en affectant par exemple
la valeur 1 à la modalité « masculin » et la valeur 2 à la modalité « féminin ». Ce
codage ne transforme pas la nature de la variable, mais facilite la saisie des données.
Calculer la moyenne de masculin et féminin n’a évidemment pas de sens.
9782744075896.indb 16 22/07/13 16:42

2. Variable qualitative ordinale. C’est le cas, par exemple, d’une variable dont les
modalités sont : très bonne, bonne, plutôt bonne, etc. En effet, cela a du sens de
définir l’ordre1 selon lequel la modalité « très bonne » est supérieure à « bonne ».
3. Variable quantitative discrète. D’un point de vue théorique, une variable quan-
titative est discrète si l’ensemble de ses modalités est dénombrable2. D’un point de
vue opérationnel, une variable quantitative est discrète si la valeur de ses modalités
relève d’un comptage. Ainsi, on compte un « nombre d’enfants », un « nombre de
pièces d’un logement », etc.
4. Variable quantitative continue. Théoriquement, une variable quantitative est
continue si l’ensemble de ses modalités est non dénombrable, c’est-à-dire si la variable
peut prendre n’importe quelle valeur numérique dans un intervalle. Très souvent,
les modalités d’une variable continue sont obtenues en utilisant un instrument de
mesure (taille d’une personne, diamètre d’un cylindre, longueur d’un câble).3
L’identification du type d’une variable statistique n’est pas toujours fondamentale en revanche,
s’assurer, à chaque étape du traitement des données (graphiques, calculs de nombres-résumé3,
etc.), que le travail effectué a du sens est primordial.
2.3 Les premières étapes de la présentation des données

TP Excel 1 Les principales manières de présenter des séries de données portent un nom spécifique.
La signification des termes série brute, série classée, série ordonnée et distribution observée
est présentée ci-après à partir des résultats d’une mini-enquête.
Série brute
Définition 1.2
La série brute d’une variable statistique est la liste des données telles qu’elles ont été collec-
tées, c’est-à-dire vierges de tout traitement.
exemple 1.2 Une mini-enquête

Les 87 étudiants d’une promotion ont répondu aux deux questions suivantes :
• Quelle est votre langue maternelle ?
• Combien avez-vous de frères et sœurs ?
Les deux séries brutes correspondantes sont consignées dans les tableaux 1.4 et 1.5.
Tableau 1.4 Série brute de la variable statistique « langue maternelle »
Russe Vietnamien Dialecte africain
Français Dialecte africain Luxembourgeois Luxembourgeois
Bulgare Bulgare Français Arabe
Russe Roumain Français Arabe
1. Une relation d’ordre sur un ensemble est une relation réflexive, transitive et antisymétrique.
2. Un ensemble est dénombrable s’il est possible de construire une bijection entre cet ensemble et une partie de
l’ensemble  des entiers naturels.
3. Terme défini au chapitre 2.
9782744075896.indb 17 22/07/13 16:42

Français Turc Français Dialecte africain

Français Français Français Français
Français Français Arabe Luxembourgeois
Français Français Français Espagnol
Arabe Roumain Dialecte africain Français
Espagnol Portugais Français Dialecte africain
Français Français Français Arabe
Français Français Vietnamien Français
Arabe Arabe Turc Dialecte africain
Arabe Arabe Bulgare Roumain
Français Français Luxembourgeois Français
Français Français Français Arabe
Dialecte africain Roumain Français Français
Tableau 1.5 Série brute du caractère « nombre de frères et sœurs »
2 2 5 2 3 1 1 1 1 2 1 1 0 2 2
5 1 4 2 2 1 0 2 2 1 2 1 1 2 1
3 1 2 1 0 0 1 3 13 1 0 2 1 1 1
1 6 1 3 1 0 1 5 7 2 1 2 2 3 0
3 2 2 7 14 9 5 4 1 0 1 2 1 3 2
1 2 2 0 4 1 0 1 0 1 1 1
Les manipulations involontaires sont courantes lors de la saisie informatique des données.
Cette réalité impose :
• de consacrer du temps à vérifier qu’il n’y a pas d’erreur,
• puis de conserver une sauvegarde de la série brute vérifiée.
Série classée et série ordonnée

Pour mieux observer les différentes modalités, le premier traitement consiste à classer
les données par ordre alphabétique (cas des variables qualitatives, tableau 1.6) ou à les
ordonner par ordre croissant ou décroissant (cas des variables quantitatives, tableau 1.7).
Si les données sont très nombreuses, les séries classées et ordonnées facilitent le repérage
d’éventuelles valeurs aberrantes. Si, par exemple, l’observation 140 apparaît pour le nombre
9782744075896.indb 18 22/07/13 16:42

de frères et sœurs , il convient de vérifier s’il ne s’agit pas de la donnée 14 mal saisie. Le
cas échéant, la valeur doit être supprimée.
Tableau 1.6 Série classée de la variable statistique « langue maternelle »
Arabe Français Français Français

Arabe Français Français Luxembourgeois
Bulgare Français Français Portugais
Bulgare Français Français Roumain
Bulgare Français Français Roumain
Dialecte africain Français Français Roumain
Dialecte africain Français Français Roumain
Dialecte africain Français Français Russe
Dialecte africain Français Français Russe
Dialecte africain Français Français Turc
Dialecte africain Français Français Turc
Dialecte africain Français Français Vietnamien
Espagnol Français Français Vietnamien
Espagnol Français Français
Tableau 1.7 Série ordonnée du caractère « nombre de frères et sœurs »
0 1 1 1 2 2 2 5
0 1 1 1 2 2 3 5
0 1 1 1 2 2 3 5
0 1 1 1 2 2 3 5
0 1 1 1 2 2 3 6
0 1 1 1 2 2 3 7
0 1 1 1 2 2 3 7
0 1 1 1 2 2 3 9
0 1 1 1 2 2 4 13
0 1 1 1 2 2 4 14
0 1 1 1 2 2 4
9782744075896.indb 19 22/07/13 16:42

Définition 1.3
1. La série classée d’une variable statistique qualitative est la liste des observations clas-
sées par ordre alphabétique.
2. La série ordonnée d’une variable statistique quantitative est la liste des observations
classées par ordre croissant.
Notation : { x(i ) ; i = 1 à N } , où (i) représente le rang de l’observation et x(i ) désigne ainsi

l’observation qui occupe le rang (i).
Distribution observée des effectifs

TP Excel 2 Avec seulement 87 données, les tableaux 1.6 et 1.7 sont longs et donc, en général, non
publiés. Un simple travail de comptage permet de présenter (tableaux 1.8 et 1.9) les données
de manière beaucoup plus synthétique.
Tableau 1.8 Distribution observée Tableau 1.9 Distribution observée

de la variable statistique de la variable statistique
« langue maternelle » « nombre de frères et sœurs »
Nombre de frères
Langue maternelle effectif effectif
et sœurs
Arabe 10 0 11
Bulgare 3 1 33
Dialecte africain 7 2 23
Espagnol 2 3 7
Français 50 4 3
Luxembourgeois 4 5 4
Portugais 1 6 1
Roumain 4 7 2
Russe 2 9 1
Turc 2 13 1
Vietnamien 2 14 1
ensemble 87 ensemble 87
Définition 1.4
Une distribution observée des effectifs est l’application qui associe à chaque modalité d’une
variable statistique l’effectif observé correspondant. Cette distribution est présentée sous
la forme soit d’un tableau, soit d’un graphique.
Le tableau 1.9 et la figure 1.8 sont deux présentations des mêmes données. La figure a
l’avantage de mettre clairement en évidence la dissymétrie de la distribution ainsi que
les modalités non observées.
9782744075896.indb 20 22/07/13 16:42

Figure 1.8 Distribution observée des 87 étudiants suivant leur nombre de frères et sœurs.
33
23
11
7
4
3
2
1 1 1 1
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Nombre de frères et sœurs
La distribution observée des effectifs est la manière la plus courte de présenter les données
sans que celles-ci aient subi (sauf erreur involontaire) la moindre modification. Son usage
est donc extrêmement courant.
3. Communiquer : la présentation des données

À la tête d’une équipe de huit personnes, cette jeune femme ingénieur en télécom-
munications propose à des entreprises du secteur de la banque ou de la finance des
systèmes sur mesure pour utiliser intelligemment leurs données. « C’est ce que l’on
appelle des outils d’aide à la décision. Il s’agit de centraliser des données de tout
ordre pour créer des tableaux de bord, des graphiques, etc. Cela à partir de données
venues aussi bien des services commerciaux que des ressources humaines ou même
de statistiques de l’INSEE. » Des solutions sur mesure qui nécessitent à la fois une
solide enquête sur le terrain et pas mal de créativité.
Jacqueline de Linares et Véronique Radier, « Les champions de l’embauche », in Le Nouvel
Observateur, n° 1819, 16-22 septembre 1999, p. 150.
3.1 Transformer des données en information

Une étude statistique naît d’un besoin d’information pour alimenter un processus de
décision. La question à approfondir est celle de la différence entre des données numériques
et des informations. L’étymologie du mot informer est instructive. En effet, informer, du
latin informare, signifie donner une forme, une structure, une signification à quelque
chose. Or, la plupart des données numériques disponibles sont des données numériques
à l’état brut (des listes de chiffres d’affaires, de quantités fabriquées ou vendues, etc.). Ces
9782744075896.indb 21 22/07/13 16:42

données sont potentiellement porteuses d’information, mais doivent être traitées pour
en faire émerger une signification.
Le rôle de la statistique est de donner une signification à un ensemble de données numériques.
L’objectif est de donner une forme, autrement dit d’« in-former » des données pour en extraire
de l’information utile à la prise de décision. La présentation des données à l’aide de graphiques
occupe ainsi un rôle primordial puisqu’il s’agit, au sens propre, de donner une forme aux données.
La présentation des données sous forme de graphiques et de tableaux est un objectif

transversal de cet ouvrage et en particulier des travaux pratiques Excel (le présent ouvrage
n’étant pas en couleurs…).
3.2 Quelques conseils de représentations graphiques

TP Excel 3 Il n’y a pas de règle absolue qui permette de construire un bon graphique. Quelques
TP Excel 4 conseils :
• Ne pas oublier qu’un graphique est un outil de communication qui s’adresse souvent à
des « non-spécialistes » et que sa fonction première est de faciliter la lecture et l’inter-
prétation des données.
• Faire plusieurs essais. En effet, ce sont les données qui « imposent » le graphique, et
non pas son concepteur.
• Éviter toute ambiguïté de lecture. Pour une représentation inédite ou dont la lecture
n’est pas évidente, ne pas hésiter, comme c’est souvent le cas dans les publications de
l’INSEE, à donner un exemple de lecture sous le graphique.
• Mettre l’esthétique au service de la lecture. Choisir avec soin les caractères typogra-
phiques, les fonds, les couleurs, etc.
4. Observer une population ou observer un échantillon ?

Les méthodes de traitement de données observées sur tout ou partie d’une population
constituent la statistique descriptive (première partie de l’ouvrage, chapitres 1 à 4). Ces
méthodes traitent des problèmes évoqués à la sous-section 1.5 :
• présenter pour informer (chapitre 1),
• résumer pour informer (chapitre 2),
• comparer et mesurer l’évolution pour informer (chapitre 3),
• croiser et modéliser pour informer (chapitre 4).
De multiples exemples (essais cliniques, sondage à la veille d’une élection, contrôle qualité
destructeur de l’objet testé, etc.) mettent en évidence que pour des raisons de coût, de
temps, de sécurité et tout simplement de bon sens, le recours à un échantillon est très
souvent indispensable. Les méthodes qui permettent, à partir de caractéristiques observées
uniquement sur un échantillon, d’estimer la valeur de ces mêmes caractéristiques dans
la population totale constituent la statistique inférentielle (troisième partie de l’ouvrage,
chapitres 9 à 12).
9782744075896.indb 22 22/07/13 16:42

La statistique inférentielle répond au moins à sept familles de problèmes :

• prévoir ce qui va se passer dans un échantillon (chapitre 9),
• estimer la valeur d’un paramètre (chapitre 10),
• choisir entre deux hypothèses concernant un paramètre (chapitre 11),
• tester l’indépendance de deux variables (chapitre 11),
• ajuster une distribution observée par une distribution théorique (chapitre 11),
• construire et tester la qualité d’un modèle de régression (chapitre 11),
• comparer plusieurs moyennes (chapitre 12).
La résolution de tous ces problèmes fait appel au calcul de probabilités. Au cours des
chapitres 5 à 8 (Probabilités, deuxième partie de l’ouvrage), des outils probabilistes sont
mis en place et quatre défis préparatoires sont relevés afin d’être « armé » pour résoudre
les sept grandes familles de problèmes citées plus haut.
Les chapitres 5 à 8 développent ainsi les concepts fondamentaux des probabilités :
• présenter les premiers éléments du modèle probabiliste (chapitre 5),
• présenter, croiser et résumer des distributions de probabilité (chapitre 6),
• modéliser des phénomènes discrets (chapitre 7),
• modéliser des phénomènes continus (chapitre 8).
1. Modélisation du déroulement de l’étude
Relever le défi
La description du défi conduit à modéliser l’étude entreprise par la figure 1.9.
Figure 1.9 Représentation des étapes de l’étude.
Quel type
de Définir une stratégie de choix d’équipe (A ou B)
problématique ? en course
Choix des
Quoi : durée du pitstop pour changer
données les pneumatiques
à observer Qui : équipes A et B
Choix de la Comment : expérimentation
méthode
de recueil
des données
Campagne Quand : durant l’intersaison

de Combien : 2 équipes, 100 essais chacune
mesures
2 x 100 données brutes Traitement

des données
Représentations Prise
graphiques de Stratégie
décision
9782744075896.indb 23 22/07/13 16:42

7589 Chap01 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

7589 Chap01 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Partie I – Statistique descriptive

Les grandes lignes

9782744075896.indb 3 22/07/13 16:42

Emerson Fittipaldi a détenu le record du plus jeune champion du monde de Formule 1

Tableau 1.1 Temps en secondes réalisés lors des 100 essais de l’équipe A

9782744075896.indb 4 22/07/13 16:42

Tableau 1.2 Temps en secondes réalisés lors des 100 essais de l’équipe B

Pour relever le défi

Les grandes lignes

9782744075896.indb 5 22/07/13 16:42

1. réaliser une étude statistique

Figure 1.1 Les six grandes étapes d’une étude statistique.

Tous les choix sont guidés

1.1 Quel type de problématique ?

9782744075896.indb 6 22/07/13 16:42

1.2 Choix des données à observer

1.3 Choix de la méthode de recueil des données

Figure 1.2 Les cinq principales méthodes de recueil des données.

1. Institut national de la statistique et des études économiques.

9782744075896.indb 7 22/07/13 16:42

Données de seconde main

9782744075896.indb 8 22/07/13 16:42

Certains ouvrages1 sont consacrés à la construction de questionnaires. Ils détaillent en

Comment répondre à la question « Comment ça va ? »

Le bon sens et des raisons financières orientent le choix du mode d’administration du

1.4 Campagne de mesures

9782744075896.indb 9 22/07/13 16:42

Quand recueillir les données ?

Combien d’individus faut-il choisir ?

1.5 Traitement des données brutes

Présenter pour informer (chapitre 1)

résumer pour informer (chapitre 2)

9782744075896.indb 10 22/07/13 16:42

Comparer et mesurer l’évolution pour informer (chapitre 3)

Croiser et modéliser pour informer (chapitres 4 et 11)

1.6 Prise de décision

9782744075896.indb 11 22/07/13 16:42

Le processus de réalisation d’une étude conduit à faire un grand nombre de choix. La

Figure 1.3 Aucune étude ne produit directement de décision.

2. Communiquer : le vocabulaire du statisticien

2.1 Population, individu, variable statistique et modalité

9782744075896.indb 12 22/07/13 16:42

Figure 1.4 Diagramme sagittal d’une variable statistique.

9782744075896.indb 13 22/07/13 16:42

exemple 1.1 reconnaître les concepts de base

Tableau 1.3 Crimes et délits constatés en 2009

Catégorie Nombre d’infractions

Il s’agit d’identifier la population étudiée, sa taille, les unités statistiques ou individus, la

9782744075896.indb 14 22/07/13 16:42

Figure 1.5 Diagramme sagittal de la variable « catégorie ».

Délit 3 628 584 Autres infractions

Trois types de représentation d’une application sont principalement utilisés : le diagramme

9782744075896.indb 15 22/07/13 16:42

Figure 1.6 Diagramme cartésien.

2.2 Variables qualitatives et variables quantitatives

Figure 1.7 Deux types et quatre sous-types de variables statistiques.

Nominale Ordinale Discrète Continue

1. Variable qualitative nominale. Les variables « sexe », « situation matrimoniale »

9782744075896.indb 16 22/07/13 16:42

2.3 Les premières étapes de la présentation des données

exemple 1.2 Une mini-enquête

9782744075896.indb 17 22/07/13 16:42

Français Turc Français Dialecte africain