Académique Documents
Professionnel Documents
Culture Documents
Ce cours est constitué de deux parties : une première partie sur les rappels
d’éléments descriptifs, de paramètres de positions et de paramètres de
dispersion, le choix de l’échantillon et la qualité des données. Elle couvre
également les différentes formes de représentations de données, les
interprétations et les approximations et prédictions.
I- Définition :
Les données sont des informations issues d’observations, de mesures faites
sur une population humaine, animale ou de chose/de choses (équipement et
matériel physique ou logique). En analyse de donnée, on s’accorde sur
quelques définitions :
Variable, (ou caractère) qualitatif (ou nominal) : Variable dont les valeurs (ou
modalités) observées sont telles qu’il est impossible d’attribuer une valeur unique
à la réunion de deux (ou plusieurs) individus par une opération mathématique sur
leurs valeurs. Exemple du "statut matrimonial".
Exemple1 :
Sur chacun des individus sondés, on observe un caractère (ou variable). Par
exemple :
âge
revenus
métier
nombre d'enfants
pression artérielle
durée de bon fonctionnement,
fumeur
titulaire du permis B
âge
revenus
nombre d'enfants
pression artérielle
durée de bon fonctionnement
métier
fumeur
titulaire du permis B
Exemple 2 :
1- La variable statistique "couleur de téléphone portable" est-elle :
a- qualitative
b- quantitative
c- discrète
d- continue
2- La variable statistique " salaire brut" est-elle :
a- qualitative
b- quantitative
c- discrète
d- continue
3-La variable statistique "nombre de machine réparées" est-elle :
a- qualitative
b- quantitative
c- discrète
d- continue
Solution : Pour le premier cas, la variable statistique est qualitative. Pour le
deuxième cas, la variable statistique est quantitative continue. Pour le troisième
cas, la variable statistique est quantitative discrète.
Exemple 3 :- on donne les variables suivants :
Hauteur, Poids, Rendement, Chiffre d’affaire, Cylindrée, Marge de puissance,
Affaiblissement en dB de signal, Rapport signal sur bruit.
a- Montrer le caractère quantitatif de ces variables
b- Préciser les modalités qui peuvent transformer l’étude quantitative de ces
variables en et de qualitatives
Solution exemple 3 :
La méthode des quotas est basée sur la répartition connue d’une population (âge,
sexe, situation géographique, catégorie socio-professionnelle…).
Une fois la dimension et les critères du sondage que l’on souhaite, effectué, il
suffira alors de calculer le nombre d’individus par chaque critère choisi.
Cependant, cette méthode (la moins onéreuse) a des limites qu’il faut préciser et
qui permettent de comprendre pourquoi les sondages lus régulièrement apportent
plus des tendances de l’opinion plutôt que de chiffres véritablement précis :
Cette méthode repose sur l’hypothèse que l’information que l’on souhaite
obtenir est corrélée avec la population. Ce n’est qu’une hypothèse de
représentativité qui est difficile à démontrer voire impossible.
Le choix des individus sélectionnés par des enquêteurs lors de la méthode
des quotas ne permet pas de calculer des probabilités d’appartenance à
l’échantillon. Ceci entraine une difficulté de calcul d’erreurs et donc de
précision de l’analyse.
Les quotas et l’aspect mathématique
Si l’on part d’une population telle que décrite dans le tableau ci-dessous :
Et que nous décidons un taux de sondage de 1/5 (20%), nous interrogerons donc
200 personnes avec la répartition suivante :
population:
échantillon: s
et de même
n = z² x p (1 – p) / m²
La taille peut être calculer approximativement via le lien de Monkey(site de sondage reconnue
au plan mondial) :https://fr.surveymonkey.com/mp/sample-size-calculator/
Exemple 1:
L'échantillonnage systématique est une méthode qui consiste à dresser la liste de tous les
éléments de la population visée et de déterminer le rapport suivant: (nombre d'éléments de la
population)/ (Taille de l'échantillon. Une base de données d’utilisateur du réseau téléphonique
mobile d’une région contient 40000 clients. Faire l’échantillonnage systématique de cette base
de données avec un échantillon de 2000 individus.
Exemple 2 :
J'ai ville avec une population de 20000 habitants ainsi répartis par sexe :
Hommes 8400
Femmes 11600
Je veux un échantillon de 5000 individus et je veux qu'il représente fidèlement ma population.
Proposer une méthode d’échantillonnage et faire le calcul nécessaire.
Exemple 3 :
Un vendeur souhaite sélectionner trois modèles de ses articles pour les présenter à un concours
d’exposition de mode. Pour cela, il met tous les modèles de ses articles dans un grand chapeau
et, sans regarder, en tire 11. Quel type d'échantillon est constitué ?
Exemple 4 :
Une responsable qualité d'un atelier de maintenance cartes réseau d’ordinateur veut vérifier la
conformité des cartes d’ordinateurs avant leur expédition auprès d'un client. Pour cela, elle
choisit au hasard 20 cartons parmi les 10 constituant la commande et vérifie la conformité d
dans les 20 cartons. Quel type d'échantillon est constitué ?
Exemple 5 :
Une enquête sur la vie étudiante a été menée auprès de 140 étudiants. L'échantillon a été obtenu
en choisissant aléatoirement 35 étudiants de première année, 35 étudiants de deuxième
année, 35étudiants de licence et 35 étudiants en Master I. Quel type d'échantillon est constitué ?
Exemple 6 :
Pour sélectionner 15 de ses employés, un directeur associe chacun d'eux à un nombre écrit sur
un bout de papier. Il met tous les bouts de papiers dans un pot et, sans regarder, tire au
hasard 15 bouts de papiers. Les employés associés à ce nombre constituent l'échantillon. Quel
type d'échantillon est constitué ?
Exercice (TP) :
L’ensemble des PME et startups en numérique et transport utilisant les rayonnements
enregistrées dans un pays est de 650 unités économiques.
La famille du secteur transport et télécommunication, d’après le recensement généal. de la
population et de l’habitat de 2017 de ce pays, estime l’ensemble de ces entreprises égale à
0,4% de l’effectif total de l’ensemble des entreprises de ce pays. Le nombre d’entreprise total
d’entreprises de ce pays était de 507 882.
Etape 0 : compléter le tableau de répartition des 650 entreprises (base de sondage)
suivant :
Stratification de la population entreprise du numérique
Zone Géographique Nombre Entreprise Proportion
Autres régions 5%
Da 84%
Dl 3%
SL 2%
T 5%
Z 1%
Total 100%
Etape 1 : donner la méthode d’échantillonnage et calculer de la proportion p
:
é
=
AN :
Etape 2 : déterminer la taille de l’échantillon :
La taille de notre échantillon est choisie avec les spécifications suivantes :
- La marge d’erreur, notée m = 7%
- Le risque maximum, noté tα : sa valeur est issue d’une loi de probabilité (loi de Student ;
pour une population de taille notée N < à 30, loi normale : pour une population de taille
N > à 30 le cas de cette étude). Soit tα = 1,65 pour un intervalle de confiance de 90%.
- La connaissance statistique de la proportion attendue d’une réponse de la population ou
proportion réelle.
∗ ( )∗
- =
∗ ( ) ( )∗
AN :
On peut dire implicitement que nous avons fixé un taux de réponse (ou taux de sondage)
Qui est donné par : taille n de l’échantillon / base de sondage,
Ce taux de réponse doit être supérieur ou égale à 20 %,
- Etape 3 : Tirage de l’échantillon
On peut subdivise la population en strates selon la zone et l’échantillon est choisi en tirant au
sort dans chacune des strates (on réalise un sondage sur chacune des strates).
Selon les cas, on peut choisir d’autres types de tirage de l’échantillon : échantillonnage
aléatoire simple, échantillonnage par quota, échantillonnage systématique.
Echantillonnage par grappe.
Compléter le tableau suivant pour la répartition des éléments de l’échantillon
Stratification de la population entreprise de l’échantillon
Zone Géographique Nombre Entreprise Proportion
Autres régions 5%
Da 84%
Dl 3%
SL 2%
T 5%
Z 1%
Total 100%
Etape 4 : élaboration, validation du questionnaire (enquête)