Vous êtes sur la page 1sur 10

Eléments pour l’Analyse de données avec Matlab- Partie I et II

L’objectif de ce cours est de permettre l’acquisition de

Compétences en traitement de données et en Matlab, instruments d’analyse


utiles pour les disciplines de génie et en informatique et physique.

Ce cours est constitué de deux parties : une première partie sur les rappels
d’éléments descriptifs, de paramètres de positions et de paramètres de
dispersion, le choix de l’échantillon et la qualité des données. Elle couvre
également les différentes formes de représentations de données, les
interprétations et les approximations et prédictions.

La deuxième partie porte sur l’utilisation de Matlab pour le traitement de


données et les inférences, les calculs d’erreurs dans les approximation et
ajustements à des distributions.

Les travaux pratiques en permettent d’acquérir des méthodes pour écrire


des script et fonctions en Matlab pour modéliser et représenter des données
sous forme de diagrammes en pie, en boxplot, en histogrammes simple
histogramme normalisés, des représentations de fonctions de distributions
normales ou log normales.

Les travaux pratiques s’intéressent aussi aux méthodes d’approximation


linéaires (régressions linéaires, moindres carrés linéaires et tests
d’adéquation à une distribution normale ou lognormale).

I- Définition :
Les données sont des informations issues d’observations, de mesures faites
sur une population humaine, animale ou de chose/de choses (équipement et
matériel physique ou logique). En analyse de donnée, on s’accorde sur
quelques définitions :

Population et individus : La population est l’ensemble des individus (ou unités


statistiques) auxquels on décide de sintériser. Sa taille, est généralement notée par
N, elle peut est grande, ou même infinie.
Variable (ou caractère) statistique, valeurs : Une variable est une information
dont on recueille (ou observe ou mesure) la valeur sur chaque individu. On parle
de variable parce que la valeur de l’information n’est pas la même d’un individu
à l’autre. C’est à partir des valeurs observées que le statisticien ou l’analyste de
données rétablit ses classements d’individus.

Effectif : Nombre d’individus, d’une population ou d’une partie quelconque de


cette population.

Fréquence (ou proportion) : Rapport d’un effectif particulier d’individus à la


taille de la population.

Recensement : Recueil des valeurs de la totalité des individus de la population.


Les valeurs recueillies sont les données.

Sondage, n-échantillon, base de sondage, taux de sondage : Un sondage est le


recueil des valeurs d’une partie (l’échantillon) d’effectif n (d’où l’expression n-
échantillon) de la population (dite base de sondage). Le taux de sondage est le
rapport n/N.

Variable, (ou caractère) qualitatif (ou nominal) : Variable dont les valeurs (ou
modalités) observées sont telles qu’il est impossible d’attribuer une valeur unique
à la réunion de deux (ou plusieurs) individus par une opération mathématique sur
leurs valeurs. Exemple du "statut matrimonial".

Variable, ou caractère ordinal : Variable qualitative dont on peut tout de même


comparer les modalités entre elles, et, par conséquent, ranger par "valeurs
croissantes" ou "décroissantes". Exemple de l’appréciation d’un produit par des
consommateurs.

Variable, ou caractère quantitatif : Variable numérique telle qu’on peut


calculer, par une opération mathématique quelconque, comme l’addition, pour
deux (ou plusieurs) individus, une valeur appelée total, à partir des valeurs de ces
individus. Pour l’addition il s’agit de la somme. Exemple des ventes annuelles =
somme des ventes de l’ensemble de tous les jours ouvrés de l’année. Les valeurs
observées forment un ensemble continu ou non, infini ou non.

Exemple1 :

Sur chacun des individus sondés, on observe un caractère (ou variable). Par
exemple :

 âge
 revenus
 métier
 nombre d'enfants
 pression artérielle
 durée de bon fonctionnement,
 fumeur
 titulaire du permis B

Ce caractère est quantitatif s'il est possible de le mesurer, donc de le représenter


avec un nombre :

 âge
 revenus
 nombre d'enfants
 pression artérielle
 durée de bon fonctionnement

Il est qualitatif dans le cas contraire :

 métier
 fumeur
 titulaire du permis B

Une valeur prise par une variable s'appelle une modalité.

Exemple 2 :
1- La variable statistique "couleur de téléphone portable" est-elle :
a- qualitative
b- quantitative
c- discrète
d- continue
2- La variable statistique " salaire brut" est-elle :
a- qualitative
b- quantitative
c- discrète
d- continue
3-La variable statistique "nombre de machine réparées" est-elle :
a- qualitative
b- quantitative
c- discrète
d- continue
Solution : Pour le premier cas, la variable statistique est qualitative. Pour le
deuxième cas, la variable statistique est quantitative continue. Pour le troisième
cas, la variable statistique est quantitative discrète.
Exemple 3 :- on donne les variables suivants :
Hauteur, Poids, Rendement, Chiffre d’affaire, Cylindrée, Marge de puissance,
Affaiblissement en dB de signal, Rapport signal sur bruit.
a- Montrer le caractère quantitatif de ces variables
b- Préciser les modalités qui peuvent transformer l’étude quantitative de ces
variables en et de qualitatives

Solution exemple 3 :

Variable quantitative Modalités qualitatives commentaires


envisageables

Hauteur Petit, Moyen, Grand

Poids Très léger, Léger, Moyen,


Lourd, Très lourd
Rendement Faible, Moyen, Elevé
Chiffre d’affaire Modéré, Moyen, Important,
Très important
Cylindrée Petite, Moyenne, Grosse
Marge de puissance, Petite, moyenne, grande, Acceptable, bonne,
faible excellente, mauvaise,
insuffisante
Affaiblissement en dB de Petite, moyenne, grande, Acceptable, bonne,
signal, faible, nulle excellente, mauvaise,
insuffisante
Rapport signal sur bruit. Petite, moyenne, grande, Acceptable, bonne,
faible, élevée excellente, mauvaise,
insuffisante

II- Echantillonnage et choix de l’échantillon

Dans toutes les enquêtes quantitatives, la taille de l’échantillon est un facteur


déterminant pour obtenir des données fiables. Les spécialistes des sondages font
appel à des théories statistiques très complexes pour calculer la taille de
l’échantillon en fonction de la marge d’erreur tolérée. La taille de l’échantillon est
déterminante pour vous permettre de généraliser les résultats du sondage à
l’ensemble de la population ciblée.
Echantillonnage aléatoire simple
L’échantillonnage aléatoire simple est à la base de l’ensemble de la théorie
d’échantillonnage.
Pour obtenir un échantillon de cette sorte, on numérote les individus de la
population de 1 à N, puis on tire n individus. Le tirage est généralement réalisé
sans remise.
L’objectif étant de fournir une estimation sans biais de la moyenne et de la
variance de la population.

Echantillonnage par grappes


Pour l’échantillonnage par grappes, il faut diviser la population en grappes,
c’est-à-dire en sous-ensembles de façon à ce que chacun de ces sous-ensembles
devant être représentatif de la population mère. L’échantillonnage par grappes
constitue donc à tirer aléatoirement des individus au sein des grappes choisies et
mener l’étude sur ces individus.
Exemple 4: Des études menées à l’échelle d’une ville, que le fait que l’on divise
en quartiers constitue un exemple d’échantillonnage par grappes.
Pour obtenir un échantillonnage par grappes ayant les propriétés statistiques aussi
précises que possible, il faut :
 Un nombre de grappes non conséquent
 La taille des grappes uniformes
 Une homogénéité des individus composant les grappes
Echantillonnage par la méthode des quotas (utilisée en sondage)

La méthode des quotas est basée sur la répartition connue d’une population (âge,
sexe, situation géographique, catégorie socio-professionnelle…).
Une fois la dimension et les critères du sondage que l’on souhaite, effectué, il
suffira alors de calculer le nombre d’individus par chaque critère choisi.
Cependant, cette méthode (la moins onéreuse) a des limites qu’il faut préciser et
qui permettent de comprendre pourquoi les sondages lus régulièrement apportent
plus des tendances de l’opinion plutôt que de chiffres véritablement précis :
 Cette méthode repose sur l’hypothèse que l’information que l’on souhaite
obtenir est corrélée avec la population. Ce n’est qu’une hypothèse de
représentativité qui est difficile à démontrer voire impossible.
 Le choix des individus sélectionnés par des enquêteurs lors de la méthode
des quotas ne permet pas de calculer des probabilités d’appartenance à
l’échantillon. Ceci entraine une difficulté de calcul d’erreurs et donc de
précision de l’analyse.
Les quotas et l’aspect mathématique

Si l’on part d’une population telle que décrite dans le tableau ci-dessous :

Et que nous décidons un taux de sondage de 1/5 (20%), nous interrogerons donc
200 personnes avec la répartition suivante :

Le choix des individus au sein de ces échantillons se réalise de manière aléatoire.


Bien évidemment un petit tableau croisé dynamique permettant de représenter la
juste distribution des segments est nécessaire avant de pratiquer le tirage.
Un échantillon est caractérisé par deux principaux éléments : taille et variabilité
 la taille de la population mère
Plus la population est importante, plus on a besoin d’un échantillon de plus grande
taille. Cependant, lorsqu’il s’agit de très grandes populations, la taille de la population
n’a plus d’influence sur la taille de l’échantillon.
 la variabilité des caractéristiques de la population mère
Plus la population mère qui vous intéresse est diverse et présente des caractéristiques variées,
plus il faudra interroger de personnes. A l’inverse, plus cette population est homogène et moins
il faudra interroger de personnes.
La taille réelle de l’échantillon est un compromis entre le degré de précision à atteindre, votre
budget pour l’enquête et l’ensemble des contraintes opérationnelles (informations disponibles,
délais, etc.).
Dans une population peu dispersée, toutes les valeurs de l'échantillon seront forcément proches
de la moyenne.
Dans une population plus dispersée, les valeurs de l'échantillon seront généralement plus
éloignées de la moyenne. La moyenne de l'échantillon pourra donc s'écarter plus fortement de
celle de la population.
Soient:
 n le nombre d'individus dans l'échantillon
 l'écart type de la population
Alors, la précision de la moyenne peut être mesurée par un écart type sur la moyenne:
La précision sur la valeur moyenne sera donc d'autant meilleure que:
 la population sera peu dispersée ( petit)
 l'échantillon sera grand (n grand)

La présence d'une racine carrée au dénominateur implique que:


• pour une précision 2 fois meilleure, il faut un échantillon 4 fois plus grand.
• pour une précision 10 fois meilleure, il faut un échantillon 100 fois plus grand.
Comme pour la moyenne, nous réserverons les lettres grecques pour les grandeurs relatives à
la population et les caractères romains pour les grandeurs correspondant à l'échantillon.

moyenne écart type

population:

échantillon: s

Ecart type de la moyenne est noté :


Si l'écart type de la grandeur analysée dans la population n'est pas connu, on peut le remplacer
par l'écart type calculé dans l'échantillon, pour autant que cet échantillon soit suffisamment
grand.

Notons p la proportion d'individus d'une classe dans l'échantillon. Si n1 est le nombre


d'individus dans la classe 1 et n le nombre total d'individus dans l'échantillon, on a:

et de même

Si l'échantillon est représentatif, la proportion p dans l'échantillon est une approximation de la


proportion dans la population. Pour des échantillons suffisamment grands, les proportions
suivent une loi normale, avec un écart type d'échantillon de:
En général, la proportion dans la population n'est pas connue. On la remplace alors par la
proportion p dans l'échantillon

Les proportions obéissent à des lois comparables à celles des moyennes.


Une différence importante est que l'écart type peut être calculé à partir des proportions (pour
les moyennes, il devait être connu par ailleurs).
Si on n’a aucune piste sur la valeur de p, on prend la valeur qui donne plus de dispersion
maximale, à savoir 0,5 par défaut (loi des grands nombres).
Formule de calcul de la taille de l’échantillon

La taille de l’échantillon est obtenue à partir de la formule suivante :


tα ∗ (1 − ) ∗
=
tα ∗ (1 − ) + ( − 1) ∗ m

n = taille de l’échantillon ;
tα = intervalle de confiance selon la loi normale centrée réduite (pour un niveau de confiance
de 95%, tα = 1.96, pour un niveau de confiance de 99%, tα = 2.575, pour 80 % tα =1,28
pour 85 % tα =1,44, pour 90 % tα = 1,65) ;
p = proportion estimée de la population qui présente la caractéristique (lorsque inconnue, on
utilise p = 0.5 ce qui correspond au cas le plus défavorable c’est-à-dire la dispersion la plus
grande).
m = marge d’erreur tolérée (par exemple on veut connaître la proportion réelle à 5% près)
Cette formule détermine le nombre de personnes n à interroger en fonction de la marge
d’erreur m que l’on peut tolérer sur une proportion de réponses p.
N est la population à étudier ou base de sondage utilisée.
Si N est très grand on peut réduire la formule de calcul de l’échantillon à :

n = z² x p (1 – p) / m²
La taille peut être calculer approximativement via le lien de Monkey(site de sondage reconnue
au plan mondial) :https://fr.surveymonkey.com/mp/sample-size-calculator/

Exemple 1:
L'échantillonnage systématique est une méthode qui consiste à dresser la liste de tous les
éléments de la population visée et de déterminer le rapport suivant: (nombre d'éléments de la
population)/ (Taille de l'échantillon. Une base de données d’utilisateur du réseau téléphonique
mobile d’une région contient 40000 clients. Faire l’échantillonnage systématique de cette base
de données avec un échantillon de 2000 individus.
Exemple 2 :
J'ai ville avec une population de 20000 habitants ainsi répartis par sexe :
Hommes 8400
Femmes 11600
Je veux un échantillon de 5000 individus et je veux qu'il représente fidèlement ma population.
Proposer une méthode d’échantillonnage et faire le calcul nécessaire.
Exemple 3 :
Un vendeur souhaite sélectionner trois modèles de ses articles pour les présenter à un concours
d’exposition de mode. Pour cela, il met tous les modèles de ses articles dans un grand chapeau
et, sans regarder, en tire 11. Quel type d'échantillon est constitué ?
Exemple 4 :
Une responsable qualité d'un atelier de maintenance cartes réseau d’ordinateur veut vérifier la
conformité des cartes d’ordinateurs avant leur expédition auprès d'un client. Pour cela, elle
choisit au hasard 20 cartons parmi les 10 constituant la commande et vérifie la conformité d
dans les 20 cartons. Quel type d'échantillon est constitué ?
Exemple 5 :
Une enquête sur la vie étudiante a été menée auprès de 140 étudiants. L'échantillon a été obtenu
en choisissant aléatoirement 35 étudiants de première année, 35 étudiants de deuxième
année, 35étudiants de licence et 35 étudiants en Master I. Quel type d'échantillon est constitué ?
Exemple 6 :
Pour sélectionner 15 de ses employés, un directeur associe chacun d'eux à un nombre écrit sur
un bout de papier. Il met tous les bouts de papiers dans un pot et, sans regarder, tire au
hasard 15 bouts de papiers. Les employés associés à ce nombre constituent l'échantillon. Quel
type d'échantillon est constitué ?
Exercice (TP) :
L’ensemble des PME et startups en numérique et transport utilisant les rayonnements
enregistrées dans un pays est de 650 unités économiques.
La famille du secteur transport et télécommunication, d’après le recensement généal. de la
population et de l’habitat de 2017 de ce pays, estime l’ensemble de ces entreprises égale à
0,4% de l’effectif total de l’ensemble des entreprises de ce pays. Le nombre d’entreprise total
d’entreprises de ce pays était de 507 882.
Etape 0 : compléter le tableau de répartition des 650 entreprises (base de sondage)
suivant :
Stratification de la population entreprise du numérique
Zone Géographique Nombre Entreprise Proportion
Autres régions 5%
Da 84%
Dl 3%
SL 2%
T 5%
Z 1%
Total 100%
Etape 1 : donner la méthode d’échantillonnage et calculer de la proportion p
:
é
=

AN :
Etape 2 : déterminer la taille de l’échantillon :
La taille de notre échantillon est choisie avec les spécifications suivantes :
- La marge d’erreur, notée m = 7%
- Le risque maximum, noté tα : sa valeur est issue d’une loi de probabilité (loi de Student ;
pour une population de taille notée N < à 30, loi normale : pour une population de taille
N > à 30 le cas de cette étude). Soit tα = 1,65 pour un intervalle de confiance de 90%.
- La connaissance statistique de la proportion attendue d’une réponse de la population ou
proportion réelle.
∗ ( )∗
- =
∗ ( ) ( )∗
AN :
On peut dire implicitement que nous avons fixé un taux de réponse (ou taux de sondage)
Qui est donné par : taille n de l’échantillon / base de sondage,
Ce taux de réponse doit être supérieur ou égale à 20 %,
- Etape 3 : Tirage de l’échantillon
On peut subdivise la population en strates selon la zone et l’échantillon est choisi en tirant au
sort dans chacune des strates (on réalise un sondage sur chacune des strates).
Selon les cas, on peut choisir d’autres types de tirage de l’échantillon : échantillonnage
aléatoire simple, échantillonnage par quota, échantillonnage systématique.
Echantillonnage par grappe.
Compléter le tableau suivant pour la répartition des éléments de l’échantillon
Stratification de la population entreprise de l’échantillon
Zone Géographique Nombre Entreprise Proportion
Autres régions 5%
Da 84%
Dl 3%
SL 2%
T 5%
Z 1%
Total 100%
Etape 4 : élaboration, validation du questionnaire (enquête)

- Bien choisir sa ou ses questions


- Mode d’administration du questionnaire (sur site ou en ligne)
- En ligne (webquest, monkey, sli.do, etc)
Etape 5 : recueil et traitement des données : -tri à plat, -Tri croisé, -Modélisation et approximation.
Traiter toutes les courbes avec Matlab.

Vous aimerez peut-être aussi