Vous êtes sur la page 1sur 30

2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

COURS DE THEORIES DE LA DECISION

Par Dr MBA FOKWA A.

Objectifs pédagogiques : PRENDRE DE BONNE DECISIONS SUR LA BASE DE


VERIFICTIONS STATISTIAUES
Ils se déclinent en trois sous objectifs à savoir :
1. Le savoir transmis
Au terme du cours, l’étudiant doit comprendre et connaitre :
 L’ajustement et la corrélation linéaire
 Les différents types de données et de variables
 Les différentes méthodes d’échantillonnage
 La constitution de l’échantillon
 Traitement des données
2. Le savoir-faire développé
Au terme du cours, l’étudiant doit être capable :
 D’utiliser les données qu’il analyse pour résoudre les problèmes décelés dans un
contexte précis et dans le domaine du Marketing avec un accent sur la publicité. Il
devra spécifiquement être capable de déterminer les effets et les liens entre
variables (chapitre 0) de caractériser les données et différentes informations
(chapitre 1), de construire un échantillon représentatif (chapitre 2), de manipuler
les différents tests statistiques (chapitre 3) et mener des études exploratoires
(chapitre 4). En fait être capable de regrouper, bien disposer, traiter, analyser,
interpréter des informations afin de voir plus clair et prendre de bonnes décisions.
3. Le savoir-être développé
Les connaissances acquises au terme de ce cours devraient rendre l’étudiant plus curieux, plus
analytique.
4.Contenu du cours

Titre des leçons Contenu Volume


horaire
Introduction générale 30 min

Chap 0. RAPPELS -Les caractéristiques de position 3h


STTISTIQUES, -Ajustement linéaire
AJUSTEMENT -Corrélation linéaire
LINEAIRE, CORRELATION

1
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

Chap1. COLLECTE DES -Définition d’une donnée et types de données


DONNEES ET QUELQUES -les méthodes de collectes des données
NOTION DE BASE -types de variables et types de statistiques 3h
- définition de l’analyse statistique des données
cas pratiques
Chap2 : ECHANTILLONNAGE - méthodes
d’échantillonnage aléatoire
les méthodes d’échantillonnage 3h
non-aléatoires
– constitution d’échantillon apparie
- biais de l’échantillon
-taille de l’échantillon
– technique d’échantillonnage et taille de
l’échantillon
cas pratiques

Chap 3 : STATISTIQUES -estimations 8h


INFERNTIELLES - tests d’hypothèse
-tests sur les paramètres
- tests sur les distibutions
Chap 4 : DIFFÉRENTES - Analyse descriptive 7h30min
DONNÉES ET QUELQUES .Description numérique
ANALYSES .Description graphique
CORRESPONDANTES - Analyse explicatives
.Tests paramétriques
.Tests non paramétriques
Cas pratiques
Bibliographie sélective :
STATISTIQUES CANADA (2010), Méthodes et pratique d’enquête, No 12-587-X au catalogue.
1. Plisent Michel, Bernard, Prosper, Zuccaro, Cataldo, (2008) Introduction à l'analyse des données de
sondage avec SPSS : Guide d'auto-apprentissage, Presses de l'Université du Québec
2. Stafford, Jean, Bodson, Paul L'analyse multivariée avec SPSS (2006), Presses de l'Université du
Québec
ANNEXES
 TPE : réaliser une collecte d’information et les transcrire en données
 Questions :
Pourquoi l’analyse de données ?
Comment utiliser l’analyse de données dans votre domaine d’activité ?

2
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

CHAPITRE 0. RAPPELS STTISTIQUES, AJUSTEMENT LINEAIRE, CORRELATION

0.1. Corrélation statistique

Rappel : Lorsqu’on a deux variables aléatoires X et Y, de covariance cov(X,Y) et d’écart-type


respectif σ(X) et σ(Y) on définit leur coefficient de corrélation ρ(X,Y) par :

ρ(X,Y)=cov(X,Y)/σ(X)σ(Y)

Supposons que l’on a relevé des valeurs (xj,yj) de X et Y au cours de n épreuves indépendantes. On
définit, par analogie, un coefficient de corrélation r(X,Y) de l’échantillon par :

r(X,Y)=cov(X,Y)/s(X)s(Y)

où s(X) (resp s(Y)) désigne l’écart-type des valeurs de X (resp Y) pour l’échantillon. On a :

r(X,Y)=1/n∑j=0n−1 xjyj−1/n∑j=0n−1 xj*1/n∑j=0n−1 yj/√1/n∑j=0n−1 (xj−1/n∑k=0n−1 xk)2*√1/n∑j=0n−1 (yj−1/n∑k


n−1
=0 yk)2

Propriétés :
−1 ≤ ρ ≤ +1
si X et Y sont indépendants alors ρ(X,Y)=0 mais la réciproque est fausse.

0.2. Ajustement linéaire

Une série statistique à deux variables d’ordre n fournit un nuage de n points. Ajuster linéairement cet
ensemble de points consiste à trouver une droite qui approche "le mieux possible le nuage de points".
Un ajustement linéaire va permettre de faire des prévisions ou d’estimer des valeurs.

Première droite des moindres carrés est définie pour que la somme des carrés des écarts en
ordonnée entre les mesures et les points de cette droite soit minimale.
Soient Aj (0 ≤ j ≤ n−1) les points de coordonnées (xj, yj) formant le nuage de points. Soit D une droite
d’équation y=ax+b et soient Bj pour 0 ≤ j ≤ (n−1) les points de D de coordonnées (xj, axj+b).
On cherche a et b pour que :
S=∑j=0n−1(yj−axj−b)2 soit minimum.
Pour a fixé le minimum de S est atteint lorsque la droite D passe par le point moyen G de
coordonnées (x, ȳ)) donc lorsque b=b0=ȳ−a x.
On trouve ensuite que pour b=b0, S est minimum pour :
a=a0=1/n∑j=0n−1xj yj−xȳ/1/n∑j=0n−1xj2−x2 =cov(X,Y)/σ2(X).
La première droite des moindres carrés est la droite d’équation y=a0x+b0. Elle a donc pour
équation y=ȳ+cov(X,Y)/σ2(X)(x−x).

Deuxième droite des moindres carrés est définie pour que la somme des carrés des écarts en
abscisse entre les mesures et les points de cette droite soit minimale.
On change simplement le rôle de X et de Y. On trouve la droite Δ d’équation :
x=x+cov(X,Y)/σ2(Y)(y−ȳ).

3
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

CHAPITRE I : COLLECTE DES DONNEES ET QUELQUES NOTIONS DE BASE

I-DEFINITION D’UNE DONNEE ET TYPES DE DONNEES


Les données sont les informations collectées en vue de mieux appréhender un phénomène
et /ou de résoudre plus facilement un problème qui intéresse divers domaines notamment la gestion
de l’entreprise.
Selon la source des données, on distingue : les données secondaires qui proviennent des sources
documentaires et les données primaires qui sont obtenues directement pour l’analyse que l’on
souhaite faire ; ce sont en effet des données qui n’ont pas été au préalable disponibles nulle part.
Selon la nature des données, on distingue : les données qualitatives (qui sont non
mesurables et les données quantitatives (qui sont mesurables ou quantifiables).
Notons cependant que les données qualitatives ne sont pas mesurables mais pour les traiter
automatiquement, nous sommes amenés de les codifier en numérique .c’est ainsi que l’on peut avoir
par exemple lors d’une enquête sur l’appréciation du prix d’un produit, les codifications suivantes :
moins couteux=1, juste= 2, cher=3, très cher=4. En effet la nature des données est liée à celles des
variables.
Les données sont les informations collectées à propos d’une variable ou un caractère ou
encore un aspect. Les données sont en effet les résultats d’une enquête.une enquête quant à elle porte
sur un caractère ou variable.
Exemple : une étude portant sur le sexe des individus donnent deux modalités : masculin et
féminin. La variable ici est le sexe alors que les données sont l’ensemble des résultats (masculin ou
féminin) obtenus. Le nombre de données correspond au nombre d’individu sur lequel porte cette
étude.

II-LES METHODES DE COLLECTES DES DONNEES


Les méthodes de collectes des données sont diverses ; on peut cependant citer : la collecte par
questionnaire, l’entretien, l’observation, expérimentation etc.

III-TYPES DE VARIABLES ET TYPES DE STATISTIQUES


III.1-TYPES DE VARIABLES
Une variable est une propriété, un caractère qui permet de décrire et de classer les sujets ou les
individus (objets d'étude). Le choix d'un caractère détermine le critère qui servira à classer les
individus de la population en deux ou plusieurs sous-ensembles. Le nombre de ces sous- ensembles
correspond aux diverses situations possibles ou modalités de ce caractère ou cette variable
La pertinence des résultats d’une étude est appréciée avant toute chose à travers la cohérence
entre le type de donnée et de la méthode mise en œuvre. Nous apporterons cette précision lors de la
présentation des différentes méthodes. On peut distinguer deux grands types de variables suivant
leurs natures :

-Les variables numériques ou mesurables ou encore quantitative : il s’agit des variables qui
peuvent être exprimées numériquement.

4
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

-Les variables nominales ou qualitatives : ce sont les variables non mesurables ; elles peuvent
être codées par des qualitatifs .mais le traitement informatique exige qu’elles soient codées
numériquement.

Les variables booléennes : elle constitue une particularité des variables nominales codées 0 et 1.
1 est le code de la présence de la caractéristique et 0 est le code de l’absence de cette caractéristique.

Exemple une enquête portant sur la question : consommez-vous les produits chinois ? La codification
peut être oui=O et non =N qui sont les lettres alors que la codification numérique est ici : Oui=1 et
non =0

Les variables rationnelles : Leurs échelles de mesure permettent non seulement d’affecter à chaque
individu une valeur mais aussi de comparer ces différentes valeurs .ces variables sont indiquées sur
les études portant sur les attitudes et de préférences.

Exemple ; comment appréciez vous la qualité des enseignements de l’ISSTN de Bafoussam ?


Réponses éventuelles et codification possible : mauvais=0 ; faible=1 ; médiocre =2 ; moyen= 3 ;
assez bien=4 ; bien=5 ; très bien=6 et parfait=7

Caractère

Quantitatif (variable) Qualitatif

Continu Discret modalités

∈R ∈ Z, ∈ N

Ordinales nominales

Classes entiers

Ces variables peuvent se présenter sous 3 types d'échelles

5
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

1. Variables nominales: sont des variables de nature qualitative dont les modalités ne sont
pas hiérarchisées.

-elle exprime l’appartenance d’un individu à un ensemble ou une catégorie non hiérarchique

- elles échappent à la mesure: elles peuvent seulement être constatées (par exemple, sexe, nationalité,
profession

- la relation qui définit une variable nominale est une relation d'appartenance à un ensemble.

2. Variables ordinales : sont des variables de nature qualitative dont les modalités sont hiérarchisées.
Pour de telles variables, les modalités peuvent être classées par ordre de grandeur (par
exemple classe sociale, niveau d'études…). On distingue trois types de variables ordinales:

2.1. les variables rangées, qui se composent d'un nombre limité de modalités ordonnées les unes par
rapport aux autres; par exemple, degré de concentration estimé sur une échelle à 4 degrés: 1 = non
concentré; 2 = un peu concentré; 3 = moyennement concentré: 4 = non concentré;

2-2. les rangs, obtenus après un classement des unités d'observation de la première à la dernière, par
exemple, d'après les résultats à un examen ou à une course; s'il n'y a pas d'ex æquo, il y aura autant
de modalité que d'unité d'observation;

2.3. les scores rangés: mesures quantitatives classiques pour lesquelles on ne tient compte que des
propriétés d'équivalence et d'ordre et pour lesquelles on ne prend pas en compte les autres propriétés
arithmétiques du nombre (additivité, zéro vrai, intervalles numériques égaux).

3. Variables métriques ou d'intervalles: sont des variables de nature quantitative.

On peut attribuer à chaque élément évalué un nombre qui mesure ses propriétés. Ce nombre doit être
tel que des intervalles numériques égaux représentent des distances égales dans la propriété
mesurée.

Deux situations:

a. le zéro de l'échelle ne correspond pas à l'absence de la propriété chez l'élément caractérisé par la
mesure zéro. Le zéro est arbitraire: on dit alors qu'il s'agit d'une donnée métrique dans une échelle
d'intervalles. Dans ce cas, on peut soustraire des données, mais non les additionner, les multiplier ou
les diviser. Par contre, on peut additionner, multiplier ou diviser des intervalles de données;

b. le zéro de l'échelle correspond à l'absence chez l'unité d'observation de la propriété observée : on


dit alors qu'il y a un zéro vrai et on parlera de variable métrique (ou mesure) dans une
échelle rationnelle; toutes les opérations arithmétiques ont un sens sur ce genre de données;

Exemple: la taille, l'âge, le nombre d'employés dans une société

6
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

Remarque: on peut distinguer des variables métriques discrètes, qui ne peuvent prendre que
des valeurs discrètes, c'est-à-dire séparées les unes des autres et correspondant à des nombres
entiers indivisibles (par exemple, le nombre d'employés dans une société dans une classe), des
variables métriques continues, qui peuvent prendre toutes les valeurs possibles dans un intervalle
(par exemple, la taille).

III.2- TYPES DE STATISTIQUES SELON LE NOMBRE DE VARIABLES MANIPULEES


Selon le nombre de variable manipulé on distingue :
-la statistique univariée (ou unidimensionnelle) qui traite d’une seule variable à la fois. Les indices
d’aide à la prise de décision relèvent de la statistique descriptive comme la moyenne, l’écart-type, la
variance ou le coefficient de variation quant les variables sont quantitatives .Dans les cas d’une
variable qualitative on se contente du calcul des fréquences, car les indice ci-dessus perdent leurs
significations.
-la statistique bivariée (ou bidimensionnelle) elle traite deux variables à la fois. Selon la nature, on
peut mesurer l’intensité d’association de ces variables en effectuant le test de comparaison des
moyennes, le test des proportions, le test d’indépendance de Khi-deux, le test de signification du
coefficient de corrélation.
-la statistique multivariée (ou multidimensionnelle)
Elle traite plusieurs données à la fois (plus de 2).
Les méthodes descriptives les plus utilisées sont : l’Analyse Factorielle des
Correspondance(AFC) ; Analyse des Correspondances Multiples(AFCM) ; Analyse en
Correspondance Principale(ACP). Le choix du type de méthode dépendra des variables à analyser.

• ACP : des variables quantitatives


• AFC : deux variables qualitatives
• AFCM : plusieurs variables qualitatives

Nous verrons dans les chapitres suivants. Les méthodes explicatives les plus connues sont : Analyse
discriminante ; Analyse canonique ; la régression linéaire ; la segmentation.

VI- DEFINITION DE LA THEORIE STATISTIAUE DE LA DECISION

D’après tout ce qui précède, la théorie statistique de la décision nées peut être définit comme
un ensemble des méthodes qui aide à la prise des décisions, soit en mettant en évidence les relations
existant entre les variables qui caractérisent les objets, soit en restructurant les dites variables pour
mieux connaître les objets ou phénomènes étudiés.

Rappelons que le choix de la technique ou méthode particulière à mettre en œuvre est fonction du
problème à résoudre et de la nature des variables étudiées. Cependant le résultat de l’étude n’est
pertinent que lorsqu’elle a été faite sur un échantillon suffisamment représentatif de la population.

7
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

CHAPITRE II : ECHANTILLONNAGE

INTRODUCTION

Il existe de grands groupes de technique d’échantillonnage

Les des techniques d’échantillonnage aléatoire,. Ces méthodes reposent sur le hasard. Les unités
statistiques sont désignées par le hasard et ont toute la même chance d’être choisies. Ces techniques ont
aussi l’avantage de permettre de calculer la marge d’erreur d’échantillonnage. Il sera donc possible de généraliser les
résultats à l’ensemble de la population tout en prenant un risque calculé. Avant de commencer à utiliser
des techniques d’échantillonnage aléatoire,
on doit disposer d’une liste complète de toutes les unités
Statistiques de la population, que l’on appelle aussi une base de sondage. Cette liste détermine la population
observée.
Les techniques d’échantillonnage non aléatoire Contrairement aux techniques d’échantillonnage
aléatoire, il est impossible de calculer la marge d’erreur d’échantillonnage. Cependant, ces méthodes sont
beaucoup moins coûteuses, plus rapides et plus simples. Il est par contre, peu recommandé de généraliser les
résultats provenant de ces méthodes à l’ensemble de la population, puisque toutes les unités statistiques
n’ont pas la même chance d’être choisi ce qui influence la représentativité de l’échantillon.

I- METHODES D’ECHANTILLAGE ALEATOIRE


A – Echantillon aléatoire simple

Il s’agit d’un tirage équiprobable des éléments de l’échantillon,

il consiste uniquement à choisir des individus ayant la m ême probabilité d’êt re


choisi au hasard parmi la base de sondage.
Procédure :
a) Numéroter les unités statistiques de 1 à N.
b) Tirer au hasard des unités statistiques de la population qui feront partie de l’échantillon. cela se fait
grâce à l’utilisation de tables de membres au hasard ou aux logiciels qui génèrent des Pseudo-
aléatoires.
c) Il faut tirer un nombre d’unités statistiques égal à la taille de l’échantillon

B- Echantillon Systématique
L’échantillonnage a l é a t o i r e s yst ém at ique est une technique où les unités statistiques
sont choisis à intervalle régulier dans la base de sondage.
Procédure :
a) Numéroter les unités statistiques de 1 à N.
b) Calculer l’intervalle de sélection que l’on appelle aussi le pas de sondage. On le calcule en
divisant la taille totale de la population par la taille de l’échantillon recherchée.
c) Tirer au hasard une unité statistique de la population qui fera partie de l’échantillon.
d) Tirer les autres unités en appliquant le pas de sondage qui est l’inverse du taux de sondage. Il est
encore appelé raison de l’échantillon. ces éléments sont sélectionnés à intervalles réguliers

8
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

Exemple : si la raison est de 6 il faut d’abord tirer un nombre compris entre 1et 6, soit par exemple 4.
Puis on choisit les unités des rangs suivants : rang individus sélectionnés :

4 10 16 22

+6 +6 +6

C- ECHANTILLON STRATIFIE

L’échantillonnage aléatoire stratifié suppose que la population en sous-ensemble


ayant des caractéristiques communes, donc des sous-ensembles homogènes appelés strates. Par
exemple, on peut classer des individus par leur taille ;leur sexe etc.
Cette méthode consiste à prélever un échantillon ayant la même composition que la
population ce qui crée un échantillon représentatif, mais cette méthode est très coûteuse.
Procédure :
a) Diviser la population en strates.
b) Dresser la liste la plus complète possible (base de sondage) constituant chacune des strates.
c) Pour chaque strate, choisir de façon aléatoire simple un nombre d’unités statistiques pour
constituer l’échantillon de telle sorte que le pourcentage d’unités dans chacune des strates de l’échantillon
soit le plus près possible du pourcentage d’unités dans chacune des strates de la population

D- ECHANTILLON A PLUSIEURS DEGRES.

Le premier degré correspond à la sélection d’élément appelés unités primaires, au deuxième


degré on de manière aléatoire des sous ensemble appelés unités secondaires au sein de chaque unité
primaire retenue et ainsi de suite jusqu’au dernier degré. Les éléments sélectionnés au dernier degré
correspondent aux unités d’analyse.

E- ECHANTILLON PAR GRAPPES

L’échantillon par grappes est un cas particulier d’échantillon à deux degré les éléments ne sont pas
sélectionnés un à un mais par sous-groupes appelés grappes,

L’échantillonnage aléatoire par grappes consiste à choisir des groupes plutôt que de choisir
des unités statistiques isolées .Une grappe est un sous-ensemble non homogènes de la population défini
selon la proximité. Il est plus facile de faire une liste des groupes et de choisir au hasard parmi ces
groupes et d’interroger toutes les unités statistiques du groupe. Par exemple, un groupe d’étudiants
faisant partie de la même filière, des habitants du même immeuble, des habitants du même quartier etc.
Cette méthode permet de sauver beaucoup de temps en dé- placement.

Procédure :
a) Diviser la population en grappes.
b) Dresser la liste la plus complète possible (base de sondage) des unités statistiques formant chacune des
grappes.
9
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

c) Choisir de façon aléatoire simple un certain nombre de grappes.


d) L’échantillon sera alors composé de toutes les unités statistiques appartenant aux grappes
choisies.
Tableau de comparaison des méthodes aléatoire

Précision des Faiblesse des Simplicité Facilité des


échantillons coûts de de basse de traitements
collecte sondage

Echantillon aléatoire simple + - - +

Echantillon systématique + - + +

Echantillon stratifié ++ - - - -

Echantillon à plusieurs - + + -
degrés

Echantillon par grappes - + ++ - -

II. METHODES D’ECHANTILLONNAGE NON ALEATOIRE

II 1 – ECHANTILLON PAR QUOTAS

C’est une méthode d’échantillonnage non aléatoire qui permet d’obtenir un échantillon ayant
une certaine représentabilité de la population étudiée. La population est segmentée en fonction de
critère définis a priori. De telle sorte que chaque élément de la population appartienne à un segment
et un seul. A chaque segment de la population correspond un quota, qui indique le nombre de
réponse à obtenir.

II2 – LE CHOIX RAISONNE

Les méthodes pour choix raisonné reposent fondamentalement sur le jugement, et se


distinguent en cela des méthodes probabilisés dont l’objectif consiste précisément à éliminer cette
subjectivité. Les échantillons constitués par choix raisonné permettent de choisir de manière précise
les éléments de l’échantillon et, ainsi de garantir plus facilement le respect de critères exigés par
certains désigne de recherche tels que l’homogénéité

II -3 – ECHANTILLON DE CONVENANCE OU AU JUGE


C’est une technique basée uniquement sur les connaissances du chercheur sur la
population. En effet, le chercheur choisit les unités statistiques qu’il juge possédant les
caractéristiques typiques de la population à l’étude.
II-4 LES AUTRES METHODES D’ECHANTILLONNAGE NON ALÉATOIRES
OU NON PROBABILISTES
La liste n’est pas exhaustive ; on peu citer :
A- Technique de boule de neige
Utilisation de personnes comme source d'identification d'unités additionnelles. Elle
consiste à trouver un premier répondant qui vérifie les critères de sélection définis par le
10
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

chercheur. On demande à ce premier interculoteur d’en designer d’autres qui seront eux aussi
susceptibles de présenter les caractères requises et ainsi de suite.
B- la méthode de l’itinéraire
On impose à l'enquêteur : Un point de départ dans une
commune.
Un itinéraire à suivre avec tirage systématique des logements dans lesquels effectuer les interviews
Objectif : reproduire un certain tirage aléatoire des enquêtés, sans donner explicitement des noms
et adresses à l'enquêteur
C - L’échantillonnage par volontaire : On prélève l'échantillon à partir d'un groupe de volontaires.
D- échantillonnage sur place : L’échantillon étudié est définie par un lieu. Cette méthode est
utilisée dans l'échantillonnage de populations mobiles, rares ou spécifiques.
E-L’échantillonnage accidentel est une technique simple et peu coûteuse. L’unité
statistique se trouve au mauvais endroit au mauvais moment. un étudiant de passage à
l’entrée de l’INSAM trouve un enquêteur qui lui propose de remplir un questionnaire.

III – CONSTITUTION D’ECHANTILLON APPARIES


Ces échantillons présentent des caractéristiques similaires sur certains critères jugés pertinents de
manière à s’assurer que l’effet mesuré provient de la ou (des) variable (s) étudiée (s) et non de la
différence de composition des échantillons.
La randomisation et une des principales méthodes pour constituer ces échantillons.

VI- BIAIS DE L’ECHANTILLON


La variabilité des estimations représente les différences dans les résultats obtenus il est possible de
constater d’un à l’autre.
1-variabilité des estimations

Biais lié à la méthode de sélection


2- biais d’échantillon
Non -couverture
Biais estimateurs

Non observation Non réponse


Biais non liés à
échantillonnage Erreur Du répondant
Observation

Erreur de mesure

Erreur, d’enregistremet
VII-TAILLE DE L’ECHANTILLON. de codage

VII1- CALCULE DE LA TAILLE D’ECHANTILLON POUR ESTIMER UNE MOYENNE.

Si l’on souhaite se fixer à priori une précision de la moyenne.

11
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

2
Z 
n S
 

Exemple supposons que l’on veuille connaitre la durée moyenne de développement d’un
nouveau produit de grande consommation supposons en autre que l’on connaisse une estimation de
l’écart type de la durée de développement (8mois) que l’on souhaiter avoir une précision égale à 2
mois de chaque coté de la moyenne et un seuil signification souhaité de 5%.

VII2 – TECHNIQUE D’ECHANTILLONNAGE ET TAILLE DE L’ECHANTILLON.

Il existe des coefficients d’ajustement (0) de la variance pour le calcul de la taille de


l’échantillon pour chaque méthode d’échantillonnage.

Par exemple pour l’exercice précédent le coefficient d’ajustementest1,5 sachant que


l’échantillon a été constitué à partir d’une méthode d’échantillonnage à plusieurs degrés deff
détermine la taille de l’échantillon. C’est le coefficient d’ajustement.

CHAPITRE III : STATISTIQUES DIFFERENTIELLES ET TESTS D’HYPOTHESE

12
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

I- EXPLICATIONS DE QUELQUES NOTIONS DE BASE


les Statistiques inférentielles : Ensemble des méthodes et des théories permettant de généraliser à
une population de référence des conclusions obtenues à partir de l'étude d'un échantillon
extrait de cette population. Elles visent à:
hypothèse: l'hypothèse est une relation hypothétique (provisoire, postulée par le chercheur)
entre une variable indépendante et une variable dépendante, entre2 ou plusieurs paramètres, entre 2
ou plusieurs distributions.
On distingue deux formes d’hypothèse (qui sont la décomposition d’une hypothèse pour
vérification) :
- Hypothèse nulle (H0), postulant l'absence de différences entre les caractéristiques de
l'échantillon et celles de la population de référence.
- Hypothèse significative ou alternative (H1), postulant l'existence de différences entre les
caractéristiques de l'échantillon et celles de la population de référence.
L'hypothèse alternative peut être de deux types: soit dirigés (postule l'existence de la différence et
précise le sens qu'elle prendrait) soit non dirigée (postule la différence sans précision du sens). Le
premier type est dit unilatéral et le second est bilatéral.
Population: l'ensemble des sujets ou des événements visés par l'étude (les enseignants du
primaire, scores des étudiants, revenus des personnes, etc.) = population de référence. Elle peut aller
d'un ensemble de nombre relativement réduit, et donc facile à rassembler, à un ensemble de nombre
important, fini ou infini, qui serait, en pratique difficile à rassembler dans son entièreté. Il en résulte
que les chercheurs ont recours généralement à prélever de la population (de référence ou mère) un
nombre déterminé de sujets ou d'observations = l'échantillon.
Echantillon: un ensemble de sujets ayant les mêmes caractéristiques de la population-mère,
utilisé en vue d'inférer quelque chose à propos de cette population. Il y a plusieurs types
d'échantillon dont l'échantillon aléatoire, l'échantillon stratifié, l'échantillon par quotas, etc.
test d’hypothèse
C'est une fonction des variables aléatoires représentant l’échantillon dont la valeur numérique
obtenue pour l’échantillon considéré permet de distinguer entre H0 vraie et H0 fausse.
Autrement dit, c'est une démarche consistant à rejeter ou à ne pas rejeter une hypothèse statistique,
appelée hypothèse nulle, en fonction d'un jeu de données (échantillon). Il s’agit d'émettre, à partir de
calculs réalisés sur des données observées, des conclusions sur la population, en leur rattachant des
risques de se tromper.
Définir les hypothèses de travail, constitue un élément essentiel des tests d'hypothèses de même que
vérifier les conditions d'application de ces dernières (normalité de la variable, égalité des variances)
Types de test
On parle de tests paramétriques lorsque l’on stipule que les données sont issues d’une
distribution paramétrée. Dans ce cas, les caractéristiques des données peuvent être résumées à
l’aide de paramètres estimés sur l’échantillon (moyenne, mode te médiane), la procédure de test
subséquente
ne porte alors que sur ces paramètres. L’hypothèse de normalité sous jacente des données est le plus
souvent utilisée, la moyenne et la variance suffisent pour caractériser complètement la distribution.
Concernant les tests d’homogénéité par exemple, pour éprouver l’égalité des distributions, il suffira
de comparer les moyennes et/ou les variances.

13
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des données.
On les qualifie souvent de tests distribution free. L’étape préalable consistant à estimer les
paramètres des distributions avant de procéder au test d’hypothèse proprement dit n’est plus
nécessaire.
La distinction paramétrique – non paramétrique est essentielle. Elle est systématiquement mise en
avant dans la littérature. Les tests non paramétriques, en ne faisant aucune hypothèse sur les
distributions des données, élargissent le champ d’application des procédures statistiques. En
contrepartie, ils sont moins puissants.
Puissance d'un test:
C'est une évaluation de sa sensibilité, de sa capacité à détecter les effets significatifs dans les données
quand, en fait, ils sont présents ; lors de chaque test, nous acceptons une hypothèse et nous refusons
l'autre
- On commet une erreur de type 1 quant on rejette H0, alors qu'elle est valable
- On commet une erreur de type 2 quand on accepte H0, alors qu'elle n'est pas valable
On dit qu'un test qui conduit à peu d'erreurs de type 2 est un test qui possède une haute puissance ou
très sensible; à l'inverse, on dit qu'un test qui conduit à peu d'erreurs de type 1 et beaucoup d'erreurs
de type 2 à une faible puissance. Il est souhaitable d'utiliser un test de haute puissance chaque fois
que c'est possible ; la puissance d'un test augmente avec la taille de l'échantillon.

Seuil de signification
En statistique, il n'existe pas de règle rigide permettant de tirer une conclusion concernant les
hypothèses; aucun test ne nous fournit une réponse en terme de oui ou non ou de catégorique, mais
indique dans quelle mesure nous pouvons être certain de tirer des conclusions; cette mesure se
nomme niveau ou seuil de signification, ou encore probabilité d'erreur. Au plus le seuil est petit,
au moins il est probable que nous nous trompions quand nous prononçons pour le rejet ou
l'acceptation d'une hypothèse ; généralement, on travaille avec un seuil de 5%.

H0 vraie H0 fausse

Accepter H0 OK Erreur de 2nde espèce

Rejeter H0 Erreur de 1ière espèce OK

α Puissance 1-β

II-LES TESTS PARAMETRIQUES

II-1. Tests sur les moyennes

14
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

II.1.1 Comparaison d’une moyenne d’échantillon à une valeur de référence quand la


variance de la population est connue.

La question de recherche est : une moyenne calculée sur un échantillon issu d’une population
de variance connue diffère-t-elle significativement d’une moyenne hypothétique ?

>Condition d’application
- La population a une variance connue (cas très rare) et une moyenne inconnue
(posée par hypothèse égale à ).
- L’échantillon est aléatoire et contient n observations indépendantes.
- La taille n de l’échantillon doit être supérieure à 5 sauf si la distribution de la moyenne
dans la population suit une loi normale – auquel cas cette taille peut être
quelconque.
On notera à cet égard que la condition d’une grande taille a pour principal but d’assurer que la
moyenne de l’échantillon suive une distribution normale
 Hypothèses

L’hypothèse nulle à éprouver est : .

L’hypothèse alternative est : (pour un test bilatéral)

Ou (pour un test unilatéral à gauche)

Ou (pour un test unilatéral à droite)

Statistique calculée et interprétation du test

La statistique calculée est . Sa distribution suit une loi normale centrée

réduite (moyenne = 0 et écart type = i). On l’appelle test z (« test » ou « z statistic »).

- Dans le cas d’un test bilatéral, on rejette ou


- Dans le cas d’un test unilatéral à gauche, on rejette
- Dans le cas d’un test unilatéral à droite, on rejette Ho si Z > Zα

Où est le seuil de signification (ou erreur de première espèce) retenu, des valeurs
de la loi normale centrée réduite que l’on peut lire sur des tables appropriées.

Exemple : Comparaison d’une moyenne à une valeur donnée (variance de la population connue)

Un échantillon de 16 observations est tiré d’une population d’écart type connu = 40 et de


moyenne inconnue . On suppose que la moyenne de la population est = 500. La moyenne
trouvée sur l’échantillon est m = 493. Peut-on admettre que la population ait une moyenne =

15
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

500, en adoptant un risque de première espèce de 5% ? La taille de l’échantillon (n = 16,


supérieure à 5) dispense de l’hypothèse de normalité.

Z= , soit – 0,70.

Par ailleurs, on peut lire sur la table de la loi normale centrée réduite que = = 1,96
et que =Z 0.05 = 1,64.

Test bilatéral : puisque - (-1,96 - 0,70 1,96), on se situe dans la zone


d’acceptation de et on ne rejette pas l’hypothèse selon laquelle la moyenne de la population
est égale à 500 ( = 5000). Test unilatéral à gauche : puisque Z - (-0,70 - 1,64), on se situe
dans la zone d’acceptation de et on ne rejette pas l’hypothèse selon laquelle la moyenne de la
population est égale à 500 ( = 500).

Test unilatéral à droite : puisque Z < (-0,70< 1,64), on se situe dans la zone de rejet de et
on rejette l’hypothèse selon laquelle la moyenne de la population est égale à 500 ( = 500).

II.1.2. Comparaison d’une moyenne d’échantillon m à une valeur de référence


quand la variation de la population est inconnue

La question de recherche est : une moyenne m calculée sur un échantillon issu d’une
population de variance inconnue diffère-t-elle significativement d’une moyenne
hypothétique ?.

Condition d’application
- La population a une variance inconnue qui doit être estimée sur l’échantillon et une
moyenne également inconnue (posée par hypothèse égale à
- L’échantillon est aléatoire et contient n observations indépendantes
- La taille n de l’échantillon est supérieure à 30 ou bien la moyenne suit dans la
population une loi normale auquel cas la taille n est quelconque
a- Hypothèses

L’hypothèse nulle a éprouver est : :

L’hypothèse alternative est : (pour un test bilatéral)

Ou (pour un test unilatéral à gauche)

Ou (pour un test unilatéral à droite).

Statistique calculée et interprétation du test

16
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

La variante inconnue de la population est estimée sur l’échantillon, avec n -1 degrés de


liberté, par s² =

La statistique calculée est T = . Sa distribution suit une loi de student avec n – 1 degrés
de liberté. On l’appelle « test » ou « test de student » (t test ou t statistic). Suit
approximativement une loi normale centrée réduite. Autrement dit, T = .=Z= .
On peut donc prendre la décision (i.e rejet ou acceptation de Ho. Rappelons que les règles de
décision de la loi normale centrée réduite sont :

- Dans le cas d’un test bilatéral, on rejette si ou


- Dans le cas d’un test unilatéral à gauche, on rejette
- Dans le cas d’un test unilatéral à droite, on rejette
Où est le seuil de signification (ou erreur de première espèce) retenu, et des
valeurs de la loi normale centrée réduite que l’on peut lire sur des appropriées.
Mais lorsque n est petit, par exemple inférieur à 30, il faut absolument utiliser la loi du T de
student à n – 1 degrés de liberté et non la loi normale Z. Les règles de décision sont alors les
suivantes :
- Dans le cas alors d’un test bilatéral, on rejette si T ou
T

- Dans le cas d’un test unilatéral à gauche, on rejette si T


- Dans le cas d’un test unilatéral à droite, on rejette si T

Exemple : comparaison d’une moyenne à une valeur donnée (variance de la population inconnue)

On dispose à présent d’un échantillon beaucoup plus large constitué de 144 observations. La
moyenne trouvée sur cet échantillon est à nouveau m = 493. L’écart type estimé sur l’échantillon
est s = 46,891. Peut-on toujours admettre que la moyenne de la population est = 500, en
adoptant un risque de première espèce de 5% ?

La grande taille de l’échantillon (n = 144, supérieure à 30) dispense de l’hypothèse de normalité


de la distribution de la moyenne dans la population. De même, elle justifie l’approximation de la
statistique T par une loi normale centrée réduite. Par ailleurs,

II.1.3 COMPARAISON DE LA DIFFERENCE DE DEUX MOYENNES A UNE VALEUR


DONNEE QUAND LES VARIANCES SONT CONNUES

17
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

La question de recherche est : La différence entre les moyennes de deux populations de


variances connues 1 et 2 est-elle significativement différente d’une valeur donnée Do (par
exemple zéro) ?

Condition d’application
-les variances 1 et 2 des deux populations sont connues les moyennes 1 et 2 sont
inconnues
-Les deux échantillons sont tous deux aléatoires et contiennent respectivement n1 et n2
observations indépendantes
- la distribution de la moyenne dans chacune des deux populations suit une loi
normale ou bien la taille de chaque échantillon est supérieure à 5,
Hypothèses

L’hypothèse nulle à éprouver est : H.O ; 1- 2 =DO

L’hypothèse alternative est : H1 : 1- 2 ≠DO (pour un test bilatéral)

Ou H1 ; 1- 2 <DO (pour un test unilatéral à gauche)

Ou H1 : 1- 2 >DO (pour un test unilatéral à droite)

Statistique calculée et interprétation du test

La statistique calculée est z 


m m1 2 D O avec  n11 s  n 21 s
2 2

 sd  1 2

d n1 n 2  2

z suit une loi normale centrée et les règle de décisions sont les suivantes ;

- Dans le cas d’un test bilatéral, on rejette HO si Z< -Zα/2 ou Z> Zα/2
- Dans le cas d’un test unilatéral à gauche, on rejette HO si Z< -Zα
- Dans le cas d’un test unilatéral à droite, on rejette HO si Z >Zα

II.1.4 COMPARAISON DE LA DIFFERENCE DE DEUX MOYENNES A UNE


VALEUR DONNEE QUAND LES VARIANCES SONT INCONNUES MAIS
INEGALES

La question de recherche est : La différence entre les moyennes ; 1 et 2 de deux


populations de même variances inconnues est-elle significativement différente d’une valeur
donnée Do (par exemple zéro) ?

Conditions d’application
18
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

-Les deux populations ont la même variance inconnue et des moyennes 1 et 2 inconnues

-Les deux échantillons sont tous deux aléatoires et contiennent respectivement n1 et n2 observations
indépendantes

-la distribution de la moyenne dans chacune des deux populations suit une loi
normale ou bien la taille de chaque échantillon est supérieure à 30

-Hypothèse d’égalité des variances est vérifiée

Hypothèses

L’hypothèse nulle à éprouver est : H.O ; 1- 2 =DO

L’hypothèse alternative est : H1 : 1- 2 ≠DO (pour un test bilatéral)

Ou H.1 ; 1- 2 <DO (pour un test unilatéral à gauche)

Ou H1 : 1- 2 >DO (pour un test unilatéral à droite)

Statistique calculée et interprétation du test

La statistique calculée est z 


m m 1 2 DO
s d

II.1.5 COMPARAISON DE K MOYENNES K(analyse de la variance)


la question de recherche est : K moyennes m1, m2 m3...mk observées sur k échantillons diffèrent-elles
significativement les unes des autres ?

Condition d’application
-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/
Observations indépendantes
-la distribution des moyennes dans chacune des k populations suit approximativement une loi
normale de même variance inconnue
-le choix de la structure des k groupes ne doit pas déterminer les variables concomitantes.

HYPOTHESES

L’hypothèse nulle à éprouver est : H0 : 1= 2= ….= K,

L’hypothèse alternative est : H1 : les valeurs des I (i=1, 2, …K)ne sont pas toutes identiques, cela
signifie qu’il suffit que la valeur d’un paramètre soit différente pour que l’hypothèse nulle soit rejetée
au profit de l’hypothèse alternative.

 Statistique calculée et interprétation du test

19
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

var iance exp liquée


La statistique calculée est F  . Cette statistique suit une loi de Fisher
var iance residuelle
avec k-1 et n-k-1 degrés de liberté où n est le nombre total d’observations.la règle de décision est la
suivante : on rejette Ho si F>Fα(k-1 ;n-k)
II.1.6 COMPARAISON DEUX SERIES DE MESURES(le test T2 de Hotteling)
la question de recherche est : les profils moyens de deux séries de k mesures ( m1, m2 ;…mk) et(
m1’, m2’ ;…mk’) observées sur deux échantillons diffèrent-ils significativement l’un de l’autre?
le test de T2 de Hotteling permet de comparer deux matrices ou deux vecteurs quelconques,
notamment des matrices de d corrélations, de variances /covariances, des moyennes, etc.
Condition d’application
-Les 2 échantillons sont aléatoires et contiennent respectivement n1, n2
Observations indépendantes
- les deux distributions sont indépendantes suivent une loi normale.
a- Hypothèse

L’hypothèse nulle a éprouver est : : les deux mesure pressentent le même profil .

L’hypothèse alternative est : les deux mesures pressentent les profils différents.

 Statistique calculée et interprétation du test


  K 1 2
la statistique calculée est F  n1 n 2
k (n1  n 2  2) T
où T2 est le T2 de Hotelling ; k le nombre de variables. Cette statistique suit une loi de Fisher avec k-
1 et n1+n2-k-1 degrés de liberté où n est le nombre total d’observations. la règle de décision est la
suivante : on rejette Ho si F>Fα(k-1 ; n1+n2-k-1)

II.2 TESTS SUR LES PROPORTIONS


II.2.1 COMPARAISON D’UNE PROPORTION ou pourcentage p à une valeur de référence
πo

La question de recherche est : une proportion p calculée sur un échantillon diffère-t-elle


significativement d’une proportion hypothétique πo ? .

-Condition d’application
- L’échantillon est aléatoire et contient n observations indépendantes
- la distribution de la proportion suit dans la population une loi binomiale
- La taille n de l’échantillon est grand (supérieure ou égale à 30).
- Hypothèse

L’hypothèse nulle a éprouver est : : π= πo

L’hypothèse alternative est :π πo (pour un test bilatéral)


20
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

Ou : : π< πo (pour un test unilatéral à gauche)

Ou : : π> πo (pour un test unilatéral à droite).

b- Statistique calculée et interprétation du test

La statistique calculée est

p  o  1   
T

Avec  p
 o

n
o

Les règles de décision de la loi normale centrée réduite sont :

- Dans le cas d’un test bilatéral, on rejette si ou


- Dans le cas d’un test unilatéral à gauche, on rejette
- Dans le cas d’un test unilatéral à droite, on rejette
II.2.2 COMPARAISONS DE DEUX PROPORTIONS OU POURCENTAGES P1 ET P2
(GRANDS ECHANTILLONS)

La question de recherche est : deux proportions p1 et p2 observées sur deux échantillons


diffèrent-t-elles significativement l’une de l’autre ? .

-Condition d’application
- Les deux échantillons sont aléatoires et contiennent respectivement n1 et n2
observations indépendantes
- la distribution des proportions suit dans chaque population une loi binomiale
- La taille des échantillons est grande (supérieure ou égale à 30).
- Hypothèse

L’hypothèse nulle a éprouver est : : π1= π2

L’hypothèse alternative est : π1 π2 (pour un test bilatéral)

Ou : : π1< π2 (pour un test unilatéral à gauche)

Ou : : π1> π2 (pour un test unilatéral à droite).

-Statistique calculée et interprétation du test

La statistique calculée est

Z
pp
1 2

 
p 0
1  p   n1  n1 
0
2 2

21
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

Cette distribution suit une loi normale centrée réduite

Les règles de décision de la loi normale centrée réduite sont :

- Dans le cas d’un test bilatéral, on rejette si ou


- Dans le cas d’un test unilatéral à gauche, on rejette
- Dans le cas d’un test unilatéral à droite, on rejette

II.2.3. COMPARAISON DE K PROPORTIONS OU POURCENTAGES PK (GRANDS


ECHANTILLONS)
La question de recherche est : K proportions p1, p2 p3….pk observées sur k échantillons diffèrent-
elles significativement les unes des autres ?

Condition d’application
-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/
Observations indépendantes
-la distribution des proportions dans chacune des k populations suit une loi binomiale
- la taille des échantillons est grande.
- ce test est meilleurs si les tailles des échantillons sont supérieures à 50 chacune et que nkpk≥ 5 pour
chaque échantillon.
HYPOTHESES

L’hypothèse nulle à éprouver est : H0 :π1= π2= ….=πK,

L’hypothèse alternative est : H1 : les valeurs des πI (i=1, 2, …K) ne sont pas toutes identiques, cela
signifie qu’il suffit que la valeur d’un paramètre soit différente pour que l’hypothèse nulle soit rejetée
au profit de l’hypothèse alternative.
-Statistique calculée et interprétation du test

La statistique calculée est

 x  n p
2
k
 
j j

j 1 n p 1  p 
j
K

x j
Avec xj =effectif dans l’échantillon j correspondant à la proportion pj et P  i 1
k

n
j 1
k

la distribution de χ suit un khi-deux à k-1 degrés de liberté.la règle de décision est la suivante Ho si χ
≥ χ2α(k-1).

II.3 TESTS SUR LES VARIANCES


II.3.1 COMPARAISON D’UNE VARIANCE σ2 A UNE VALEUR DE REFERENCE σ02

22
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

La question de recherche est : une variance s2 calculée sur un échantillon diffère-t-elle


significativement d’une variance hypothétique σ02
>Condition d’application
- L’échantillon est aléatoire et contient n observations indépendantes.
- la distribution de la variance dans la population suit une loi normale de moyenne et de
variance inconnues.
 Hypothèses

L’hypothèse nulle a éprouver est : : σ2= σ02

L’hypothèse alternative est : σ2 σ02 (pour un test bilatéral)

Ou : : σ2< σ02 (pour un test unilatéral à gauche)

Ou : : σ2> σ02 (pour un test unilatéral à droite).

 Statistique
La statistique à calculée est
2

  xi  m
n
2

   n  1 s  i 1
Où m est la moyenne et s2 la variance de l’échantillon . Cette
 
2 2
0 0

distribution suit une loi de khi-deux avec n-1 degrés de liberté noté χ2 (n-1)
Les règles de décision sont alors les suivantes :
- Dans le cas alors d’un test bilatéral, on rejette si χ2 χ2α/2 (n-1) ou
<
2 2
χ > χ α/2 (n-1)
-Dans le cas d’un test unilatéral à gauche, on rejette si χ2 χ21-α (n-1)
<
-Dans le cas d’un test unilatéral à droite, on rejette si χ > χ21-α (n-1)
2

II.3.2. COMPARAISON DE DEUX VARIANCES


La question de recherche est : les variances σ1 2 et σ22de deux populations sont-elles
significativement différentes l’une de l’autre.
>Condition d’application
- les deux échantillons sont aléatoires et contiennent respectivement n1et n2
observations indépendantes.
- la distribution des variances dans chaque population suit une loi normale ou bien les
échantillons sont de grande taille
 Hypothèses

L’hypothèse nulle a éprouver est : : σ12= σ22

L’hypothèse alternative est : σ12 σ22 (pour un test bilatéral)

23
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

Ou : : σ12< σ22 (pour un test unilatéral à gauche)

Ou : : σ12> σ22 (pour un test unilatéral à droite).

 Statistique

 x  x   x  x 
n1 2 n2 2

La statistique à calculée est F  s 1i 1 2i 2


1
avec s i 1
et s  i 1
.
s 2
1
n 1 1
2
n 1 2

Cette distribution suit une loi de Fisher –Snedecor Fα(n-1 ; n-1 )


Les règles de décision sont alors les suivantes :
- Dans le cas alors d’un test bilatéral, on rejette si F Fα(n-1 ; n-1 )ou
<
F > Fα(n-1 ; n-1 )
-Dans le cas d’un test unilatéral à gauche, on rejette si F F
< α(n-1 ; n-1 )
-Dans le cas d’un test unilatéral à droite, on rejette si F > Fα(n-1 ; n-1 )

II.3.3 COMPARAISON DE K VARIANCES ( TEST DE BARTLETT)


La question de recherche est : K variances σ1, σ 2 σ 3…. σ k observées sur k échantillons diffèrent-
elles significativement les unes des autres ?

Condition d’application
-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/
Observations indépendantes
-la distribution des variances dans chacune des k populations suit une loi normale ;
-Aucune des variances empiriques n’est nulle.

HYPOTHESES

L’hypothèse nulle à éprouver est : H0 : σ 1= σ 2= ….= σ K,

L’hypothèse alternative est : H1 : les valeurs des σ i(i=1, 2, …K)ne sont pas toutes identiques, cela
signifie qu’il suffit que la valeur d’un paramètre soit différente pour que l’hypothèse nulle soit rejetée
au profit de l’hypothèse alternative.

 Statistique calculée et interprétation du test


k
La statistique calculée est   v ln s   v i ln s i
2 2

i 1

 x  x 
n 2

ij i k
1 k
s 
j 1
; v   vis  
2 2 2
Avec vi = ni -1. i v isi
: xij est la valeur de l’observation j
v i i 1 v i 1
dans la population i. xi= la moyenne de la variable x dans la population i estimée sur la population
de taille ni .si est la variance la variable x dans la population i estimée sur la population de taille ni

24
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

Cette statistique suit une loi khi-deux à v degré de liberté.la règle de décision est la suivante :
on rejette Ho si χ>χα(k-1)
II.3.4 COMPARAISON DE K VARIANCES (TEST DE COCHRAN)
La question de recherche est : K variances σ1, σ 2 σ 3…. σ k observées sur k échantillons diffèrent-
elles significativement les unes des autres ?
Plus précisément le test de Cochran si la plus grandes des k variances est significativement
différente des k-1 autres variances.
Condition d’application
-Les k échantillons sont aléatoires et contiennent respectivement n1, n2 … nk/
Observations indépendantes
-la distribution des variances dans chacune des k populations suit une loi normale ; ou tout au moins ;
une loi uni modale.

HYPOTHESES

L’hypothèse nulle à éprouver est : H0 : σ 1= σ 2= ….= σ K,

L’hypothèse alternative est : H1 : les valeurs des σ i(i=1, 2, …K)ne sont pas toutes identiques, cela
signifie qu’il suffit que la valeur d’un paramètre soit différente pour que l’hypothèse nulle soit rejetée
au profit de l’hypothèse alternative.

 Statistique calculée et interprétation du test


2

La statistique calculée est C s k


max
où s2i sont les estimations des variances calculées avec
s
2
i
i 1
2
v=n-1 degré de liberté et s max la plus grande des k variances estimées.
on compare cette statistique c à des valeurs critiques cα disponibles dans une table .la règle de
décision est la suivante : on rejette H0 si c > cα

III. TEST NON PARAMETRIQUE


Les tests non paramétriques portent sur les statistiques (ie les fonctions) construites à ions et qui
ne dépendent pas de la distribution de la population correspondante. La validité des tests non
paramétriques dépend des conditions générales beaucoup moins contraignantes que celles requises
pour la mise en œuvre des tests paramétriques.
Les tests non paramétriques présentent plusieurs avantages ;
-Ils sont applicables aux petits échantillons.
-Ils sont applicables à divers types de données (nominales, ordinales, intervalles, ratios)
-Ils sont applicables à des données incomplètes ou imprécises.
III.1-Les tests sur une variable dans plusieurs échantillons
III.1-1-comparaison d’une distribution empirique à une distribution théorique (test
d’adéquation ou de qualité d’ajustement)
la question de recherche est : la distribution empirique De observée sur un échantillon est-elle
significativement différente d’une distribution de référence Dr?
Condition d’application
25
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

-L’échantillon est aléatoire et contient n Observations indépendantes reparties en k classes


- une loi de distribution de référence Dr est choisie (loi normale, loi du khi-2, ect)

HYPOTHESES

L’hypothèse nulle à éprouver est : H0 : De = Dr

L’hypothèse alternative est : H1 : De Dr

 Statistique calculée et interprétation du test


o  T 
2
k
La statistique calculée est    i i

T
i 1 i

Où oi et Ti désignent pour chacune des k classes ; les effectifs observés et les effectifs théoriques
calculer d’après la distribution de référence Dr
la distribution de χ suit une loi de khi-deux à k-1-r degré de liberté ; où r désigne le nombre de
paramètres de la loi de référence qui ont été estimés à l’aide des observations/la règle de décision est
la suivante : on rejette Ho si χ>χα(k-1-r)
III.1-2-COMPARAISON DES DISTRIBUTIONS D’UNE VARIABLE X DANS DEUX
POPULATIONS A ET B (TEST DE KOLMOGOROV-SMIRNOV)
la question de recherche est : une variable X est –elle identiquement distribuée dans deux
population A et B.
Conditions d’application
-les deux échantillons sont aléatoires et contiennent nA et nB observation indépendantes issues
respectivement des populations A et B.
-la variable X étudiée est une variable d’intervalle ou de ratio dont la loi de distribution est
quelconque.
-les limites des classes sont identiques dans les deux échantillons.
Hypothèses
L’hypothèse nulle à éprouver est H0 : la variable X est distribuée à l’identique dans la population A et
B.
L’hypothèse alternative est H1 : la variable X est distribuée différemment dans la population A et B.
Statistique calculée et interprétation du test
La statistique à calculée est : D= Maximum F X  F X 
A B
OU FA(x) et FB(x) désignent les
fréquences cumulées des classes A et B .on compare aux valeurs critiques do de la table de
Kolmogorov-smirnov. la règle de décision est la suivante :on rejette Ho si d>dO.

III.1-3-COMPARAISON DES DISTRIBUTIONS D’UNE VARIABLE X DANS DEUX


POPULATIONS A ET B (TEST DE U DE MANN ET WHITNEY)
la question de recherche est : une variable X est –elle identiquement distribuée dans deux
population A et B.
Conditions d’application

26
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

-les deux échantillons sont aléatoires et contiennent nA et nB observations indépendantes issues


respectivement des populations A et B. supposons nA >nB pour les formules qui vont suivent ; en cas
de besoin on intervertit la notation des échantillons A et B
-la variable X étudiée est au moins ordinale.
Hypothèses
L’hypothèse nulle à éprouver est H0 :la variable X est distribuée à l’identique dans la population A et
B.
L’hypothèse alternative est H1 : la variable X est distribuée différemment dans la population A et B.

Statistique calculée et interprétation du test


Soit (A1 ;A2 …AnA) l’échantillon de taille nA issue de la population A et(B1 ;B2 …BnB) l’échantillon
de taille nB issue de la population B .on obtient N = nA + nB observation que l’on classe par ordre
croissant sans tenir compte de l’appartenance aux échantillons.
 n  n  1  ;
La statistique calculée est U=minimum  n An B  A A 
n B  n B  1  
 2 R A n An B 2 RB
 
Où RA et RB désignent respectivement la somme des rangs des éléments de A et de B. on compare
la statistique U aux valeurs critiques Uα de la table de Mann et Whitney. La règle de décision est la
suivante : on rejette HO si U> Uα lorsque nA et nB sont grands (supérieur chacun à 12).

U  n An B
U' 2 Suit une loi centrée réduite. On peut donc utiliser U’comparé à la
n An B  n A  n B  1
12
valeur lue sur la table de la loi normale.

CHAPITRE IV : DIFFÉRENTES DONNÉES ET QUELQUES ANALYSES


CORRESPONDANTES

TYPES DE ANALYSES DESCRIPTIVES ANALYSES EXPLICATIVES


VARIABLES DESCRIPTION DESCRIPTION TESTS TESTS NON
GRAPHIQUE NUMERIQUE PARAMETRIQUES PARAMETRIQUES
Variable nominale Diagrammes à mode //////////////////// Test d’adéquation
univariée bande, à tuyaux du Khi-deux
d’orgue ou à
barre, à secteur
Variable ordinale Diagrammes à Mode, médiane, /////////////////////// Test d’ajustement
univariée bande, à tuyaux quantiles du Khi-deux ou
d’orgue ou à de Kolmogorov-
barre, à secteur Smirnov
Variable Diagramme à Mode, médiane, Test de Test d’ajustement

27
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

quantitative scalée bâton, courbe en quantiles, signification de la du Khi-deux ou


escalier moyenne écart- moyenne de Kolmogorov-
type, coefficient Smirnov
de variation
Variable Diagramme à Mode, médiane, Test de Test d’ajustement
quantitative discrete bâton, courbe en quantiles, signification de la du Khi-deux ou
escalier moyenne écart- moyenne de Kolmogorov-
type, coefficient Smirnov
de variation
Variable Histogramme, Mode, médiane, Test de Test d’adéquation
quantitative courbe quantiles, signification de la à la loi normale, à
continue cumulative des moyenne écart- moyenne la loi de poisson,
effectifs ou des type, coefficient à la loi binomiale
fréquences de variation,
coefficient
d’asymétrie,
coefficient
d’aplatissement
Couple de variables Droite de Mode, Test de Test
nominales régression, fréquences comparaison de d’indépendance
Diagrammes à deux moyennes du Khi-deux
bande, à tuyaux
d’orgue ou à
barre, à secteur
Couple de variables Droite de Rangs, Mode, Test du coefficient Test d’adéquation
ordinales régression, fréquences de corrélation de du Khi-deux ou
Diagrammes à Spearman de Kolmogorov-
bande, à tuyaux Smirnov
d’orgue ou à
barre, à secteur
Couple de variable Droite de Mode, médiane, Test de Mann- Test d’adéquation
nominale/variable régression, quantiles, Whitney du Khi-deux ou
ordinale Diagrammes à proportions de Kolmogorov-
bande, à tuyaux Smirnov
d’orgue ou à
barre, à secteur
Couple de variables Selon les cas : Mode, médiane, Test du coefficient Test d’ajustement
quantitatives Diagramme à quantiles, de corrélation de du Khi-deux ou
bâton, courbe en moyenne écart- Pearson de Kolmogorov-
escalier, type, coefficient Smirnov
Histogramme, de variation,
courbe proportions,
cumulative des coefficient de
effectifs ou des détermination
fréquences
Couple de variable Selon les cas : Mode, médiane, Test de Test d’adéquation
quantitative/variable Diagramme à quantiles, comparaison entre du Khi-deux ou
qualitative bâton, courbe en moyenne écart- deux moyennes, de Kolmogorov-
escalier, type, coefficient analyse de la Smirnov
Histogramme, de variation, variance ou test de
28
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

courbe proportions Fisher –Sinedecor,


cumulative des test H de Kruskal-
effectifs ou des Wallis
fréquences,
Diagrammes à
bande, à tuyaux
d’orgue ou à
barre, à secteur
Tableau individus/ ACP avec nuage ACP avec Test de Test d’uniformité
variables de points calculs de poids, signification des des variables
quantitatives représentés dans coordonnées, contributions
le premier plan matrice des
factoriel corrélations,
coordonnées
factorielles,
contributions
absolues et
contributions
relatives,
classification
hiérarchique et
classification
non hiérarchique
Tableau individus/ AFC avec nuage Classification Test de Test d’uniformité
variables de points ascendante signification des des variables
qualitatives représentés dans hiérarchique contributions
le premier plan indicée, AFC
factoriel avec calculs de
poids,
coordonnées,
matrice des
corrélations,
coordonnées
factorielles,
contributions
absolues et
contributions
relatives
Deux groupes de ACP… ACP… Analyse des Test d’uniformité
variables corrélations des variables
quantitatives canoniques, test
mesurées sur les de régressions
mêmes individus linéaires simple et
multiples, analyse
canonique des
correspondances
non linéaire
Un groupe de Analyse des Analyse des Analyse Test d’uniformité
variables correspondances correspondances canonique
quantitatives et un (AC) (AC) discriminante
29
2022 GBIO3_IUT_UN_THEORIES DE LA DECISION

second groupe de
variables
représentant un
caractère qualitatif
répartit en g classes
mesurées sur les
mêmes individus
Deux groupes de Analyse des Analyse des Régression Test d’uniformité
variables correspondances correspondances logistique,
qualitatives et un canoniques canoniques régression
groupe de variables
quantitatives
Trois groupes ou ACP ACP Analyse Test d’uniformité
plus de variables canonique
quantitatives généralisée
mesurées sur les
mêmes individus
Deux groupes de Analyse des Analyse des Corrélations poly Test d’uniformité
variables correspondances correspondances chroniques
qualitatives canoniques ACC canoniques ACC
mesurées sur les
mêmes individus

30

Vous aimerez peut-être aussi