Vous êtes sur la page 1sur 9

Glossaire

A Classification. Les méthodes de classification,


aussi appelées « typologies », visent à créer
Aléa. L’aléa traduit les effets des variations des ensembles d’individus, aussi appelés
dues au hasard ou les effets accidentels. Cette « groupes » ou « classes », ayant des caracté-
composante est notée e(t). ristiques proches pour les variables prises en
compte dans l’étude.
Analyse en composantes principales. L’analyse
en composantes principales (ACP) est une Classification hiérarchique. Les méthodes
méthode d’analyse multivariée descriptive qui hiérarchiques consistent à effectuer un
permet de décrire un ensemble d’individus par ensemble de partitions successives emboîtées
un ensemble de variables quantitatives. les unes dans les autres.
Analyse en composantes principales normée. Classification mixte. Une classification mixte
Une analyse en composantes principales consiste à combiner les méthodes hiérarchiques
réalisée sur des données centrées réduites est et non hiérarchiques.
dite normée.
Classification non hiérarchique. Les méthodes
Axe factoriel. Les grands axes de dispersion non hiérarchiques regroupent, par itérations
des points qui représentent les individus dans successives, les individus en un nombre de
l’espace défini par les p variables d’origine sont classes fixé au départ.
appelés des axes factoriels.
Coefficient de corrélation linéaire. L’indi-
cateur utilisé pour juger de l’intensité de
B
la corrélation linéaire entre deux variables
Base de sondage. La liste exhaustive de tous quantitatives X et Y s’appelle le coefficient de
les individus qui composent la population est corrélation linéaire. Il est noté rX,Y dans une
appelée base de sondage. population et rX,Y dans un échantillon.

Coefficient de détermination. La qualité de


Boîte de dispersion. Une boîte de dispersion
la modélisation par une régression multiple
est une représentation graphique qui permet
se mesure par le pourcentage de variance de Y
de visualiser les quartiles, l’étendue et l’inter-
expliquée par l’ensemble des variables expli-
valle interquartile pour une variable donnée.
catives, le coefficient de détermination noté r²
dans une population et r² dans un échantillon.
C
Coefficient de variation. Le coefficient de
Cercle de corrélation. Un cercle de corrélation variation est l’écart-type divisé par la moyenne.
est un plan de projection du nuage des points Il permet de juger si une variable est faiblement
variables, défini par deux axes factoriels. ou fortement dispersée.
330 Méthodes statistiques appliquées au management

Coefficient du khi-deux. Le coefficient du taille issus de la population est appelée distri-


khi-deux mesure l’intensité du lien entre bution d’échantillonnage de l’estimateur.
deux variables qualitatives X et Y. Il est noté
Distribution marginale. Dans le cas de la
cX2,Y sur la population, cX2,Y lorsqu’il est calculé
distribution conjointe de deux variables qua-
sur l’échantillon.
litatives X et Y, la distribution marginale de X
Coefficients de la droite de régression. (respectivement Y) est la distribution de X
b0 est la constante de la droite de régression (respectivement Y) étudiée indépendamment
(ou ordonnée à l’origine) et b1 la pente de de l’observation de Y (respectivement X).
la droite de régression. b0  et  b1 sont aussi Droite des moindres carrés. La droite
appelés les paramètres ou coefficients du obtenue par la méthode des moindres carrés
modèle de régression. Les estimations de s’appelle la droite des moindres carrés ou
b0 et b1 par la méthode des moindres carrés droite de régression. Elle représente la
ordinaires sont notées b0 et b1. relation linéaire entre deux variables, X et Y.
Contribution relative. La contribution
E
relative d’un individu à un axe mesure sa
participation à la formation d’un axe. Elle Écart-type. L’écart-type d’une variable X est
s’exprime en pourcentage. la racine carrée de la variance. Il est noté sX
dans la population et sX dans l’échantillon.
Corrélation linéaire. Il y a corrélation linéaire
en deux variables quantitatives lorsqu’elles Écart-type corrigé. L’écart-type corrigé
sont liées par une relation linéaire. d’une variable X est la racine carrée de la
variance corrigée. Il est noté ‑sX.
Courbe d’ajustement. Une courbe qui ajuste
un phénomène observé s’appelle courbe Échantillon. Un échantillon est un groupe
d’ajustement. À cette courbe est associée une d’individus extrait de la population.
série de valeurs, dite série ajustée, notée ŷ.
Échantillon aléatoire. Un échantillon
aléatoire est constitué par un mécanisme
D aléatoire qui respecte la probabilité connue
et non nulle, pour chaque individu, d’appar-
Décile. Les déciles sont les valeurs qui par- tenir à cet échantillon.
tagent la distribution ordonnée en 10 classes
de même effectif. Échantillons appariés. Deux échantillons
sont dits appariés lorsque les individus sont
Distribution conditionnelle. Dans le cas de les mêmes dans les deux échantillons.
la distribution conjointe de deux variables
qualitatives X et Y, respectivement à p et q Échantillons indépendants. Deux échan-
modalités, on appelle distribution condition- tillons sont considérés comme indépendants
nelle de X toute distribution statistique de X s’ils ont été tirés indépendamment l’un de
observée sur une sous-population définie par l’autre.
une modalité de la variable Y. Effectif. Le nombre d’individus considérés
est l’effectif.
Distribution d’échantillonnage. La distri-
bution des valeurs prises par un estimateur Erreur d’ajustement. L’erreur d’ajustement,
sur l’ensemble des échantillons de même appelée aussi résidu ou écart résiduel, est la
Glossaire 331

différence entre la valeur de Y observée, yi, minuscule (par exemple, mX), et une valeur
et la valeur ajustée par le modèle, ŷi. Dans le sur la population par une minuscule grecque
cas d’une série chronologique, l’erreur d’ajus- (par exemple, mX est la moyenne dans la
tement est la différence entre série observée et population).
série ajustée. Elle est notée e(t) = y(t) – ŷ(t).
Estimateur convergent. Un estima-
Erreur d’échantillonnage. Une erreur teur convergent donne une valeur qui se
d’échantillonnage résulte des fluctuations rapproche de la vraie valeur du paramètre
dues au principe même de l’échantillonnage. dans la population, à mesure que la taille de
l’échantillon croît.
Erreur de première espèce. L’erreur de
première espèce consiste à rejeter l’hypothèse Estimateur efficace. L’estimateur le plus
nulle, alors que celle-ci est vraie. efficace est celui pour lequel la dispersion
autour de la vraie valeur est la plus faible.
Erreur de deuxième espèce. L’erreur de
deuxième espèce consiste à accepter l’hypo- Estimateur sans biais. Un estimateur est
thèse nulle, alors que celle-ci est fausse. sans biais si sa distribution d’échantillonnage
est centrée autour de la vraie valeur dans la
Erreur de couverture. L’erreur de couverture population.
provient d’une différence entre la population
cible à étudier et la population réellement Estimation ponctuelle. La valeur numérique
étudiée. prise par l’estimateur sur l’échantillon dont
on dispose s’appelle l’estimation ponctuelle.
Erreur de mesure. Un écart entre les réponses
enregistrées et les vraies valeurs s’appelle une Estimer. Estimer consiste, à partir des
erreur de mesure. observations obtenues sur un échantillon,
à attribuer des valeurs numériques aux
Erreur de modélisation. L’erreur de modé­ paramètres de la population dont cet échan-
lisation, aussi appelée erreur d’ajustement, tillon est issu.
provient de l’écart entre le modèle et la
réalité. Étendue. L’étendue est la différence entre la
plus grande et la plus petite valeur prise par
Erreur de non-réponse. L’erreur de la variable.
non-réponse provient de l’absence partielle
ou complète d’informations concernant les G
individus de l’échantillon.
Graphique de la série brute. Le graphique
Erreur-type. L’écart-type d’un estimateur est de la série brute représente les valeurs d’une
aussi appelé erreur-type. série chronologique y(t) en fonction du
Estimateur. Un estimateur permet de temps, t.
fournir, à partir d’un échantillon, une valeur Graphique des résidus. Le graphique des
à un paramètre inconnu caractérisant la résidus croise en abscisse la variable expli-
population. C’est une variable aléatoire. cative X et en ordonnée les résidus.
Dans l’ouvrage, l’estimateur est noté par
une majuscule romaine (par exemple, MX Graphique superposé. Dans le graphique
est l’estimateur de la moyenne), la valeur superposé, les valeurs d’une série chronolo-
de l’estimateur sur un échantillon par une gique y(t) sont représentées en superposant
332 Méthodes statistiques appliquées au management

chaque période (par exemple, année ou Inertie totale. La dispersion des points du
trimestre). nuage autour du centre de gravité est mesurée
par l’inertie totale. Elle est mesurée par la
H somme des distances au carré entre chaque
individu et le centre du nuage de points.
Hypothèse alternative. Dans les tests statis-
tiques, l’hypothèse alternative notée H1, Intervalle de confiance. Un intervalle de
exprime un écart, la présence d’un effet, confiance est une fourchette de valeurs qui a
une évolution par rapport à une situation une certaine probabilité, appelée niveau de
de référence. confiance, de contenir la valeur du paramètre
sur la population.
Hypothèse nulle. Dans les tests statistiques,
l’hypothèse nulle, notée H0, exprime une Intervalle interquartile. L’intervalle inter-
situation de référence, la non-évolution, quartile mesure l’écart entre les valeurs du
l’absence d’effet. premier et du troisième quartile.

Hypothèse statistique. Une hypothèse M


statistique est une proposition concernant
une caractéristique d’une variable sur une MAD (Mean Absolute Deviation). Le MAD
population. (Mean Absolute Deviation) est la moyenne
des erreurs en valeur absolue.
I MAPE (Mean Absolute Percentage Error).
Le MAPE (Mean Absolute Percentage Error)
Individu. Un individu est une unité de la
est le pourcentage moyen d’erreurs (prises
population.
en valeur absolue).
Individu ou variable actif. Les variables et les
Marge d’erreur. La marge d’erreur associée
individus qui participent aux calculs d’une
à l’estimation trouvée sur l’échantillon est
analyse statistique (par exemple dans une
aussi appelée demi-intervalle de confiance.
ACP, une classification, etc.) sont dits actifs.
Médiane. La médiane est la valeur du
Individu ou variable illustratif (ou supplé-
caractère qui partage une distribution en
mentaire). Plus particulièrement dans le
deux sous-ensembles de même effectif.
cas de l’ACP, ces individus ou variables sont
intégrés dans l’analyse tout en ne contribuant Méthode d’extrapolation. Les méthodes
pas à la formation des axes. d’extrapolation consistent à regarder la forme
d’un phénomène observé dans le passé, puis
Inertie interclasse (ou intergroupe). L’inertie à la projeter dans le futur.
interclasse (ou intergroupe) mesure l’inertie
entre les groupes. Elle est égale à la somme Méthode des quotas. Un échantillon
des écarts au carré entre chaque centre de construit par la méthode des quotas est un
gravité de classe et le centre de gravité du échantillon qui respecte la répartition de
nuage. certaines caractéristiques (par exemple, sexe,
taille du foyer, etc.) au sein de la population.
Inertie intraclasse (ou intragroupe).
L’inertie intraclasse (ou intragroupe) est la Méthode empirique. Dans le cas des
somme des inerties de chaque classe. méthodes empiriques, la sélection des
Glossaire 333

données n’est pas effectuée par sélection est notée mX dans la population et mX dans
aléatoire, mais par un choix raisonné. l’échantillon.
Méthode explicative. Les méthodes explica- Moyenne conditionnelle. Dans le cadre
tives s’attachent à déterminer une fonction f de la distribution d’une variable quanti-
qui modélise la relation liant p variables
tative Y selon une variable qualitative X, la
explicatives X1, X2, …, Xp et Y, la variable à
moyenne de la variable Y calculée pour une
expliquer, avec Y = f(X1, X2, …, Xp).
des modalités de la variable X est appelée
Mode. Le mode est la modalité ou la valeur moyenne conditionnelle de Y selon la
qui correspond au plus grand effectif. modalité xi de X. Elle est notée mY/X=xi.
Modèle additif. Dans le cas des séries chrono- Moyenne marginale. Dans le cas d’une distri-
logiques, la formule de décomposition d’un bution conjointe, la moyenne d’une variable
modèle additif est notée y(t)=T(t)+S(t)+e(t),
est appelée moyenne marginale.
où y(t) est la série observée au temps t, T(t)
la composante tendancielle au temps t, S(t) Moyenne mobile. La moyenne mobile
la composante saisonnière au temps t, et e(t) d’ordre p, MMp(t), est une série chronolo-
l’aléa au temps t.
gique résultant de la moyenne de p valeurs
Modèle de régression linéaire simple. Le de la série observée y(t).
modèle de régression linéaire simple, ou
modèle linéaire, est le modèle où la relation MSE (Mean Square Error). Le MSE (Mean
entre X et Y est représenté par une droite. Square Error) est la moyenne de l’erreur
L’équation de cette droite est la suivante : d’ajustement au carré.
Y = b0 + b1X + e.
Multicolinéarité. Il y a multicolinéarité
Modèle multiplicatif. Dans le cas des séries lorsque des variables explicatives sont
chronologiques, la formule de décompo- fortement corrélées linéairement entre elles.
sition d’un modèle multiplicatif est notée
notée y(t)=T(t).S(t).e(t), où y(t) est la série
N
observée au temps t, T(t) la composante
tendancielle au temps t, S(t) la compo- Nuage de points. Un nuage de points consiste
sante saisonnière au temps t, et e(t) l’aléa
en un graphique représentant chaque
au temps t.
individu par un point dans le plan défini par
Modèle statistique. Un modèle statistique deux variables quantitatives.
est une simplification de la réalité qui vise
à quantifier des relations entre plusieurs O
variables.
Observation aberrante. Une observation est
Modéliser. Modéliser consiste à formaliser
les relations entre des variables. dite aberrante si elle est atypique, dans le sens
où elle s’éloigne des autres observations.
Moyenne. La moyenne s’obtient à partir
des données brutes en divisant la somme Ordonnée à l’origine. Voir coefficients de la
des valeurs observées par l’effectif total. Elle droite de régression.
334 Méthodes statistiques appliquées au management

P R

Parangon. Dans une classification, les Rapport de corrélation. Le rapport de corré-


individus les plus représentatifs de chaque lation de Y selon X mesure l’intensité du
classe sont appelés parangons. lien entre une variable quantitative Y et une
variable qualitative X.
Pente. Voir coefficients de la droite de
régression. Région critique. Voir zone de rejet
Plan factoriel. Un plan factoriel est un plan Régression multiple. La régression est dite
de projection du nuage des points-individus multiple lorsque la variable à expliquer,
défini par deux axes factoriels. notée  Y, de type quantitatif, est mise en
Population. La population est constituée de relation avec p variables explicatives,
l’ensemble (ou univers) des individus objets notées X1, X2, …, Xp, (p > 1).
de l’étude. Résultat significatif. Un résultat est dit signi-
Pourcentage d’inertie. La qualité de repré- ficatif s’il a fait l’objet d’un test statistique qui
sentation d’un nuage par un axe se mesure aboutit à rejeter l’hypothèse nulle pour un
avec le pourcentage d’inertie (ou de variance) risque d’erreur de 1re espèce donné.
expliquée par l’axe.
Risque d’erreur de 1re espèce. Le risque
Premier axe factoriel. Le premier axe d’erreur de 1re espèce, noté a , est la proba-
factoriel D1 est défini tel que la dispersion bilité de rejeter l’hypothèse nulle, alors qu’elle
globale des points du nuage dans la direction est vraie.
de D1 soit maximale.
Risque d’erreur de 2e espèce. Le risque
Probabilité critique. On appelle probabilité d’erreur de 2e espèce, noté b, est la probabilité
critique, notée Pvaleur, la plus petite valeur d’accepter l’hypothèse nulle, alors qu’elle est
du risque d’erreur de 1re espèce pour laquelle fausse.
la décision serait de rejeter l’hypothèse nulle.
RMSE (Root Mean Square Error). La racine
Proportion. Une proportion est le nombre carrée du MSE est nommée RMSE (Root
d’individus suivant une caractéristique divisée Mean Square Error).
par le nombre total d’individus. Elle est notée
pX dans la population et pX dans l’échantillon. S
Puissance du test. La puissance du test est la
Saisonnalité. La composante saisonnière, ou
probabilité d’accepter l’hypothèse nulle, alors
saisonnalité, traduit les fluctuations revenant
qu’elle est vraie. Elle est le complémentaire du
à intervalles réguliers. Elle est notée S(t).
risque de 2e espèce et est notée 1 – b.
Série chronologique. Une série chrono-
Q logique (appelée aussi chronique ou série
temporelle) est une suite d’observations d’un
Quartile. Les quartiles sont les valeurs phénomène dans le temps. Elle est notée y(t).
du caractère qui partagent la distribution
ordonnée en quatre sous-ensembles de même Série corrigée des variations saisonnières.
effectif. La série corrigée des variations saisonnières,
Glossaire 335

notée CVS(t), est la série que l’on obtient une simultanément. Elle peut être de nature
fois que la série observée a été désaisonnalisée. descriptive ou explicative.

Sondage aléatoire. L’échantillon est constitué T


selon un principe aléatoire.
Tableau de contingence. Un tableau de
Sondage aléatoire stratifié. Dans un sondage contingence croise les distributions de deux
aléatoire stratifié, la population est découpée variables. Il est aussi appelé tri croisé.
en plusieurs groupes, appelés strates, puis
un tirage aléatoire simple est réalisé dans Tableau des profils-colonnes. Le tableau des
chacune de ces strates. profils-colonnes donne les fréquences condi-
tionnelles en colonne.
Statistique. La statistique est un ensemble
de méthodes scientifiques dont l’objectif est Tableau des profils-lignes. Le tableau des
d’analyser, structurer et modéliser des infor- profils-lignes fournit les fréquences condi-
mations numériques. tionnelles en ligne.
Tableau de distribution. Le tableau de distri-
Statistique descriptive. La statistique
bution présente, pour chaque modalité ou
descriptive a pour objet de résumer et de
valeur de la variable, le nombre d’individus
présenter l’information contenue dans des
(effectif) qui prennent cette modalité ou cette
données collectées sur un groupe d’indi-
valeur.
vidus.
Tableau individus-variables. Le tableau
Statistique descriptive bivariée. La statis- individus-variables reporte les valeurs ou les
tique descriptive bivariée a pour objet modalités prises par les N individus pour les
d’étudier conjointement deux variables X p variables de l’étude.
et Y sur une même population.
Taille de la population ou de l’échantillon.
Statistique descriptive univariée. La statis- Il s’agit de l’effectif total de l’étude. Dans la
tique descriptive univariée fournit les outils population, le nombre d’individus est noté N,
statistiques pour organiser, présenter et dans l’échantillon il est noté n.
synthétiser l’information issue de l’analyse
Tendance. La composante tendancielle, ou
d’une variable indépendamment des autres.
tendance, traduit l’aspect général de la série.
Statistique du test. Dans un test d’hypothèse, Elle est notée T(t).
la statistique du test est une variable aléatoire
Test bilatéral. Un test bilatéral est un test où
utilisée pour contrôler l’hypothèse nulle. l’hypothèse alternative H1 se traduit par une
Statistique inférentielle. La statistique différence (≠).
inférentielle consiste à décrire la population Test d’association. Les tests d’association
à partir d’observations faites sur l’échan- visent à vérifier, à partir de données d’échan-
tillon. Les caractéristiques inconnues d’une tillon, si des variables sont liées dans une
population sont déduites à partir d’un échan- population.
tillon issu de cette population.
Test d’hypothèse. Les tests d’hypothèse
Statistique multivariée. La statistique (ou tests statistiques) sont un ensemble
multivariée vise à étudier plusieurs variables de méthodes statistiques qui permettent, à
336 Méthodes statistiques appliquées au management

partir de données d’échantillon, d’accepter suivait parfaitement le modèle postulé (par


ou de rejeter une hypothèse concernant la exemple, un modèle linéaire).
population d’où est tiré l’échantillon.
Valeur critique. La valeur de la statistique
Test de comparaison à une norme. Dans qui sépare zone de non-rejet et zone de rejet
le test de comparaison à une norme, aussi s’appelle la valeur critique.
appelé test de conformité, l’objectif est de
déterminer si un paramètre (une moyenne, Variable muette. Une variable muette, aussi
une proportion, une variance, etc.) dans une appelée indicatrice, est une variable prenant
population est égal, supérieur ou inférieur à deux valeurs 1 ou 0 selon que l’observation a
une norme. le caractère étudié (= 1) ou pas (= 0).

Test de comparaison sur échantillons de Variable statistique. Une variable statistique


deux populations. Dans un test de compa- décrit une caractéristique des individus sur
raison sur échantillons de deux populations, lesquels porte l’étude.
l’objectif est de comparer un paramètre
Variable statistique quantitative. Une
(moyenne, proportion, variance, etc.) dans
variable statistique quantitative est une
une population avec le même paramètre
variable associée à un caractère mesurable.
calculé dans une autre population.
Variable quantitative continue. Une variable
Test de Fisher. Le test de Fisher consiste
quantitative continue est une variable quanti-
à s’assurer de la validité globale d’une
tative qui peut prendre toutes les valeurs dans
régression multiple, c’est-à-dire à vérifier
un intervalle donné.
que l’ensemble des coefficients b1, b2, ..., bp
sur la population ne sont pas tous nuls simul- Variable quantitative discrète. Une variable
tanément. quantitative discrète prend un nombre limité
de valeurs entières.
Test de Student. Dans une régression, le test
de Student est un test de comparaison de la Variable statistique qualitative. Une variable
pente à une norme égale à 0 qui permet de statistique qualitative est une variable associée
conclure sur la validité de la régression simple à un caractère qui n’est pas mesurable.
sur la population.
Variable statistique qualitative nominale.
Test du khi-deux d’indépendance. Le test du Une variable statistique qualitative nominale
khi-deux d’indépendance permet de décider est une variable qualitative dont les modalités
si deux variables qualitatives sont indépen- ne peuvent pas être classées selon un ordre
dantes sur la population ou, au contraire, préétabli.
liées.
Variable statistique qualitative ordinale.
Test unilatéral. Un test unilatéral inclut dans Une variable statistique qualitative ordinale
l’hypothèse alternative H1 un symbole d’iné- est une variable dont les modalités peuvent
galité, < ou >. être classées.

V Variance. La variance est la moyenne des


carrés des écarts des valeurs de la variable
Valeur ajustée. La valeur ajustée est la valeur à la moyenne. Elle est notée sX2 dans une
de Y que l’on aurait dû observer si la relation population et sX2 dans un échantillon.
Glossaire 337

Variance corrigée. La variance corrigée est le conditionnelle de Y selon la modalité xi de X.


carré de la somme des écarts à la moyenne, Elle est notée sY2/X = x .
i
divisé par  (n – 1) où n est la taille de l’échan-
Variance marginale. Dans le cas d’une distri-
tillon. Elle est notée ‑sX2.
bution conjointe, la variance d’une variable
Variance intergroupe. La variance inter- est appelée variance marginale.
groupe (ou variance inter) exprime la
variation entre les groupes, chacun d’entre Z
eux étant caractérisé par sa moyenne.
Zone de rejet. L’ensemble des valeurs
Variance intragroupe. La variance intra- observées de la statistique du test provo-
groupe (ou variance intra) exprime la quant le rejet de l’hypothèse nulle est appelé
variation à l’intérieur de chaque groupe. la région critique ou zone de rejet du test
statistique. Par opposition, l’ensemble des
Variance conditionnelle. La variance d’une valeurs observées de la statistique du test ne
variable Y calculée pour une des modalités permettant pas de rejeter l’hypothèse nulle
de la variable X est appelée variance est appelé zone de non-rejet.

Vous aimerez peut-être aussi