Vous êtes sur la page 1sur 27

Avant-propos

Ce manuel a une approche traditionnelle mais moderne de l'enseignement des probabilités et

statistiques. Lorsqu'il est combiné avec les systèmes nouvellement développés pour

l'apprentissage collaboratif tels que « Moodle, Google Classroom, Google drive etc.. », il est bien

adapté aux formats d'enseignements modernes, mais il sert également bien si l’enseignant préfère

une approche plus traditionnelle.

Ce système d'apprentissage collaboratif peut être téléchargé à partir de la plateforme « Moodle ».

Les fichiers sont disponibles uniquement pour les conférenciers et contiennent des problèmes

supplémentaires avec des fichiers de solution séparés pour chaque partie. Le système est

particulièrement destiné à l'étudiant moyen, et nos propres étudiants vont certainement

l’apprécier.

Ce manuel est organisé en trois parties. Chaque partie résume tous les chapitres y afférents.

Dr. B. SAHLI
Partie 1 : Statistiques descriptives
1.1 Population et échantillons
La plupart des enquêtes statistiques commencent par une collection de chiffres sous une forme
ou une autre. On peut imaginer que l'on collecte des données pour un sondage, ou que l'on
collecte des données pour examiner les revenus d'une entreprise, les possibilités sont infinies.
Une telle collecte de données peut cependant se faire de deux manières principalement
différentes.

Une option consiste à collecter toutes les informations pertinentes. Dans un sondage, cela
signifie que nous demandons à tout le monde, ou que nous examinons chaque revenu d'une
entreprise. La tâche d'un statisticien est alors de trouver un bon moyen de présenter les chiffres
pour rendre le contenu facile à interpréter pour tous.

Dans de nombreux cas, il peut ne pas être pratique ou même impossible de collecter toutes les
informations. Dans de tels cas, nous devons nous contenter d’un échantillon. Dans un sondage,
cela signifie que nous ne demandons qu'à une partie de la population, et en comptabiliser les
résultats, nous ne pourrions vérifier que certains gains choisis au hasard. Cela place le statisticien
dans une position différente. Il doit examiner les résultats, mais en plus juger si les effets au sein
de l'échantillon peuvent être généralisés au reste de la population. Dans quelle mesure pouvons-
nous avoir confiance dans les effets observés dans l’échantillon ? Le problème est que les
éléments de l'échantillon peuvent différer du reste de la population de manière systématique.
Nous appelons ces différences : aléas de la sélection.

Exemple 1.1 : Lors d'une élection, un total de 2 521 879 votes ont été exprimés. Le parti A a
obtenu 612632 voix, le parti B a obtenu 534852 voix, le parti C a obtenu 369236 voix, le parti D
a obtenu 316456 voix et le parti E a obtenu 312839 voix. Ces chiffres sont des faits. Comment
les présenter de manière transparente ?

Une solution courante consiste à représenter les nombres en pourcentages, c'est-à-dire

A : 24.3% B : 21.3% C : 14.6% D : 12.5% E : 12.4%

Un affichage graphique sous forme d'histogramme donne une meilleure vue d'ensemble, voir
Fig. 1.1.
Fractions

Fig. 1.1: Diagramme en bâtons

Lorsque nous avons trié les nombres de manière à ce que le plus grand nombre vienne en
premier avec les autres nombres dans l'ordre décroissant, il est habituel d'appeler le graphique un
diagramme de Pareto. Cela rend les informations faciles à lire et est souvent une bonne idée.
Alternativement, nous pouvons afficher les nombres sous forme de graphique à secteurs
(Diagramme en Camembert), voir Fig. 1.2.

Fig. 1.2 : Diagramme en camembert


Dans un diagramme à secteurs (ou en camembert), la taille des nombres est représentée par la
zone du secteur. Cela donne une impression visuelle des chiffres : on peut, par exemple, voir que
les partis A et B ensemble n'ont pas obtenu la majorité des voix.

Nous avons vu qu'il est possible d'afficher les mêmes informations de plusieurs manières
différentes. Il n'y a cependant aucune raison de remettre en question les chiffres. Les faits sont
incontestés et donnent le résultat exact de l'élection. Dans ce cas, il n'y a pas d’aléas de sélection.

1.2 La médiane
Lorsque nous avons collecté des données, il est important de présenter les résultats de manière
transparente. Supposons que nous ayons collecté des données sur le retour de 7 stocks différents.

Les chiffres que nous avons recueillis étaient les suivants :

2.7%; 9.2%; 11.4%; 4.6%; 5.2%; 5.6%; -2.4%

Cela donne une image plutôt désordonnée des données. L'image devient plus claire si nous trions
les nombres par ordre croissant :

-2.4%; 2.7%; 4.6%; 5.2%; 5.6%; 9.2%; 11.4%

Nous pouvons maintenant conclure que les rendements variaient de -2.4% à 11.4%. Nous
pouvons procéder ainsi pour décrire les extrêmes des données. Cependant, les extrêmes ne
donnent pas nécessairement une bonne image de l'ensemble des données. Il peut très bien arriver
que les extrêmes soient quelque peu spéciaux et pas vraiment typiques des données. Nous avons
besoin d'autres concepts qui offrent des informations plus précises. La médiane est un exemple
de ce type et est définie grossièrement comme un nombre tel que la moitié des observations sont
plus petites tandis que la seconde moitié est plus grande. La médiane de l'ensemble de données
ci-dessus est donc de 5.2%. Ce chiffre nous indique que la moitié des fiducies unitaires ont
obtenu un rendement de 5.2% ou mieux, et que l'autre moitié a obtenu un rendement de 5.2% ou
moins. La définition précise de la médiane est la suivante :

Définition 1.1 : La médiane d'une collection de n nombres/observations ordonnés par ordre


croissant est :

• Le numéro de l'observation si n est un nombre impair.

• Le point médian entre l'observation et l'observation + 1 si n est pair.

Exemple 1.2: Trouvez la médiane des nombres


1.5% ; 2.3% ; -3.4% ; -5.6% ; 0.3% ; -3.4% ; 3.2% ; 2.2%.

Solution : Nous écrivons d'abord ces nombres dans l'ordre croissant

-5.6% ; -3.4% ; -3.4% ; 0.3% ; 1.5% ; 2.2% ; 2.3% ; 3.2%.

Dans ce cas, nous avons n = 8 observations. Puisque n est pair, la médiane est le point médian
entre les observations 4 et 5, c'est-à-dire

Médiane = = 0.9%.

Proprement dit, il n'est pas nécessaire de traiter les chiffres lorsque nous n'avons que quelques
observations. La situation est bien différente si nous avons un grand nombre de données.
On peut par exemple imaginer que nous avons collecté des données auprès de 1451 fiducies
unitaires différentes. Il ne sert à rien d'imprimer tous ces chiffres. S'il s'avère que les rendements
varient de -11.9% à 7.7% avec une médiane de 10.5%, on peut rapidement former une image des
données. Nous pouvons conclure qu'au moins la moitié de ces fiducies ont obtenu de très
mauvais résultats, c'est-à-dire pas mieux que 10.5%. La fiducie avec un rendement de 7.7% était-
elle une exception rare ou de nombreuses fiducies ont-elles évoluées à ce niveau ? Pour répondre
à ces questions, nous avons besoin d'informations au-delà de la médiane.

1.3 Quartiles et mode


Les quartiles fournissent des informations supplémentaires sur les données. En gros, nous
trouvons les quartiles lorsque nous divisons les nombres (triés par ordre croissant) en quatre
groupes également grands. Nous appelons la transition entre les deux premiers groupes le
premier quartile, la transition entre les deux groupes du milieu est la médiane, et la transition
entre les deux derniers groupes est le troisième quartile.

Si n+1 est divisible par 4, le premier quartile est le numéro d'observation et le troisième

quartile est le numéro d'observation 3. . La définition générale est un peu plus compliquée
que nous éluciderons dans les exercices, mais les calculs sont entièrement automatisés dans les
programmes informatiques et il n'y a aucune raison d'étudier cela en détail. Le concept ne fournit
de toute façon qu'une image approximative des données, et la rugosité ne change pas si nous
nous focalisons sur les détails.
Nous revenons à l'exemple ci-dessus où nous avons observé le retour de 1451 unités de fiducie.
Si nous trions les retours par ordre croissant, nous obtenons :

= 363 et 3. = 1089
Le premier quartile est donc le numéro d'observation 363 et le troisième quartile est l'observation
1089. À titre d'exemple, supposons que le premier quartile est -10.7% et que le troisième quartile
est -9.8%. On sait alors qu'environ la moitié des fiducies fonctionnent entre ces deux niveaux.
Cela améliore l'image par rapport au cas où nous ne connaissions que la médiane. Nous sommes
également en mesure de conclure qu'au plus un quart des fonds (ceux situés au-dessus du
troisième quartile) se comportent bien. Cela nous montre que les informations sur les quartiles
clarifient les grandes tendances de nos données.
La distance entre le premier et le troisième quartile est appelée intervalle interquartile. Si
l'intervalle interquartile est petit, nous savons qu'environ la moitié des données sont proches les
unes des autres. L'intervalle interquartile est l'un des nombreux exemples de la façon de mesurer
la dispersion de nos données. Nous avons vu que les quartiles permettent d'avoir une meilleure
vue d'ensemble des données, mais certainement pas une solution complète, on peut toujours
procéder pour présenter plus de détails. Le défi est de concentrer les principales caractéristiques
de l'ensemble de données sans entrer dans trop de détails.
Dans certaines situations, nous sommes susceptibles d'observer le même nombre plusieurs fois.
Il peut alors être utile de savoir quelle observation est la plus fréquente. L'observation la plus
fréquente s'appelle le mode.
Exemple 1.3 : Nous avons collecté des données auprès de n = 2175 visiteurs dans un hôtel. Le
tableau 1.1 montre le nombre de jours de séjours des personnes.
Trouvez le mode, la médiane et les premier et troisième quartiles pour cet ensemble
d'observations.

Table 1.1 : Durée du séjour à l'hôtel


Jours 1 2 3 4 5 6 7 8 9 10
Fréquence 419 609 305 204 177 15 103 105 62 35
6

Solution : L'observation la plus fréquente est de 2 jours, ce qui est enregistré 609 fois. Le mode
est donc de 2 jours. La médiane est le numéro d'observation 1088, on voit que la somme des
deux premières catégories est 1028, donc la médiane doit être en catégorie 3, c'est-à-dire que la
médiane est de 3 jours. Pour trouver les premier et troisième quartiles, nous calculons :

= 544, et 3x544 = 1632


On voit que l'observation numéro 544 doit être en catégorie 2, le premier quartile est donc 2
jours. Si nous calculons la somme des 4 premières catégories, nous voyons qu'elles totalisent
1537. Cela signifie que le troisième quartile doit être dans la catégorie 5. Le troisième quartile est
donc 5 jours.

1.4 Fréquence relative et histogrammes


Au lieu de fréquences, nous pouvons calculer le pourcentage d'observations que nous trouvons
dans chaque catégorie. Nous appelons ces nombres fréquences relatives. En général, nous
définissons la fréquence relative comme suit :

Fréquence relative =
Dans l'exemple 1.3, nous avons eu 2175 observations au total. Nous trouvons les fréquences
relatives si nous divisons les nombres du tableau 1.1 par 2175. Les résultats sont présentés dans
le tableau 1.2.
Tableau 1.2 : La durée du séjour à l'hôtel
Jours 1 2 3 4 5 6 7 8 9 10
Fréquence relative 0.19 0.28 0.14 0.09 0.08 0.07 0.05 0.05 0.03 0.02
Dans les cas où il y a beaucoup de résultats différents, il peut être avantageux de disposer les
données en groupes. Il est alors possible de faire une nouvelle table de fréquences avec les
fréquences relatives de chaque groupe. Si nous utilisons les données de l'exemple 1.3, nous
obtenons le tableau 1.3.
Tableau 1.3 : Durée du séjour à l'hôtel

Jours 1-2 3-4 5-6 7 et plus

Fréquence relative 0.4 0.23 0.15 0.15


7

Fig. 1.3 : Histogrammes


Les tableaux de fréquences relatives sont souvent affichés par histogrammes. Lorsque nous
faisons des histogrammes, nous divisons les données triées en un certain nombre d'intervalles
non superposés et trouvons des fréquences relatives dans chaque intervalle. Le résultat est affiché
dans un graphique à barres où :
• Chaque barre a une largeur égale à la largeur des données correspondantes.
• Chaque barre a une hauteur définie par
Hauteur de la barre = Fréquence relative/Largeur de l'intervalle.
• Toutes les barres sont adjacentes.
Il est possible de créer plusieurs histogrammes différents à partir du même ensemble de données.
Le plus courant consiste à diviser la plage des données en 5 à 15 intervalles également espacés.
La figure 1.3 montre deux histogrammes différents utilisant les données de l'exemple 1.3.
D'après les expressions ci-dessus, nous voyons que :

Aire de la barre = = Fréquence relative


L’aire de chaque barre indique la taille de la fraction des observations liées à la barre. Notons en
particulier que la somme des aires est de 1, soit 100%. C'est une propriété commune à toutes les
densités de probabilité, un concept que nous étudierons en détail plus loin.

1.5 La moyenne
La moyenne est probablement le concept le plus important en statistique, et nous y reviendrons
plusieurs fois tout au long de ce manuel. Nous considérons d'abord un exemple simple.
Exemple 1.4 : Quelle est la moyenne des nombres
0; 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14; 15; 16; 17; 17; 18; 19; 20 ?
Solution: La moyenne est la valeur médiane des nombres, et même si nous n'avons pas encore
formulé de définition précise, il est clair que la réponse doit être 10.
L'une des raisons pour lesquelles la moyenne est si centrale dans les statistiques est qu'elle
convient pour décrire de grands ensembles de données. Si nous calculons la moyenne des
nombres
0, 100, 200, 300, ... , 1800, 1900, 2000,
la réponse est 1000. Même si nous ne connaissons pas les nombres derrière les calculs, il est
facile de comprendre que les nombres avec une moyenne de 10 doivent être très différents des
nombres avec une moyenne de 1000, dans ce dernier cas, la plupart des nombres doivent être
considérablement plus grands. Dans de nombreuses enquêtes statistiques, il existe d'énormes
quantités de données derrière les calculs. Le but de l'utilisation des moyennes est de présenter les
résultats de base de la manière la plus simple possible. Il est cependant important de comprendre
que l'utilité est limitée. L'utilisation des moyens est une simplification grossière qui de loin ne dit
pas tout sur les données en question.
Nous trouvons la moyenne arithmétique d'une série de nombres/observations lorsque nous
additionnons les nombres et divisons le résultat par le nombre d'observations. On peut imaginer
que l'on observe les valeurs X d'un titre sur 5 jours consécutifs. Si nous trouvons
X1 = 2, X2 = 3, X3 = 2, X4 = 1, X5 = 2,
la moyenne est

= (2 + 3 + 2 + 1 + 2) = 2.
Ce principe est vrai en général car la moyenne est définie comme suit :
Définition 1.2  : Étant donné n observations d'une variable X, la moyenne est définie par :

= (X1 + X2 + … + XN) = .

Dans cette définition, nous avons utilisé le symbole mathématique . Cela ne présente aucune
complication car cela signifie simplement que nous devons additionner tous les nombres
indiqués par les indices marqués en haut/en bas du symbole. Si nous utilisons cette définition sur
les nombres que nous avons considérés dans l'exemple 1.4, nous avons 21 nombres au total. Si
nous additionnons tous ces nombres, nous trouvons :
X1 +X2 + ... + X21 = 0 + 1 + ... + 21 = 210
La moyenne est donc :

=1/21x210 = 10
Cela correspond bien à l'approche plus intuitive ci-dessus. Comme nous l'avons déjà mentionné,
la moyenne est loin de contenir toutes les informations pertinentes. Si l'on considère les deux
séquences :
1.8 2 2.2 (1.1)
1 2 3, (1.2)
les deux ont une moyenne de 2. Comme la répartition des séquences est assez différente, il est
clair que nous avons besoin de plus d'informations pour les séparer.

1.6 Variance de l'échantillon et écart type de l'échantillon


Dans les statistiques, nous utilisons généralement la variance de l'échantillon et l'écart-type de
l'échantillon pour quantifier l'écart dans un ensemble de données. Lorsqu'il ressort clairement du
contexte que nous parlons d'un échantillon, nous supprimons parfois l'échantillon de préfixe et
parlons de variance et d'écart type. Le but de ces quantités est de mesurer l'écart entre les
nombres et la moyenne. En utilisant ces mesures, nous verrons que les écartements en (1.1) et
(1.2) sont assez différents.

Définition 1.3 : La variance de l'échantillon d'une série de nombres / observations est définie
par la formule :

La formule est un peu compliquée mais cela n'a aucune conséquence dans les applications
pratiques. Les calculs de ce type sont presque exclusivement réalisés par des logiciels
informatiques, voir la section sur Excel à la fin de ce chapitre. La formule est abstraite et il est
certainement possible de la mal interpréter. Il est important de comprendre que l'ordre des
opérations est crucial et qu'un seul ordre fournit la bonne réponse.
i Xi
(Xi - ) (Xi - )2

1 1 -6 36

2 8 1 1

3 10 3 9

4 4 -3 9

5 7 0 0

6 12 5 25

Sum 0 80

Tableau 1.4 : Somme des erreurs quadratiques


Exemple 1.5  : Supposons que X1 = 1, X2 = 8, X3 = 10, X4 = 4, X5 = 7, X6 = 12. Il est facile de

voir que = 7. La variance de l'échantillon peut alors être calculée comme dans le tableau 1.4.
Dans la troisième colonne du tableau 1.4, nous voyons dans quelle mesure les observations
s'écartent de la moyenne. On voit que la somme des écarts est nulle. Ceci est en fait vrai pour
tout ensemble de données, ce qui explique pourquoi la somme des écarts est inutile comme
mesure de propagation. Lorsque nous corrigeons les écarts, nous nous assurons que tous les
termes contribuent à la somme. Lorsque nous avons calculé la somme des carrés, nous utilisons
la formule de la définition pour voir que :

= = . 80 = 16.
D'après la définition, nous voyons que la variance de l'échantillon est faible lorsque tous les
écarts par rapport à la valeur moyenne sont faibles et que la variance de l'échantillon est grande
lorsque plusieurs termes sont positionnés loin de la moyenne. La petite variance de l'échantillon
est donc la même que la petite dispersion des données, tandis que la variance de l'échantillon sera
grande si les valeurs observées sont éloignées.
La taille de la variance de l'échantillon est souvent difficile à interpréter. Nous rapportons
souvent l'écart en termes d'écart type de l'échantillon SX qui est défini comme suit :

SX = .
L'avantage de l'écart-type est qu'il a généralement une interprétation plus transparente.
Pour l'ensemble des données rapportées dans l'exemple 1.5, nous obtenons :

SX = = 4,
et nous interprétons que l'écart par rapport à la moyenne 7 est généralement 4. D'après le tableau
ci-dessus, nous voyons que certains écarts sont inférieurs à 4 et certains sont plus grands, mais 4
est à peu près la bonne taille des écarts.
Si nous revenons aux chiffres
1.8 2 2.2
1 2 3,

on voit que la première série a une variance = 0.04 et un écart type S X = 0.2, tandis que la
deuxième série a une variance = 1 et écart-type SX = 1. L'écart-type est donc 5 fois plus
grand pour la deuxième série. Cela a du sens puisque la distance entre les nombres est 5 fois plus
grande. Un grand écart type signifie que les nombres sont éloignés, tandis qu'une petite valeur
indique que les valeurs sont approximativement égales. Un cas particulier se produit lorsque
l'écart type est égal à zéro. Cela ne peut se produire que lorsque toutes les valeurs sont
identiques.

Exemple 1.6 : Soit X1 = 5, X2 = 2, X3 = 4, X4 = 4, X5 = 10. Trouvez la moyenne, la variance de


l'échantillon et l'écart type de l'échantillon.
Solution : nous utilisons les formules pour voir que :

= (5 + 2 + 4 + 4 + 10) = 5,

= .36 = 9, SX = = 3. voir table 1.5.

i Xi
(Xi- ) (Xi- )2
1 5 0 0
2 2 -3 9
3 4 -1 1
4 4 -1 1
5 10 5 25
Somme 0 36

Tableau 1.5 : Somme des erreurs quadratiques

1.7 Covariance et coefficient de variation


La variance de l'échantillon est utilisée chaque fois que nous voulons mesurer l'écart au sein d'un
échantillon. Souvent, cependant, nous devons comparer deux échantillons différents.
Exemple 1.7 : Le tableau 1.6 montre les valeurs correspondantes de X et Y.
Si nous examinons brièvement les chiffres du tableau 1.6, nous voyons qu'ils correspondent. Il y
a une tendance claire à ce que de petites valeurs X soient trouvées avec de petites valeurs Y, et
que de grandes valeurs X soient trouvées avec de grandes valeurs Y. La figure 1.4 affiche les
paires correspondantes.

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

2 12 1 1 10 25 3 9 27 2

Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9 Y10

3 11 3 1 12 21 6 4 31 2

Tableau 1.6 : Les données de l'exemple 1.7

Fig.1.4 : Valeurs correspondantes


Il y a quelques exceptions qui n'ont pas d'interprétation claire, mais la tendance principale semble
être claire. La question est alors de savoir si nous pouvons trouver une méthode pour mesurer à
quel point les valeurs se correspondent. La covariance de l'échantillon s'avère utile à cet égard, et
nous pouvons utiliser cette quantité pour juger si deux échantillons tirent dans la même direction.
Définition 1.4 : Si nos deux échantillons sont X1, ..., Xn et Y1, ..., Yn, la covariance de
l'échantillon SXY est définie par :

SXY = = .
Il est intéressant de noter que si les deux échantillons sont égaux, alors la covariance de
l'échantillon est égale à la variance. Lorsqu'il ressort clairement du contexte que nous parlons
d'échantillons, nous abandonnons parfois l'échantillon de préfixe et parlons de covariance.
Exemple 1.8 : Soit X1 = 242, X2 = 266, X3 = 218, X4 = 234 et Y1 = 363, Y2 = 399, Y3 = 327,
Y4 = 351. Trouver SXY.

Solution : On calcule d’abord = 240 et = 360. On utilise alors la formule pour voir que :

SXY = ((X1 - )(Y1 - ) + (X2 - )(Y2 - ) + (X3 - )(Y3 - ) + (X4 - )(Y4 - ) = ((242-
240)(363-360)(266-240)(399-360)(218-240)(327-360)(234-240)(351-360)) = 600.
Le principal objectif de la covariance est de mesurer la correspondance entre deux variables. Si
c'est principalement le cas où une grande valeur de X (grande ici signifie plus grande que la
moyenne) est trouvée avec une grande valeur de Y, alors que les petites valeurs (plus petites que
la moyenne) de X se trouvent en grande partie avec de petites valeurs de Y, la plupart des termes
de la covariance seront positifs. Une covariance positive indique que les termes tirent dans la
même direction. Nous appelons ceci covariation positive. Le contraire se produira si le petit X
est généralement trouvé avec le grand Y et le grand X avec le petit Y, en général. Lorsque cela se
produit, la plupart des termes de la covariance seront négatifs, conduisant souvent à une valeur
totale négative. Avec une covariance négative, les termes tirent dans des directions opposées, que
nous appelons covariation négative. Un cas limite se produit si la covariance est nulle. Il n'y a
alors aucune tendance dans aucune direction, et on dit que les résultats ne sont pas corrélés.
Même si le signe de la covariance est assez informatif, la taille est plus difficile à interpréter. Ce
qui est grand dépend dans une large mesure du contexte. Dans certains cas, une covariance de
1000000 peut être élevée, mais pas toujours. Si, par exemple, nous considérons les distances
dans l'espace mesurées en km, une covariance de 1000000 peut être approximativement nulle. Il
existe cependant un moyen simple de mesurer l'impact de la covariance, le coefficient de
variation.
La covariation linéaire maximale est obtenue chaque fois que les paires d'observations sont sur
une ligne avec une pente non nulle. Lorsque la pente est positive, une augmentation d'une
variable entraînera toujours une augmentation de l'autre variable, il s'agit d'une covariation
positive. Si la pente est négative, une augmentation d'une variable entraînera toujours une
diminution de l'autre variable, il s'agit d'une covariation négative. Le coefficient de variation
mesure la quantité de covariation linéaire.
Définition 1.5 : Le coefficient de variation RXY est défini par :

RXY = .
Dans cette formule, nous devons calculer les écarts types S X et SY séparément. Il est possible de
prouver que pour n'importe quelle paire d'échantillons, alors :
-1≤ RXY ≤1.
Si nous retournons à l'exemple 1.8 et calculons SX et SY, nous obtenons :

RXY = = 1.
Cela signifie que dans ce cas, la covariation linéaire est maximale. Si nous regardons de plus près
les chiffres, il est facile de comprendre pourquoi. Pour tout i, nous avons :

Yi = .Xi.
Même dans les cas avec peu d'observations, une relation de ce type n'est en aucun cas facile à
détecter. Cela montre que le coefficient de variation est un outil efficace pour révéler de telles
relations, en particulier si le nombre d'observations est important.
Les valeurs -1 et 1 sont des extrêmes, et de telles valeurs ne peuvent être obtenues que dans des
cas particuliers. Il est possible de montrer que RXY = 1 si et seulement s'il existe une constante k>
0 et une autre constante K telle que :
Xi = k.Yi + K, pour tout i = 1, 2, ..., n,
et que RXY = -1 si et seulement s’il y a une constante k ˂ 0et une autre constante K tel que :
Xi = k.Yi + K, pour tout i = 1, 2, ..., n.
Dans les deux cas, les observations (Xi, Yi) sont confinées à une ligne droite, et c'est la seule
façon d'obtenir une covariation linéaire maximale. Si nous revenons à l'exemple 1.7, nous
pouvons calculer :
RXY = 0.96.
Nous voyons que cette valeur est proche de la covariation positive maximale, et nous avons ainsi
confirmé la tendance que nous avons vue dans le jeu de données.
Exemple 1.9 : Supposons que nous ayons observé les valeurs de 4 stocks différents, A, B, C et D
à 100 moments différents. Nous nous demandons s'il existe un lien entre le cours de l'action de A
et l'un des autres cours de l'action. Pour voir s'il existe une connexion entre A et B, nous traçons
les nombres (A1, B1), (A2, B2), ..., (A100, B100) sur la même figure. Nous faisons de même avec A
et C et avec A et D. Les résultats sont présentés sur la Fig. 1.5.

Fig.1.5 : Cours boursiers correspondants.


À partir de la figure 1.5, nous voyons qu'il existe une covariation clairement positive entre A et
B ; lorsque le prix sur A est bas, le prix sur B l'est aussi, et un prix élevé sur A est généralement
associé à un prix élevé sur B. Le coefficient de variation le confirme, R AB = 0.98. Nous ne
voyons pas beaucoup de lien entre A et C. Pour les chiffres indiqués dans la figure, nous avons
RAC = -0.01. Il semble y avoir un lien clair entre A et D. La tendance est que le prix de l'action de
D est élevé lorsque le prix de l'action de A est bas et l'inverse est également vrai. Il s'agit d'une
covariation négative et pour les nombres rapportés dans la figure RAD = -0.62.

1.8 Utilisation de l’Excel


À première vue, il peut sembler que le calcul de la moyenne, de la variance et de la covariance
nécessite beaucoup de travail. Ce n’est pas le cas. Ces calculs sont presque exclusivement
effectués via un logiciel informatique qui rend le calcul rapide et simple. Il existe plusieurs
programmes que nous pourrions utiliser. Dans ce manuel, nous utiliserons Excel car il s'agit d'un
programme auquel la plupart des gens ont accès. Les calculs ne sont guère différents dans
d'autres programmes.
Nous revenons aux calculs de l'exemple 1.8, mais cette fois nous utiliserons Excel pour effectuer
les calculs. Nous commençons à taper X1 = 242, X2 = 266, X3 = 218, X4 = 234 et Y1 = 363, Y2 =
399, Y3 = 327, Y4 = 351 dans les colonnes A et B de la feuille de calcul. Nous cliquons ensuite
sur C1 et écrivons « = Average (A1:A4)». Si nous appuyant sur retour, nous obtenons le résultat
indiqué dans la figure 1.6. La moyenne de B1 à B4 est calculée de la même manière, voir Fig.
1.7.

Fig.1.6 : Moyenne de la colonne A


Fig.1.7 : Moyenne de la colonne B

Fig.1.8 : La variance de l'échantillon des colonnes A et B, la covariance de l'échantillon de A et


B et le coefficient de variation

Les variances de l'échantillon, la covariance et le coefficient de variation sont calculés de la


même manière, voir la figure 1.8. Pour calculer l'écart type de l'échantillon, nous pouvons utiliser
la commande STDEV.S. Au lieu d'écrire les commandes en entier, il est possible de cliquer et de
faire glisser les menus correspondants. C'est simple, mais ce n'est pas quelque chose dont nous
parlerons ici.
Partie 2 : Probabilités

2.1 Espace échantillon


Lorsque nous menons une expérience, nous obtenons un résultat. Si nous testons 10 produits et
trouvons 3 articles défectueux, le résultat est 3 articles défectueux. Une expérience peut avoir
plusieurs résultats possibles, et la collecte de tous ceux-ci s'appelle l'espace échantillonnal. Si
nous testons 10 produits pour savoir s'ils sont défectueux ou non, le résultat peut être de 0 à 10
défectueux. L'espace échantillonnal est l'ensemble de tous les résultats individuels, c'est-à-dire :

{0 défectueux, 1 défectueux, ..., 10 défectueux}.

Nous utilisons généralement la lettre  pour désigner un espace échantillon. Si une expérience
peut avoir les résultats 1, 2, ..., m, l'espace échantillonnal est l'ensemble  = {1, 2, ..., m}.
Nous utilisons la définition suivante :

Définition 2.1 : Un espace échantillonnal est une liste des résultats d'une expérience.

• La liste doit couvrir tous les résultats possibles.

• Les résultats doivent être mutuellement exclusifs.

Lorsque ces deux conditions sont remplies, on dit que l'espace échantillon est complet et
distinctif.

Exemple 2.1 : Supposons que nous lançons un dé une fois et regardons le résultat. L'espace
échantillonnal est  = {1, 2, 3, 4, 5, 6}.

Exemple 2.2 Supposons que nous regardons un match de football et considérons le nombre de
points pour l'équipe à domicile. L'espace échantillon est  = {0, 1, 3}.

Exemple 2.3 Supposons que nous regardions un match de football et considérons les buts des
deux équipes séparément. L'espace échantillonnal est :

 = {(0, 0), (0, 1), (1, 0), (2, 0), (1, 1), (0, 2), (3, 0), ...}.

Par la notation ||, nous entendons le nombre d'éléments dans l'espace échantillonnal. Dans les
exemples 2.1 et 2.2, nous avons respectivement || = 6 et || = 3. Dans l'exemple 2.3, cependant,
il n'y a pas de limite au nombre de buts qui peuvent être marqués. En pratique, il peut être
difficile d'imaginer des cas avec des millions de buts, mais quel que soit le nombre de buts
marqués, il est en théorie possible de marquer à nouveau. Dans ce cas, il est naturel de définir

|| = ∞.

Exemple 2.4 : Nous mesurons la température dans une pièce en °C. Dans ce cas  = [-273, ∞],
c'est-à-dire un intervalle. Dans ce cas aussi, || = ∞.
Même si || = ∞ dans l'exemple 2.3 et dans l'exemple 2.4, il existe une différence importante
entre les deux cas. Dans l'exemple 2.3, il est possible de trier tous les résultats dans une séquence
où chaque résultat reçoit un numéro spécifique, alors qu'une telle énumération n'est pas possible
dans l'exemple 2.4.

Un espace échantillonnal  où tous les résultats peuvent être énumérés dans une séquence est
appelé discret. Dans ce cas, nous pouvons écrire  = {1, 2, ..., m}, où n = ∞ signifie un cas
avec une infinité de résultats.

2.2 Probabilité
L'un des concepts les plus importants est la probabilité des différents résultats dans l'espace
échantillonnal. Un peu simplifiés, ces chiffres expriment la fréquence à laquelle nous pouvons
nous attendre à observer les différents résultats.

La probabilité d'un résultat est une grandeur idéalisée qui définit la fréquence relative que nous
observerons à long terme, c'est-à-dire au cours d'une infinité d'essais. Il est bien sûr impossible
de réaliser une expérience infiniment de fois, mais l'idée est que plus nous faisons de répétitions,
plus la fréquence relative sera proche de la probabilité du résultat. Imaginons que nous ayons
répété une expérience un grand nombre de fois et que nous ayons observé que la fréquence
relative de l'un des résultats est de 10%. Nous avons alors une nette impression que ce résultat se
produira dans 10% des cas, peu importe le nombre de fois que nous répétons l'expérience. On dit
alors que la probabilité du résultat est de 10%.

Définition 2.2 : Par probabilité sur un espace échantillon discret ˝, on entend un ensemble de
nombres réels :

p1, p2, ..., pn

avec les propriétés

• 0 ≤pi ≤1, pour tout i = 1, 2, ..., n.

• p1 + p2 + ...+ pn = 1.

Ici p1 est la probabilité du résultat 1, p2 est la probabilité du résultat 2, et ainsi de suite, nous
écrivons donc :

pi = p(i), i = 1, ..., n.

La dernière expression indique clairement qu'une probabilité est une fonction définie sur l'espace
échantillonnal. Nous pouvons exprimer verbalement les conditions comme suit : Une probabilité
est un nombre compris entre 0 et 1, et la probabilité de tous les résultats doit être égale à 1. Dans
certains cas, nous parlons de probabilités subjectives, qui sont des suggestions plus ou moins
fondées sur la fréquence d’apparition d’un résultat.

2.2.1 Événements
Par événement dans les probabilités, nous entendons un sous-ensemble de l'espace
échantillonnal. L'utilisation du mot peut sembler étrange à première vue, mais prend rapidement
plus de sens si l'on considère un exemple.

Exemple 2.5 : Nous lançons un dé deux fois. L'espace échantillon est  = {(1, 1), (1, 2), ..., (6,
6)}. Considérons le sous-ensemble A = {(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6)}. Puisque A est
un sous-ensemble de l'espace échantillonnal, il s'agit d'un événement. Nous pouvons voir
verbalement que A exprime que quelque chose de très explicite s'est produit : "Le deuxième
tirage était un 6."

La probabilité P(A) d'un événement A est définie comme la somme des probabilités de tous les
résultats qui sont des éléments de A, c.a.d. :

Exemple 2.6 : Nous lançons un dé équilibré deux fois. L'espace échantillonnal est :

 = {(1,1), (1,2), ..., (6,6)}.

Les dés sont équilibrés lorsque tous les résultats sont également probables, c'est-à-dire lorsque
p() = 1/36.

La probabilité de l'événement

A = {(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6)}

Est donc :

2.2.2 Probabilité uniforme


Nous étudierons souvent des cas où tous les résultats sont également probables. S'il y a n
résultats différents, la probabilité de chaque résultat est donc de 1n. Nous appelons cela une
probabilité uniforme. Lorsque les probabilités sont uniformes, il est particulièrement facile de
déterminer la probabilité d'un événement. Nous pouvons simplement compter le nombre
d'éléments dans le sous-ensemble. Si A dispose de a éléments, alors :

Exemple 2.7 : Dans un segment de marché de 1000 personnes, nous savons que 862 personnes
sont solvables (méritent un crédit). Quelle est la probabilité qu'une personne choisie au hasard
soit solvable (mérite un crédit) ?
Solution: Lorsque nous choisissons une personne au hasard, nous supposons tacitement une
probabilité uniforme. Le sous-ensemble de personnes dignes de crédit comporte 862 éléments,
alors qu'il y a 1000 résultats au total. La probabilité p qu'une personne choisie au hasard mérite
un crédit est donc p = 862/1000 = 82.6%.

Exemple 2.8 : Nous lançons un dé une fois. Une probabilité uniforme sur l'espace échantillonnal
est :

P(1) = p(2) = p(3) = p(4) = p(5) = p(6) = 1/6.

2.2.3 Théorie des ensembles


Puisque les espaces échantillonnals sont formulés comme des ensembles et les événements
comme des sous-ensembles, la théorie des ensembles est un outil naturel dans ce contexte. Les
opérations d'ensembles classiques ont des interprétations très spécifiques en probabilités, et nous
allons maintenant examiner brièvement comment cela se réalise. Lorsque nous réalisons une
expérience et obtenons un résultat  qui est un élément d'un sous-ensemble A, on dit que
l'événement A s'est produit. Chaque opération d'ensemble a une interprétation similaire (figures
2.1, 2.2, 2.3, 2.4, 2.5 et 2.6).

• Intersection

A ∩ B = L'événement dans lequel A et B se produisent tous les deux:

• Réunion

A B = Soit l'événement A qui se produit, soit B, soit les deux:

• Complément

Ac = L'événement où A ne se produit pas.

Fig. 2.1 A∩B Fig. 2.3 AC

Fig. 2.2 AB Fig. 2.4 B  A


Fig. 2.5 B  A Fig. 2.6 A∩B = 

La notation , est aussi souvent utilisée avec exactement la même signification, c'est-à-dire

lorsque A est un ensemble, = Ac.

• Sous-ensemble

Lorsque BA cela signifie que lorsque B se produit, A se produira toujours.

• Pas de sous-ensemble

Lorsque B  A, cela signifie que lorsque B se produit, A ne se produira pas toujours.

• Intersection vide

A ∩ B = , quand A et B ne se produisent jamais simultanément.

Exemple 2.9 : Nous lançons un dé une fois et définissons les sous-ensembles suivants.

A: J'ai obtenu 1, 3 ou 4. B: J'ai obtenu 3, 4 ou 5. C: Je n'ai pas obtenu 5.

Alors:

A ∩ B = {3, 4}, A ∩ C = {1, 3, 4}, B ∩ C = {3, 4},

A  B = {1, 3, 4, 5}, A  C = {1, 2, 3, 4, 6}, B  C = {1, 2, 3, 4, 5, 6},

Ac = {2, 5, 6}, Bc = {1, 2, 6}, Cc = {5}.

Ici A  C, tandis que C  A, C  B, B  C, B  A, A  B. Notez que la liste ne fournit pas tous


les sous-ensembles que nous pouvons trouver en combinant A, B et C en utilisant des opérations
d'ensemble.

2.2.4 Calcul des probabilités


Le principe d'addition spéciale est utile lorsque l'on veut calculer la probabilité de la réunion. Si
les deux ensembles ne se croisent pas, nous pouvons simplement additionner la probabilité de
chaque sous-ensemble, c'est-à-dire

Si A ∩ B = , alors P(A  B) = P(A) + P(B).

Exemple 2.10 : Nous lançons un dé une fois. A = {1, 2, 3}, B = {5, 6}, C = {2, 3, 4, 5, 6].

Ici A ∩ B =, et nous obtenons

P(A  B) = P({1, 2, 3, 5, 6}) = 5/6 = 3/6 + 2/6 = P(A) + P(B).

Cependant, si nous ajoutons P(A) + P(C), nous trouvons

P(A) + P(C) =3/6 +5/6 = 4/3.

Il n'y a rien de mal à cela, mais la somme n'est pas la probabilité d'un événement. Le problème
est que les deux sous-ensembles se croisent, et nous devons en tenir compte. Pour effectuer
correctement le calcul, nous devons appliquer le principe général d'addition, qui peut être énoncé
comme suit :

P(AB) = P(A) + P(B) – P(A ∩ B).

Si nous utilisons cette règle, on trouve :

P(AC) = p({1, 2, 3, 4, 5, 6}) = 1 = 3/6 + 5/6 - 2/6 = p(A) + p(C) – p(A∩C).

Le principe général de l'addition peut être étendu pour couvrir les réunions de plus de deux sous-
ensembles. Si nous avons trois sous-ensembles A, B et C, le résultat peut être énoncé comme
suit:

P(ABC) = p(A) + p(B) + p(C) – p(A∩B) – p(A∩C) – p(B∩C) + p(A∩B∩C).

Exemple 2.11 : Dans une enquête auprès des clients, toutes les personnes qui ont participé ont
utilisé au moins l'un des trois produits A, B ou C. Les trois produits ont été utilisés par 60% des
clients. 95% des clients ont utilisé au moins un des produits A et B, 85% ont utilisé au moins un
des produits B et C, et 30% ont utilisé à la fois A et C. Quelle est la part des clients qui ont utilisé
les trois produits ?

Solution: dans cet exemple, il y a beaucoup d'informations, et nous devons trouver un moyen
systématique de gérer cela. Puisque tous les clients ont utilisé au moins un des produits A, B ou
C, on sait que :

P(ABC) = 1 = 100%.

Les trois produits étant utilisés par 60% des clients, nous savons que :

P(A) = p(B) = p(C) = 60%.


D'après le texte que nous avons :

P(AB ) = 95%, p(BC) = 85%, p(A∩ C) = 30%.

Si nous utilisons le principe général d'addition pour deux sous-ensembles, nous obtenons :

95% = 60% + 60% - p(A∩B)  p(A∩B) = 25%.

85% = 60% + 60% - p(B∩C)  p(B∩C) = 35%.

Si nous intégrons tout ce qui précède à la formule d'addition générale pour 3 sous-ensembles,
nous obtenons l'équation :
95% = 60% + 60%- P(A ∩ B)  P(A ∩ B) = 25%.

85% = 60% + 60% - P(B ∩ C)  P(B ∩ C) = 35%.

Si nous intégrons tout ce qui précède à la formule d'addition générale pour 3 sous-ensembles,
nous obtenons l'équation :

100% = 60% + 60% + 60% - 25% - 30% - 35% + P(A ∩ B ∩ C).

En résolvant cette équation, nous obtenons P(A ∩ B ∩ C) = 10%. C'est donc 10% des clients qui
utilisent les trois produits.

2.2.5 Le principe de négation


Puisque A et Ac ne se croisent jamais et A Ac = , il découle du principe d'addition spécial
que :

P(A) + P(Ac) = P(A Ac) = P() = 1.

Si nous considérons cela comme une équation, nous pouvons résoudre pour P(A) ou P(A c) pour
voir que :

P(A) = 1 – p(AC), p(AC) = 1 – p(A).

Par conséquent, pour trouver la probabilité que A se produise, nous pouvons plutôt trouver la
probabilité que A ne se produise pas. À première vue, cela ne semble pas très utile, mais nous
verrons tout au long de ce manuel de nombreux cas où cet angle d'approche simplifie les calculs.
Partie 3 : Analyse Combinatoire
3.1 Calcul des combinaisons
Le principe de base le plus simple de la combinaison prend son point de départ dans une
séquence de choix où il n'y a pas de connexions entre chaque choix. Lorsque les choix sont liés,
certains résultats peuvent influencer les autres choix. Lorsqu'il n'y a pas de connexions, nous
trouvons le nombre total de combinaisons lorsque nous multiplions le nombre de résultats
possibles de chaque choix.

Exemple 3.1 : Nous voulons sélectionner une fille et un garçon dans une classe composée de 15
filles et 12 garçons. Comme il n'y a pas d’intersections, nous avons un total de 15x12 = 180
combinaisons différentes. Ce principe s'applique en général : si nous avons c 1 possibilités dans le
choix numéro 1, c2 possibilités dans le choix numéro 2, ... , c m possibilités dans le nombre de
choix m, et les choix ne se connectent pas, il y a un total de c 1xc2xcm combinaisons différentes.
En combinatoire, il est donc crucial d'identifier s'il y a des connexions ou non. Lorsque les choix
s'enchaînent, la situation devient rapidement assez complexe. Dans ce qui suit, nous examinerons
certaines intersections standard qui ne sont pas trop complexes, et dans ces cas, nous pouvons
calculer le nombre de différentes combinaisons par des formules explicites.

3.1.1 Sélections ordonnées


Exemple 3.2 : Nous voulons élire le PDG et le chef du conseil d'administration d'une entreprise.
Il y a 4 candidats et tous les candidats sont éligibles pour les deux postes. Nous élisons d'abord le
PDG, et il y a 4 résultats possibles. Ensuite, nous devons sélectionner le chef du conseil, et la
situation n'est pas claire. Nous avons deux options différentes :

• Si le PDG peut devenir chef du conseil, la sélection se fait avec remise et nous avons un total
de 4x4 = 16 résultats différents.

• Si le PDG ne peut pas devenir chef du conseil, la sélection est sans remise et nous avons un
total de 4x3 = 12 résultats différents (Fig. 3.1).

Ces principes simples s'appliquent en général :

Si nous avons n éléments différents dans notre ensemble de choix, et que nous voulons choisir s
de ces éléments avec remise, il existe nxnxn = ns combinaisons ordonnées différentes.
Fig.3.1 : 12 résultats différents
Si nous avons n éléments différents dans notre ensemble de choix, et que nous voulons choisir s
de ces éléments sans remise, il y a
n(n -1) ... (n - s + 1)
différentes combinaisons ordonnées.

Exemple 3.3 :De combien de façons pouvons-nous faire une sélection ordonnée de 5 personnes
dans un groupe de 20 personnes?

Solution: si le choix est avec remise, il y a


20. 20. 20. 20. 20 = 3 200 000
différentes combinaisons ordonnées.
Si le choix est sans remise, il y a
20. 19. 18. 17. 16 = 1 860 480
différentes combinaisons ordonnées.
Comme nous avons souvent besoin de calculer le nombre de combinaisons ordonnées dans une
séquence de choix sans remise, il existe un symbole spécial pour cela :

= (n)s = n(n-1) … (n-s+1).

Le symbole (n)s = peut être exprimé en fonction de la factorielle. Cette fonction est définie
comme suit :

n = n(n-1) ... 3.2.1,

où en plus nous définissons :

1 = 1, 0 = 1.

Exemple 3.4 : 5 = 5. 4. 3. 2. 1 = 120.

Nous calculons donc la factorielle d'un entier positif n multipliant tous les entiers de 1 à n. La
définition 0 = 1 est une exception et peut paraître un peu étrange à première vue, mais plusieurs
formules pertinentes se simplifient avec cette convention. Si nous regardons à nouveau l'exemple
3.3, nous voyons que :

20. 19. 18. 17. 16 = 20. 19. 18. 17. 16. =

Ce principe s'applique en général et :


= (n)s = n(n-1) … (n-s+1) =

3.1.2 Choix non ordonnés sans remplacement


Dans certains types de choix, l'ordre n'a pas d'importance. Si nous devons sélectionner deux
membres du conseil au lieu du PDG et du chef du conseil, l'ordre ne fait aucune différence. Si X
et Y sont sélectionnés, peu importe qui est sélectionné en premier. Les choix ordonnés {X, Y} et
{Y, X} conduisent tous deux au même résultat. Lorsque l’ordre ne compte pas, nous nous
retrouverons en général avec moins de combinaisons. Pour déterminer combien de combinaisons
non ordonnées qui sont réellement différentes, nous devons être en mesure de calculer combien
de combinaisons ordonnées mènent au même résultat non ordonné (Fig. 3.2).

Il est facile de comprendre que n objets différents peuvent être triés de n manières différentes.
Dans la première position, nous avons n façons différentes, dans la seconde position (n – 1)
façons du reste, et nous pouvons continuer ainsi jusqu'à atteindre la dernière position où il ne
reste qu'un seul objet.

Fig.3.2 : Les résultats sont disponibles en deux versions

Exemple 3.5 : Dans la loterie Lotto, les joueurs sélectionnent 6 numéros sur 59 sans remise. 6
numéros sur 59 sont ensuite tirés au sort sans remise, et tout joueur ayant sélectionné les 6
mêmes numéros remporte la cagnotte.
Quelle est la probabilité de gagner la cagnotte ?

Solution: Le nombre de résultats ordonnés uniques est de = 32 441 381 280, mais chaque fois
que nous sélectionnons 6 nombres, ils peuvent être triés de 6 = 720 manières différentes qui
aboutissent toutes au même résultat. Cela signifie que le nombre de résultats non ordonnés est
réduit d'un facteur 720 et que le nombre de résultats uniques non ordonnés est de

= 45 057 474.

Comme chaque combinaison de ce type a la même probabilité de gagner, la probabilité de gagner


la cagnotte est donc :
.

Le même raisonnement peut être utilisé en général. Chaque fois que nous choisissons s éléments

parmi n objets uniques, il existe combinaisons ordonnées différentes. Chacune de ces


combinaisons peut être triée en plusieurs combinaisons ordonnées différentes s, qui aboutissent
toutes au même résultat désordonné. Le nombre de combinaisons ordonnées est réduit d'un
facteur s, et le nombre de combinaisons uniques non ordonnées est donc :

Le nombre de combinaisons non ordonnées uniques coïncide avec le coefficient binomial ou

utilisé en mathématiques, et nous utilisons la même notation, c.-à-d.

= .

Vous aimerez peut-être aussi