Académique Documents
Professionnel Documents
Culture Documents
statistiques. Lorsqu'il est combiné avec les systèmes nouvellement développés pour
l'apprentissage collaboratif tels que « Moodle, Google Classroom, Google drive etc.. », il est bien
adapté aux formats d'enseignements modernes, mais il sert également bien si l’enseignant préfère
Les fichiers sont disponibles uniquement pour les conférenciers et contiennent des problèmes
supplémentaires avec des fichiers de solution séparés pour chaque partie. Le système est
l’apprécier.
Ce manuel est organisé en trois parties. Chaque partie résume tous les chapitres y afférents.
Dr. B. SAHLI
Partie 1 : Statistiques descriptives
1.1 Population et échantillons
La plupart des enquêtes statistiques commencent par une collection de chiffres sous une forme
ou une autre. On peut imaginer que l'on collecte des données pour un sondage, ou que l'on
collecte des données pour examiner les revenus d'une entreprise, les possibilités sont infinies.
Une telle collecte de données peut cependant se faire de deux manières principalement
différentes.
Une option consiste à collecter toutes les informations pertinentes. Dans un sondage, cela
signifie que nous demandons à tout le monde, ou que nous examinons chaque revenu d'une
entreprise. La tâche d'un statisticien est alors de trouver un bon moyen de présenter les chiffres
pour rendre le contenu facile à interpréter pour tous.
Dans de nombreux cas, il peut ne pas être pratique ou même impossible de collecter toutes les
informations. Dans de tels cas, nous devons nous contenter d’un échantillon. Dans un sondage,
cela signifie que nous ne demandons qu'à une partie de la population, et en comptabiliser les
résultats, nous ne pourrions vérifier que certains gains choisis au hasard. Cela place le statisticien
dans une position différente. Il doit examiner les résultats, mais en plus juger si les effets au sein
de l'échantillon peuvent être généralisés au reste de la population. Dans quelle mesure pouvons-
nous avoir confiance dans les effets observés dans l’échantillon ? Le problème est que les
éléments de l'échantillon peuvent différer du reste de la population de manière systématique.
Nous appelons ces différences : aléas de la sélection.
Exemple 1.1 : Lors d'une élection, un total de 2 521 879 votes ont été exprimés. Le parti A a
obtenu 612632 voix, le parti B a obtenu 534852 voix, le parti C a obtenu 369236 voix, le parti D
a obtenu 316456 voix et le parti E a obtenu 312839 voix. Ces chiffres sont des faits. Comment
les présenter de manière transparente ?
A : 24.3% B : 21.3% C : 14.6% D : 12.5% E : 12.4%
Un affichage graphique sous forme d'histogramme donne une meilleure vue d'ensemble, voir
Fig. 1.1.
Fractions
Lorsque nous avons trié les nombres de manière à ce que le plus grand nombre vienne en
premier avec les autres nombres dans l'ordre décroissant, il est habituel d'appeler le graphique un
diagramme de Pareto. Cela rend les informations faciles à lire et est souvent une bonne idée.
Alternativement, nous pouvons afficher les nombres sous forme de graphique à secteurs
(Diagramme en Camembert), voir Fig. 1.2.
Nous avons vu qu'il est possible d'afficher les mêmes informations de plusieurs manières
différentes. Il n'y a cependant aucune raison de remettre en question les chiffres. Les faits sont
incontestés et donnent le résultat exact de l'élection. Dans ce cas, il n'y a pas d’aléas de sélection.
1.2 La médiane
Lorsque nous avons collecté des données, il est important de présenter les résultats de manière
transparente. Supposons que nous ayons collecté des données sur le retour de 7 stocks différents.
Cela donne une image plutôt désordonnée des données. L'image devient plus claire si nous trions
les nombres par ordre croissant :
Nous pouvons maintenant conclure que les rendements variaient de -2.4% à 11.4%. Nous
pouvons procéder ainsi pour décrire les extrêmes des données. Cependant, les extrêmes ne
donnent pas nécessairement une bonne image de l'ensemble des données. Il peut très bien arriver
que les extrêmes soient quelque peu spéciaux et pas vraiment typiques des données. Nous avons
besoin d'autres concepts qui offrent des informations plus précises. La médiane est un exemple
de ce type et est définie grossièrement comme un nombre tel que la moitié des observations sont
plus petites tandis que la seconde moitié est plus grande. La médiane de l'ensemble de données
ci-dessus est donc de 5.2%. Ce chiffre nous indique que la moitié des fiducies unitaires ont
obtenu un rendement de 5.2% ou mieux, et que l'autre moitié a obtenu un rendement de 5.2% ou
moins. La définition précise de la médiane est la suivante :
Dans ce cas, nous avons n = 8 observations. Puisque n est pair, la médiane est le point médian
entre les observations 4 et 5, c'est-à-dire
Médiane = = 0.9%.
Proprement dit, il n'est pas nécessaire de traiter les chiffres lorsque nous n'avons que quelques
observations. La situation est bien différente si nous avons un grand nombre de données.
On peut par exemple imaginer que nous avons collecté des données auprès de 1451 fiducies
unitaires différentes. Il ne sert à rien d'imprimer tous ces chiffres. S'il s'avère que les rendements
varient de -11.9% à 7.7% avec une médiane de 10.5%, on peut rapidement former une image des
données. Nous pouvons conclure qu'au moins la moitié de ces fiducies ont obtenu de très
mauvais résultats, c'est-à-dire pas mieux que 10.5%. La fiducie avec un rendement de 7.7% était-
elle une exception rare ou de nombreuses fiducies ont-elles évoluées à ce niveau ? Pour répondre
à ces questions, nous avons besoin d'informations au-delà de la médiane.
Si n+1 est divisible par 4, le premier quartile est le numéro d'observation et le troisième
quartile est le numéro d'observation 3. . La définition générale est un peu plus compliquée
que nous éluciderons dans les exercices, mais les calculs sont entièrement automatisés dans les
programmes informatiques et il n'y a aucune raison d'étudier cela en détail. Le concept ne fournit
de toute façon qu'une image approximative des données, et la rugosité ne change pas si nous
nous focalisons sur les détails.
Nous revenons à l'exemple ci-dessus où nous avons observé le retour de 1451 unités de fiducie.
Si nous trions les retours par ordre croissant, nous obtenons :
= 363 et 3. = 1089
Le premier quartile est donc le numéro d'observation 363 et le troisième quartile est l'observation
1089. À titre d'exemple, supposons que le premier quartile est -10.7% et que le troisième quartile
est -9.8%. On sait alors qu'environ la moitié des fiducies fonctionnent entre ces deux niveaux.
Cela améliore l'image par rapport au cas où nous ne connaissions que la médiane. Nous sommes
également en mesure de conclure qu'au plus un quart des fonds (ceux situés au-dessus du
troisième quartile) se comportent bien. Cela nous montre que les informations sur les quartiles
clarifient les grandes tendances de nos données.
La distance entre le premier et le troisième quartile est appelée intervalle interquartile. Si
l'intervalle interquartile est petit, nous savons qu'environ la moitié des données sont proches les
unes des autres. L'intervalle interquartile est l'un des nombreux exemples de la façon de mesurer
la dispersion de nos données. Nous avons vu que les quartiles permettent d'avoir une meilleure
vue d'ensemble des données, mais certainement pas une solution complète, on peut toujours
procéder pour présenter plus de détails. Le défi est de concentrer les principales caractéristiques
de l'ensemble de données sans entrer dans trop de détails.
Dans certaines situations, nous sommes susceptibles d'observer le même nombre plusieurs fois.
Il peut alors être utile de savoir quelle observation est la plus fréquente. L'observation la plus
fréquente s'appelle le mode.
Exemple 1.3 : Nous avons collecté des données auprès de n = 2175 visiteurs dans un hôtel. Le
tableau 1.1 montre le nombre de jours de séjours des personnes.
Trouvez le mode, la médiane et les premier et troisième quartiles pour cet ensemble
d'observations.
Solution : L'observation la plus fréquente est de 2 jours, ce qui est enregistré 609 fois. Le mode
est donc de 2 jours. La médiane est le numéro d'observation 1088, on voit que la somme des
deux premières catégories est 1028, donc la médiane doit être en catégorie 3, c'est-à-dire que la
médiane est de 3 jours. Pour trouver les premier et troisième quartiles, nous calculons :
Fréquence relative =
Dans l'exemple 1.3, nous avons eu 2175 observations au total. Nous trouvons les fréquences
relatives si nous divisons les nombres du tableau 1.1 par 2175. Les résultats sont présentés dans
le tableau 1.2.
Tableau 1.2 : La durée du séjour à l'hôtel
Jours 1 2 3 4 5 6 7 8 9 10
Fréquence relative 0.19 0.28 0.14 0.09 0.08 0.07 0.05 0.05 0.03 0.02
Dans les cas où il y a beaucoup de résultats différents, il peut être avantageux de disposer les
données en groupes. Il est alors possible de faire une nouvelle table de fréquences avec les
fréquences relatives de chaque groupe. Si nous utilisons les données de l'exemple 1.3, nous
obtenons le tableau 1.3.
Tableau 1.3 : Durée du séjour à l'hôtel
1.5 La moyenne
La moyenne est probablement le concept le plus important en statistique, et nous y reviendrons
plusieurs fois tout au long de ce manuel. Nous considérons d'abord un exemple simple.
Exemple 1.4 : Quelle est la moyenne des nombres
0; 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14; 15; 16; 17; 17; 18; 19; 20 ?
Solution: La moyenne est la valeur médiane des nombres, et même si nous n'avons pas encore
formulé de définition précise, il est clair que la réponse doit être 10.
L'une des raisons pour lesquelles la moyenne est si centrale dans les statistiques est qu'elle
convient pour décrire de grands ensembles de données. Si nous calculons la moyenne des
nombres
0, 100, 200, 300, ... , 1800, 1900, 2000,
la réponse est 1000. Même si nous ne connaissons pas les nombres derrière les calculs, il est
facile de comprendre que les nombres avec une moyenne de 10 doivent être très différents des
nombres avec une moyenne de 1000, dans ce dernier cas, la plupart des nombres doivent être
considérablement plus grands. Dans de nombreuses enquêtes statistiques, il existe d'énormes
quantités de données derrière les calculs. Le but de l'utilisation des moyennes est de présenter les
résultats de base de la manière la plus simple possible. Il est cependant important de comprendre
que l'utilité est limitée. L'utilisation des moyens est une simplification grossière qui de loin ne dit
pas tout sur les données en question.
Nous trouvons la moyenne arithmétique d'une série de nombres/observations lorsque nous
additionnons les nombres et divisons le résultat par le nombre d'observations. On peut imaginer
que l'on observe les valeurs X d'un titre sur 5 jours consécutifs. Si nous trouvons
X1 = 2, X2 = 3, X3 = 2, X4 = 1, X5 = 2,
la moyenne est
= (2 + 3 + 2 + 1 + 2) = 2.
Ce principe est vrai en général car la moyenne est définie comme suit :
Définition 1.2 : Étant donné n observations d'une variable X, la moyenne est définie par :
= (X1 + X2 + … + XN) = .
Dans cette définition, nous avons utilisé le symbole mathématique . Cela ne présente aucune
complication car cela signifie simplement que nous devons additionner tous les nombres
indiqués par les indices marqués en haut/en bas du symbole. Si nous utilisons cette définition sur
les nombres que nous avons considérés dans l'exemple 1.4, nous avons 21 nombres au total. Si
nous additionnons tous ces nombres, nous trouvons :
X1 +X2 + ... + X21 = 0 + 1 + ... + 21 = 210
La moyenne est donc :
=1/21x210 = 10
Cela correspond bien à l'approche plus intuitive ci-dessus. Comme nous l'avons déjà mentionné,
la moyenne est loin de contenir toutes les informations pertinentes. Si l'on considère les deux
séquences :
1.8 2 2.2 (1.1)
1 2 3, (1.2)
les deux ont une moyenne de 2. Comme la répartition des séquences est assez différente, il est
clair que nous avons besoin de plus d'informations pour les séparer.
Définition 1.3 : La variance de l'échantillon d'une série de nombres / observations est définie
par la formule :
La formule est un peu compliquée mais cela n'a aucune conséquence dans les applications
pratiques. Les calculs de ce type sont presque exclusivement réalisés par des logiciels
informatiques, voir la section sur Excel à la fin de ce chapitre. La formule est abstraite et il est
certainement possible de la mal interpréter. Il est important de comprendre que l'ordre des
opérations est crucial et qu'un seul ordre fournit la bonne réponse.
i Xi
(Xi - ) (Xi - )2
1 1 -6 36
2 8 1 1
3 10 3 9
4 4 -3 9
5 7 0 0
6 12 5 25
Sum 0 80
voir que = 7. La variance de l'échantillon peut alors être calculée comme dans le tableau 1.4.
Dans la troisième colonne du tableau 1.4, nous voyons dans quelle mesure les observations
s'écartent de la moyenne. On voit que la somme des écarts est nulle. Ceci est en fait vrai pour
tout ensemble de données, ce qui explique pourquoi la somme des écarts est inutile comme
mesure de propagation. Lorsque nous corrigeons les écarts, nous nous assurons que tous les
termes contribuent à la somme. Lorsque nous avons calculé la somme des carrés, nous utilisons
la formule de la définition pour voir que :
= = . 80 = 16.
D'après la définition, nous voyons que la variance de l'échantillon est faible lorsque tous les
écarts par rapport à la valeur moyenne sont faibles et que la variance de l'échantillon est grande
lorsque plusieurs termes sont positionnés loin de la moyenne. La petite variance de l'échantillon
est donc la même que la petite dispersion des données, tandis que la variance de l'échantillon sera
grande si les valeurs observées sont éloignées.
La taille de la variance de l'échantillon est souvent difficile à interpréter. Nous rapportons
souvent l'écart en termes d'écart type de l'échantillon SX qui est défini comme suit :
SX = .
L'avantage de l'écart-type est qu'il a généralement une interprétation plus transparente.
Pour l'ensemble des données rapportées dans l'exemple 1.5, nous obtenons :
SX = = 4,
et nous interprétons que l'écart par rapport à la moyenne 7 est généralement 4. D'après le tableau
ci-dessus, nous voyons que certains écarts sont inférieurs à 4 et certains sont plus grands, mais 4
est à peu près la bonne taille des écarts.
Si nous revenons aux chiffres
1.8 2 2.2
1 2 3,
on voit que la première série a une variance = 0.04 et un écart type S X = 0.2, tandis que la
deuxième série a une variance = 1 et écart-type SX = 1. L'écart-type est donc 5 fois plus
grand pour la deuxième série. Cela a du sens puisque la distance entre les nombres est 5 fois plus
grande. Un grand écart type signifie que les nombres sont éloignés, tandis qu'une petite valeur
indique que les valeurs sont approximativement égales. Un cas particulier se produit lorsque
l'écart type est égal à zéro. Cela ne peut se produire que lorsque toutes les valeurs sont
identiques.
= (5 + 2 + 4 + 4 + 10) = 5,
i Xi
(Xi- ) (Xi- )2
1 5 0 0
2 2 -3 9
3 4 -1 1
4 4 -1 1
5 10 5 25
Somme 0 36
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
2 12 1 1 10 25 3 9 27 2
Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9 Y10
3 11 3 1 12 21 6 4 31 2
SXY = = .
Il est intéressant de noter que si les deux échantillons sont égaux, alors la covariance de
l'échantillon est égale à la variance. Lorsqu'il ressort clairement du contexte que nous parlons
d'échantillons, nous abandonnons parfois l'échantillon de préfixe et parlons de covariance.
Exemple 1.8 : Soit X1 = 242, X2 = 266, X3 = 218, X4 = 234 et Y1 = 363, Y2 = 399, Y3 = 327,
Y4 = 351. Trouver SXY.
Solution : On calcule d’abord = 240 et = 360. On utilise alors la formule pour voir que :
SXY = ((X1 - )(Y1 - ) + (X2 - )(Y2 - ) + (X3 - )(Y3 - ) + (X4 - )(Y4 - ) = ((242-
240)(363-360)(266-240)(399-360)(218-240)(327-360)(234-240)(351-360)) = 600.
Le principal objectif de la covariance est de mesurer la correspondance entre deux variables. Si
c'est principalement le cas où une grande valeur de X (grande ici signifie plus grande que la
moyenne) est trouvée avec une grande valeur de Y, alors que les petites valeurs (plus petites que
la moyenne) de X se trouvent en grande partie avec de petites valeurs de Y, la plupart des termes
de la covariance seront positifs. Une covariance positive indique que les termes tirent dans la
même direction. Nous appelons ceci covariation positive. Le contraire se produira si le petit X
est généralement trouvé avec le grand Y et le grand X avec le petit Y, en général. Lorsque cela se
produit, la plupart des termes de la covariance seront négatifs, conduisant souvent à une valeur
totale négative. Avec une covariance négative, les termes tirent dans des directions opposées, que
nous appelons covariation négative. Un cas limite se produit si la covariance est nulle. Il n'y a
alors aucune tendance dans aucune direction, et on dit que les résultats ne sont pas corrélés.
Même si le signe de la covariance est assez informatif, la taille est plus difficile à interpréter. Ce
qui est grand dépend dans une large mesure du contexte. Dans certains cas, une covariance de
1000000 peut être élevée, mais pas toujours. Si, par exemple, nous considérons les distances
dans l'espace mesurées en km, une covariance de 1000000 peut être approximativement nulle. Il
existe cependant un moyen simple de mesurer l'impact de la covariance, le coefficient de
variation.
La covariation linéaire maximale est obtenue chaque fois que les paires d'observations sont sur
une ligne avec une pente non nulle. Lorsque la pente est positive, une augmentation d'une
variable entraînera toujours une augmentation de l'autre variable, il s'agit d'une covariation
positive. Si la pente est négative, une augmentation d'une variable entraînera toujours une
diminution de l'autre variable, il s'agit d'une covariation négative. Le coefficient de variation
mesure la quantité de covariation linéaire.
Définition 1.5 : Le coefficient de variation RXY est défini par :
RXY = .
Dans cette formule, nous devons calculer les écarts types S X et SY séparément. Il est possible de
prouver que pour n'importe quelle paire d'échantillons, alors :
-1≤ RXY ≤1.
Si nous retournons à l'exemple 1.8 et calculons SX et SY, nous obtenons :
RXY = = 1.
Cela signifie que dans ce cas, la covariation linéaire est maximale. Si nous regardons de plus près
les chiffres, il est facile de comprendre pourquoi. Pour tout i, nous avons :
Yi = .Xi.
Même dans les cas avec peu d'observations, une relation de ce type n'est en aucun cas facile à
détecter. Cela montre que le coefficient de variation est un outil efficace pour révéler de telles
relations, en particulier si le nombre d'observations est important.
Les valeurs -1 et 1 sont des extrêmes, et de telles valeurs ne peuvent être obtenues que dans des
cas particuliers. Il est possible de montrer que RXY = 1 si et seulement s'il existe une constante k>
0 et une autre constante K telle que :
Xi = k.Yi + K, pour tout i = 1, 2, ..., n,
et que RXY = -1 si et seulement s’il y a une constante k ˂ 0et une autre constante K tel que :
Xi = k.Yi + K, pour tout i = 1, 2, ..., n.
Dans les deux cas, les observations (Xi, Yi) sont confinées à une ligne droite, et c'est la seule
façon d'obtenir une covariation linéaire maximale. Si nous revenons à l'exemple 1.7, nous
pouvons calculer :
RXY = 0.96.
Nous voyons que cette valeur est proche de la covariation positive maximale, et nous avons ainsi
confirmé la tendance que nous avons vue dans le jeu de données.
Exemple 1.9 : Supposons que nous ayons observé les valeurs de 4 stocks différents, A, B, C et D
à 100 moments différents. Nous nous demandons s'il existe un lien entre le cours de l'action de A
et l'un des autres cours de l'action. Pour voir s'il existe une connexion entre A et B, nous traçons
les nombres (A1, B1), (A2, B2), ..., (A100, B100) sur la même figure. Nous faisons de même avec A
et C et avec A et D. Les résultats sont présentés sur la Fig. 1.5.
Nous utilisons généralement la lettre pour désigner un espace échantillon. Si une expérience
peut avoir les résultats 1, 2, ..., m, l'espace échantillonnal est l'ensemble = {1, 2, ..., m}.
Nous utilisons la définition suivante :
Définition 2.1 : Un espace échantillonnal est une liste des résultats d'une expérience.
Lorsque ces deux conditions sont remplies, on dit que l'espace échantillon est complet et
distinctif.
Exemple 2.1 : Supposons que nous lançons un dé une fois et regardons le résultat. L'espace
échantillonnal est = {1, 2, 3, 4, 5, 6}.
Exemple 2.2 Supposons que nous regardons un match de football et considérons le nombre de
points pour l'équipe à domicile. L'espace échantillon est = {0, 1, 3}.
Exemple 2.3 Supposons que nous regardions un match de football et considérons les buts des
deux équipes séparément. L'espace échantillonnal est :
= {(0, 0), (0, 1), (1, 0), (2, 0), (1, 1), (0, 2), (3, 0), ...}.
Par la notation ||, nous entendons le nombre d'éléments dans l'espace échantillonnal. Dans les
exemples 2.1 et 2.2, nous avons respectivement || = 6 et || = 3. Dans l'exemple 2.3, cependant,
il n'y a pas de limite au nombre de buts qui peuvent être marqués. En pratique, il peut être
difficile d'imaginer des cas avec des millions de buts, mais quel que soit le nombre de buts
marqués, il est en théorie possible de marquer à nouveau. Dans ce cas, il est naturel de définir
|| = ∞.
Exemple 2.4 : Nous mesurons la température dans une pièce en °C. Dans ce cas = [-273, ∞],
c'est-à-dire un intervalle. Dans ce cas aussi, || = ∞.
Même si || = ∞ dans l'exemple 2.3 et dans l'exemple 2.4, il existe une différence importante
entre les deux cas. Dans l'exemple 2.3, il est possible de trier tous les résultats dans une séquence
où chaque résultat reçoit un numéro spécifique, alors qu'une telle énumération n'est pas possible
dans l'exemple 2.4.
Un espace échantillonnal où tous les résultats peuvent être énumérés dans une séquence est
appelé discret. Dans ce cas, nous pouvons écrire = {1, 2, ..., m}, où n = ∞ signifie un cas
avec une infinité de résultats.
2.2 Probabilité
L'un des concepts les plus importants est la probabilité des différents résultats dans l'espace
échantillonnal. Un peu simplifiés, ces chiffres expriment la fréquence à laquelle nous pouvons
nous attendre à observer les différents résultats.
La probabilité d'un résultat est une grandeur idéalisée qui définit la fréquence relative que nous
observerons à long terme, c'est-à-dire au cours d'une infinité d'essais. Il est bien sûr impossible
de réaliser une expérience infiniment de fois, mais l'idée est que plus nous faisons de répétitions,
plus la fréquence relative sera proche de la probabilité du résultat. Imaginons que nous ayons
répété une expérience un grand nombre de fois et que nous ayons observé que la fréquence
relative de l'un des résultats est de 10%. Nous avons alors une nette impression que ce résultat se
produira dans 10% des cas, peu importe le nombre de fois que nous répétons l'expérience. On dit
alors que la probabilité du résultat est de 10%.
Définition 2.2 : Par probabilité sur un espace échantillon discret ˝, on entend un ensemble de
nombres réels :
• p1 + p2 + ...+ pn = 1.
Ici p1 est la probabilité du résultat 1, p2 est la probabilité du résultat 2, et ainsi de suite, nous
écrivons donc :
pi = p(i), i = 1, ..., n.
La dernière expression indique clairement qu'une probabilité est une fonction définie sur l'espace
échantillonnal. Nous pouvons exprimer verbalement les conditions comme suit : Une probabilité
est un nombre compris entre 0 et 1, et la probabilité de tous les résultats doit être égale à 1. Dans
certains cas, nous parlons de probabilités subjectives, qui sont des suggestions plus ou moins
fondées sur la fréquence d’apparition d’un résultat.
2.2.1 Événements
Par événement dans les probabilités, nous entendons un sous-ensemble de l'espace
échantillonnal. L'utilisation du mot peut sembler étrange à première vue, mais prend rapidement
plus de sens si l'on considère un exemple.
Exemple 2.5 : Nous lançons un dé deux fois. L'espace échantillon est = {(1, 1), (1, 2), ..., (6,
6)}. Considérons le sous-ensemble A = {(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6)}. Puisque A est
un sous-ensemble de l'espace échantillonnal, il s'agit d'un événement. Nous pouvons voir
verbalement que A exprime que quelque chose de très explicite s'est produit : "Le deuxième
tirage était un 6."
La probabilité P(A) d'un événement A est définie comme la somme des probabilités de tous les
résultats qui sont des éléments de A, c.a.d. :
Exemple 2.6 : Nous lançons un dé équilibré deux fois. L'espace échantillonnal est :
Les dés sont équilibrés lorsque tous les résultats sont également probables, c'est-à-dire lorsque
p() = 1/36.
La probabilité de l'événement
A = {(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6)}
Est donc :
Exemple 2.7 : Dans un segment de marché de 1000 personnes, nous savons que 862 personnes
sont solvables (méritent un crédit). Quelle est la probabilité qu'une personne choisie au hasard
soit solvable (mérite un crédit) ?
Solution: Lorsque nous choisissons une personne au hasard, nous supposons tacitement une
probabilité uniforme. Le sous-ensemble de personnes dignes de crédit comporte 862 éléments,
alors qu'il y a 1000 résultats au total. La probabilité p qu'une personne choisie au hasard mérite
un crédit est donc p = 862/1000 = 82.6%.
Exemple 2.8 : Nous lançons un dé une fois. Une probabilité uniforme sur l'espace échantillonnal
est :
• Intersection
• Réunion
• Complément
La notation , est aussi souvent utilisée avec exactement la même signification, c'est-à-dire
• Sous-ensemble
• Pas de sous-ensemble
• Intersection vide
Exemple 2.9 : Nous lançons un dé une fois et définissons les sous-ensembles suivants.
Alors:
Exemple 2.10 : Nous lançons un dé une fois. A = {1, 2, 3}, B = {5, 6}, C = {2, 3, 4, 5, 6].
Il n'y a rien de mal à cela, mais la somme n'est pas la probabilité d'un événement. Le problème
est que les deux sous-ensembles se croisent, et nous devons en tenir compte. Pour effectuer
correctement le calcul, nous devons appliquer le principe général d'addition, qui peut être énoncé
comme suit :
Le principe général de l'addition peut être étendu pour couvrir les réunions de plus de deux sous-
ensembles. Si nous avons trois sous-ensembles A, B et C, le résultat peut être énoncé comme
suit:
Exemple 2.11 : Dans une enquête auprès des clients, toutes les personnes qui ont participé ont
utilisé au moins l'un des trois produits A, B ou C. Les trois produits ont été utilisés par 60% des
clients. 95% des clients ont utilisé au moins un des produits A et B, 85% ont utilisé au moins un
des produits B et C, et 30% ont utilisé à la fois A et C. Quelle est la part des clients qui ont utilisé
les trois produits ?
Solution: dans cet exemple, il y a beaucoup d'informations, et nous devons trouver un moyen
systématique de gérer cela. Puisque tous les clients ont utilisé au moins un des produits A, B ou
C, on sait que :
P(ABC) = 1 = 100%.
Les trois produits étant utilisés par 60% des clients, nous savons que :
Si nous utilisons le principe général d'addition pour deux sous-ensembles, nous obtenons :
Si nous intégrons tout ce qui précède à la formule d'addition générale pour 3 sous-ensembles,
nous obtenons l'équation :
95% = 60% + 60%- P(A ∩ B) P(A ∩ B) = 25%.
Si nous intégrons tout ce qui précède à la formule d'addition générale pour 3 sous-ensembles,
nous obtenons l'équation :
En résolvant cette équation, nous obtenons P(A ∩ B ∩ C) = 10%. C'est donc 10% des clients qui
utilisent les trois produits.
Si nous considérons cela comme une équation, nous pouvons résoudre pour P(A) ou P(A c) pour
voir que :
Par conséquent, pour trouver la probabilité que A se produise, nous pouvons plutôt trouver la
probabilité que A ne se produise pas. À première vue, cela ne semble pas très utile, mais nous
verrons tout au long de ce manuel de nombreux cas où cet angle d'approche simplifie les calculs.
Partie 3 : Analyse Combinatoire
3.1 Calcul des combinaisons
Le principe de base le plus simple de la combinaison prend son point de départ dans une
séquence de choix où il n'y a pas de connexions entre chaque choix. Lorsque les choix sont liés,
certains résultats peuvent influencer les autres choix. Lorsqu'il n'y a pas de connexions, nous
trouvons le nombre total de combinaisons lorsque nous multiplions le nombre de résultats
possibles de chaque choix.
Exemple 3.1 : Nous voulons sélectionner une fille et un garçon dans une classe composée de 15
filles et 12 garçons. Comme il n'y a pas d’intersections, nous avons un total de 15x12 = 180
combinaisons différentes. Ce principe s'applique en général : si nous avons c 1 possibilités dans le
choix numéro 1, c2 possibilités dans le choix numéro 2, ... , c m possibilités dans le nombre de
choix m, et les choix ne se connectent pas, il y a un total de c 1xc2xcm combinaisons différentes.
En combinatoire, il est donc crucial d'identifier s'il y a des connexions ou non. Lorsque les choix
s'enchaînent, la situation devient rapidement assez complexe. Dans ce qui suit, nous examinerons
certaines intersections standard qui ne sont pas trop complexes, et dans ces cas, nous pouvons
calculer le nombre de différentes combinaisons par des formules explicites.
• Si le PDG peut devenir chef du conseil, la sélection se fait avec remise et nous avons un total
de 4x4 = 16 résultats différents.
• Si le PDG ne peut pas devenir chef du conseil, la sélection est sans remise et nous avons un
total de 4x3 = 12 résultats différents (Fig. 3.1).
Si nous avons n éléments différents dans notre ensemble de choix, et que nous voulons choisir s
de ces éléments avec remise, il existe nxnxn = ns combinaisons ordonnées différentes.
Fig.3.1 : 12 résultats différents
Si nous avons n éléments différents dans notre ensemble de choix, et que nous voulons choisir s
de ces éléments sans remise, il y a
n(n -1) ... (n - s + 1)
différentes combinaisons ordonnées.
Exemple 3.3 :De combien de façons pouvons-nous faire une sélection ordonnée de 5 personnes
dans un groupe de 20 personnes?
Le symbole (n)s = peut être exprimé en fonction de la factorielle. Cette fonction est définie
comme suit :
1 = 1, 0 = 1.
Nous calculons donc la factorielle d'un entier positif n multipliant tous les entiers de 1 à n. La
définition 0 = 1 est une exception et peut paraître un peu étrange à première vue, mais plusieurs
formules pertinentes se simplifient avec cette convention. Si nous regardons à nouveau l'exemple
3.3, nous voyons que :
Il est facile de comprendre que n objets différents peuvent être triés de n manières différentes.
Dans la première position, nous avons n façons différentes, dans la seconde position (n – 1)
façons du reste, et nous pouvons continuer ainsi jusqu'à atteindre la dernière position où il ne
reste qu'un seul objet.
Exemple 3.5 : Dans la loterie Lotto, les joueurs sélectionnent 6 numéros sur 59 sans remise. 6
numéros sur 59 sont ensuite tirés au sort sans remise, et tout joueur ayant sélectionné les 6
mêmes numéros remporte la cagnotte.
Quelle est la probabilité de gagner la cagnotte ?
Solution: Le nombre de résultats ordonnés uniques est de = 32 441 381 280, mais chaque fois
que nous sélectionnons 6 nombres, ils peuvent être triés de 6 = 720 manières différentes qui
aboutissent toutes au même résultat. Cela signifie que le nombre de résultats non ordonnés est
réduit d'un facteur 720 et que le nombre de résultats uniques non ordonnés est de
= 45 057 474.
Le même raisonnement peut être utilisé en général. Chaque fois que nous choisissons s éléments
= .