Vous êtes sur la page 1sur 62

Made in Gabao

TRAITEMENT DE L’INFORMATION
MATHÉMATIQUES APPLIQUÉES-OUTILS D’AIDE À LA DECISION
PRÉSENTÉ PAR DR KOWIR PAMBO BELLO
FONDATEUR DE TCHICOLE & SAGESSE
L’INTELLIGENCE À LA PORTÉE DE TOUS
INTRODUCTION
MOTIVATIONS

• GOOGLE:79,38 MILLIARDS DE DOLLARS AMÉRICAINS EN 2016


• FACEBOOK: 6,91 MILLIARDS,
• TWITTER: 869,3 MILLIONS DE DOLLARS
• TOTAL : 13 600 000 000 DE DOLLAR AMÉRICAIN ( 2018 )
https://www.journaldunet.com/management/direction-
generale/1159250-entreprises-les-plus-riches-du-
monde/

Ces grosses entreprises vendent de l’information

Donc l’information est une économie quasi illimitée


Et donc infiniment rentable

On en déduit que traiter l’information est


d’une importance économique capitale

Je suis là pour vous donner des outils


puissants pour vous rendre
imbattables
OBJECTIFS
FORMER À LA COLLECTE, LA MISE EN FORME ET L’INTERPRÉTATION DE DONNÉES
ABORDER L’INDÉPENDANCE ET LA RELATION LINÉAIRE DANS LES DONNÉES
INTRODUIRE LES PRÉVISIONS À L’AIDE DE MODÈLES SIMPLES
DÉVELOPPER UN ESPRIT D’ANALYSE INTÉGRANT L’INTERACTION
SAVOIR FAIRE DES CALCULS DE PROBABILITÉ, D’INTERVALLE DE CONFIANCE ET DE TEST
D’INDÉPENDANCE EN RAPPORT AVEC DES SITUATIONS D’ENTREPRISES, AVEC L’UTILISATION DES
TABLES
SAVOIR FORMULER UNE HYPOTHÈSE ET TESTER UN RISQUE
COMPÉTENCES À ACQUÉRIR

 TRIER ET CLASSER DES INFORMATIONS CHIFFRÉES.


 SAVOIR MESURER L’INTERACTION ENTRE LES VARIABLES
 SAVOIR METTRE EN ŒUVRE DES MODÈLES DE PRÉVISION ET D’APPROCHE PROBABILISTE
 SAVOIR IDENTIFIER LA LOI DE PROBABILITÉ RÉGISSANT UN PHÉNOMÈNE
 SAVOIR POSER DES HYPOTHÈSES
 SAVOIR LES TESTER DANS DES SITUATIONS CLASSIQUES RENCONTRÉES EN ÉTUDE ET
RECHERCHE DE TOUS GENRES
CONTENUS DU COURS

 STATISTIQUE DESCRIPTIVE, GÉNÉRALITÉS, VARIABLE À UNE DIMENSION, PARAMÈTRES DE TENDANCE


CENTRALE, DE POSITION ET DE DISPERSION
 VARIABLE À DEUX DIMENSIONS : TABLEAU DE CONTINGENCE, DISTRIBUTIONS MARGINALES ET
CONDITIONNELLES.
 DÉPENDANCE ET INDÉPENDANCE, AJUSTEMENT LINÉAIRE, SÉRIES CHRONOLOGIQUES
 TEST D’INDÉPENDANCE (KHI-2)
 PROBLÈMES DE DÉNOMBREMENT
 CALCUL DE PROBABILITÉS ÉLÉMENTAIRES ET DE PROBABILITÉS CONDITIONNELLES
 VARIABLES ALÉATOIRES
 LOIS DE PROBABILITÉS USUELLES (BINOMIALE, POISSON, NORMALE)
 TEST D’AJUSTEMENT (KHI-2)
 ÉCHANTILLONNAGE, ESTIMATION (MOYENNE, FRÉQUENCE)
PRÉREQUIS

AIMER SA PROPRE PERSONNE ET LES AUTRES


ÊTRE MOTIVÉ A RÉUSSIR HONNÊTEMENT
SAVOIR CE QUE L’ON VEUT FAIRE DE SON EXISTENCE
AVOIR UNE IDÉE DES ÉLÉMENTS DE BASE DES MATHÉMATIQUES
STATISTIQUE DESCRIPTIVE
UNIVARIEE
GÉNÉRALITÉS, VARIABLE À UNE DIMENSION, PARAMÈTRES DE POSITION,
DE DISPERSION
GÉNÉRALITÉS
GÉNÉRALITÉS -1

• LA STATISTIQUE DESCRIPTIVE EST UNE BRANCHE DES MATHÉMATIQUES VISANT À DÉCRIRE


(RÉSUMER OU SYNTHÉTISER)AU MIEUX DES INFORMATIONS PRÉLEVÉES SUR UNE POPULATION.
• CETTE POPULATION EST L’ENSEMBLE DES OBJETS (HUMAIN OU AUTRES) SUR LESQUELS PORTE
VOTRE REFLEXION
• LES ÉLÉMENTS CONSTITUTIFS DE LA POPULATION STATISTIQUE SONT APPELÉS “UNITE
STATISTIQUE”
• CES INFORMATIONS COLLECTÉES SONT APPELÉES “VARIABLES STATISTIQUES”
GÉNÉRALITÉS -2

• LES VARIABLES STATISTIQUES SONT DE 4 TYPES:


• VARIABLE STATISTIQUE QUALITATIVE NOMINALE- LES ETHNIES DU GABON (VILI, FANG, NZÉBI, ETC)
• VARIABLE STATISTIQUE QUALITATIVE ORDINALE- LES NIVEAUX SCOLAIRES (LICENCE 1, LICENCE 2,
ETC.)
• VARIABLE STATISTIQUE QUANTITATIVE DISCRETE- LE NOMBRE D’AMIS SINCÈRES (0,1,2,3)
• VARIABLE STATISTIQUE QUANTITATIVE CONTINUE- LA SURFACE DE MON TERRAIN (355,6 M2, ETC)

• CHACUNE AYANT SES SPÉCIFICITÉS


TRY IT RIGHT NOW AND
SUCCESS
• JE VENDS DES PAGNES A DES ETUDIANTS ET JE COLLECTE LES INFORMATIONS
SUIVANTES:
• LA COULEUR DES PAGNES VENDUS
• LE SEXE DE L’ACHÉTEUR
• LE MOMENT DE L’ACHAT (MATIN OU MIDI OU SOIR)
• LE NOMBRE DE PAGNES ACHETÉS
• LA MESURE DU PAGNE ACHETÉ.
sexe de l'acheteur couleur dominante moment de l'achat nombre de pagnes MESURE(mètre)

f rose matin 4 6,5

f vert midi 3 7,8

f rose midi 3 5,6

h bleu soir 2 4,6

f rouge matin 1 6,2

f orange midi 3 5,9

h orange midi 2 3,8

f bleu matin 4 8,2

f rose matin 2 7,4

h noir soir 3 4,06

h vert soir 1 4,5

f jaune soir 2 5,78

Tableau 1: données collectées par la vendeuse de pagnes.


VARIABLE A UNE DIMENSION
VARIABLE A UNE DIMENSION

• ON CHERCHERA ICI À RÉSUMER CHAQUE VARIABLE INDÉPENDAMMENT DES AUTRES, SANS


CHERCHER À MESURER UNE QUELCONQUE RELATION ENTRE ELLE.
• NOUS PROCÉDÉRONS A TROIS OUTILS:
• TABLEAUX
• GRAPHIQUES
• NUMÉRIQUES
couleur effectif fréquence
bleu 2 17%

TABLEAUX ET jaune
noir
1
1
8%
8%
GRAPHIQUES
orange 2 17% moment effectif fréquence
rose 3 25%
variable sexe effectif fréquence matin 4 33%
rouge 1 8%
f 8 67% midi 4 33%
vert 2 17%
h 4 33% soir 4 33%
Total général 12 100%
Total général 12 100%
Répartition des couleurs Répartition des moments d'achat
Total général 12 100%
30%

25%
soir 33%
20%

15%
midi 33%
10%

5% 33%
matin

0%
bleu jaune noir orange rose rouge vert 0% 5% 10% 15% 20% 25% 30% 35%
COMMENT ÇA SE PASSE?
La variable moment a plusieurs modalités don’t “matin”, “midi” et “soir”
moment effectif fréquence
Dans la base de données, 4 personnes ont acheté des pagnes le matin
D’où l’effectif de la modalité “matin” est “4”.
matin 4 33%
𝑛1 = 4, 𝑛2 = 4, 𝑒𝑡𝑐. .

midi 4 33% 33% est la fréquence de clients du midi


𝑛𝑖
soir 4 33% 𝑓𝑖 =
𝑛

Total général 12 100%

Dans la base de données nous avons 12 personnes, n=12


En ordonnée la fréquence ou l’effectif

COMMENT ÇA SE PASSE?
Répartition des couleurs
Grâce aux effectifs où aux fréquences, on trace un diagramme circulaire 30%
DISTRIBUTION DES SEXES
25%

h 20%
33%
15%

10%

5%
f
67%
0%
bleu jaune noir orange rose rouge vert

La mesure de l’angle correspondant à une


modalité est proportionnelle à l’effectif
ou à la fréquence En abscisse les modalités
TABLEAUX ET GRAPHIQUES graphique des fréquences cummulées croissantes

120%
nombre de

Fréquences cumulées croissantes


pagnes 100%
vendus effectif fréquence fréquence cumulée croissante fréquence cumulée décroissante
80%
1 2 17% 17% 100%
60%
2 4 33% 50% 83%
3 4 33% 83% 50% 40%

4 2 17% 100% 17% 20%

Total général 12 100% 0%


0 1 2 3 4 5
Répartition des ventes graphique des fréquences cumulées décroissantes Nombre de pagnes vendus
120%

35%
100%
30%
25% 80%

20%
60%
15%
10% 40%
5%
20%
0%
1 2 3 4
0%
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
COMMENT ÇA SE PASSE?
𝐹𝑐𝑐1 = 𝑓1 = 17%
Nombre de
pagnes 𝐹𝑐𝑐2 = 𝐹𝑐𝑐1 + 𝑓2 = 17% + 33%
vendus Effectif fréquence fréquence cumulée croissante fréquence cumulée décroissante

1 2 17% 17% 100%

2 4 33% 50% 83%

3 4 33% 83% 50%


𝐹𝑐𝑑3 = 𝐹𝑐𝑑4 + 𝑓3 = 17% + 33%
4 2 17% 100% 17%
𝐹𝑐𝑑4 = 𝑓4 = 17%
Total général 12 100%
COMMENT ÇA SE PASSE?
83% des clients ont acheté au plus 3 pagnes
graphique des fréquences cumulées décroissantes
graphique des fréquences cummulées croissantes 120%

120% 100%

100% 80%

80% 60%

60%
40%
40%
20%
20%
0%
0% 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
0 1 2 3 4 5

Nombre de pagnes vendus


17% des clients ont acheté au moins 3 pagnes
TABLEAUX ET GRAPHIQUES
classes effectif fréquence FCC FCD

[3,4.5[ 2 17% 17% 100%


polygone des FCC et FCD
120%
[4.5,6[ 5 42% 58% 83%
Fcd
[6,7.5[ 3 25% 83% 42% 100%

Fcc
[7.5,9[ 2 17% 100% 17%
80%
total 12 100%
Histogramme des mesures
60%
45%
40%
35% 40%

30%
25% 20%
20%
15%
0%
10% 3 4.5 6 7.5 9
5%
0%
3 4.5 6 7.5
COMMENT ÇA SE PASSE?
classes effectif fréquence FCC FCD 𝑛2 = 5, 𝑙𝑒 𝑛𝑜𝑚𝑏𝑟𝑒 𝑝𝑎𝑔𝑛𝑒𝑠 𝑚𝑒𝑠𝑢𝑟𝑎𝑛𝑡 𝑒𝑛𝑡𝑟𝑒4.5𝑚 𝑒𝑡 6
[3,4.5[ 2 17% 17% 100% 𝑛2 5
𝑓2 = = = 0,42
[4.5,6[ 5 42% 58% 83% 𝑛 12
[6,7.5[ 3 25% 83% 42% 25% des pagnes vendus mesuraient entre 6 et 7.5 m
[7.5,9[ 2 17% 100% 17%

total 12 100% 58% des clients ont acheté des pagnes mesurant au plus 7.5 m

Une classe est un intervalle don’t la borne inf est fermée et la sup ouverte
COMMENT ÇA SE PASSE?
polygone des FCC et FCD classes effectif fréquence FCC FCD
120%
[3,4.5[ 2 17% 17% 100%

100% [4.5,6[ 5 42% 58% 83%

[6,7.5[ 3 25% 83% 42%


80%
[7.5,9[ 2 17% 100% 17%

60% total 12 100%

40%

20%

0%
3 4.5 6 7.5 9
TRY IT RIGHT NOW AND SUCCESS
NOM CLIENT COULEUR VOITURE TYPE VOIRURE ANNEE D'ARRIVEE NOMBRE D'ENFANTS MONTANT (MILLION)
ABAGA ROLAND ROUGE 4×4 2015 0 10
PAMBO BELLO KOWIR BLANCHE VILLE 2015 1 7.4
MBOUMBA JANVIER BLANCHE VILLE 2016 1 8.3
ALI BONGO SERAPHIN GRISE 4×4 2015 2 15.4
NZIGOU HERMANCE GRISE VILLE 2016 3 5.6
NGUEMA JULIETTE NOIRE VILLE 2015 0 7.4
TRAORE ALI ROUGE PICK UP 2018 5 18.6
OLUBADE KADER ROUGE VILLE 2018 4 9.4
KONE AWA NOIRE VILLE 2015 1 4.5
IBIKUNLE SOUAD BLANCHE 4×4 2016 0 14.3
YABA VIVIEN BLANCHE PICK UP 2016 3 20.5
NGUIMBI ARNOLD NOIRE PICK UP 2016 2 18.4
NZIENGUI OUSMAN ROUGE 4×4 2015 5 17.4
BOUKA STEPHANE GRISE PICK UP 2018 4 12.5
PARAMÈTRES DE TENDANCE CENTRALE-
MEASURES OF CENTRAL TENDENCY

WE WILL FIRST TALK ABOUT DESCRIPTIVE MEASURES OF QUANTITATIVE DATA. THE MOST
IMPORTANT CHARACTERISTIC OF A DATA SET, CENTRAL TENDENCY, WILL BE GIVEN.
A QUOI SERVENT-ILS?

• A MEASURE OF CENTRAL TENDENCY IS AN IMPORTANT ASPECT OF QUANTITATIVE DATA. IT IS


AN ESTIMATE OF A “TYPICAL” VALUE.
• THREE OF THE MANY WAYS TO MEASURE CENTRAL TENDENCY ARE
THE MEAN, MEDIAN AND MODE.
MEAN –MOYENNE ARITHMETIQUE
• EXAMPLE
• FORMULES
nombre de
𝑝1 pagnes
• 𝑥ҧ = σ𝑖=1 𝑛𝑖 𝑥𝑖 vendus effectif frequency fréquence cumulée croissante fréquence cumulée décroissante
𝑛
1 2 17% 17% 100%
2 4 33% 50% 83%

1 𝑛 3 4 33% 83% 50%


• 𝑥ҧ = σ 𝑥
𝑛 𝑖=1 𝑖 4 2 17% 100% 17%
Total général 12 100%
1×2+2×4+3×4+4×2
• 𝑥ҧ = = 2.5
12
• 𝑥ҧ = σ𝑛𝑖=1 𝑥𝑖 × 𝑓𝑖 • 𝑥ҧ = 1 × 17% + 2 × 33% + 3 × 33% + 4 × 17% = 2.5
MEDIAN –MEDIANE
• THE MEDIAN IS THE MIDDLE VALUE OF THE ORDERED DATA.
• THE MOST IMPORTANT STEP IN FINDING THE MEDIAN IS TO • EXAMPLE
nombre de
FIRST ORDER THE DATA FROM SMALLEST TO LARGEST. pagnes
vendus effectif fréquence fréquence cumulée croissante fréquence cumulée décroissante
• ARRANGE THE DATA IN INCREASING ORDER, I.E. SMALLEST TO
1 2 17% 17% 100%
LARGEST.
2 4 33% 50% 83%
• FIND THE LOCATION OF THE MEDIAN IN THE ORDERED DATA
3 4 33% 83% 50%
BY (N+1)/2, WHERE N IS THE SAMPLE SIZE.
4 2 17% 100% 17%
𝑛+1 𝑛+1
• COMPUTE 𝑚 =𝐸 𝑎𝑛𝑑 𝑑 = 𝐷[ ] Total général 12 100%
2 2
12 + 1 12 + 1
𝑚=𝐸 = 6 𝑎𝑛𝑑 𝑑 = 𝐷 = 0,5
2 2
𝑀𝑒 = 2 + 0,5 × 3 − 1 = 2,5

And then Median is 𝑀𝑒 = 𝑥(𝑚) + 𝑑(𝑥 𝑚+1 −𝑥 𝑚 )


MODE
• FORMULES Répartition des ventes

• EXAMPLE
• THE MODE IS THE VALUE THAT OCCURS 35%
30%
MOST OFTEN IN THE DATA. IT IS IMPORTANT 25%
20%
TO NOTE THAT THERE MAY BE MORE THAN 15%

ONE MODE IN THE DATASET. 10%


5%
0%
1 2 3 4

• MO= {2,3}
MEASURES OF POSITION
DESCRIPTION OF MEASURES OF POSITION

• WHILE MEASURES OF CENTRAL TENDENCY ARE IMPORTANT, THEY DO NOT TELL THE WHOLE
STORY. FOR EXAMPLE, SUPPOSE THE MEAN SCORE ON A STATISTICS EXAM IS 80%. FROM THIS
INFORMATION, CAN WE DETERMINE A RANGE IN WHICH MOST PEOPLE SCORED? THE
ANSWER IS NO. THERE ARE TWO OTHER TYPES OF MEASURES, MEASURES OF POSITION AND
VARIABILITY, THAT HELP PAINT A MORE CONCISE PICTURE OF WHAT IS GOING ON IN THE
DATA. IN THIS SECTION, WE WILL CONSIDER THE MEASURES OF POSITION AND DISCUSS
MEASURES OF VARIABILITY IN THE NEXT ONE.
• MEASURES OF POSITION GIVE A RANGE WHERE A CERTAIN PERCENTAGE OF THE DATA FALL.
THE MEASURES WE CONSIDER HERE ARE PERCENTILES AND QUARTILES.
LOOK AT IN A PICTURE

PERCENTILES QUARTILES
DEFINITIONS

• THE PTH PERCENTILE OF THE DATA SET IS A MEASUREMENT SUCH THAT AFTER THE DATA ARE
ORDERED FROM SMALLEST TO LARGEST, AT MOST, P% OF THE DATA ARE AT OR BELOW THIS
VALUE AND AT MOST, (100 - P)% AT OR ABOVE IT.
• THE MEDIAN IS THE VALUE WHERE FIFTY PERCENT OR THE DATA VALUES FALL AT OR BELOW IT.
THEREFORE, THE MEDIAN IS THE 50TH PERCENTILE.
• WE CAN FIND ANY PERCENTILE WE WISH. THERE ARE TWO OTHER IMPORTANT PERCENTILES.
THE 25TH PERCENTILE, TYPICALLY DENOTED, Q1, AND THE 75TH PERCENTILE, TYPICALLY
DENOTED AS Q3. Q1 IS COMMONLY CALLED THE LOWER QUARTILE AND Q3 IS COMMONLY
CALLED THE UPPER QUARTILE.
QUARTILES

THE LOWER
FORMULES QUARTILE THE MEDIAN
FORMULES THE UPPER QUARTILE
FORMULES
𝑛+1 𝑛+1 𝑛+1 𝑛+1 3(𝑛 + 1) 3(𝑛 + 1)
𝑚=𝐸 𝑎𝑛𝑑 𝑑 = 𝐷[ ] 𝑚=𝐸 𝑎𝑛𝑑 𝑑 = 𝐷[ ] 𝑚=𝐸 𝑎𝑛𝑑 𝑑 = 𝐷[ ]
4 4 2 2 4 4
𝑄1 = 𝑥(𝑚) + 𝑑(𝑥 𝑚+1 − 𝑥 𝑚 ) 𝑄2 = 𝑥(𝑚) + 𝑑(𝑥 𝑚+1 − 𝑥 𝑚 ) 𝑄3 = 𝑥(𝑚) + 𝑑(𝑥 𝑚+1 − 𝑥 𝑚 )
EXAMPLE EXAMPLE EXAMPLE
12 + 1 12 + 1 𝑄2 = 𝑥(6) + 0,5 𝑥 7 − 𝑥 6 = 𝟐, 𝟓 𝑄3 = 𝑥(9) + 0,75 𝑥 10 − 𝑥 9 =𝟑
𝑚=𝐸 = 3 𝑎𝑛𝑑 𝑑 = 𝐷 = 0,5
4 4
𝑄1 = 𝑥(3) + 0,25 𝑥 4 − 𝑥 3 =2
THE 5 - NUMBER SUMMARY
• A HELPFUL SUMMARY OF THE DATA IS CALLED THE FIVE NUMBER SUMMARY. THE FIVE NUMBER
SUMMARY CONSISTS OF FIVE VALUES:
• THE MINIMUM
Min=1
• THE LOWER QUARTILE, Q1 Q1=2
Q2=2,5
• THE MEDIAN (ALSO KNOWN AS Q2) Q3=3
Max=4
• THE UPPER QUARTILE, Q3
• THE MAXIMUM
MEASURES OF VARIABILITY
PARAMÈTRES DE DISPERSION
OVERVIEW
• INTRODUCE THE IDEA OF VARIABILITY, CONSIDER THIS EXAMPLE. TWO VENDING
MACHINES A AND B DROP CANDIES WHEN A QUARTER IS INSERTED. THE NUMBER OF PIECES OF
CANDY ONE GETS IS RANDOM. THE FOLLOWING DATA ARE RECORDED FOR SIX TRIALS AT EACH
VENDING MACHINE:
• VENDING MACHINE A PIECES OF CANDY FROM VENDING MACHINE A:
• 1, 2, 3, 3, 5, 4
• MEAN = 3, MEDIAN = 3, MODE = 3
• VENDING MACHING B PIECES OF CANDY FROM VENDING MACHINE B:
• 2, 3, 3, 3, 3, 4
• MEAN = 3, MEDIAN = 3, MODE = 3
There are many ways to describe variability or spread including:
 Range
 Interquartile range (IQR)
 Variance and Standard Deviation
MEASURES OF VARIABILITY

INTERQUARTILE RANGE VARIANCE AND


RANGE IQR IS THE DIFFERENCE BETWEEN THE STANDARD
IS THE AVERAGE DEVIATION
SQUARED DISTANCE FROM THE
THE RANGE IS THE DIFFERENCE IN UPPER AND LOWER QUARTILES. MEAN
THE MAXIMUM AND THE MNIMUM
IQR=Q3-Q1 1 𝑝
VALUE IN THE DATA SET AND 𝜎 2 = 𝑛 σ𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝜇)2 POPULATION
DENOTED R. EXAMPLE VARIANCE
IQR=3-2=1 𝑛
R=MAX-MIN 1
𝜎 2 = ෍ (𝑥𝑖 − 𝜇)2
EXAMPLE 𝑛
𝑖=1

R=4-1=3 1 𝑝
𝑠 2 = 𝑛−1 σ𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥)ҧ 2 SAMPLE VARIANCE
𝜎 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑜𝑛
Coefficient of variation is 𝐶𝑉 = = 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑜𝑛 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒
𝜇 𝑚𝑒𝑎𝑛
nombre de
pagnes
vendus effectif fréquence fréquence cumulée croissante fréquence cumulée décroissante
1 2 17% 17% 100%
2 4 33% 50% 83%
3 EXAMPLE
4 33% 83% 50%
4 2 17% 100% 17%
Total général 12 100%

1 1
• 𝑠2 = σ4𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥)ҧ 2 = (2 × (1 − 2.5)2 + 4 × (2 − 2.5)2 +4 × (3 − 2.5)2 +2 ×
12−1 11
(4 − 2.5)2 ) = 0.99166

• 𝑆 = 𝑆 2 = 0.91166 = 0.95
𝑆 0.95
• 𝐶𝑉 = = = 0.38
𝑋ത 2.5
TRY IT AND SUCCESS

• GROUPE 1: RESUMER LA VARIABLE MOYENNE DE MATHS DU TABLEAU DE DONNÉES SUR LES ÉTUDIANTS

• GROUPE 2: RESUMER LA VARIABLE MOYENNE D’ANGLAIS DU TABLEAU DE DONNÉES SUR LES ÉTUDIANTS

• GROUPE 3: RESUMER LA VARIABLE NOMBRE D’ENFANTS DU TABLEAU DE DONNÉES SUR LA VENTE DE VOITURES.

• GROUPE 4: RESUMER LA VARIABLE PRIX DE LA VOITURE DU TABLEAU DE DONNÉES SUR LA VENTE DE VOITURES
STATISTIQUE DESCRIPTIVE
BIVARIEE
INTRODUCTION
HERE WE WANT TO EVALUATE AN ASSOCIATION OR RELATIONSHIP BETWEEN TWO VARIABLES,
ONE IS A RESPONSE VARIABLE AND THE OTHER THE EXPLONATORY VARIABLE.
TYPES OF VARIABLES-1

• A VARIABLE IS ANY CHARACTERISTIC, NUMBER, OR QUANTITY THAT CAN BE MEASURED,


COUNTED, OR OBSERVED FOR RECORD.
• RESPONSE VARIABLE IS THAT ABOUT WHICH THE RESEARCHER ASKING. MAY ALSO BE CALLED
THE OUTCOME OR DEPENDANT VARIABLE, OFTEN NOTED Y
• EXPLANATORY VARIABLE IS THAT SERVE TO EXPLAIN CHANGES IN THE RESPONSE. IT MAY BE
CALLED PREDICTOR OR INDEPENDENT VARIABLE, OFTEN NOTED X .
THERE ARE THREE SITUATIONS

CHI-SQUARE TEST OF ANALYSIS OF VARIANCE


LINEAR REGRESSION INDEPENDENCE (ANOVA)
BOTH VARIABLES ARE QUANTITATIVE FOR BOTH VARIABLES ARE CATEGORICAL WITH THE EXPLANATORY VARIABLE IS
EXAMPLE AT LEAST ONE VARIABLE WITH MORE CATEGORICAL WITH MORE THAN TWO
THAN TWO LEVELS FOR EXAMPLE LEVELS, AND THE RESPONSE IS
X=HEIGHT AND Y=WEIGHT
QUANTITATIVE
X=SEXE Y=KNOWLEDGE LEVEL
EXAMPLE

X=SOCIAL CATEGORICAL LEVEL AND


Y=EXAM SCORES
SUMMARY OF TWO CATEGORICAL VARIABLES

• THE PRIMARY METHOD FOR DISPLAYING THE SUMMARIZATION OF CATEGORICAL VARIABLES IS


CALLED A CONTINGENCY TABLE. WHEN WE HAVE TWO MEASUREMENTS ON OUR SUBJECTS
THAT ARE BOTH THE CATEGORICAL, THE CONTINGENCY TABLE IS SOMETIMES REFERRED TO AS
A TWO-WAY TABLE.
• THE SIZE OF A CONTINGENCY TABLE IS DEFINED BY THE NUMBER OF ROWS TIMES THE
NUMBER OF COLUMNS ASSOCIATED WITH THE LEVELS OF THE TWO CATEGORICAL VARIABLES
APPLICATION
2 pagnes oranges ont été achetés à midi
D’où 𝑛4,2=2
Y=moment de l'achat Colonne 3

matin midi soir Total général


Ligne 1 bleu 1 0 1 2
jaune 0 0 1 1
noir 0 0 1 1
orange 0 2 0 2
Ligne 5 rose 2 1 0 3

X=couleur rouge 1 0 0 1
dominante vert 0 1 1 2
Total
général 4 4 4 12
COMMENT CA SE PASSE?
Distribution conjointe

X\Y Modalités 1 Modalité 2 Modalité 3 Total


Modalité 1 𝑛1,1 𝑛1,2 𝑛1,3 𝑛1,.
Modalité 2 𝑛21 𝑛2,2 𝑛2,3 𝑛2,.
Modalité 3 𝑛3,1 𝑛3,2 𝑛3,3 𝑛3,.
total 𝑛.,1 𝑛.,2 𝑛.,3 𝑛
Distribution des
Distribution des effectifs marginales de Y effectifs marginales
de X
DISTRIBUTION CONDITIONNELLE DES FRÉQUENCES
(COULEUR SACHANT MOMENT)
moment de l'achat
Colonne1 matin midi soir Total général 𝑛4,2 2
𝑓4,2 = =
bleu 8% 0% 8% 17% 𝑛 12
jaune 0% 0% 8% 8%
noir 0% 0% 8% 8%
orange 0% 17% 0% 17%
Distribution
rose 17% 8% 0% 25%
des
rouge 8% 0% 0% 8% fréquences
couleur
dominante vert 0% 8% 8% 17% marginales de
Total
X
général 33% 33% 33% 100%

Distribution des fréquences marginales de Y


DISTRIBUTION DES FRÉQUENCES
CONDITIONNELLES
moment de l'achat moment de l'achat
Total Total
matin midi soir général matin midi soir général
bleu 1 0 1 2 bleu 25% 0% 25% 17%
jaune 0 0 1 1 jaune 0% 0% 25% 8%
noir 0 0 1 1 noir 0% 0% 25% 8%
orange 0 2 0 2 orange 0% 50% 0% 17%
rose 2 1 0 3 rose 50% 25% 0% 25%
couleur rouge 1 0 0 1 rouge
couleur 25% 0% 0% 8%
dominante vert 0 1 1 2 dominante vert 0% 25% 25% 17%
Total Total
général 4 4 4 12 général 100% 100% 100% 100%
𝑛1,1 1
= = 0,25
𝑛1,. 4
On parlera ici de distribution des couleurs conditionnées Parmi les pagnes vendus le matin 25% étaient bleus
au moment d’achat
DISTRIBUTION CONDITIONNELLE DES
FRÉQUENCES (MOMENT SACHANT COULEUR)
moment de l'achat
Total
matin midi soir général
bleu 50% 0% 50% 100%
jaune 0% 0% 100% 100%
noir 0% 0% 100% 100%
orange 0% 100% 0% 100%
rose 67% 33% 0% 100%
couleur rouge 100% 0% 0% 100%
dominante vert 0% 50% 50% 100%
Total
général 33% 33% 33% 100%
TRY IT AND SUCCESSFUL

• GROUPE 1: X=SEXE AND Y=NOMBRE DE PAGNES VENDUS


• GROUPE 2: X=COULEUR DU PAGNE AND Y=MESURE DU PAGNE VENDU
• GROUPE 3: X= SEXE AND Y=MESURE DU PAGNE VENDU
• GROUPE 4: X=COULEUR DU PAGNE AND Y=NOMBRE DE PAGNES VENDUS
SUMMARY OF TWO QUANTITATIVES VARIABLES

• IN THIS LESSON, WE WILL FIRST INTRODUCE THE SIMPLE LINEAR REGRESSION MODEL AND THE
CORRELATION COEFFICIENT. INFERENCES FOR THE SIMPLE LINEAR REGRESSION MODEL WILL BE
DISCUSSED, AND THE CRITICAL DISTINCTION BETWEEN INFERENCE FOR MEAN RESPONSE AND
INFERENCE FOR THE OUTCOME WILL BE CLARIFIED.
• REGRESSION ANALYSIS IS A TOOL TO INVESTIGATE HOW TWO OR MORE VARIABLES ARE
RELATED.
• FOR EXAMPLE, ONE MAY WISH TO USE A PERSON'S HEIGHT, GENDER, RACE, ETC. TO PREDICT A
PERSON'S WEIGHT. LET US FIRST CONSIDER THE SIMPLEST CASE: USING A PERSON'S HEIGHT
TO PREDICT THE PERSON'S WEIGHT.
DRAWING MODEL
THERE IS THE RESPONSE VARIABLE, NOTED Y, IT IS THE VARIABLE OF INTEREST OR DEPENDENT
VARIABLE, IN OUR EXAMPLE, Y=MEASURE OF THE LOIN CLOTHES.
THERE IS THE EXPLANATORY VARIABLE, NOTED X, ALSO CALLED PREDICTOR VARIABLE OR
INDEPENDENT VARIABLE. IN THE EXAMPLE, X=NUMBER OF LOIN CLOTHES SELLING.
WHEN THERE IS ONLY ONE PREDICTOR VARIABLE, WE REFER TO THE REGRESSION MODEL AS A
SIMPLE LINEAR REGRESSION MODEL.
IN STATISTICS, WE CAN DESCRIBE HOW VARIABLES ARE RELATED USING A MATHEMATICAL
FUNCTION. THE FUNCTION ALONG WITH OTHER ASSUMPTIONS IS CALLED A MODEL. THERE
ARE MANY MODELS WE CAN CONSIDER. IN THIS CLASS, WE WILL FOCUS ON LINEAR MODELS,
PARTICULARLY, WHEN THERE IS ONLY ONE PREDICTOR VARIABLE. WE REFER TO THIS MODEL AS
THE SIMPLE LINEAR REGRESSION MODEL.
WAYS TO DRAW THE LINEAR MODEL REGRESSION

1. USE PLOTS AND SUMMARY STATISTICS TO DESCRIBE THE RELATIONSHIP BETWEEN THE
RESPONSE VARIABLE AND THE PREDICTOR VARIABLE.
2. PERFORM A HYPOTHESIS TEST FOR THE POPULATION CORRELATION.
3. FIND THE REGRESSION EQUATION AND INTERPRET THE RESULTS.
4. APPLY THE REGRESSION MODEL AND KNOW THE LIMITATIONS.
5. FIND AN INTERVAL ESTIMATE FOR THE POPULATION SLOPE AND INTERPRET THE INTERVAL.
LINEAR RELATIONSHIPS

• TO DEFINE A USEFUL MODEL, WE MUST INVESTIGATE THE RELATIONSHIP BETWEEN THE


RESPONSE AND THE PREDICTOR VARIABLE. AS MENTIONED BEFORE, THE FOCUS OF THIS
LESSON IS LINEAR RELATIONSHIPS.
• RECALL THAT THE EQUATION OF A LINE HAS THE FOLLOWING FORM : 𝑌 = 𝑎𝑋 + 𝑏
• WHERE 𝑎 IS THE SLOPE AND 𝑏 IS THE Y-INTERCEPT.
FIRST STEP: SCATTERPLOTS
When we look at the scatterplot, keep in
X=nombre de scatterplots) mind the following questions:
pagnes Y=MESURE(mètre) 9
4 6,5 8
1. What is the direction of the

measures of the loin clothes


7
3 7,8 relationship?
6
3 5,6 5 2. Is the relationship linear or nonlinear?
4
2 4,6
3
3. Is the relationship weak, moderate, or
1 6,2 2 strong?
3 5,9 1
4. Are there any outliers or extreme
0
2 3,8 0 1 2 3 4 5 values?
X=number of loin clothes selling
4 8,2
2 7,4 The scatterplot is A graphical representation of two quantitative
3 4,06 variables where the explanatory variable is on the x-axis and the
1 4,5 response variable is on the y-axis.
2 5,78
SECOND STEP: CORRELATION
• IF WE WANT TO PROVIDE A MEASURE OF THE STRENGTH OF THE LINEAR RELATIONSHIP
BETWEEN TWO QUANTITATIVE VARIABLES, A GOOD WAY IS TO REPORT THE CORRELATION
COEFFICIENT BETWEEN THEM.

• THE SAMPLE CORRELATION COEFFICIENT IS TYPICALLY DENOTED AS 𝑟 . IT IS ALSO KNOWN AS


PEARSON’S R. THE POPULATION CORRELATION COEFFICIENT IS GENERALLY DENOTED AS 𝜌,
PRONOUNCED “RHO.”

𝑝
σ𝑖=1 𝑛𝑖 𝑥𝑖 𝑦𝑖 −𝑥ҧ 𝑦ത
•𝑟=
𝜎𝑋 ×𝜎𝑌
PROPERTIES OF THE CORRELATION COEFFICIENT, 𝒓
• −1 ≤ 𝑟 ≤ 1, I.E. 𝑟 TAKES VALUES BETWEEN -1 AND +1, INCLUSIVE.
• THE SIGN OF THE CORRELATION PROVIDES THE DIRECTION OF THE LINEAR RELATIONSHIP. THE SIGN INDICATES
WHETHER THE TWO VARIABLES ARE POSITIVELY OR NEGATIVELY RELATED.
• A CORRELATION OF 0 MEANS THERE IS NO LINEAR RELATIONSHIP.
• THERE ARE NO UNITS ATTACHED TO 𝑟.
• AS THE MAGNITUDE OF 𝑟 APPROACHES 1, THE STRONGER THE LINEAR RELATIONSHIP.
• AS THE MAGNITUDE OF 𝑟 APPROACHES 0, THE WEAKER THE LINEAR RELATIONSHIP.

• IF WE FIT THE SIMPLE LINEAR REGRESSION MODEL BETWEEN Y AND X, THEN 𝑟 HAS THE SAME SIGN AS 𝛽1 , WHICH IS
THE COEFFICIENT OF X IN THE LINEAR REGRESSION EQUATION. -- MORE ON THIS LATER.
• THE CORRELATION VALUE WOULD BE THE SAME REGARDLESS OF WHICH VARIABLE WE DEFINED AS X AND Y.
EXAMPLE
X=nombre de
pagnes Y=MESURE(mètre)
4 6,5
3 7,8
3 5,6
𝑥ҧ = 2,5 𝑦ത = 5,86 𝜎𝑋 = 1; 𝜎𝑌 = 1,45
2 4,6
1 6,2
3 5,9
2 3,8 4 × 6.5 + 3 × 7.8 + 3 × 5.6 + ⋯ + 2 × 5.78
− 2.5 × 5.86
4 8,2 𝑟= 12 = 0.43
2 7,4 1 × 1.45
3 4,06
1 4,5
2 5,78