Vous êtes sur la page 1sur 38

Statistique et Pratique d’Excel en Traitement

Statistique

• Volume horaire: 30 h
• Evaluation
• Contrôle
• Examen
SOMMAIRE
1. Vocabulaire
1. Caractère, population, échantillon, individu ou observation, modalité d’un
caractère
2. Organisation des données
1. Regroupement des données: distribution de fréquences
3. Paramètres statistiques
1. Paramètres de position
2. Paramètres de dispersion
3. Paramètres de position
4. Couples de variables statistiques
1. Fréquences marginales et conditionnelles
2. Indépendance
5. La Régression
1. Diagramme de dispersion
2. Corrélation
3. Méthodes moindres des carrées
Evénement: variation d’un caractère

Statistique Lois de Statistique


descriptive probabilité inférentielle

• Organiser les • Lois de • Relation entre


données probabilité pop. et échan.
• Descripteurs.. • modélisation • Estimation..

Prise de décision
1. Introduction
C’est un ensemble de méthodes, outils appropriés, servant à
décrire un ensemble d’individus avec un caractère bien
défini

• Organisations appropriées (regroupement…)


• Des représentations graphiques (histogrammes….)
• Calcul algébrique: des indicateurs qui décrivent la
variabilité d’un caractère
2. Nomenclature et définitions
On réalise une analyse statistique sur un ensemble
d’observations sur lesquelles on mesure une quantité
descriptive

Vocabulaire spécifique

Population; Echantillon
Caractère; Propriété; Variable statistique
Modalité d’une variable
a. Population
Un ensemble d’individus ou d’observations
• bien définie
• Homogène
b. Caractère
Caractère = particularité à étudier dans une population
Caractère : variable statistique
population caractère
Un ensemble d’individus Taille; poids; revenu
Un ensemble de pièces conformité
Un ensemble de familles Nbre d’enfants
Un ensemble d’individus Couleur des yeux
Un ensemble d’élèves Mention au Bac
Quantitatif : mesurable, discret ou continu
Caractère
Qualitatif : non mesurable, nominal ou ordinal

Nom Sexe Age (années) Sit Familiale Nb d'enfants Salaire men


Omar M 35 Marié 3 1 850
Ahmed M 24 Célibataire 0 2 500
Mohamed M 18 Célibataire 0 20 000
amine M 42 Marié 2 12 600
Said M 33 Mariée 1 4 900
mohamed M 47 Marié 4 8 000
Myriam F 26 Mariée 0 20 300
nadir M 30 Célibataire 0 20 500

Nominal continu nominal discret continu


Qualitatif nominal ordinal
c. Modalités

Un caractère présente plusieurs modalités: états ou valeurs

Une unité statistique (obs, individu) ∈ Une seule modalité

nominale ordinale Echelle de rapport

• Région • Pot. Physique • taille


• profession (faible, fort..) • rendement
• Ni. scolaire

qualitatif quantitatif
Organisation des données: Regroupement des données
Pour plus de lisibilité : on compte le nombre d’individus par modalité
(valeur du caractère considéré)

X= couleur des yeux

Y= Mention au Bac
Z= Note à l’examen de statistique
d. Fréquence absolue, relative et cumulée
• Fréquence abs: nombre d’obs ayant la même modalité

• Fréquence relative:

• Fréquence cumulée pour une valeur x: nombre d’obs ayant


une valeur du caractère inférieure ou égale à la valeur x
Répartition de la variable: Mention au Bac
Utilisation des fréquences relatives
Répartition de la variable: note à l’Examen de statistique
Exple : une population de 100 individus
Tailles (m ) Effectifs ni Tailles (m ) Effectifs ni

1,53 1 1,76 9
1,58 1 1,77 5
1,59 1 1,78 4
1,62 3 1,79 1
1,63 1 1,8 5
taille 1,64 1 1,81 4
1,66 4 1,82 3
1,67 4 1,83 5
1,68 5 1,84 3
1,69 4 1,85 1
1,7 2 1,86 1
1,71 6 1,88 1
1,72 3 1,89 2
1,73 5 1,92 1
1,74 8 1,93 1
1,75 4 2,01 1
Population : 100 individus
Taille : caractère étudié ou la variable statistique
3. Organisation de données (distribution et tableau
statistique)
a. Introduction

Organiser les données dans des structures


meilleure interprétation

Regroupement de données par modalité


b. Cas d’un caractère quantitatif: groupement par
classe
Note à l’examen de statistique
Regrouper les données dans des intervalles:

Exemple: intervalle entre 0 et 4: [0-4[

Nbr d’élèves ayant la modalité [0-4[ est 2


Nbr d’élèves ayant la modalité [12-16[ est 4
Taille de 100 individus
A regrouper : 150-155-160-165-170-180-185-190-195-200-205

Tailles (m ) Effectifs ni Tailles (m ) Effectifs ni

1,53 1 1,76 9 Classes effectifs


1,58 1 1,77 5
150-155 1
1,59 1 1,78 4
1,62 3 1,79 1 155-160 2
1,63 1 1,8 5 160-165 5
1,64 1 1,81 4
165-170 17
1,66 4 1,82 3
1,67 4 1,83 5 170-175 24
1,68 5 1,84 3 175-180 23
1,69 4 1,85 1
180-185 20
1,7 2 1,86 1
1,71 6 1,88 1 185-190 5
1,72 3 1,89 2 190-195 2
1,73 5 1,92 1
195-200 0
1,74 8 1,93 1
1,75 4 2,01 1 200-205 1
Considérations pratiques

Définir le nbre de classes et leurs amplitudes

• Nbr de classe : k= 1+3.322*log10(n)


• Amplitude : amplitude = (max –min)/k
1. Le nbre de classe doit être entre 6 et 12
2. Les classes de même amplitude
3. Arrondir le nbre de classe (nbr entier)
4. Définir la valeur initiale < la plus petite valeur

Nbr de classes = 1+3.322*log10(100) = ……….


Amplitude = (201-153)/nb.classe = ……….
On commence par 150
Exples
Age moyen des cadres dans
une entreprise
26 31 34 35 37 38 40 43 44 46
26 31 34 35 37 39 40 43 44 46
26 31 34 35 38 39 40 43 45 46
30 32 34 36 38 39 41 43 45 46 Durée de visite d’un site internet
31 32 34 36 38 39 41 43 45 47
7 8 9 10 10 11 12 13 13 14
31 32 34 36 38 39 41 44 46 47
14 15 15 15 16 16 16 16 16 17
31 32 35 37 38 39 41 44 46 47
17 17 18 18 18 19 19 20 20 20
31 32 35 37 38 40 41 44 46 47
31 32 35 37 38 40 42 44 46 47 20 20 21 21 21 22 22 22 23 23
31 32 35 37 38 40 42 44 46 47 23 23 24 24 24 25 25 26 26 26
26 27 28 28 28 28 28 29 30 31
31 32 33 34 34 35 35 36 37 39
41 42 43 43 46 48 52 53 57 60
c. Cas ou le caractère est discret: distribution de
fréquence absolue ou relative.
Le dépouillement se fait par les valeurs du caractère
Exple : le nombre d’absence pour dans un mois dans une grande
entreprise : 22 jours
Nb d’absence Nb de jours Fr. Relatives
Nombre d’absence dans un mois (22 jours) 0 5 0,2273
0 1 9 8 0 0 3 1 0 1 3 0,1364
2 4 0,1818
0 2 5 9 2 4 2 3 8 3 3 0,1364
4 1 0,0455
1 9 3 2 5 1 0,0455
6 0 0
7 0 0
8 2 0,0909
9 3 0,1364
Somme =22 1
Exemple: nombre d’enfants par famille pour une trentaine de
familles

2 2 1 0 0 3
4 1 2 3 1 2
1 2 4 3 1 0
2 1 2 3 4 2
1 2 1 0 2 3 Nombre d’enfants fi
0
1
2
3
4
4. Présentation graphique des résultats
a. Introduction
La représentation graphique permet
• Une meilleure visualisation de la distribution
• Un résumé et une vue d’ensemble
• Comparaison des résultats

Les ≠ graphiques sont:


• Diagramme en bâtons
• Histogrammes
• Polygone de fréq. Abs
• Courbes de fréq. Cumulées
b. Diagramme en bâtons
La variable est quantitative et discrète
Exple : le nbre d’erreurs d’assemblage pour des appareils
electriques dans une usine (396 appareils)

Nombre Nombre
d’erreurs d’appareils
0 101
1 140
2 92
3 42
4 18
5 3
c. Histogramme
La variable est continue et présenté suivant une distribution en
classes
1. L’histogramme est un ensemble de rectangles
2. La base est égale à l’intervalle de la classe
3. L’aire est proportionnelle à la fréquence abs ou l’effectif

Exple: résultat au test d’aptitude générale de 62 candidats

Résultat au test
93 104 93 79 78 112 107 100 105 102 107 107
119 94 87 113 98 86 124 93 99 97 83 95
99 98 77 101 104 138 97 74 99 85 93 98
84 110 102 75 104 100 84 101 82 85 85 92
86 101 70 108 89 68 123 63 86 62 90 77
94 96
Regroupement par classe et Représentation graphique

classes Fréquence
absolue
60 ≤ variable < 70 3
70 ≤ variable < 80 7
80 ≤ variable < 90 12
90 ≤variable < 100 18
100 ≤variable < 110 15
110 ≤ variable < 120 4
120 ≤ variable < 130 2
130 ≤ variable < 140 1
Les classes n’ont pas le même amplitude

Densité d’effectif Surface du rectangle

Exple: population de locataire d’un quartier et loyer en euros

Loyer annuel Effectif Densité d’effectifs


[5000, 6000[ 50 0,050=50/1000
[6000, 7000[ 120 0,120
[7000, 9000[ 150 0,075
[9000, 11000[ 80 0,040 =80/2000
[11000, 13000[ 60 0,030
[13000, 15000[ 40 0,020
N=400
On peut prendre comme unité la plus petite ou la plus grande
des amplitudes. On divise l’effectif par l’amplitude par
rapport l’amplitude élémentaire
L’unité d’amplitude est égale à 2000

• [5000, 6000[ 50*2=100


• [6000, 7000[ 120*2=240
c. Courbe de fréquence cumulée

Exple: montant investi par 127 personnes dans des dépôts garanti

Montants investi Nombre de


particuliers
1000≤X<5000 52
5000≤X<9000 25
9000≤X<13000 18
13000≤X<17000 13 Limites Fréquences
17000≤X<21000 7 supérieures cumulées
21000≤X<25000 6 Moins de1000 0
25000≤X<29000 4 Moins de 5000 52
29000≤X<33000 2 Moins de 9000 77
Moins de 13000 95
Moins de 17000 108
Moins de 21000 115
Moins de 25000 121
Moins de 29000 125
Moins de 33000 127
Courbe de fréquence cumulée croissante:
1. Abscisse: limites supérieures des classes
2. Ordonnée: fréquences cumulées
3. Les points sont rattachés par des portions de droites
Cette courbe permet de répondre à plusieurs questions:

1. Combien de particuliers ont investi moins de 17000 108


2. Combien de particuliers ont investi au moins 17000
127-108
3. Combien de particuliers ont investi plus de 9000, mais moins
de 25000 (9000 ≤x<25000) 121-77=44

Combien de particuliers ont investi moins de 20000 (17000


≤x<21000)
F(17000)= 108 et F(21000)= 115
Par interpolation dans la classes:
5. Couple de variables statistiques
Les deux variables sont de nature: qualitatives, quantitatives,
discrets…. Avec ≠ modalités xi et yi
Distributions (X,Y) tableau de contingence

Exple: distributions de deux variables (âge et salaire) de 16 employés dans


un restaurant
Salaire 170-200 200-230 230-260
Age
20-22 3 1 0 4
22-24 2 3 0 5
24-26 1 5 1 7
6 9 1

Le nbre d’employés ayant entre 22 et 24


et gagnant entre 170-200 euros
la valeur 9 représente le nombre d’employés
gagnant entre 200 et 230 euros
a. Fréquence relative
Elle représente la proportion d’individus de modalité (xi, yj) du
couple (X, Y)

b. Fréquence marginale
Pour le couple (X, Y), les lois marginales de X et Y sont :
• La loi de X quelque soit les valeurs de Y
• La loi de Y quelque soit les valeurs de X

Y=Salaire 170-200 200-230 230-260


X=Age
20-22 3 1 0 4
22-24 2 3 0 5
24-26 1 5 1 7
6 9 1
c. Fréquence conditionnelle
Fréquence conditionnelle xi sachant yj est notée fi/j: la
proportion d’individus de modalité (xi, yj) par rapport à yj

Y= Salaire 170-200 200-230 230-260


X=Age
20-22 3 (3/6) 1 (1/9) 0 (0/1) 4
22-24 2 (2/6) 3 0 5
24-26 1 (1/6) 5 1 7
6 9 1

Salaire 170-200 200-230 230-260


Age
20-22 3 (3/4) 1 (1/4) 0 (0/4) 4
22-24 2 3 0 5
24-26 1 5 (5/7) 1 7
6 9 1
d. Indépendance
En général, on cherche l’existence d’une relation entre X et Y

1. Indépendance: taille et salaire


2. Dépendance: relation fonctionnelle (cas de grandeurs
physiques)
3. Dépendance plus au moins marquée: ∃ des indices pour
quantifier cette proximité
• X est indépendante de Y si les variations de Y n’entraînent
par de variation de X
• Lorsque les fréquences observées pour les distributions
conditionnelles sont toutes identiques, ce qui veut dire que
la distribution de Y sachant que X= x1 est identique à celle
de Y sachant que X=x2…alors X et Y sont indépendantes

Exple : la fréquence conditionnelle de la modalité 170-200 pour


les différentes modalités de X sont les suivantes 3/4, 2/5 et
1/7

Ces valeurs ne sont pas égales ; on peut conclure que X et Y


ne sont pas indépendants
• ne dépend que de j et est indépendant de i donc de X
• Et plus généralement si X et Y sont indépendants si :

Vous aimerez peut-être aussi