Académique Documents
Professionnel Documents
Culture Documents
MATHEMATIQUES
Semestre 1
COURS
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 1 sur 16
SOMMAIRE
Introduction et historique 3
1 INTRODUCTION 5
5.1 INTRODUCTION 13
5.2 PARAMETRES BASES SUR LES DECOUPAGES DE LA POPULATION 13
5.3 PARAMETRES BASES SUR LES ECARTS ENTRE VALEURS 15
6 UTILISATION DE LA CALCULATRICE 16
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 2 sur 16
INTRODUCTION ET HISTORIQUE
Ses objectifs sont multiples, et les méthodes employées également, si bien qu'on parle volontiers des
statistiques.
Il s'agit aussi bien de :
* collecter des données à partir d'une population dont on ne peut étudier, en général, qu'un échantillon ;
* présenter ces données (tableau, graphique) ;
* en déduire des valeurs-clés (moyenne, médiane, quantiles, écart type, covariance, etc.) ;
* établir le lien entre ces données (ou entre deux listes de données) et le modéliser (par une formule
mathématique) ;
* grâce à la modélisation, faire des prévisions, tester des hypothèses ;
* etc.
* En 2238 av J.C., l'empereur chinois Yao organise un recensement des populations agricoles.
* En 1700 av J.C., chez les égyptiens, l'institution du cadastre et du cens (impôt) est établie. Le pharaon
Amasis (VIe siècle av. JC) édicte même une loi condamnant à mort tous ceux qui se refusent à déclarer
leur nom, leur profession et leurs moyens de subsistance.
* Moïse retrace dans son IVème livre le dénombrement des hébreux en état de porter les armes.
* L'empereur romain Auguste ordonne trois recensements de la population et de l'empire. C'est au cours
du second que Saint Luc rapporte les circonstances qui entourèrent la naissance du Christ.
* Aux XIIIème et XIVème siècles, les commerçants de la république de Venise rassemblent dans leurs
Relazioni de nombreuses données sur le commerce extérieur qui sont utilisées pour guider la politique
des régents.
* En 1563, le Concile de Trente rend obligatoire la tenue des registres paroissiaux. Cette mesure s'applique
en France en totalité après la Révolution.
* En 1570, le mathématicien italien Geronimo Cardano (Cardan) s'intéresse aux statistiques relatives à la
durée de la vie humaine.
* Au début du XVIIème siècle, les frères Elzevir publient aux Pays-Bas une encyclopédie en 60 volumes
contenant des informations sur la vie et le commerce des Etats.
* En 1662, John Graunt publie des informations sur les tables de mortalité établies à Londres. Huygens en
1669 et Jan Witt en 1671 mènent des travaux analogues.
* En France, Colbert et Vauban ordonnent diverses enquêtes telles que les mémoires des intendants.
* En 1693, Edmond Halley publie les premières tables qui étudient les problèmes des assurances-vie.
* En Angleterre, W.Petty réalise des travaux concernant le cadastre et les statistiques commerciales.
Jusqu'au début du XVIIIème siècle, les statistiques se sont bornées à rester purement descriptives.
Parallèlement, on vit apparaître un domaine nouveau : le calcul des probabilités. Initié au XVIIème siècle
par Fermat, Huygens, Jakob (Jacques) Bernoulli et Pascal, continué au XVIIIème siècle par Daniel
Bernoulli, Buffon, Condorcet, Nicolas Bernoulli, De Moivre, Bayes, et bien sûr Laplace, Gauss et Poisson
jusqu'au début du XIXème siècle, il inspira de nombreux mathématiciens. John Graunt induisit l'idée
de l'usage de données statistiques à des fins de prévisions, et au XIXème siècle, Adolphe Quételet
induit la formalisation de la conception selon laquelle la statistique peut être fondée sur le calcul des
probabilités.
À l'aube du XXème siècle, les statisticiens anglais, comme Pearson, Student (William Sealy Gosset) ou
Fisher commencent à développer une véritable méthodologie statistique, c'est à dire une théorie bien
formalisée de l'inférence (tirer des conclusions sur une population à partir d'un échantillon) en créant
et étudiant des lois de probabilités de phénomènes : ils imposent, entre 1900 et 1950, une
interprétation "objectiviste" ou "fréquenciste" du concept de probabilité.
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 3 sur 16
A partir des années 1950, une controverse s'est exprimée sous le nom de courant "néo-Bayésien" pour
lequel l'inférence statistique ne saurait s'appuyer sur les seules données recueillies, mais nécessite
aussi la prise en compte de la connaissance a priori des modèles probabilistes sous-jacents. Il s'agit là
de l'interprétation "subjectiviste".
A retenir
Le statisticien est donc influencé dans sa collecte (choix de l’échantillon), par les méthodes de
traitement qu'il projette et par l'utilisation qu'il prévoit des résultats.
Il convient, lorsqu’on cite un paramètre (comme la moyenne), de bien en connaître la définition et le
champ qu’il couvre, pour ne pas porter un jugement faussé sur les données.
Il convient, lorsqu’on fait une estimation (comme une projection dans l’avenir), de bien en connaître le
cadre et le degré d’incertitude.
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 4 sur 16
COURS
1 Introduction
Réaliser une statistique à une variable sur une population de taille N, c'est mettre en relation :
* une variable X (ensemble des valeurs prises par un caractère qualitatif ou quantitatif étudié)
* des effectifs (nombres d'individus concernés par chaque valeur)
Dans ce chapitre, les TD s'appuieront souvent sur les deux exemples suivants :
nombre d'employés dans une entreprise [50 ; 80[ [80 ; 100[ [100 ; 110[ [110 ; 150[
2 Classement de magasins par prix de vente d'un même modèle de téléphone portable
prix d'un téléphone portable 59 65 68 69 75
nombre de magasins 1 6 4 6 3
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 5 sur 16
2 Eléments d’une série statistique
La variable X est une liste finie (c’est-à-dire : pas infinie) de valeurs xi, appelées aussi modalités :
X = {x1, x2, x3, … xp}.
Elle désigne l'ensemble des valeurs que peut prendre un caractère étudié sur une population d'individus
(liste de groupes sanguins, liste de scores obtenus, liste d’âges, etc.).
ni
déf : On désigne par fi = la fréquence (taux d'individus) associée à la modalité xi.
N
p
N
csq : ∑f i = =1
i =1 N
αi + βi
* La valeur moyenne de l'intervalle - notée xi - est sa modalité centrale. xi =
2
ni
* La concentration de ni individus dans la classe [αi ; βi [ est ci =
ai
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 6 sur 16
3 Différents modes de représentation
3.1 Le tableau de données
Il représente la distribution des effectifs, en fonction des différentes valeurs ou classes du caractère.
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 7 sur 16
3.4 Variable discrète : les diagrammes « tiges et feuilles »
Les valeurs sont inscrites une à une selon le schéma de l'exemple suivant :
Exemple : on mesure la taille d'un groupe d'individus ; voici les résultats bruts (en cm) :
156 ; 173 ; 164 ; 182 ; 166 ; 164 ; 170 ; 173 ; 158 ; 162 ; 167 ; 172 ; 170 ; 166 ; 175 ; 160 ; 160.
Pour avoir une meilleure lecture des résultats, on décide de classer ces valeurs en :
TIGES : les dizaines FEUILLES : les unités
15 6 8
16 0 0 2 4 4 6 6 7
17 0 0 2 3 3 5
18 2
Avec l’exemple 2 :
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 8 sur 16
Polygone des effectifs :
On dessine une ligne brisée de telle façon que l'aire contenue entre ce polygone et l'axe des abscisses
soit égale à l'aire totale des rectangles de l'histogramme (donc égale à l'effectif total).
Avec l’exemple 1 :
Il est formé de segments dont les extrémités ont pour coordonnées (x ; FCC(x)).
(x représente les valeurs extrêmes des classes)
Avec l’exemple 1 :
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 9 sur 16
4 Les paramètres de position
également appelés paramètres de tendance centrale :
autour de quelle valeur se situent les résultats (X) ?
Rq : Une série statistique peut donc admettre deux ou plusieurs modes. Elle sera donc appelée bimodale,
tri modale, etc.
Rq : Une série statistique peut donc admettre deux ou plusieurs classes modales.
Dans l’exemple 2, la classe modale est [100 ; 110[. Remarque : on peut citer un mode, un nombre
d’employés modal entre 100 et 110 (voir utilisation de l’histogramme).
D'une manière générale, la médiane est la valeur prise par l'individu numéro (N+1)/2.
N+1
ECC(M) =
2
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 10 sur 16
N est pair : reprenons un même effectif que dans l'exemple 2
xi 59 65 68 69 75
ni 1 6 3 7 3 N= 20
Il n'y a pas d'individu central. Faut-il considérer le 10eme ? le 11eme ? Autre chose ?
Il existe deux réponses suivant les ouvrages consultés.
* On peut faire une moyenne des 10eme et 11eme valeurs qui sont 68 et 69 et donner M = 68,5 €
* On peut aussi considérer que l'individu "central" est le 10eme (20/2). La médiane de la série, le prix
médian, vaut alors 68 €. D'une manière générale, la médiane est la valeur prise par l'individu numéro N/2.
N
ECC(M) =
2
N
ECC(M) = FCC(M) = 50 %
2
* repérer la classe médiane : dans quelle classe constate-t-on le cumul de la moitié de la population ?
* la médiane se positionne entre les bornes de cette classe, dans les mêmes proportions que les FCC
(ou les ECC) de ces trois valeurs :
Les lignes en pointillés se rencontrant sur un segment de droite (en diagonale), le théorème de
Thalès nous autorise à affirmer l’égalité de certaines proportions, de certains rapports. En
particulier : a/A = b/B. (si, par exemple, b vaut le tiers de B, alors a vaut forcément le tiers de A,
ce qui nous permet d’en déduire la position exacte de M).
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 11 sur 16
4.3 La MOYENNE (arithmétique)
4.3.1 Calcul de la moyenne
La moyenne arithmétique est la modalité qui correspond à une distribution uniforme sur tous les
individus. En d’autres termes, elle correspond à une mise en commun de l’ensemble des valeurs et à une
redistribution équitable de leur somme.
p
∑n x i i p
Elle est par conséquent définie par : x = E( X ) = i =1
= ∑ fi xi
N i =1
note en maths 8 11 15
nombre d'étudiants 7 14 4
fréquences 28% 56% 16%
∑n x i i
7 × 8 + 14 × 11 + 4 × 15 270
x = E( X ) = i =1
= = = 10,8
N 7 + 14 + 4 25
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 12 sur 16
5 Les paramètres de dispersion
5.1 Introduction
Ils répondent à l'interrogation suivante :
Les valeurs sont-elles en général assez éloignées ou plutôt proches de leur moyenne ?
dispersion faible
dispersion élevée
Citons l'exemple de deux ouvriers effectuant le même travail. On a compté pendant 5 heures le nombre
de pièces qu'ils ont produites chaque heure :
ouvrier 1 26 29 34 38 42
ouvrier 2 30 33 34 35 37
Leurs cadences moyennes sont égales, ainsi que leurs cadences médianes (vérifiez-le !). On ne peut
distinguer le travail de ces ouvriers à l’aide de ces paramètres de position, qui ne s donc, dans le cas
général, suffisants pour caractériser une distribution statistique.
On peut aussi mesurer la dispersion des observations autour de leur valeur moyenne ou médiane.
Remarque : l'étendue ne tient compte que des valeurs extrêmes, qui sont parfois accidentelles.
Il peut être parfois utile, mais parfois dangereux, d'en tenir compte.
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 13 sur 16
5.2.2 Les QUANTILES
déf : Valeurs de X qui divisent la population en sous-populations ordonnées d'effectifs égaux.
Les quartiles
Ce sont les valeurs du caractère qui départagent la population en 4 groupes de même taille.
Il y a donc trois valeurs intermédiaires, trois quartiles, notés Q1, Q2 et Q3.
intervalle interquartile : [Q1 ; Q3], qui contient 50% de la population
écart interquartile : c’est le nombre ei = Q3 – Q1
Caractère discret :
Le premier quartile Q1 est tel que ECC(Q1) = (N+1)/4 arrondi à l'entier
Le troisième quartile Q3 est tel que ECC(Q3) = 3(N+1)/4 arrondi à l'entier
Le second quartile est la médiane : Q2 = M
Caractère continu :
On définira les quartiles par FCC(Q1) = 25 %, FCC(Q3) = 75 % et bien sûr Q2 = M.
les quintiles
Valeurs q1, q2, q3, q4 qui partagent la population en cinq groupes de même taille.
ECC(q1) = N/5 arrondi, ECC(q2) = 2N/5 arrondi, …, ECC(q4) = 4N/5 arrondi
FCC(q1) = 20%, FCC(q2) = 40%, …, ECC(q4) = 80%
écart inter quintile : ei = q4 - q1
les déciles
Valeurs D1, D2, ..., D9 qui partagent la population en dix groupes de même taille.
ECC(D1) = N/10 arrondi, ECC(D2) = 2N/10 arrondi, …, ECC(D9) = 9N/10 arrondi
FCC(D1) = 10%, FCC(D2) = 20%, …, FCC(D9) = 90%
écart inter décile : ei = D9 - D1
les centiles
Valeurs C1, C2, ..., C99 qui partagent la population en cent groupes de même taille.
ECC(C1) = N/100 arrondi, ECC(C2) = 2N/100 arrondi, …, ECC(C99) = 99N/100 arrondi
FCC(C1) = 1%, FCC(C2) = 2%, …, FCC(C99) = 99%
écart inter centile : ei = C99 - C1
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 14 sur 16
5.3 Paramètres basés sur les écarts entre valeurs
Les définitions qui suivent s’appuieront sur l’exemple ci-dessous : soit un groupe de 25 étudiants dont on
liste les notes à l’issue d’un contrôle. Seules trois notes différentes ont été obtenues : 8, 11 et 15.
Le démarrage consiste à établir une liste d’écarts à la moyenne (ligne 3). Cette dernière valant 10,8, on peut
dire que 7 étudiants ont un écart de -2,8, 14 étudiants ont un écart de +0,2 et 4 étudiants un écart de +4,2.
Quelle est maintenant la moyenne de ces écarts (ce qui nous donnera un paramètre de dispersion, faible,
moyen ou élevé, des valeurs autour de leur moyenne) ? 0 !
Parlons en termes de distance : rendons positifs tous les écarts (quatrième ligne) et calculons la
moyenne de ces écarts « absolus ». Nous obtenons l’écart absolu moyen, la distance moyenne des
valeurs autour de leur moyenne.
1 p
déf : On appelle écart absolu moyen le nombre Ex = ∑ ni xi − x
N i =1
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 15 sur 16
6 Utilisation de la calculatrice
Entrée des données :
Casio TI
Casio TI
x moyenne
Σx somme des effectifs×modalités (intervient dans le calcul de la moyenne, vaut 270 pour le
tableau page 15)
Σx 2 somme des effectifs×modalités² (intervient dans le calcul de la variance – formule de
König - vaut 126 pour le tableau page 15)
n effectif total (vaut 25 pour le tableau page 15)
σX écart type de la série (vaut 2,245 pour le tableau page 15) ; xσn pour certaines Casio
SX autre écart type, légèrement plus élevé (ne vous concernera qu’au semestre 3) ; xσn-1
pour certaines Casio
Remarque : la médiane et le mode sont donnés de manière juste par la calculatrice, seulement dans
le cas d’une variable discrète ! (en variable continue, nous indiquons les centres des classes à la
calculatrice, ce qui ne lui permet malheureusement pas de reconstituer ces classes).
____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S1 – Stat1var – Cours – Rev2019 – page 16 sur 16