Vous êtes sur la page 1sur 9

Statistique

_Historique (Gènes)

_Définitions et Exemples

_Domaines d’application
Historique (Gènes)

On attribue à l’histoire de la statistique ou des statistiques la date de


commencement de 1749, bien que l’interprétation du terme « statistique » a
changé au cours du temps. Aux temps plus anciens, cette science ne consistait
qu’à la collection d’informations sur les états[1], d’où l’étymologie du nom, de
l’allemand Staatskunde. Plus tard, cette définition est étendue à tout type
d’information collectée et, encore plus tard, les sciences statistiques incluent
l’analyse et l’interprétation de ces données. En termes modernes, les
statistiques incluent les ensembles de données, telles celles de la comptabilité
nationale et les registres de températures (en), ainsi que le travail d’analyse,
lequel requiert les méthodes de l’inférence statistique.

Le but de la statistique est d’extraire des informations pertinentes d’une liste


de nombres difficile à interpréter par une simple lecture. Deux grandes familles
de méthodes sont utilisées selon les circonstances. … Selon une terminologie
classique, ce sont la statistique descriptive et la statistique mathématique.
Les statistiques mathématiques s’appuyaient sur les premiers travaux
concernant les probabilités développés par Fermat et Pascal. … Mais c’est à
Adolphe Quetelet que l’on doit l’idée que la statistique est une science
s’appuyant sur les probabilités.
Les statistiques touchent tous les aspects de la vie moderne. Elles sous-tendent
de nombreuses décisions des pouvoirs publics, des entreprises et des
collectivités. … La statistique est indispensable au développement économique,
y compris à nos efforts de réalisation des Objectifs du Millénaire pour le
développement.
Le but de la statistique est d’extraire des informations pertinentes d’une liste
de nombres difficile à interpréter par une simple lecture. Deux grandes familles
de méthodes sont utilisées selon les circonstances. … Selon une terminologie
classique, ce sont la statistique descriptive et la statistique mathématique.
Définitions et Exemples

1)La statistique est la discipline qui étudie des phénomènes à travers la


collecte de données, leur traitement, leur analyse, l’interprétation des
résultats et leur présentation afin de rendre ces données compréhensibles
par tous.
2)Les statistiques, dans le sens populaire du terme, traitent mathématiques
dans l’étude de groupe d’une population. En statistique descriptive, on se
contente de décrire un échantillon à partir de grandeurs comme la moyenne, la
médiane, l’écart type, la proportion, la corrélation, etc. C’est souvent la
technique qui est utilisée dans les recensements.
Dans un sens plus large, la théorie statistique est utilisée en recherche dans un
but inférentiel. Le but de l’inférence statistique est de dégager le portrait d’une
population donnée, à partir de l’image plus ou moins floue constituée à l’aide
d’un échantillon issu de cette population.

Dans un autre ordre d’idées, il existe aussi la statistique « mathématique » où


le défi est de trouver des estimateurs judicieux (non biaisés et efficaces).
L’analyse des propriétés mathématiques de ces estimateurs sont au cœur du
travail du mathématicien spécialiste de la statistique.
La statistique mathématique repose sur la théorie des probabilités. Des notions
comme la mesurabilité ou la convergence en loi y sont souvent utilisées. Mais il
faut distinguer la statistique en tant que discipline et la statistique en tant que
fonction des données.

Une fois les bases de la théorie des probabilités acquises, il est possible de
définir une statistique à partir d’une fonction {\displaystyle S}S mesurable à {\
displaystyle n}n arguments. Lorsque les valeurs {\displaystyle x_{1},\
ldots ,x_{n}}x_{1},\ldots ,x_{n} sont des réalisations d’une même variable
aléatoire {\displaystyle X}X, on note :

{\displaystyle S(X)=S(x_{1},\ldots ,x_{n})}S(X)=S(x_{1},\ldots ,x_{n})


La loi de {\displaystyle S(X)}S(X) dépend uniquement de la loi de {\displaystyle
X}X et de la forme de {\displaystyle S}S.

Fonctions de répartition
La fonction de répartition d’une variable aléatoire réelle {\displaystyle X}X
(cette définition s’étend naturellement aux variables aléatoires à valeurs dans
des espaces de dimension quelconque) associe à une valeur {\displaystyle x}x la
probabilité qu’une réalisation de {\displaystyle X}X soit plus petite que {\
displaystyle x}x :

{\displaystyle F(x)={\rm {Prob}}(X\leq x)}F(x)={{\rm {Prob}}}(X\leq x)

Lorsqu’on dispose de {\displaystyle n}n réalisations de {\displaystyle X}X, on


peut construire la fonction de répartition empirique de {\displaystyle X}X ainsi
(on note {\displaystyle x_{(k)}}x_{{(k)}} la {\displaystyle k}ke valeur ordonnée
des {\displaystyle x_{1},\ldots ,x_{n}}x_{1},\ldots ,x_{n} et on pose
arbitrairement {\displaystyle x_{0}=-\infty }x_{{0}}=-\infty et {\displaystyle
x_{n+1}=+\infty }x_{{n+1}}=+\infty ) :

{\displaystyle F_{n}^{*}(x)={k \over n},\,\forall x\in ]x_{(k)},x_{(k+1)}]}F_{n}^{*}


(x)={k \over n},\,\forall x\in ]x_{{(k)}},x_{{(k+1)}}]

De même, la distribution empirique peut se définir (pour tout borélien {\


displaystyle B}B) comme :

{\displaystyle \mathbf {P} _{n}^{*}(B)={1 \over n}\sum _{k=1}^{n}\mathbf {1}


_{x_{k}}(B)}{\mathbf {P}}_{n}^{*}(B)={1 \over n}\sum _{{k=1}}^{n}{\mathbf
{1}}_{{x_{k}}}(B)
Le théorème de Glivenko-Cantelli assure la convergence de la fonction de
distribution empirique vers la fonction de distribution originale lorsque la taille
{\displaystyle n}n de l’échantillon augmente vers l’infini.
Exemple de statistiques : moyenne et variance Modifier
Considérons une population d’où l’on extrait un échantillon d’effectif n de
façon purement aléatoire dont les éléments sont {\displaystyle x_{i}}x_{i}. Dans
ce cas, la statistique descriptive qui estime la moyenne de la population est la
moyenne empirique

{\displaystyle m={1 \over n}\sum _{i=1}^{n}x_{i}}m={1 \over n}\sum


_{{i=1}}^{n}x_{i}
La statistique qui estime la dispersion autour de la moyenne est la variance
empirique

{\displaystyle s^{2}={1 \over n-1}\sum _{i=1}^{n}(x_{i}-m)^{2}}s^{2}={1 \over n-


1}\sum _{{i=1}}^{n}(x_{i}-m)^{2}
La loi de probabilité associée à cette population possède une moyenne μ et une
variance σ2 qui sont estimés par {\displaystyle m}m et {\displaystyle s^{2}}{\
displaystyle s^{2}}. Le problème est que, si on avait choisi un autre échantillon,
on aurait trouvé des valeurs différentes pour ces estimations.

Ceci conduit à considérer les éléments, la moyenne empirique et la variance


empirique comme des variables aléatoires. Ces variables suivent une loi de
probabilité donnée. Une fois qu’on connait ces lois de probabilité, il est
possible de construire les tests statistiques voulus pour étudier les paramètres
d’intérêt ( μ et σ2 pour cet exemple).

Sous la condition d’indépendance entre les observations, on peut calculer la


moyenne (ou espérance) et la variance de la moyenne empirique. On obtient  :
{\displaystyle E[m]=\mu \qquad \qquad V[m]=\sigma ^{2}/n}E[m]=\mu \
qquad \qquad V[m]=\sigma ^{2}/n
L’écart-type de la moyenne empirique vaut σ / √n. Si n devient grand, le
théorème central limite enseigne que la moyenne empirique suit une loi
normale caractérisée par la moyenne μ et cet écart-type. Ce résultat reste
valable quelle que soit la taille de l’échantillon lorsque la loi de probabilité
assignée à la population est normale. Dans ce dernier cas, particulièrement
important en pratique, on montre également que (n-1) s2 / σ2 suit une loi de
χ2 à n-1 degrés de liberté.
Ces deux fonctions empiriques n’étant pas continues, on leur préfère souvent
des estimateurs par noyau, qui ont les mêmes propriétés de convergence.
Types de statistiques Modifier
On définit usuellement plusieurs types de statistiques suivant la forme de {\
displaystyle S}S :

Les L-statistiques qui sont des combinaisons de statistiques d’ordres,


Les M-statistiques qui s’expriment comme le maximum d’une fonction des
réalisations d’une variable aléatoire,
Les U-statistiques qui s’expriment sous la forme d’intégrales.
L’intérêt de cette différenciation est que chaque catégorie de statistique va
avoir des caractéristiques propres.

Les estimateurs par noyau, et les moments empiriques d’une loi sont les M-
statistiques

Domaine d’application
La statistique est un domaine des mathématiques et de plus
en plus, elle fait partie de ce que l’on appelle aujourd’hui la
science des données (en anglais : Data Science). … L’analyse
applique des lois mathématiques plus générales (ensembles,
groupes, inclusion, exclusion).
Cette activité regroupe trois principales branches : la collecte des données ; le
traitement des données collectées, aussi appelé la statistique descriptive  ;
l’interprétation des données, aussi appelée l’inférence statistique, qui s’appuie
sur la théorie des sondages et la statistique mathématique.i
i

Vous aimerez peut-être aussi