Statistique: - Historique (Gènes)

Statistique
_Historique (Gènes)
_Définitions et Exemples
_Domaines d’application
Historique (Gènes)
On attribue à l’histoire de la statistique ou des statistiques la date de

commencement de 1749, bien que l’interprétation du terme « statistique » a
changé au cours du temps. Aux temps plus anciens, cette science ne consistait
qu’à la collection d’informations sur les états[1], d’où l’étymologie du nom, de
l’allemand Staatskunde. Plus tard, cette définition est étendue à tout type
d’information collectée et, encore plus tard, les sciences statistiques incluent
l’analyse et l’interprétation de ces données. En termes modernes, les
statistiques incluent les ensembles de données, telles celles de la comptabilité
nationale et les registres de températures (en), ainsi que le travail d’analyse,
lequel requiert les méthodes de l’inférence statistique.
Le but de la statistique est d’extraire des informations pertinentes d’une liste

de nombres difficile à interpréter par une simple lecture. Deux grandes familles
de méthodes sont utilisées selon les circonstances. … Selon une terminologie
classique, ce sont la statistique descriptive et la statistique mathématique.
Les statistiques mathématiques s’appuyaient sur les premiers travaux
concernant les probabilités développés par Fermat et Pascal. … Mais c’est à
Adolphe Quetelet que l’on doit l’idée que la statistique est une science
s’appuyant sur les probabilités.
Les statistiques touchent tous les aspects de la vie moderne. Elles sous-tendent
de nombreuses décisions des pouvoirs publics, des entreprises et des
collectivités. … La statistique est indispensable au développement économique,
y compris à nos efforts de réalisation des Objectifs du Millénaire pour le
développement.
Le but de la statistique est d’extraire des informations pertinentes d’une liste
de nombres difficile à interpréter par une simple lecture. Deux grandes familles
de méthodes sont utilisées selon les circonstances. … Selon une terminologie
classique, ce sont la statistique descriptive et la statistique mathématique.
Définitions et Exemples
1)La statistique est la discipline qui étudie des phénomènes à travers la

collecte de données, leur traitement, leur analyse, l’interprétation des
résultats et leur présentation afin de rendre ces données compréhensibles
par tous.
2)Les statistiques, dans le sens populaire du terme, traitent mathématiques
dans l’étude de groupe d’une population. En statistique descriptive, on se
contente de décrire un échantillon à partir de grandeurs comme la moyenne, la
médiane, l’écart type, la proportion, la corrélation, etc. C’est souvent la
technique qui est utilisée dans les recensements.
Dans un sens plus large, la théorie statistique est utilisée en recherche dans un
but inférentiel. Le but de l’inférence statistique est de dégager le portrait d’une
population donnée, à partir de l’image plus ou moins floue constituée à l’aide
d’un échantillon issu de cette population.
Dans un autre ordre d’idées, il existe aussi la statistique « mathématique » où

le défi est de trouver des estimateurs judicieux (non biaisés et efficaces).
L’analyse des propriétés mathématiques de ces estimateurs sont au cœur du
travail du mathématicien spécialiste de la statistique.
La statistique mathématique repose sur la théorie des probabilités. Des notions
comme la mesurabilité ou la convergence en loi y sont souvent utilisées. Mais il
faut distinguer la statistique en tant que discipline et la statistique en tant que
fonction des données.
Une fois les bases de la théorie des probabilités acquises, il est possible de
définir une statistique à partir d’une fonction {\displaystyle S}S mesurable à {\
displaystyle n}n arguments. Lorsque les valeurs {\displaystyle x_{1},\
ldots ,x_{n}}x_{1},\ldots ,x_{n} sont des réalisations d’une même variable
aléatoire {\displaystyle X}X, on note :
{\displaystyle S(X)=S(x_{1},\ldots ,x_{n})}S(X)=S(x_{1},\ldots ,x_{n})

La loi de {\displaystyle S(X)}S(X) dépend uniquement de la loi de {\displaystyle
X}X et de la forme de {\displaystyle S}S.
Fonctions de répartition
La fonction de répartition d’une variable aléatoire réelle {\displaystyle X}X
(cette définition s’étend naturellement aux variables aléatoires à valeurs dans
des espaces de dimension quelconque) associe à une valeur {\displaystyle x}x la
probabilité qu’une réalisation de {\displaystyle X}X soit plus petite que {\
displaystyle x}x :
{\displaystyle F(x)={\rm {Prob}}(X\leq x)}F(x)={{\rm {Prob}}}(X\leq x)
Lorsqu’on dispose de {\displaystyle n}n réalisations de {\displaystyle X}X, on

peut construire la fonction de répartition empirique de {\displaystyle X}X ainsi
(on note {\displaystyle x_{(k)}}x_{{(k)}} la {\displaystyle k}ke valeur ordonnée
des {\displaystyle x_{1},\ldots ,x_{n}}x_{1},\ldots ,x_{n} et on pose
arbitrairement {\displaystyle x_{0}=-\infty }x_{{0}}=-\infty et {\displaystyle
x_{n+1}=+\infty }x_{{n+1}}=+\infty ) :
{\displaystyle F_{n}^{*}(x)={k \over n},\,\forall x\in ]x_{(k)},x_{(k+1)}]}F_{n}^{*}

(x)={k \over n},\,\forall x\in ]x_{{(k)}},x_{{(k+1)}}]
De même, la distribution empirique peut se définir (pour tout borélien {\

displaystyle B}B) comme :
{\displaystyle \mathbf {P} _{n}^{*}(B)={1 \over n}\sum _{k=1}^{n}\mathbf {1}

_{x_{k}}(B)}{\mathbf {P}}_{n}^{*}(B)={1 \over n}\sum _{{k=1}}^{n}{\mathbf
{1}}_{{x_{k}}}(B)
Le théorème de Glivenko-Cantelli assure la convergence de la fonction de
distribution empirique vers la fonction de distribution originale lorsque la taille
{\displaystyle n}n de l’échantillon augmente vers l’infini.
Exemple de statistiques : moyenne et variance Modifier
Considérons une population d’où l’on extrait un échantillon d’effectif n de
façon purement aléatoire dont les éléments sont {\displaystyle x_{i}}x_{i}. Dans
ce cas, la statistique descriptive qui estime la moyenne de la population est la
moyenne empirique
{\displaystyle m={1 \over n}\sum _{i=1}^{n}x_{i}}m={1 \over n}\sum

_{{i=1}}^{n}x_{i}
La statistique qui estime la dispersion autour de la moyenne est la variance
empirique
{\displaystyle s^{2}={1 \over n-1}\sum _{i=1}^{n}(x_{i}-m)^{2}}s^{2}={1 \over n-

1}\sum _{{i=1}}^{n}(x_{i}-m)^{2}
La loi de probabilité associée à cette population possède une moyenne μ et une
variance σ2 qui sont estimés par {\displaystyle m}m et {\displaystyle s^{2}}{\
displaystyle s^{2}}. Le problème est que, si on avait choisi un autre échantillon,
on aurait trouvé des valeurs différentes pour ces estimations.
Ceci conduit à considérer les éléments, la moyenne empirique et la variance

empirique comme des variables aléatoires. Ces variables suivent une loi de
probabilité donnée. Une fois qu’on connait ces lois de probabilité, il est
possible de construire les tests statistiques voulus pour étudier les paramètres
d’intérêt ( μ et σ2 pour cet exemple).
Sous la condition d’indépendance entre les observations, on peut calculer la

moyenne (ou espérance) et la variance de la moyenne empirique. On obtient :
{\displaystyle E[m]=\mu \qquad \qquad V[m]=\sigma ^{2}/n}E[m]=\mu \
qquad \qquad V[m]=\sigma ^{2}/n
L’écart-type de la moyenne empirique vaut σ / √n. Si n devient grand, le
théorème central limite enseigne que la moyenne empirique suit une loi
normale caractérisée par la moyenne μ et cet écart-type. Ce résultat reste
valable quelle que soit la taille de l’échantillon lorsque la loi de probabilité
assignée à la population est normale. Dans ce dernier cas, particulièrement
important en pratique, on montre également que (n-1) s2 / σ2 suit une loi de
χ2 à n-1 degrés de liberté.
Ces deux fonctions empiriques n’étant pas continues, on leur préfère souvent
des estimateurs par noyau, qui ont les mêmes propriétés de convergence.
Types de statistiques Modifier
On définit usuellement plusieurs types de statistiques suivant la forme de {\
displaystyle S}S :
Les L-statistiques qui sont des combinaisons de statistiques d’ordres,

Les M-statistiques qui s’expriment comme le maximum d’une fonction des
réalisations d’une variable aléatoire,
Les U-statistiques qui s’expriment sous la forme d’intégrales.
L’intérêt de cette différenciation est que chaque catégorie de statistique va
avoir des caractéristiques propres.
Les estimateurs par noyau, et les moments empiriques d’une loi sont les M-
statistiques
Domaine d’application
La statistique est un domaine des mathématiques et de plus
en plus, elle fait partie de ce que l’on appelle aujourd’hui la
science des données (en anglais : Data Science). … L’analyse
applique des lois mathématiques plus générales (ensembles,
groupes, inclusion, exclusion).
Cette activité regroupe trois principales branches : la collecte des données ; le
traitement des données collectées, aussi appelé la statistique descriptive ;
l’interprétation des données, aussi appelée l’inférence statistique, qui s’appuie
sur la théorie des sondages et la statistique mathématique.i
i

Statistique: - Historique (Gènes)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique: - Historique (Gènes)

Transféré par

Droits d'auteur :

Formats disponibles

Statistique

On attribue à l’histoire de la statistique ou des statistiques la date de

Le but de la statistique est d’extraire des informations pertinentes d’une liste

1)La statistique est la discipline qui étudie des phénomènes à travers la

Dans un autre ordre d’idées, il existe aussi la statistique « mathématique » où

{\displaystyle S(X)=S(x_{1},\ldots ,x_{n})}S(X)=S(x_{1},\ldots ,x_{n})

{\displaystyle F(x)={\rm {Prob}}(X\leq x)}F(x)={{\rm {Prob}}}(X\leq x)

Lorsqu’on dispose de {\displaystyle n}n réalisations de {\displaystyle X}X, on

{\displaystyle F_{n}^{}(x)={k \over n},\,\forall x\in ]x_{(k)},x_{(k+1)}]}F_{n}^{}

De même, la distribution empirique peut se définir (pour tout borélien {\

{\displaystyle \mathbf {P} _{n}^{*}(B)={1 \over n}\sum _{k=1}^{n}\mathbf {1}

{\displaystyle m={1 \over n}\sum _{i=1}^{n}x_{i}}m={1 \over n}\sum

{\displaystyle s^{2}={1 \over n-1}\sum _{i=1}^{n}(x_{i}-m)^{2}}s^{2}={1 \over n-

Ceci conduit à considérer les éléments, la moyenne empirique et la variance

Sous la condition d’indépendance entre les observations, on peut calculer la

Les L-statistiques qui sont des combinaisons de statistiques d’ordres,

Vous aimerez peut-être aussi