Académique Documents
Professionnel Documents
Culture Documents
61 MATEMÁTICAS
Desigualdad de Tchebyschev.
Coeficiente de variación.
Variable normalizada.
Aplicación al análisis, interpretación
y comparación de datos estadísticos.
24-13853-13
Temario 1993
tema 61
matemáticas
1. La desigualdad de Tchebyschev
2. El coeficiente de variación
3. Variable normalizada
3
tema 61
matemáticas
INTRODUCCIÓN
Tchebyschev es uno de los célebres matemáticos del siglo XIX, creador de varias escuelas
matemáticas en Rusia y cuyos trabajos matemáticos, a modo de resumen, podemos clasifi-
car en las cuatro ramas siguientes: Mecanismos y Teoría de la Aproximación de Funciones,
Teoría de los Números, Teoría de Probabilidades y Teoría de Integración, aunque escribió
acerca de muchos otros temas: formas cuadráticas, construcción de mapas, cálculo geomé-
trico de volúmenes, etc.
En lo que se refiere al trabajo de Tchebyschev sobre la teoría de Probabilidades, es sabido
que se le atribuyen las leyes principales de esta teoría, como la ley de los grandes números
y el teorema central del límite, aunque quizás su contribución más conocida a la teoría de
la probabilidad es la llamada desigualdad de Tchebyschev. Estos trabajos dieron un fuerte
impulso a la escuela probabilística rusa, siendo especificados sus resultados por sus alum-
nos, en particular A. A. Márkov y Liapunov.
En este tema comenzaremos estudiando la desigualdad de Markov y la desigualdad de
Tchebyschev, viendo previamente los motivos que propiciaron dichas desigualdades, para
continuar con los conceptos de coeficiente de variación y normalización o tipificación de
una variable aleatoria.
Por último veremos la aplicación al análisis, interpretación y comparación de datos estadís-
ticos mostrando ejemplos de los conceptos descritos.
5
tema 61
matemáticas
1 La desigualdad de Tchebyschev
El concepto de probabilidad de un suceso aleatorio surgió de modo intuitivo y
experimental y se ha ido desarrollando a lo largo del tiempo mostrando diversas
formas de presentación. Uno de los enfoques iniciales fue la noción frecuencial de
la probabilidad que considera la probabilidad de un suceso como el número al que
se aproxima su frecuencia relativa al repetir el experimento un número elevado
de veces.
La interpretación frecuencial de la probabilidad se basaba por tanto en la repeti-
ción de un experimento bajo las mismas condiciones pero este concepto era muy
impreciso por lo que fue necesario determinar en qué grado la frecuencia relativa
de un suceso se aproximaba a su probabilidad cuando el experimento se realizara
un número determinado de veces, es decir; si consideramos un suceso S de un
espacio muestral y repetimos el experimento n veces:
m
¿con que grado de confianza se verificará −p <ε ?
n
siendo m el número de veces que se verifica el suceso S y p=P(S)
Esta pregunta, de vital importancia para aplicar la probabilidad a situaciones rea-
les, nos lleva a plantearnos otras cuestiones:
¿Cuál deberá ser el número de experimentos que tenemos que realizar, n, para
m
que − p < ε se cumpla con una probabilidad mayor que una cota dada
n
k?
m
Es decir; ¿n/P − p < ε > k?
n
m
A partir de este momento el estudio se centró en calcular −p < ε .
n
Tras los estudios llevados a cabo por Moivre, (en respuesta a las preguntas plan-
teadas por jugadores profesionales como el caballero De Meré), y posteriormente
por Gauss y Laplace se obtuvieron las primeras fórmulas para aproximar esta
probabilidad, pero las estimaciones del error fueron insatisfechas durante mucho
tiempo.
La introducción de los conceptos de variable aleatoria, esperanza y varianza por
parte de Tchebyschev fue fundamental para aclarar estas cuestiones.
Tchebyschev dio una demostración casi completa para el cálculo de:
X −X
P k1 ≤ ≤ k2
σ
6
tema 61
matemáticas
XX Desigualdad de Markov
E [ g ( X ) ] = ∑ g ( xi ) pi = ∑ g ( xi ) pi + ∑ g ( xi ) pi ≥ ∑ g(x )p
i i ≥ ∑ ap i =
i i∈A i∈A i∈A i∈A
= a ∑ pi = a ⋅ P( g ( X ) ≥ a )
i∈A
= a ⋅ P ( g( X ) ≥ a)
Y por tanto:
E g ( X )
P ( g ( X ) ≥ a) ≤
a
Veamos a continuación la desigualdad de Tchebyschev, la cual nos permite obtener, en
términos de probabilidad, la dispersión de los valores de una variable aleatoria alrede-
dor de su media usando la varianza como medida de la dispersión de la variable.
7
tema 61
matemáticas
XX La desigualdad de Tchebyschev
Sea X una variable aleatoria sobre un espacio muestral con media X y desviación
típica σ. Sea k ∈ , k > 0, entonces:
P ( X − kσ < X < X + kσ ) ≥ 1 −
1
k2
Esta desigualdad es conocida como la desigualdad de Tchebyschev.
Demostración:
Consideramos la variable aleatoria Y = X − E [ X ]
2
por el complementario:
(
= 1 − P Y ≥ ( kσ )
2
) ≥ 1 − (Ekσ[Y)]
2
= 1−
σ2
kσ
2 2
1
= 1− 2
k
Por tanto:
P ( X − kσ < x < X + kσ ) ≥ 1 −
1
k2
1 Tanto la desigualdad de Markov como la de Tchebyschev dan cotas de la probabilidad solo cuando la media y la
desviación típica son finitas
8
tema 61
matemáticas
2 El coeficiente de variación
La dispersión de una distribución de una variable aleatoria o estadística puede es-
tudiarse a partir de la media y de la desviación típica, pero si nos limitamos a estos
dos parámetros nos podemos encontrar con algunos inconvenientes que pueden
incluso derivar en conclusiones erróneas. Si queremos verificar que, por ejemplo,
las desviaciones típicas de dos muestras del mismo tamaño son diferentes, no hay
más que compararlas entre sí, puesto que ambas muestras se refieren a una misma
variable pero cuando queremos realizar comparaciones entre dos variables surgen
los siguientes problemas:
No podemos comparar la dispersión o variabilidad relativa de dos distribucio-
nes que estén expresadas en medidas no comparables. Por ejemplo, no es po-
sible comparar, en el sentido de señalar qué dispersión es mayor o menor, 50
metros con 60 €.
Además, si comparamos los datos de dos variables y consideramos únicamente
los valores de las desviaciones para concluir que distribución es más o menos
dispersa podemos cometer errores ya que no podemos compara una variación
de 5 km en distancias entre las provincias de España con una variación de 1 km
entre las viviendas de una zona rural de una localidad. Es decir, podemos tener
una distribución con una desviación menor que otra y sin embargo ser una
distribución con mayor dispersión.
Otro factor que hay que tener en cuenta es el sistema de medida utilizado ya que
la desviación típica y la media dependen de la unidad elegida y esto puede lle-
var también a comparaciones engañosas. Por ejemplo este problema se plantea
al medir el peso de dos poblaciones diferentes como puede ser una población
de elefantes, que mediremos en toneladas, con el peso de una población de
mosquitos, que mediremos en miligramos. Además, el problema no se resuelve
pasando, mediante un cambio de escala, los datos a las mismas unidades ya
que la variabilidad del peso de los mosquitos será prácticamente nulo por las
medidas que tenemos de ellas aunque hay mosquitos que llegan a pesar hasta
100 veces más que otros.
Los inconvenientes explicados crean la necesidad de introducir una herramienta
que permita realizar las comparaciones con la seguridad de que no llegaremos
a resultados erróneos o engañosos. Así se introduce el coeficiente de variación,
C.V., llamado coeficiente de variación de Pearson, que expresa el tamaño de la
desviación por unidad de media:
σ
C.V. = , si X ≠ 0
X
por lo que cuanto mayor sea el coeficiente de variación de Pearson, mayor será la
dispersión y menor la representatividad de la media, independientemente estudie-
mos una u otra distribución. Además, este coeficiente es adimensional, por lo que
la unidad elegida tampoco puede confundirnos en nuestro resultado.
Hay que tener en cuanta que las observaciones pueden ser positivas, negativas o
nulas, pero la variación debe ser positiva. Por este motivo para calcular el coefi-
9
tema 61
matemáticas
10
tema 61
matemáticas
3 Variable normalizada
Son muchas las situaciones, como describiremos en el siguiente apartado de apli-
caciones, en las que nos encontraremos con la necesidad de usar una variable alea-
toria que tenga media 0 y desviación típica 1. Esta variable se denomina variable
normalizada, tipificada o estandarizada.
En general, tendremos una variable aleatoria X con media μ y desviación típica
σ, a partir de la cual podemos definir, mediante relaciones lineales, otra variable
Z con media 0 y desviación típica 1. Este proceso se denomina normalización o
tipificación de la variable X.
Sea X (μ, σ) es decir, una variable aleatoria con media μ y desviación típica σ
definimos la variable normalizada y la denotamos Z (0, 1) como:
X −μ
Z=
σ
Antes de comprobar que efectivamente la variable Z arriba definida tienen media
0 y desviación típica 1 es necesario recordar algunas de las propiedades de la me-
dia y de la varianza que aplicaremos en la comprobación:
1. E[k] = k para toda k constante.
2. E[X + Y ] = E[X ] + E[Y ], para todo par de variables aleatorias X,Y.
3. E[kX ] = k E[X ], para toda constante k y variable aleatoria X.
4. Var [X ]= X − E [ X ] = E[X 2] + E[X ]2, para toda variable aleatoria X.
2
11
tema 61
matemáticas
P ( X − kσ < X < X + kσ ) ≥ 1 −
1
k2
para k = 4, y la media y desviación típica dadas en el problema, entonces:
1
P ( 0,10 − 4 ⋅ 0, 01 < X < 0,10 + 4 ⋅ 0, 01) = P ( 0, 06 < X < 0,14 ) ≥ 1 − =
42
1 15
= 1− = = 0, 9375
16 16
Como ya hemos dicho, para medir de forma eficaz la dispersión de los datos de un
conjunto con la seguridad de no llegar a resultados erróneos utilizamos el coefi-
ciente de variación de Pearson. Veámoslo en un ejemplo:
Tenemos la siguientes medidas sobre el número de ventas de dos productos y nos
interesa saber qué distribución tiene mayor dispersión y cual menos.
12
tema 61
matemáticas
13
tema 61
matemáticas
x1 σ 2π
X = σY + μ
dX = σ dY
x2 − μ − (σ Y + μ − μ )2 −Y2
1 y2 1
= ∫ σ
σ
x1 − μ
σ 2π
e 2σ 2 σ dY =∫
y1 2π
e 2 dY = P( y1 < Y < y2 )
Para calcular las áreas bajo la curva de la N(0,1) existen, como ya hemos indicado,
las tablas de áreas acumuladas que nos dan la información para:
−z 2
k 1
P( z ≤ k ) = ∫ e 2 dz , siendo z N(0,1), k ≥ 0
−∞ 2π
14
tema 61
matemáticas
15
tema 61
matemáticas
BIBLIOGRAFÍA
KOLMOGOROV.: La Matemática: su contenido, métodos y significados, Alianza Universidad.
DEVORE, JAY L.: Probabilidad y Estadística para Ingenieria y Ciencias. Ed.Thomson Paraninfo, S.
A. 2006.
LUQUIN, F.: Historia de las matemáticas. Matemáticos | P. L. CHEBYSHEV.
http://divulgamat.ehu.es/weborriak/Historia/MateOspetsuak/Chebyshev.asp
RÍOS, S.: Métodos Estadísticos. Ed. del Castillo, 1985.
16
tema 61
matemáticas
RESUMEN
Desigualdad de Tchebyschev.
Coeficiente de variación.
Variable normalizada.
Aplicación al análisis, interpretación
y comparación de datos estadísticos.
1.
1 La desigualdad de Tchebyschev
En este apartado se demuestran las desigualdades de Markov y Tchebyschev. La des-
igualdad de Markov nos permite acotar la probabilidad de una función no negativa de una
variable aleatoria y la desigualdad de Tchebyschev nos indica la dispersión de los valores
de la variable aleatoria alrededor de su media tomando la varianza como medida de la
dispersión de la variable
XX Desigualdad de Markov
Dada una función no negativa g de la variable aleatoria X, ∀ a > 0se verifica:
E g ( X )
P ( g ( X ) ≥ a) ≤
a
XX La desigualdad de Tchebyschev
Sea X una variable aleatoria sobre un espacio muestral con media X y desviación típica
σ. Sea k ∈ , k > 0, entonces:
P ( X − kσ < x < X + kσ ) ≥ 1 −
1
k2
2.
2 El coeficiente de variación
La dispersión de una distribución de una variable aleatoria o estadística estudiada partir de
la media y de la desviación típica, puede llevarnos a conclusiones erróneas ya que:
No podemos comparar la dispersión o variabilidad relativa de dos distribuciones que
estén expresadas en medidas no comparables.
Si comparamos los datos de dos variables y consideramos únicamente los valores de
las desviaciones podemos tener una distribución con una desviación menor y ser una
distribución más dispersa
La desviación típica y la media dependen de la unidad elegida.
Para evitar estos inconvenientes se introduce el coeficiente de variación de Pearson, que
expresa el tamaño de la desviación por unidad de media:
σ
C.V. = , si X ≠ 0
X
17
tema 61
matemáticas
3.
3 Variable normalizada
Se denomina variable normalizada, tipificada o estandarizada a una variable aleatoria con
media 0 y desviación típica 1.
Sea X (μ, σ) una variable aleatoria con media μ y desviación típica σ, definimos la varia-
ble normalizada Z (0, 1) como:
X −μ
Z=
σ
4.
4 Aplicación al análisis, interpretación y comparación
de datos
18