Vous êtes sur la page 1sur 16

Conceptos elementales de Estadstica

Introduccin a los conceptos elementales de Estadstica. En esta introduccin,


vamos a discutir brevemente los conceptos estadsticos elementales que
proporcionan las bases necesarias para conocimientos ms especializados en
cualquier rea de anlisis de datos estadsticos. Los temas seleccionados ilustran
los supuestos bsicos de la mayora de los mtodos estadsticos y / o se han
demostrado en la investigacin son componentes necesarios de comprensin
general de la "naturaleza cuantitativa " de la realidad de una (Nisbett , et al . , 1987)
Debido a las limitaciones de espacio, nos centraremos principalmente en los
aspectos funcionales de los conceptos tratados y la presentacin ser muy corta.
Para ms informacin sobre cada uno de estos conceptos se pueden encontrar en
las vistas generales y ejemplos de este manual electrnico de introduccin y en los
libros de texto de estadstica. Los libros de texto introductorios recomendados son:
Kachigan ( 1986 ) , y Runyon y Haber ( 1976 ); para una discusin ms avanzado de
la teora y los supuestos de la estadstica elemental, ver los libros clsicos de Hays
(1988 ) , y Kendall y Stuart (1979 )
Cules son las variables. Las variables son las cosas que medir, controlar o
manipular en la investigacin. Se diferencian en muchos aspectos , sobre todo en el
papel que se dan en nuestra investigacin y en el tipo de medidas que se pueden
aplicar a ellos .
Correlational vs. experimental research. Most empirical research belongs clearly to
.claramente la mayora de la investigacin emprica pertenece a

En la investigacin correlacional nosotros no ( o al menos tratamos de no )


influimos en las variables slo se miden y se busca relaciones (correlaciones ) entre
un conjunto de variables, tales como la presin arterial y el nivel de colesterol .
En la investigacin experimental, manipulamos algunas variables y luego medimos
los efectos de esta manipulacin en otras variables ; por ejemplo, un investigador

podra aumentar artificialmente la presin arterial y el nivel de colesterol


continuacin, grabe.
Data analysis in experimental research also comes down to calculating "correlations"
between

Anlisis de datos en la investigacin experimental tambin se reduce a calcular " las


correlaciones entre
variables,

specifically,

those

manipulated

and

those

affected

by

the

manipulation. However,

las variables " , en concreto , los manipulados y los afectados por la manipulacin .
Sin embargo ,
los datos experimentales pueden proporcionar potencialmente cualitativamente
mejor informacin. Slo los datos experimentales pueden demostrar de manera
concluyente las relaciones causales entre las variables . Por ejemplo , si
encontramos que cada vez que se cambia entonces la variable B cambios de
variables A, se puede concluir que " Un influye B. " Los datos de la investigacin
correlacional slo pueden ser " interpretados " en trminos causales en base a
algunas teoras que tenemos, pero los datos de correlacin no pueden demostrar de
manera concluyente la causalidad .
Dependiente versus variables independientes. Las variables independientes son las
que se manipula mientras que las variables dependientes se miden slo o
registrados. Esta distincin aparece terminolgicamente confuso para muchos
porque, como dicen algunos estudiantes, "todas las variables dependen de algo."
Sin embargo, una vez que se acostumbre a esta distincin, se hace indispensable.
Los trminos variables dependientes e independientes se aplican principalmente a
la investigacin experimental en el que se manipulan algunas variables, y en este
sentido son "independientes" de los patrones iniciales de reaccin, caractersticas,
intenciones, etc., de los sujetos. Se espera que algunas otras variables a ser
"dependiente" de la manipulacin o de las condiciones experimentales. Es decir,
que dependen de "lo que el sujeto va a hacer" en respuesta. Algo contrario a la
naturaleza de esta distincin, estos trminos tambin se utilizan en los estudios en

los que no lo hacen, literalmente, manipular variables independientes, pero slo


asignamos sujetos a "grupos experimentales" sobre la base de algunas propiedades
preexistentes de los sujetos.
For example, if in an experiment, males are compared with females regarding their white
cell count (WCC), Gender could be called the independent variable and WCC the
dependent variable.
Por ejemplo, si en un experimento, los machos son comparados con las mujeres
con respecto a su recuento de glbulos blancos (WCC), el gnero podra ser
llamado la variable independiente y la variable dependiente (WCC).

Measurement scales. Variables differ in "how well" they can be measured, i.e., in how
much measurable information their measurement scale can provide. There is obviously
some measurement error involved in every measurement, which determines the "amount of
information" that we can obtain. Another factor that determines the amount of information
that can be provided by a variable is its "type of measurement scale." Specifically variables
are classified as a) nominal, b) ordinal, c) interval, or d) ratio.
Escalas de medida. Las Variables difieren en " lo bien " que

pueden ser

medidos, es decir, en la cantidad de informacin medible su escala de medicin


puede proporcionar. Es evidente que hay un cierto error de medicin involucrados
en cada medicin , que determina la " cantidad de informacin " que podemos
obtener . Otro factor que determina la cantidad de informacin que puede ser
proporcionada por una variable es su " tipo de escala de medicin ".
Especficamente variables son clasificadas como a) nominal , b) ordinal, c)
intervalo de , o d) relacin

a. Nominal variables allow for only qualitative classification. That is, they can be
measured only in terms of whether the individual items belong to some distinctively
different categories, but we cannot quantify or even rank order those categories.
For example, all we can say is that 2 individuals are different in terms of variable A (e.g.,
they are of different race), but we cannot say which one "has more" of the quality
represented by the variable. Typical examples of nominal variables are gender, race, color,
and city.
a. Las variables nominales solo permiten la clasificacin cualitativa. Es decir,
que se pueden medir slo en trminos de si los elementos individuales pertenecen a
ciertas categoras claramente diferentes, pero no podemos cuantificar o incluso
ordenar rangos en esta categora.
Por ejemplo , todo lo que podemos decir es que 2 individuos son diferentes en
trminos de la variable A (por ejemplo , son de diferente raza) , pero no podemos
decir cual " tiene ms " de la calidad representada por la variable . Ejemplos tpicos
de las variables nominales son el sexo , la raza , el color , y la ciudad.
b. ordinal variables, we can rank order the items we measure in terms of which has less
and which has more of the quality represented by the variable, but still we cannot say
"how much more."
b. las variables ordinales, podemos ordenar los rangos que medimos en trminos
de los cuales tiene menos y cual tiene ms , pero todava no podemos decir " cunto
ms ".
A typical example of an ordinal variable is the socioeconomic status of families. For
example, we know that upper-middle is higher than middle but we cannot say that it is, for
example, 18% higher. Also this very distinction between nominal, ordinal, and interval
scales itself represents a good example of an ordinal variable.

For example, we can say that nominal measurement provides less information than ordinal
measurement, but we cannot say "how much less" or how this difference compares to the
difference between ordinal and interval scales.
Un ejemplo tpico de una variable ordinal es el nivel socioeconmico de las familias
. Por ejemplo , sabemos que la media alta es superior a media, pero no podemos
decir que se trata , por ejemplo , un 18% superior . Tambin esta misma distincin
entre nominal, ordinal , y la propia escalas de intervalo representa un buen ejemplo
de una variable ordinal . Por ejemplo , podemos decir que la medicin nominal
proporciona menos informacin que la medicin ordinal, pero no podemos decir "
cunto menos " o cmo esta diferencia se compara con la diferencia entre las
escalas ordinales y de intervalo.
c.

interval variables, we can not only rank order of the items that are measured, but also
to quantify and compare the sizes of differences between them.
For example, temperature, as measured in degrees Fahrenheit or Celsius, constitutes an
interval scale. We can say that a temperature of 40 degrees is higher than a temperature
of 30 degrees, and that an increase from 20 to 40 degrees is twice as much as an increase
from 30 to 40 degrees.
c. variables de intervalo, no slo podemos ordenar los rangos que medimos,
sino tambin para cuantificar y comparar los tamaos de las diferencias entre
ellos.
Por ejemplo , la temperatura , medida en grados Fahrenheit o Celsius ,
constituye una escala de intervalo . Podemos decir que una temperatura de 40
grados es ms alta que una temperatura de 30 grados, y que un aumento de 20 a
40 grados es dos veces ms que un aumento de 30 a 40 grados

. Ratio variables are very similar to interval variables; in addition to all the properties of
interval variables, they feature an identifiable absolute zero point, thus they allow for
statements such as x is two times more than y. Typical examples of ratio scales are
measures of time or space. For example, as the Kelvin temperature scale is a ratio scale,
not only can we say that a temperature of 200 degrees is higher than one of 100 degrees,
we can correctly state that it is twice as high. Interval scales do not have the ratio
property. Most statistical data analysis procedures do not distinguish between the interval
and ratio properties of the measurement scales.
d. las variables de relacin son muy similares a variables de intervalo ; Adems de
todas las propiedades de las variables de intervalo , cuentan con una identificacin
absoluta del punto cero , por lo que permiten las declaraciones como x es dos veces
ms que y. Ejemplos tpicos de escalas de razn son medidas de tiempo o espacio .
Por ejemplo, como la escala de temperatura Kelvin es una escala de razn , no slo
podemos decir que una temperatura de 200 grados es ms alta que una de 100
grados , podemos afirmar correctamente que es dos veces ms alta . escalas de
intervalo no tienen la propiedad relacin . La mayora de los procedimientos de
anlisis de datos estadsticos no distinguen entre las propiedades de intervalo y de
razn de las escalas de medicin .
Relations between variables. Regardless of their type, two or more variables are related if in a
sample of observations, the values of those variables are distributed in a consistent manner. In other
words, variables are related if their values systematically correspond to each other for these
observations. For example, Gender and WCC would be considered to be related if most males had
high WCC and most females low WCC, or vice versa; Height is related to Weight because typically
tall individuals are heavier than short ones; IQ is related to the number of errors in a test, if people
with higher IQs make fewer errors.
Las relaciones entre las variables . Independientemente de su tipo , dos o ms variables estn
relacionadas si en una muestra de observaciones , los valores de las variables se distribuyen de una
manera consistente . En otras palabras , las variables estn relacionadas si sus valores
sistemticamente se corresponden entre s para estas observaciones . Por ejemplo , seran
considerados Gnero y wcc estar relacionado si la mayora de los hombres tenan alta wcc y la
mayora de las mujeres bajo CMI , o viceversa ; La altura se relaciona con peso porque los

individuos tpicamente altos son ms pesados que las cortas ; CI est relacionado con el nmero de
errores en una prueba , si las personas con un CI ms alto cometen menos errores .

Why relations between variables are important. Generally speaking, the ultimate goal of every
research or scientific analysis is finding relations between variables. The philosophy of science
teaches us that there is no other way of representing "meaning" except in terms of relations between
some quantities or qualities; either way involves relations between variables. Thus, the
advancement of science must always involve finding new relations between variables. Correlational
research involves measuring such relations in the most straightforward manner. However,
experimental research is not any different in this respect. For example, the above mentioned
experiment comparing WCC in males and females can be described as looking for a correlation
between two variables - Gender and WCC. Statistics does nothing else but help us evaluate relations
between variables. Actually, all of the hundreds of procedures that are described in this manual can
be interpreted in terms of evaluating various kinds of inter-variable relations.
Por qu las relaciones entre las variables son importantes. En trminos generales, el objetivo final
de toda investigacin o anlisis cientfico es encontrar relaciones entre las variables. La filosofa de
la ciencia nos ensea que no hay otra manera de representar ", que significa" excepto en trminos de
relaciones entre algunas cantidades o calidades; De cualquier manera implica relaciones entre
variables. Por lo tanto, el avance de la ciencia siempre debe implicar la bsqueda de nuevas
relaciones entre las variables. investigacin de correlacin implica la medicin de tales relaciones de
la manera ms sencilla. Sin embargo, la investigacin experimental no es diferente a este respecto.
Por ejemplo, el anteriormente mencionado experimento comparando CMI en hombres y mujeres
puede ser descrito como buscar una correlacin entre dos variables - Gnero y CMI. Las estadsticas
no hace nada ms que nos ayudan a evaluar las relaciones entre las variables. En realidad, todos los
cientos de procedimientos que se describen en este manual puede ser interpretado en trminos de
evaluar varios tipos de relaciones entre variables.
Two basic features of every relation between variables. The two most elementary formal
properties of every relation between variables are the relation's a) magnitude (or "size") and b) its
reliability (or "truthfulness").
Dos caractersticas bsicas de todas las relaciones entre las variables . Las dos propiedades
formales ms elementales de todas las relaciones entre las variables son: a) la magnitud de la
relacin (o "tamao" ) y b ) su fiabilidad (o "verdad " ) .
a. Magnitud (o "tamao" ) . La magnitud es mucho ms fcil de comprender y de medir que la

fiabilidad. Por ejemplo, si se encuentran todos los varones de la muestra para tener una CMI mayor
que cualquier mujer en la muestra , podramos decir que la magnitud de la relacin entre las dos
variables ( gnero y CMI ) es muy alta en nuestra muestra . En otras palabras , podramos predecir
que se basa en la otra (al menos entre los miembros de nuestra muestra ) .
b. Fiabilidad (o "verdad " ) . La fiabilidad de una relacin es un concepto mucho menos intuitiva ,
pero sigue siendo muy importante. Pertenece a la " representatividad " de los resultados
encontrados en nuestra muestra especfica para toda la poblacin . En otras palabras , se dice cmo
probable es que una relacin similar se encontrara si el experimento se repiti con otras muestras
extradas de la misma poblacin. Recuerde que estamos casi nunca " en ltima instancia "
interesado slo en lo que est pasando en nuestra muestra ; estamos interesados en la muestra slo
en la medida que puede proporcionar informacin acerca de la poblacin . Si nuestro estudio
cumple con algunos criterios especficos (que se menciona ms adelante ) ,
then the reliability of a relation between variables observed in our sample can be quantitatively
estimated and represented using a standard measure (technically called p-level or statistical
significance level, see the next paragraph).

entonces la fiabilidad de una relacin entre las variables observadas en nuestra muestra puede ser
cuantitativamente calculada y representada utilizando una medida estndar (tcnicamente
denominada p - nivel o nivel de significacin estadstica ).

Qu es la "significacin estadstica" (p-nivel). La significacin estadstica de un resultado es


una medida prevista de la medida en que es "verdadero" (en el sentido de "representativa de la
poblacin"). Ms tcnicamente, el valor del nivel de p (el trmino utilizado por primera vez por
Brownlee, 1960) representa un ndice de la disminucin de la fiabilidad de un resultado. Cuanto
mayor sea el nivel de p, menos podemos creer que la relacin observada entre las variables en la
muestra es un indicador fiable de la relacin entre las respectivas variables en la poblacin. En
concreto, el nivel p representa la probabilidad de error que est involucrado en la aceptacin de
nuestro resultado observado como vlido, es decir, como "representativa de la poblacin." Por
ejemplo, un p-nivel de 0,05 (es decir, 1/20) indica que hay una probabilidad de 5% de que la
relacin entre las variables que se encuentra en la muestra es un "golpe de suerte." En otras
palabras, en el supuesto de que en la poblacin no haba ninguna relacin entre las variables de
ningn tipo, y estbamos repitiendo experimentos como uno los nuestros tras otro, se puede
esperar que aproximadamente cada 20 repeticiones del experimento no habra una en la que la
relacin entre las variables en cuestin seran iguales o ms fuertes que en el nuestro. En muchas

reas de la investigacin, el p-nivel de 0,05 se considera habitualmente como un nivel de error


"lnea fronteriza aceptable".
Cmo determinar que un resultado es "realmente" significativo . No hay manera de
evitar la arbitrariedad en la decisin final en cuanto a qu nivel de significacin ser tratado como
realmente " significativo". Es decir, la seleccin de un cierto nivel de importancia , hasta la cual los
resultados sern rechazadas como no vlido , es arbitraria . En la prctica , la decisin final por lo
general depende de si el resultado fue predicho a priori o slo se encuentran post hoc en el curso de
muchos anlisis y las comparaciones realizadas en el conjunto de datos , de la cantidad total de
pruebas de apoyo constante en todo el conjunto de datos y en "tradiciones" existentes en el rea de
investigacin . Por lo general , en muchas ciencias , da como resultado que el rendimiento de p
0,05 se consider estadsticamente significativa en el lmite pero recuerda que este nivel de
significacin todava implica una muy alta probabilidad de error ( 5 % ) .
Resultados que son significativos al nivel de p .01 nivel son comnmente considerados
estadsticamente significativos , y p .005 o p 0,001 niveles a menudo son llamados " muy "
importante . Pero recuerde que estas clasificaciones nada ms que convenciones arbitrarias que se
basan nicamente en la experiencia general de manera informal la investigacin representan .
La significacin estadstica y el nmero de anlisis realizados. Ni que decir tiene, el ms
anlisis se realiza sobre un conjunto de datos, los resultados se reunirn "por casualidad" el nivel de
significacin convencional. Por ejemplo, si se calcula correlaciones entre diez variables (es decir, 45
diferentes coeficientes de correlacin), entonces usted debe esperar encontrar por casualidad que
alrededor de dos (es decir, uno de cada 20) son los coeficientes de correlacin significativa al nivel p
.05, incluso si los valores de las variables estaban totalmente al azar y las variables no se
correlacionan en la poblacin. Algunos mtodos estadsticos que implican muchas comparaciones, y
por lo tanto una buena oportunidad para este tipo de errores, incluyen alguna "correccin" o ajuste
para el nmero total de comparaciones. Sin embargo, muchos mtodos estadsticos (anlisis
exploratorio de datos especialmente sencilla) no ofrecen ningn remedios sencillos para este
problema. Por lo tanto, corresponde al investigador evaluar cuidadosamente la fiabilidad de los
resultados inesperados. Muchos ejemplos de este manual electrnico ofrecen consejos especficos
sobre cmo hacer esto; informacin pertinente tambin se puede encontrar en la mayora de los
libros de texto sobre mtodos de investigacin.

Magnitud contra fiabilidad de una relacin entre variables. Hemos dicho antes que la

fuerza y la fiabilidad son dos caractersticas diferentes de las relaciones entre las variables . Sin
embargo, no son totalmente independientes . En general , en una muestra de un tamao
determinado , cuanto mayor sea la magnitud de la relacin entre variables , ms fiable la relacin
( ver el siguiente prrafo) .
Por qu las relaciones con mayor magnitud entre las variables son ms
significativos. Suponiendo que no hay ninguna relacin entre las variables en la poblacin , el
resultado ms probable sera tambin encontrar ninguna relacin entre las variables en la muestra
de investigacin. Por lo tanto, ms fuerte es la relacin que se encuentra en la muestra , menos
probable es que no hay una relacin correspondiente en la poblacin. Como se ve, la magnitud y la
importancia de una relacin parecen estar estrechamente relacionados , y que se poda calcular la
significacin de la magnitud y viceversa ; Sin embargo , esto slo es cierto si el tamao de la muestra
se mantiene constante , debido a la relacin de un hecho fuerza podra ser altamente significativa o
no significativa en absoluto , dependiendo del tamao de la muestra (vase el prrafo siguiente) .
Por qu la significancia de una relacin entre las variables depende del tamao de la
muestra. Si hay muy pocas observaciones, entonces tambin son, respectivamente, pocas
combinaciones posibles de los valores de las variables, y por lo tanto la probabilidad de obtener por
casualidad una combinacin de esos valores indicativos de una relacin fuerte es relativamente alta.
If there are very few observations, then there are also respectively few possible combinations of the
values of the variables, and thus the probability of obtaining by chance a combination of those
values indicative of a strong relation is relatively high.
Considere la siguiente ilustracin. Si estamos interesados en dos variables (Sexo: macho / hembra y
del CMI: alto / bajo) y hay slo cuatro sujetos de nuestra muestra (dos machos y dos hembras),
entonces la probabilidad de que vamos a encontrar, por pura casualidad, una 100% relacin entre
las dos variables puede ser tan alto como un octavo. En concreto, existe la posibilidad de que uno de
cada ocho hombres que ambas tendrn un alto CMI y las dos hembras mnima del CMI, o viceversa.
Consideremos ahora la probabilidad de obtener un partido tan perfecta por casualidad si nuestra
muestra consisti en 100 sujetos; la probabilidad de obtener este resultado por casualidad sera
prcticamente cero. Veamos un ejemplo ms general. Imagnese una poblacin terica en la que el
valor medio de CMI en hombres y mujeres es exactamente el mismo. Huelga decir que, si
comenzamos replicar un experimento sencillo mediante la elaboracin de pares de muestras (de
machos y hembras) de un tamao particular de esta poblacin y el clculo de la diferencia entre el
promedio CMI en cada par de muestras, la mayora de los experimentos dar resultados cercano a
0. Sin embargo, de vez en cuando, un par de muestras se extraern donde la diferencia entre
hombres y mujeres ser muy diferente de 0. con qu frecuencia va a pasar? El tamao de la
muestra ms pequea en cada experimento, lo ms probable es que vamos a obtener tales

resultados errneos, que en este caso seran los resultados indicativos de la existencia de una
relacin entre el gnero y el CMI obtenido de una poblacin en la que dicha relacin hace no existe.
Ejemplo : " Los bebs varones relacin a los bebs . " Considere el siguiente ejemplo de la
investigacin sobre el razonamiento estadstico ( Nisbett , et al . , 1987) . Hay dos hospitales ; en el
primero , 120 bebs nacen cada da, por la otra , solamente 12. En promedio , la proporcin de bebs
varones a los bebs nacidos cada da en cada hospital es 50/50 . Sin embargo , un da, en uno de
esos hospitales doble de los bebs nacieron como bebs varones . En el que el hospital fue ms
probable que ocurra? La respuesta es obvia para un experto en estadstica , sino como muestra la
investigacin , no es tan obvio para una persona comn . Es mucho ms probable que suceda en el
pequeo hospital . La razn de esto es que tcnicamente hablando , la probabilidad de una
desviacin aleatoria de un tamao particular (de la media de la poblacin ) , disminuye con el
aumento en el tamao de la muestra .
Por qu las relaciones pequeas pueden ser probados significativamente slo en
muestras grandes. Los ejemplos en los prrafos anteriores indican que si una relacin entre las
variables en cuestin es "objetivamente" (es decir, en la poblacin) pequeo, entonces no hay
manera de identificar una relacin tal en un estudio a menos que el ejemplo de investigacin es
correspondientemente grande. Incluso si la muestra es, de hecho, "perfectamente representativo" el
efecto no va a ser estadsticamente significativa si la muestra es pequea. Anlogamente, si una
relacin en cuestin es "objetivamente" muy grande (es decir, en la poblacin), entonces se puede
encontrar a ser muy importante, incluso en un estudio basado en una muestra muy pequea.
Considere la siguiente ilustracin adicional. Si una moneda es ligeramente asimtrica, y es algo ms
propensos a producir cabezas que colas cuando sacudido (por ejemplo, frente a 40% 60%), a
continuacin, 10 lanzamientos no seran suficientes para convencer a cualquier persona que la
moneda es asimtrica, incluso si el resultado obtenido (seis cabezas y cuatro colas) era
perfectamente representativo de la tendencia de la moneda. Sin embargo, es de tal manera que 10
lanzamientos no es suficiente para probar algo? No, si el efecto en cuestin eran lo suficientemente
grande, entonces 10 lanzamientos podran ser ms que suficiente. Por ejemplo, imaginemos ahora
que la moneda es tan asimtrica que no importa lo que se tira, el resultado sea cara. Si se lanzar
una moneda como diez veces y cada lanzamiento cabezas producidas, la mayora de la gente
considerara que suficiente evidencia de que algo es "malo" con la moneda. En otras palabras, sera
considerado evidencia convincente de que en la poblacin terica de un nmero infinito de
lanzamientos de esta moneda no habra ms cabezas que colas. Por lo tanto, si una relacin es
grande, entonces se puede encontrar a ser significativa incluso en una pequea muestra.

Puede "ninguna relacin" ser un resultado significativo? Cuanto menor sea la relacin entre las
variables, mayor ser el tamao de la muestra que es necesario demostrar que significativo. Por

ejemplo, imaginar la cantidad de lanzamientos que seran necesarios para demostrar que una
moneda es asimtrico si su sesgo fuera slo 0,000001%. Por lo tanto, los mnimos necesarios
tamao de la muestra aumenta a medida que la magnitud del efecto que se demostraron
disminuciones. Cuando la magnitud del efecto se aproxima a 0, el tamao de muestra necesario
para demostrar de manera concluyente que se acerca a infinito. Es decir, si no hay casi relacin
entre dos variables, entonces el tamao de la muestra debe ser casi igual al tamao de la poblacin,
que se supone que es infinitamente grande. La significacin estadstica representa la probabilidad
de que un resultado similar se obtendra si probamos toda la poblacin. Por lo tanto, todo lo que se
encontr despus de probar toda la poblacin sera, por definicin, significativa al nivel ms alto
posible, y esto tambin incluye todos los resultados "no tiene relacin".
Cmo se mide la magnitud (fuerza) de las relaciones entre las variables. Los estadsticos han
desarrollado muchas medidas de la magnitud de las relaciones entre variables; la eleccin de una
medida especfica en determinadas circunstancias depende del nmero de variables involucradas,
escalas de medicin utilizados, la naturaleza de las relaciones, etc. Casi todos ellos, sin embargo,
siguen un principio general: en su intento de evaluar de alguna manera la relacin observada
comparando a la "relacin mxima imaginable" entre esas variables especficas. Tcnicamente
hablando, una forma comn para llevar a cabo este tipo de evaluaciones es buscar la forma
diferenciada los valores de las variables son, y luego calcular qu parte de esta "diferenciacin total
disponible" se explica por casos en los que la diferenciacin es "comn" en los dos (o ms) variables
en cuestin. Hablando tcnicamente menos, se compara "lo que es comn en aquellas variables" a
"lo que potencialmente podra haber sido comunes si las variables eran perfectamente relacionada."
Consideremos un ejemplo simple. Digamos que en nuestra muestra, el ndice promedio de CMI es
100 en hombres y 102 en mujeres. Por lo tanto, podramos decir que, en promedio, la desviacin de
cada puntuacin individual de la media general (101) contiene un componente debido al gnero del
sujeto; El tamao de este componente es 1. Ese valor, en cierto sentido, representa un cierto grado
de relacin entre el gnero y el CMI. Sin embargo, este valor es una medida muy pobre, ya que no
nos dice cmo relativamente grande de este componente es, dada la "diferenciacin global" de las
puntuaciones del CMI. Considere dos posibilidades extremas:
a. Si todos las partituras del CMI de los machos eran exactamente igual a 100, y los de las hembras
igual a 102, a continuacin, todas las desviaciones de la media general en nuestra muestra sera
contabilizada en su totalidad por gnero. Diramos que en nuestra muestra, Gnero est
perfectamente correlacionada con CMI, es decir, el 100% de las diferencias observadas entre los
sujetos con respecto a su CMI se explica por su gnero.
b. Si las puntuaciones del CMI estaban en el rango de 0-1000, la misma diferencia (de 2) entre el
CMI promedio de hombres y mujeres que se encuentra en el estudio dara cuenta de una pequea

parte de la diferenciacin de los resultados en que lo ms probable sera tal considerarse


insignificante. Por ejemplo, una materia ms tenido en cuenta podra cambiar, o incluso invertir la
direccin de la diferencia. Por lo tanto, cada buena medida de las relaciones entre las variables debe
tener en cuenta la diferenciacin general de las puntuaciones individuales de la muestra y evaluar la
relacin en trminos de (relativamente) la cantidad de esta diferenciacin se explica por la relacin
de que se trate.
Comn " formato general " de la mayora de las pruebas estadsticas . Debido a que el objetivo final
de la mayora de las pruebas estadsticas es evaluar las relaciones entre las variables , la mayora de
las pruebas estadsticas siguen el formato general que se ha explicado en el prrafo anterior .
Hablando tcnicamente , que representan una relacin de alguna medida de la diferenciacin
comn en las variables en cuestin a la diferenciacin general de esas variables. Por ejemplo ,
representan una proporcin de la parte de la diferenciacin general de las puntuaciones del CMI
que pueden ser explicados por el gnero a la diferenciacin general de las puntuaciones del CMI .
Esta relacin se denomina habitualmente una proporcin de variacin explicada a la variacin total.
En estadstica , el trmino explica la variacin no implica necesariamente que " conceptualmente
entendemos " la misma. Slo se utiliza para denotar la variacin comn en las variables en
cuestin , es decir, la parte de variacin de una variable que es " explic " por los valores especficos
de la otra variable , y viceversa.
Cmo se calcula el "nivel de significacin estadstica. Supongamos que ya hemos calculado una
medida de una relacin entre dos variables (como se explic anteriormente). La siguiente pregunta
es "lo importante es esta relacin?" Por ejemplo, es 40% de la varianza explicada entre las dos
variables suficientes para considerar la relacin significativa? La respuesta es, depende." En
concreto, el significado depende principalmente del tamao de la muestra. Como se ha explicado
antes, en muestras muy grandes, incluso muy pequeas las relaciones entre las variables sern
significativos, mientras que en muestras muy pequeas incluso las relaciones muy grandes no
pueden considerarse fiables (significativo). Por lo tanto, con el fin de determinar el nivel de
significacin estadstica, necesitamos una funcin que representa la relacin entre la "magnitud" y
"significado" de las relaciones entre dos variables, dependiendo del tamao de la muestra. La
funcin que necesitamos que nos diga exactamente "qu tan probable es obtener una relacin de
una magnitud dada (o mayor) de una muestra de un tamao determinado, suponiendo que no
existe tal relacin entre esas variables en la poblacin". En otras palabras, la funcin que nos dara
el nivel de significacin (p), y que nos dira la probabilidad de error implicado en el rechazo de la
idea de que la relacin en cuestin no existe en la poblacin. Esta hiptesis "alternativo" (que no
existe una relacin entre la poblacin) generalmente se llama la hiptesis nula. Sera ideal si la
funcin de probabilidad fue lineal, y por ejemplo, slo tena pendientes diferentes para diferentes
tamaos de muestra. Desafortunadamente, la funcin es ms compleja, y no siempre es

exactamente la misma; Sin embargo, en la mayora de los casos que conocemos su forma y puede
utilizarse para determinar los niveles de significacin para nuestros hallazgos en muestras de un
tamao determinado. La mayor parte de estas funciones estn relacionadas con un tipo general de
funcin que es llamada normal
Por qu la "distribucin normal" es importante. La " distribucin normal " es importante porque
en la mayora de los casos, tambin aproxima a la funcin que se introdujo en el prrafo anterior .
La distribucin de muchas pruebas estadsticas es normal o sigue algn tipo que se pueden derivar
de la distribucin normal . En este sentido , filosficamente hablando , la distribucin normal
representa una de las verificadas empricamente elementales " verdades acerca de la naturaleza
general de la realidad", y su estado puede ser comparado con el de las leyes fundamentales de las
ciencias naturales . La forma exacta de la distribucin normal ( la caracterstica de " curva de
campana " ) se define por una funcin que tiene slo dos parmetros: la media y la desviacin
estndar.
Una propiedad caracterstica de la distribucin normal es que el 68% de la totalidad de sus
observaciones caen dentro de un rango de 1 desviacin estndar de la media, y un rango de 2
desviaciones estndar incluye 95% de las puntuaciones. En otras palabras, en una distribucin
normal, las observaciones que tienen un valor normalizado de menos de -2 o ms de 2 tienen una
frecuencia relativa de 5% o menos. (Valor estandarizado significa que un valor se expresa en
trminos de su diferencia con respecto a la media, dividida por la desviacin estndar). Usted puede
explorar los valores exactos de probabilidad asociada a diferentes valores de la distribucin normal
utilizando la calculadora de probabilidad de Estadstica Bsica; por ejemplo, si se introduce el valor
Z (es decir, el valor normalizado) de 4, la probabilidad asociada calculada por STATISTICA ser
inferior a 0001, porque en la distribucin normal de casi todas las observaciones (es decir, ms del
99,99%) caen dentro del rango de 4 desviaciones estndar. La animacin a continuacin muestra
la zona de la cola asociada con otros valores Z.
Ilustracin de cmo se utiliza la distribucin normal en el razonamiento estadstico (induccin).
Recordemos el ejemplo mencionado anteriormente, donde pares de muestras de machos y hembras
fueron extrados de una poblacin en la que el valor medio de CMI en hombres y mujeres era
exactamente la misma. A pesar de que el resultado ms probable de tales experimentos (un par de
muestras por experimento) fue que la diferencia entre el promedio del CMI en los machos y las
hembras de cada par es cercana a cero, de vez en cuando, se elaborar un par de muestras en las que
la diferencia entre hombres y mujeres es muy diferente de 0. Con qu frecuencia sucede esto? Si el
tamao de la muestra es lo suficientemente grande, los resultados de estas repeticiones se
"distribuyen normalmente," y sabiendo por lo tanto la forma de la curva normal, se puede calcular
con precisin la probabilidad de obtener "por casualidad" resultados que representan diversos

niveles de desviacin de la hipottica media de la poblacin de 0. Si tal probabilidad calculada es tan


baja que se cumple el criterio previamente aceptado de significacin estadstica, a continuacin,
slo tenemos una opcin: la conclusin de que nuestro resultado da una mejor aproximacin de lo
que est pasando en la poblacin que el " hiptesis nula." Recuerde que la hiptesis nula fue
considerada slo por "razones tcnicas" como un punto de referencia contra el cual se evalu
nuestro resultado emprico.
Son todas las pruebas estadsticas se distribuyen normalmente? No todas, pero la mayora de ellas
se basan ya sea en la distribucin normal o directamente en las distribuciones que estn
relacionados con, y se pueden derivar de lo normal, como t, F o Chi-cuadrado. Por lo general, estas
pruebas requieren que las variables analizadas son ellos mismos una distribucin normal en la
poblacin, es decir, que cumplen con la llamada "hiptesis de la normalidad." Muchas variables
observadas en realidad se distribuyen normalmente, lo que es otra razn por la distribucin normal
representa una "caracterstica general" de la realidad emprica. El problema puede producirse
cuando se intenta utilizar una prueba normal basada en la distribucin de analizar los datos de las
variables que son en s mismos no una distribucin normal (ver pruebas de normalidad en
Nonparametrics o Estadstica Bsica). En estos casos tenemos dos opciones generales. En primer
lugar, podemos utilizar alguna prueba alternativa "paramtrico" (o los llamados "test de
distribucin libre"); pero esto suele ser un inconveniente debido a que tales pruebas son
tpicamente menos potente y menos flexibles en trminos de tipos de conclusiones que pueden
proporcionar. Por otra parte, en muchos casos, todava podemos usar la prueba normal basada en la
distribucin si slo nos aseguramos de que el tamao de las muestras es lo suficientemente grande.
La ltima opcin se basa en un principio muy importante que es en gran parte responsable de la
popularidad de las pruebas que se basan en la funcin normal. Es decir, a medida que aumenta el
tamao de la muestra, la forma de la distribucin de muestreo (es decir, la distribucin de una
estadstica de la muestra, en este trmino fue utilizado por primera vez por Fisher, 1928a) se acerca
a su forma normal, aunque la distribucin de la variable en cuestin no es normal. Este principio se
ilustra en el siguiente animacin que muestra una serie de distribuciones de muestreo (creado con
incremento gradual de tamaos de muestra de: 2, 5, 10, 15, y 30), utilizando una variable que es
claramente no normal en la poblacin, es decir, la distribucin de sus valores est claramente
sesgada.
Sin embargo, como el tamao de la muestra ( de muestras utilizadas para crear la distribucin de
muestreo de la media) aumenta , la forma de la distribucin de muestreo se convierte en normal.
Tenga en cuenta que para n = 30 , la forma de que la distribucin es " casi" perfectamente normal
( ver el partido cercano del ajuste ) . Este principio se conoce como el teorema del lmite central
( este trmino fue utilizado por primera vez por Plya , 1920 ; alemn, " Zentraler Grenzwertsatz " ) .

Cmo sabemos que las consecuencias de violar el supuesto de normalidad? Aunque muchas de las
afirmaciones hechas en los prrafos anteriores se puede probar matemticamente, algunos de ellos
no tienen pruebas tericas y slo puede demostrarse empricamente, a travs de los llamados
experimentos de Monte Carlo. En estos experimentos, un gran nmero de muestras son generados
por un ordenador siguiendo las especificaciones pre-diseados y los resultados de tales muestras se
analizan usando una variedad de pruebas. De esta manera podemos evaluar empricamente el tipo y
la magnitud de los errores o sesgos a los que estn expuestos cuando ciertos supuestos tericos de
las pruebas que estamos utilizando no se cumplen por nuestros datos. En concreto, se utilizan
ampliamente los estudios de Monte Carlo con pruebas normales basados en la distribucin para
determinar qu tan sensibles son a violacines de la asuncin de la distribucin normal de las
variables analizadas en la poblacin. La conclusin general de estos estudios es que las
consecuencias de tales violacines son menos graves que se pensaba. A pesar de estas conclusiones
no deben desanimar por completo a nadie ser preocupado por la hiptesis de normalidad, han
aumentado la popularidad global de las pruebas estadsticas de distribucin dependiente en todas
las reas de la investigacin.

Vous aimerez peut-être aussi