Vous êtes sur la page 1sur 12

Artes Ciencias Total

can 265 778 1043


could 296 307 603
total 561 1085 1646
Chi Cuadrado (Ver artculo completo de Pascual Campos en esta carpeta)

Las listas de frecuencias de palabras no nos dan ms que indicios sobre la naturaleza de un texto. Si estamos interesados en
ver cmo se distribuyen dos verbos modales, por ejemplo: can y could, en un corpus de artes y otro de ciencias, lo primero
que debemos hacer es contar dichos verbos en los dos corpora. As llegamos a las siguientes frecuencias. Un vistazo rpido
nos dice que can y could aparecen con ms frecuencia en la comunicacin cientfica que en la de las artes. Al utilizar un test
de significado estadstico tambin estamos intentando generalizar sobre los textos de arte y ciencia en general que es
imposible de hacer sin un test de este tipo. Chi cuadrado no requiere que los datos de la muestra sean de distribucin normal
pero se basa en el supuesto de que el variable estudiado tenga una distribucin normal en la poblacin, es decir, en todos lo
textos de arte y de cincias.

Podemos inferir, entonces, que esto constituye un hallazgo o se debe simplemente a la casualidad? No podemos decidir
simplemente mirando los nmeros. Tenemos que llevar a cabo ms clculos: un test de significancia estadstica para ver si
la probablidad de que esto se debe a la casualidad o no y en qu grado.

Test de Chi-cuadrado
El test de Chi-cuadrado es probablemente el ms utilizado en los estudios de crpus. Tiene varias ventajas: (McEnery and
Wilson 1996: 70): (a) es ms preciso que el test-t; (b) no presupone que la distribucin de los datos sea normal; (7)
(bastante comn en los corpus lingsticos); (c) es fcil de calcular; y (d) las diferencies en el tamao del corpus no son
importantes. La desventaja de chi-cuadrado es que no es fiable con frecuencias muy pequeas.


Distribucin de frecuencias de (con los totales de las filas y columnas) de can and could en el campo de las artes y en el
las ciencias. (Tabla 1)
Chi-cuadrado compara la diferencia entre las frecuencias observadas en el texto o corpora y aquellas frecuencias que
esperaramos encontrar si el nico factor fuera la casualidad. Cunto ms cerca estn las frecuencias esperadas a las
observadas, ms probable ser que las frecuencias observadas se deban a la casualidad. Sin embargo, si la diferenica
entre las frecuencias observadas son ms grandes, entonces ser probable que las frecuencias observadas son
influenciadas por otros factores que no sea la casualidad. Por ejemplo, si existe una diferencia significativa entre las
frecuencias observadas y las esperadas en el caso de can y could, significara que existe una diferencia real en la
grmatica o estilo de dos campos: las artes y las ciencias.
grmatica o estilo de dos campos: las artes y las ciencias.

El primer paso es determinar el nivel de significancia. En la lingstica se suele fijar el nivel en < 0.5. Chi
compara lo que ocurre en la realidad con lo que pasara hipotticament The first step is to determine the significance
level or threshold of tolerance for error. Lo primero que tenemos que hacer es calcular los totales de las columnas y filas
(ver tabla 1).

Sigue en la siguiente hoja
Las listas de frecuencias de palabras no nos dan ms que indicios sobre la naturaleza de un texto. Si estamos interesados en
ver cmo se distribuyen dos verbos modales, por ejemplo: can y could, en un corpus de artes y otro de ciencias, lo primero
que debemos hacer es contar dichos verbos en los dos corpora. As llegamos a las siguientes frecuencias. Un vistazo rpido
aparecen con ms frecuencia en la comunicacin cientfica que en la de las artes. Al utilizar un test
de significado estadstico tambin estamos intentando generalizar sobre los textos de arte y ciencia en general que es
imposible de hacer sin un test de este tipo. Chi cuadrado no requiere que los datos de la muestra sean de distribucin normal
pero se basa en el supuesto de que el variable estudiado tenga una distribucin normal en la poblacin, es decir, en todos los
Podemos inferir, entonces, que esto constituye un hallazgo o se debe simplemente a la casualidad? No podemos decidir
simplemente mirando los nmeros. Tenemos que llevar a cabo ms clculos: un test de significancia estadstica para ver si
cuadrado es probablemente el ms utilizado en los estudios de crpus. Tiene varias ventajas: (McEnery and
t; (b) no presupone que la distribucin de los datos sea normal; (7)
(bastante comn en los corpus lingsticos); (c) es fcil de calcular; y (d) las diferencies en el tamao del corpus no son
Distribucin de frecuencias de (con los totales de las filas y columnas) de can and could en el campo de las artes y en el de
cuadrado compara la diferencia entre las frecuencias observadas en el texto o corpora y aquellas frecuencias que
esperaramos encontrar si el nico factor fuera la casualidad. Cunto ms cerca estn las frecuencias esperadas a las
observadas, ms probable ser que las frecuencias observadas se deban a la casualidad. Sin embargo, si la diferenica
entre las frecuencias observadas son ms grandes, entonces ser probable que las frecuencias observadas son
influenciadas por otros factores que no sea la casualidad. Por ejemplo, si existe una diferencia significativa entre las
frecuencias observadas y las esperadas en el caso de can y could, significara que existe una diferencia real en la
El primer paso es determinar el nivel de significancia. En la lingstica se suele fijar el nivel en < 0.5. Chi-cuadrado
compara lo que ocurre en la realidad con lo que pasara hipotticament The first step is to determine the significance
level or threshold of tolerance for error. Lo primero que tenemos que hacer es calcular los totales de las columnas y filas
Frecuencias Artes Ciencias
can (observada) 265 778
can (esperada) 355.48 687.51
could (observada) 296 307
could (esperada) 205.1 397.48
Total 561 1085
En el siguiente paso, se calcula las frecuencias esperadas. Se hace multiplicando el total de la fila de la celda
por el total de la columna de la celda, dividido por la suma del total de todas las observaciones.
As que para derivar la frecuencia esperada del verbo modal can en el corpus de arte, multiplicamos el total
de la fila de la celda de can (1043) por el total de la columna de la celda de can(561) y dividimos el producto
por la suma total (1646):

Los clculos de las frecuencias esperadas de cada celda.
Ahora tenemos que medir el tama de la diferencia entre la pareja de frecuencias observadas y esperadas que se
hace con la siguiente frmula:
Donde O es frecuencia observada y E = frecuencia esperada. As que, por ejemplo, para can en el corpus de
artes tenemos:
Entonces hacemos los clculos para can en el corpus de artes, can en el corpus de ciencias, could en el corpus
de artes y could en el corpus de ciencias. Sumamos todas estas observaciones. El valor de chi cuadrado es la
suma de todos estos valores calculados. La frmula para chi cuadrado es:
Para nuestros datos el resultado total de chi cuadrado es 95.35. Ahora necesitamos consultar unas tablas
estadsticas para ver la significancia de los valores de chi cuadrado que tenemos. Para hacer esto necesitamos
Observada Esperada (0-E)
265 355.48 90.48 -
778 687.51 90.49
296 205.1 90.9
307 397.48 -90.48
1645.57 Suma (O-E)/E
Para nuestros datos el resultado total de chi cuadrado es 95.35. Ahora necesitamos consultar unas tablas
estadsticas para ver la significancia de los valores de chi cuadrado que tenemos. Para hacer esto necesitamos
saber el nmero de grados de libertad (df) 10. Es fcil de calcular. df = (nmero de columnas en la tabla menos
1) multiplicado por (el nmero de filas en la tabla menos 1). En nuestro caso es df = (2 1) * (2 1 ) = 1.

Ahora consultamos la tabla de valores chi-cuadrado en la fila del nmero relevante de grados de libertad (1.df) y la columna
de significado apropiada (0.05 en lingstica).
Tenemos un valor chi de 93.35 con df = 1. As que segn la tabla de distribucin, el valor chi tendra que ser igual o ms
grande que 3.84, lo cual es verdad. Esto significa que la diferencia encontrado entre los dos campos en cuanto al uso de
y could es significante del punto de vista estadstico al nivel p < 0.05. Podemos afirmar con un grado alto de certeza que
esto no ocurre por casualidad y refleja una verdadera variacin entre los dos sublenguajes.
Total
1043
603
1646
En el siguiente paso, se calcula las frecuencias esperadas. Se hace multiplicando el total de la fila de la celda
por el total de la columna de la celda, dividido por la suma del total de todas las observaciones.
As que para derivar la frecuencia esperada del verbo modal can en el corpus de arte, multiplicamos el total
de la fila de la celda de can (1043) por el total de la columna de la celda de can(561) y dividimos el producto
Ahora tenemos que medir el tama de la diferencia entre la pareja de frecuencias observadas y esperadas que se
en el corpus de
Entonces hacemos los clculos para can en el corpus de artes, can en el corpus de ciencias, could en el corpus
de artes y could en el corpus de ciencias. Sumamos todas estas observaciones. El valor de chi cuadrado es la
Para nuestros datos el resultado total de chi cuadrado es 95.35. Ahora necesitamos consultar unas tablas
estadsticas para ver la significancia de los valores de chi cuadrado que tenemos. Para hacer esto necesitamos
(0-E)/E
23.02979183 equals (O-E)/E
11.91028509
40.28673818
20.5963329
95.82314799
Para nuestros datos el resultado total de chi cuadrado es 95.35. Ahora necesitamos consultar unas tablas
estadsticas para ver la significancia de los valores de chi cuadrado que tenemos. Para hacer esto necesitamos
saber el nmero de grados de libertad (df) 10. Es fcil de calcular. df = (nmero de columnas en la tabla menos
1) * (2 1 ) = 1.
cuadrado en la fila del nmero relevante de grados de libertad (1.df) y la columna
Tenemos un valor chi de 93.35 con df = 1. As que segn la tabla de distribucin, el valor chi tendra que ser igual o ms
grande que 3.84, lo cual es verdad. Esto significa que la diferencia encontrado entre los dos campos en cuanto al uso de can
es significante del punto de vista estadstico al nivel p < 0.05. Podemos afirmar con un grado alto de certeza que
Total fila Total
Columna
Total
can/could
Frecuencia
esperada de
can arte
1043 561 1646
355.481774
Frecuencia
esperada de
can ciencias
1043 1085 1646
687.518226
Frecuencia
esperada de
could artes
603 561 1646
205.518226
Frecuencia
esperada de
could
ciencias
603 1085 1646
397.481774
Observada Esperada O-E (O-E) (O-E)/E
Science 543 344 199 39601 115.119186
Humanities 437 344 93 8649 25.1424419
Arts 52 344 -292 85264 247.860465
1032 388.122093
= (O-E)/E = 388,122
Eleccin de recompensa en nios de 4 grado Vietmamita Mejicana China
Tipo de recompensa (n = 115) (n = 80) (n = 39)
Material 61 36 21
Verbal 54 44 18
Tipo de recompensa Vietmamita Chicana China
Hay tres grupos as que los d.f son 3-1 =2
El valor crtico de X con 2 d.f es 5.99 para el nivel de 0,5 y 9.21 para el nivel 0,1. As
que podemos decir que existe una relacin significante entre la especialidad y la
eleccin de los estudiantes.
Material 61 36 21 118 n total fila
Verbal 54 44 18 116 n total fila
total 115 80 39 234 = N
n n n N
Total fila Total columnaTotal n observaciones E
Eij =ninj/N Vietnamese 115.0 118 234 57.99
E = frecuencia esperada 115.0 116 234 57.01
i = fila Chicana 80.0 118 234 40.34
j = columna 80.0 116 234 39.66
China 39.0 118 234 19.67
39.0 116 234 19.33
Fila Columna O E O-E (O-E)
1 1 61 57.99 3.01 9.05
1 2 36 40.34 -4.34 18.84
1 3 21 19.67 1.33 1.77
2 1 54 57.01 -3.01 9.06
2 2 44 39.66 4.34 18.84
2 3 18 19.33 -1.33 1.77
(O-E)/E
0.15
0.52
0.08
0.17
0.43
0.10
1.45

Vous aimerez peut-être aussi