could 296 307 603 total 561 1085 1646 Chi Cuadrado (Ver artculo completo de Pascual Campos en esta carpeta)
Las listas de frecuencias de palabras no nos dan ms que indicios sobre la naturaleza de un texto. Si estamos interesados en ver cmo se distribuyen dos verbos modales, por ejemplo: can y could, en un corpus de artes y otro de ciencias, lo primero que debemos hacer es contar dichos verbos en los dos corpora. As llegamos a las siguientes frecuencias. Un vistazo rpido nos dice que can y could aparecen con ms frecuencia en la comunicacin cientfica que en la de las artes. Al utilizar un test de significado estadstico tambin estamos intentando generalizar sobre los textos de arte y ciencia en general que es imposible de hacer sin un test de este tipo. Chi cuadrado no requiere que los datos de la muestra sean de distribucin normal pero se basa en el supuesto de que el variable estudiado tenga una distribucin normal en la poblacin, es decir, en todos lo textos de arte y de cincias.
Podemos inferir, entonces, que esto constituye un hallazgo o se debe simplemente a la casualidad? No podemos decidir simplemente mirando los nmeros. Tenemos que llevar a cabo ms clculos: un test de significancia estadstica para ver si la probablidad de que esto se debe a la casualidad o no y en qu grado.
Test de Chi-cuadrado El test de Chi-cuadrado es probablemente el ms utilizado en los estudios de crpus. Tiene varias ventajas: (McEnery and Wilson 1996: 70): (a) es ms preciso que el test-t; (b) no presupone que la distribucin de los datos sea normal; (7) (bastante comn en los corpus lingsticos); (c) es fcil de calcular; y (d) las diferencies en el tamao del corpus no son importantes. La desventaja de chi-cuadrado es que no es fiable con frecuencias muy pequeas.
Distribucin de frecuencias de (con los totales de las filas y columnas) de can and could en el campo de las artes y en el las ciencias. (Tabla 1) Chi-cuadrado compara la diferencia entre las frecuencias observadas en el texto o corpora y aquellas frecuencias que esperaramos encontrar si el nico factor fuera la casualidad. Cunto ms cerca estn las frecuencias esperadas a las observadas, ms probable ser que las frecuencias observadas se deban a la casualidad. Sin embargo, si la diferenica entre las frecuencias observadas son ms grandes, entonces ser probable que las frecuencias observadas son influenciadas por otros factores que no sea la casualidad. Por ejemplo, si existe una diferencia significativa entre las frecuencias observadas y las esperadas en el caso de can y could, significara que existe una diferencia real en la grmatica o estilo de dos campos: las artes y las ciencias. grmatica o estilo de dos campos: las artes y las ciencias.
El primer paso es determinar el nivel de significancia. En la lingstica se suele fijar el nivel en < 0.5. Chi compara lo que ocurre en la realidad con lo que pasara hipotticament The first step is to determine the significance level or threshold of tolerance for error. Lo primero que tenemos que hacer es calcular los totales de las columnas y filas (ver tabla 1).
Sigue en la siguiente hoja Las listas de frecuencias de palabras no nos dan ms que indicios sobre la naturaleza de un texto. Si estamos interesados en ver cmo se distribuyen dos verbos modales, por ejemplo: can y could, en un corpus de artes y otro de ciencias, lo primero que debemos hacer es contar dichos verbos en los dos corpora. As llegamos a las siguientes frecuencias. Un vistazo rpido aparecen con ms frecuencia en la comunicacin cientfica que en la de las artes. Al utilizar un test de significado estadstico tambin estamos intentando generalizar sobre los textos de arte y ciencia en general que es imposible de hacer sin un test de este tipo. Chi cuadrado no requiere que los datos de la muestra sean de distribucin normal pero se basa en el supuesto de que el variable estudiado tenga una distribucin normal en la poblacin, es decir, en todos los Podemos inferir, entonces, que esto constituye un hallazgo o se debe simplemente a la casualidad? No podemos decidir simplemente mirando los nmeros. Tenemos que llevar a cabo ms clculos: un test de significancia estadstica para ver si cuadrado es probablemente el ms utilizado en los estudios de crpus. Tiene varias ventajas: (McEnery and t; (b) no presupone que la distribucin de los datos sea normal; (7) (bastante comn en los corpus lingsticos); (c) es fcil de calcular; y (d) las diferencies en el tamao del corpus no son Distribucin de frecuencias de (con los totales de las filas y columnas) de can and could en el campo de las artes y en el de cuadrado compara la diferencia entre las frecuencias observadas en el texto o corpora y aquellas frecuencias que esperaramos encontrar si el nico factor fuera la casualidad. Cunto ms cerca estn las frecuencias esperadas a las observadas, ms probable ser que las frecuencias observadas se deban a la casualidad. Sin embargo, si la diferenica entre las frecuencias observadas son ms grandes, entonces ser probable que las frecuencias observadas son influenciadas por otros factores que no sea la casualidad. Por ejemplo, si existe una diferencia significativa entre las frecuencias observadas y las esperadas en el caso de can y could, significara que existe una diferencia real en la El primer paso es determinar el nivel de significancia. En la lingstica se suele fijar el nivel en < 0.5. Chi-cuadrado compara lo que ocurre en la realidad con lo que pasara hipotticament The first step is to determine the significance level or threshold of tolerance for error. Lo primero que tenemos que hacer es calcular los totales de las columnas y filas Frecuencias Artes Ciencias can (observada) 265 778 can (esperada) 355.48 687.51 could (observada) 296 307 could (esperada) 205.1 397.48 Total 561 1085 En el siguiente paso, se calcula las frecuencias esperadas. Se hace multiplicando el total de la fila de la celda por el total de la columna de la celda, dividido por la suma del total de todas las observaciones. As que para derivar la frecuencia esperada del verbo modal can en el corpus de arte, multiplicamos el total de la fila de la celda de can (1043) por el total de la columna de la celda de can(561) y dividimos el producto por la suma total (1646):
Los clculos de las frecuencias esperadas de cada celda. Ahora tenemos que medir el tama de la diferencia entre la pareja de frecuencias observadas y esperadas que se hace con la siguiente frmula: Donde O es frecuencia observada y E = frecuencia esperada. As que, por ejemplo, para can en el corpus de artes tenemos: Entonces hacemos los clculos para can en el corpus de artes, can en el corpus de ciencias, could en el corpus de artes y could en el corpus de ciencias. Sumamos todas estas observaciones. El valor de chi cuadrado es la suma de todos estos valores calculados. La frmula para chi cuadrado es: Para nuestros datos el resultado total de chi cuadrado es 95.35. Ahora necesitamos consultar unas tablas estadsticas para ver la significancia de los valores de chi cuadrado que tenemos. Para hacer esto necesitamos Observada Esperada (0-E) 265 355.48 90.48 - 778 687.51 90.49 296 205.1 90.9 307 397.48 -90.48 1645.57 Suma (O-E)/E Para nuestros datos el resultado total de chi cuadrado es 95.35. Ahora necesitamos consultar unas tablas estadsticas para ver la significancia de los valores de chi cuadrado que tenemos. Para hacer esto necesitamos saber el nmero de grados de libertad (df) 10. Es fcil de calcular. df = (nmero de columnas en la tabla menos 1) multiplicado por (el nmero de filas en la tabla menos 1). En nuestro caso es df = (2 1) * (2 1 ) = 1.
Ahora consultamos la tabla de valores chi-cuadrado en la fila del nmero relevante de grados de libertad (1.df) y la columna de significado apropiada (0.05 en lingstica). Tenemos un valor chi de 93.35 con df = 1. As que segn la tabla de distribucin, el valor chi tendra que ser igual o ms grande que 3.84, lo cual es verdad. Esto significa que la diferencia encontrado entre los dos campos en cuanto al uso de y could es significante del punto de vista estadstico al nivel p < 0.05. Podemos afirmar con un grado alto de certeza que esto no ocurre por casualidad y refleja una verdadera variacin entre los dos sublenguajes. Total 1043 603 1646 En el siguiente paso, se calcula las frecuencias esperadas. Se hace multiplicando el total de la fila de la celda por el total de la columna de la celda, dividido por la suma del total de todas las observaciones. As que para derivar la frecuencia esperada del verbo modal can en el corpus de arte, multiplicamos el total de la fila de la celda de can (1043) por el total de la columna de la celda de can(561) y dividimos el producto Ahora tenemos que medir el tama de la diferencia entre la pareja de frecuencias observadas y esperadas que se en el corpus de Entonces hacemos los clculos para can en el corpus de artes, can en el corpus de ciencias, could en el corpus de artes y could en el corpus de ciencias. Sumamos todas estas observaciones. El valor de chi cuadrado es la Para nuestros datos el resultado total de chi cuadrado es 95.35. Ahora necesitamos consultar unas tablas estadsticas para ver la significancia de los valores de chi cuadrado que tenemos. Para hacer esto necesitamos (0-E)/E 23.02979183 equals (O-E)/E 11.91028509 40.28673818 20.5963329 95.82314799 Para nuestros datos el resultado total de chi cuadrado es 95.35. Ahora necesitamos consultar unas tablas estadsticas para ver la significancia de los valores de chi cuadrado que tenemos. Para hacer esto necesitamos saber el nmero de grados de libertad (df) 10. Es fcil de calcular. df = (nmero de columnas en la tabla menos 1) * (2 1 ) = 1. cuadrado en la fila del nmero relevante de grados de libertad (1.df) y la columna Tenemos un valor chi de 93.35 con df = 1. As que segn la tabla de distribucin, el valor chi tendra que ser igual o ms grande que 3.84, lo cual es verdad. Esto significa que la diferencia encontrado entre los dos campos en cuanto al uso de can es significante del punto de vista estadstico al nivel p < 0.05. Podemos afirmar con un grado alto de certeza que Total fila Total Columna Total can/could Frecuencia esperada de can arte 1043 561 1646 355.481774 Frecuencia esperada de can ciencias 1043 1085 1646 687.518226 Frecuencia esperada de could artes 603 561 1646 205.518226 Frecuencia esperada de could ciencias 603 1085 1646 397.481774 Observada Esperada O-E (O-E) (O-E)/E Science 543 344 199 39601 115.119186 Humanities 437 344 93 8649 25.1424419 Arts 52 344 -292 85264 247.860465 1032 388.122093 = (O-E)/E = 388,122 Eleccin de recompensa en nios de 4 grado Vietmamita Mejicana China Tipo de recompensa (n = 115) (n = 80) (n = 39) Material 61 36 21 Verbal 54 44 18 Tipo de recompensa Vietmamita Chicana China Hay tres grupos as que los d.f son 3-1 =2 El valor crtico de X con 2 d.f es 5.99 para el nivel de 0,5 y 9.21 para el nivel 0,1. As que podemos decir que existe una relacin significante entre la especialidad y la eleccin de los estudiantes. Material 61 36 21 118 n total fila Verbal 54 44 18 116 n total fila total 115 80 39 234 = N n n n N Total fila Total columnaTotal n observaciones E Eij =ninj/N Vietnamese 115.0 118 234 57.99 E = frecuencia esperada 115.0 116 234 57.01 i = fila Chicana 80.0 118 234 40.34 j = columna 80.0 116 234 39.66 China 39.0 118 234 19.67 39.0 116 234 19.33 Fila Columna O E O-E (O-E) 1 1 61 57.99 3.01 9.05 1 2 36 40.34 -4.34 18.84 1 3 21 19.67 1.33 1.77 2 1 54 57.01 -3.01 9.06 2 2 44 39.66 4.34 18.84 2 3 18 19.33 -1.33 1.77 (O-E)/E 0.15 0.52 0.08 0.17 0.43 0.10 1.45