Prueba de bondad de ajuste

Las pruebas de bondad de ajuste \(\chi^2\) se utilizan para comprobar si las frecuencias observadas en dos o más categorías difieren de las esperadas bajo un modelo dado. Por ejemplo, ¿cuál es la probabilidad de que una muestra de 60 mujeres y 40 hombres en una clase provenga de una población donde la proporción de sexos sea en realidad de 1:1? En este ejemplo, hay una variable categórica única de sexo, con dos categorías: masculino y femenino.

La estadística de prueba es:

\(\chi^{2} = \sum_{i=1}^{k} \frac{(O_{i}-E_{i})^2}{E_{i}}\)

donde O y E son los números observados y esperados en cada una de las categorías de 1 a k.

Los números observados provienen de tus observaciones reales, en este ejemplo 60 y 40. Los números esperados son obtenidos a partir de una expectativa teórica de las frecuencias bajo el modelo que se está probando. En este ejemplo, si estuvieras probando una proporción esperada de hombres y mujeres de 1:1, entonces esperarías tener 50 mujeres y 50 hombres en una muestra de 100 personas. Para este ejemplo,

\(\chi^2 = \frac{(60-50)^2}{50}+\frac{(40-50)^2}{50}\)

Ejecutando el análisis

Puedes calcular \(\chi^2\) fácilmente con una calculadora. Luego tendrías que determinar la probabilidad de obtener ese valor de \(\chi^2\) a partir de la distribución de probabilidad conocida de \(\chi^2\).

pchisq(x, df, lower.tail = FALSE)

con x = el valor de \(\chi^2\) y grados de libertad (df) = número de categorías - 1. La parte lower.tail = FALSE te da la probabilidad de que \(\chi^2\) sea mayor que tu valor.

Alternativamente, puedes hacer todo esto de una sola vez con la función chisq.test.

chisq.test(x, p)

donde x = los datos observados (es decir, las frecuencias en cada categoría) y p son las probabilidades esperadas para cada categoría.

En este ejemplo, usaríamos:

chisq.test(x = c(60, 40), p = c(0.5, 0.5))

donde x es el rango de números observados y p tiene las probabilidades esperadas.

Es importante destacar que debes utilizar los conteos reales como tus datos observados, no sus proporciones (es decir, 60 y 40, no 0.6 y 0.4). Esto tiene sentido si comprendes que una proporción de sexos de 6:4 en una muestra de 10 personas es más probable que ocurra por casualidad al muestrear de una proporción igual de sexos que una proporción de 600:400 en una muestra de 1000 personas.

No estás limitado a solo dos categorías, ni a una expectativa de que los conteos en cada categoría sean iguales. Por ejemplo, para probar si los conteos 10, 20 y 70 en tres categorías provienen de una población con frecuencias esperadas de 0.25, 0.25 y 0.5, utilizarías:

chisq.test(x = c(10, 20, 70), p = c(0.25, 0.25, 0.5))

Interpretación de los resultados

El resultado de una prueba de bondad de ajuste es muy simple: el valor de \(\chi^2\), los grados de libertad (número de categorías - 1) y el valor p. El valor p indica la probabilidad de que tus conteos observados provengan de una población con las frecuencias esperadas que especificaste.


    Chi-squared test for given probabilities

data:  c(60, 40)
X-squared = 4, df = 1, p-value = 0.0455

En el ejemplo de la proporción de sexos, deberías haber obtenido un valor p de 0.0455, lo que nos indica que es poco probable obtener una muestra de 60 mujeres y 40 hombres de una población con una proporción de sexos igual. Concluiríamos entonces que es probable que se hayan muestreado de una población que no tiene una proporción de sexos igual.

Para explorar qué categorías tienen más observaciones de las esperadas o menos observaciones de las esperadas, observa los residuos estandarizados.

chisq.test(x = c(60, 40), p = c(0.5, 0.5))$residuals

Estos son las diferencias entre lo observado y lo esperado, estandarizadas por la raíz cuadrada de lo esperado. Están estandarizadas porque cualquier contraste de las diferencias absolutas (observado - esperado) puede ser engañoso cuando el tamaño de los valores esperados varía. Por ejemplo, una diferencia de 5 en comparación con una expectativa de 10 representa un aumento del 50%, pero una diferencia de 5 en comparación con una expectativa de 100 es solo un cambio del 5%.

Explorar los residuos se vuelve importante cuando hay más de dos categorías en la prueba, ya que la prueba de \(\chi^2\) solo te dirá si las frecuencias observadas difieren de las esperadas en todas las categorías, no en qué categoría en particular está sobre o subrepresentada.

Supuestos a verificar

Independencia. La prueba de \(\chi^2\) asume que las observaciones se clasifican en cada categoría de forma independiente entre sí. Este es un problema de diseño de muestreo y generalmente se evita mediante un muestreo aleatorio. En el ejemplo de la proporción de sexos, habría problemas si eligieras deliberadamente mujeres para agregar a tu muestra si crees que ya tienes suficientes hombres.

Tamaño de muestra. La estadística de \(\chi^2\) solo se puede comparar de manera confiable con la distribución de \(\chi^2\) si los tamaños de muestra son lo suficientemente grandes. Debes verificar que al menos el 20% de las frecuencias esperadas sean mayores que 5. Puedes ver los conteos esperados para cada categoría al agregar $expected al final de tu prueba de \(\chi^2\). Por ejemplo,

chisq.test(x = c(60, 40), p = c(0.5, 0.5))$expected

Si no se cumple esta suposición, puedes combinar categorías (si tienes más de dos), realizar una prueba de aleatorización o considerar el modelado log-lineal.

Comunicación de los resultados

Escrito. Los resultados de una prueba de bondad de ajuste \(\chi^2\) se pueden presentar fácilmente en el texto de la sección de resultados. Por ejemplo, “La proporción de sexos de la clase de 100 estudiantes difirió significativamente de una proporción 1:1 (”\(\chi^2\) = 4, gl = 1, P = 0.0455)“.

Visual. Los datos de conteo se presentan mejor como un gráfico de barras con los conteos en el eje Y y las categorías en el eje X.

barplot(c(60, 40), xlab = "Sex", ylab = "Count", names = c("Female", "Male"))

Consulta los módulos de gráficos para obtener versiones mejoradas de estas figuras adecuadas para informes o publicaciones.

Más ayuda

Escribe ?chisq.test para obtener la ayuda de R sobre esta función.

Quinn y Keough (2002) Experimental design and data analysis for biologists. Cambridge University Press. Capítulo 14. Análisis de frecuencias.

McKillup (2012) Statistics explained. An introductory guide for life scientists.. Cambridge University Press. Capítulo 20.2. Comparación de frecuencias observadas y esperadas: la prueba de chi-cuadrado de bondad de ajuste.

Autor: Alistair Poore

Año: 2016

Última actualización: Nov. 2023