Two Sample T-test

t-test de muestras independientes, también conocido como un t-test de dos muestras, es una de las pruebas estadísticas más comúnmente utilizadas. Se utiliza para comparar si las medias de dos muestras son estadísticamente diferentes entre sí (por ejemplo, control vs. tratamiento, sitio A vs. sitio B, etc.). Por ejemplo, consideremos el caso simple de si una muestra de mediciones de pH de un río difiere de una muestra de mediciones de pH de un segundo río.

La hipótesis nula es que las medias de la población de las cuales se toman las dos muestras son iguales \[H_o: \mu_1=\mu_2\].

La estadística de prueba, t, es:

\[t = \frac{\bar{x_{1}}-\bar{x_{2}}}{s_{\bar{y_{1}}-\bar{y_{2}}}}\]

donde el denominador es el error estándar de la diferencia entre las dos medias.

\[\sqrt{\frac{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}{(\frac{1}{n_{1}}}+\frac{1}{n_{2}})}\]

Ten en cuenta que el tamaño de la estadística de prueba depende de dos cosas: 1) qué tan diferentes son las dos medias (el numerador) y 2) cuánta variación hay presente dentro de cada muestra (el denominador).

Esta ecuación es para el t-test de varianza combinada. Para un t-test de varianzas separadas (también conocido como t-test de Welch), que no asume varianzas iguales, el denominador es:

\[\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\]

Ten en cuenta que un t-test es un caso especial de un modelo lineal con una variable de respuesta continua única y un predictor categórico único que tiene dos niveles.

Ejecución del análisis

Un t-test de muestras independientes se puede ejecutar con la misma función t.test utilizada para una muestra o t*-tests pareados. Para un t-test de muestras independientes que asume varianzas iguales, usaríamos:

t.test(x <- my_sample1, y = my_sample2, var.equal = TRUE)

Donde my_sample1 y my_sample2 son vectores que contienen las mediciones de cada muestra.

Más comúnmente, usaríamos un data frame con las variables de respuesta y predictor como columnas separadas. Luego puedes usar una declaración de fórmula, y ~ x, para especificar las variables de respuesta y predictor en lugar del código anterior. Considera el ejemplo simple en el que deseas comparar el pH de dos ríos. Se tomaron diez medidas replicadas de pH de cada río.

Descarga el conjunto de datos de muestra, River_pH.csv, e impórtalo en R.

River_pH <- read.csv(file = "River_pH.csv", header = TRUE)

El test t se realiza con la función t.test, donde los argumentos especifican la variable de respuesta (pH) a la izquierda de ~, la variable predictora (River_name) a la derecha de ~, y el marco de datos a utilizar.

t.test(pH ~ River_name, data = River_pH, var.equal = TRUE)

El argumento var.equal = TRUE especifica que asumimos varianzas iguales. Ten en cuenta que el argumento predeterminado del test t para la hipótesis alternativa es una prueba bilateral. Si deseas realizar una prueba unilateral, debes agregar un argumento a la función que especifique alternative = "greater" o alternative = "less".

Interpretación de los resultados


    Two Sample t-test

data:  River_pH$pH by River_pH$River_name
t = 6.9788, df = 18, p-value = 1.618e-06
alternative hypothesis: true difference in means between group A and group B is not equal to 0
95 percent confidence interval:
 1.574706 2.931168
sample estimates:
mean in group A mean in group B 
       8.661497        6.408560 

La salida de un test t es fácil de interpretar. En la salida anterior, el estadístico de prueba t = 6.9788 con 18 grados de libertad, y un valor de p muy bajo (p < 0.001). Por lo tanto, podemos rechazar la hipótesis nula de que los dos ríos tienen el mismo pH.

También se obtienen las medias de las dos muestras (necesario para saber cuál es mayor si el test es significativo) y el intervalo de confianza del 95% para la diferencia entre las dos medias (este no se superpondrá con cero cuando el test sea significativo).

Supuestos a verificar

Los tests t son tests paramétricos, lo que implica que podemos especificar una distribución de probabilidad para la población de la variable de la cual se tomaron las muestras. Los tests paramétricos (y no paramétricos) tienen varios supuestos. Si se violan estos supuestos, ya no podemos estar seguros de que el estadístico de prueba siga una distribución t, y en ese caso, los valores de p pueden ser inexactos.

Normalidad. Los datos siguen una distribución normal. Sin embargo, los tests t son razonablemente robustos frente a violaciones de la normalidad (aunque hay que tener cuidado con la influencia de los valores atípicos).

Varianza igual. Se asume que las varianzas de cada muestra son aproximadamente iguales. Los tests t también son razonablemente robustos frente a violaciones de la igualdad de varianzas si los tamaños de las muestras son iguales, pero pueden ser problemáticos cuando los tamaños de las muestras son muy diferentes.

En caso de varianzas desiguales, puede ser mejor realizar un test t de Welch, que no asume igualdad de varianzas. Para realizar un test de Welch en R, el argumento var.equal en la función t.test debe cambiarse a var.equal=FALSE. De hecho, este es el argumento predeterminado para t.test si no se especifica.

Independencia. Las observaciones deben haber sido muestreadas aleatoriamente de la población, de manera que las medias de las dos muestras sean estimaciones no sesgadas de las medias de la población. Si los individuos replicados están vinculados de alguna manera, se violará el supuesto de independencia.

Comunicación de los resultados

Escrita. Como mínimo, se debe informar el estadístico de prueba t observado, el valor de p y el número de grados de libertad. Por ejemplo, podrías escribir “el pH fue significativamente más alto en el Río A que en el Río B (test de muestras independientes t: t = 6.98, df = 18, P < 0.001)”.

Visual. Los diagramas de caja o los gráficos de columnas con barras de error son formas efectivas de comunicar la variación en una única variable de respuesta continua en comparación con una única variable predictora categórica.

boxplot(pH ~ River_name, data = River_pH, xlab = "River name", ylab = "pH")

Más ayuda

Escribe ?t.test para obtener la ayuda de R sobre esta función.

Quinn y Keough (2002) Experimental design and data analysis for biologists. Cambridge University Press. Capítulo 3: Prueba de hipótesis.

McKillup (2012) Statistics explained. An introductory guide for life scientists. Cambridge University Press. Capítulo 9: Comparación de las medias de una y dos muestras de datos distribuidos normalmente.

Autor: Alistair Poore

Año: 2016

Última actualización: Nov. 2023