miércoles, 29 de junio de 2022

Tablas de contingencia 📊 - jamovi - Teoría y práctica - 📈 resultados en APA 7

Las tablas de contingencia (también llamadas a veces tablas dinámicas, tablas cruzadas, o crosstabs como se conocen en inglés) son una de las técnicas estadísticas más utilizadas en análisis de datos. En este tutorial comentaré algunos conceptos básicos para su análisis y también como elaborarlas en jamovi de forma muy fácil y sencilla y es que las tablas de contingencia es uno de los análisis más utilizados en investigación social y de la salud.

¡¡Comenzamos!!

Las tablas de contingencia son tablas de doble entrada, en cuyas entradas (o sea, filas y columnas) se sitúan las diferentes categorías de cada variable. A través de un análisis de tabla de contingencia podremos saber cómo se relacionan dos variables entre sí.

Por ejemplo, seguimos analizando la base de datos de estudiantes que hemos usado en videos anteriores, en este caso queremos saber si hay relación entre el rendimiento académico y si tienen acceso a internet en casa los estudiantes.

En las casillas de la tabla se ubican las frecuencias o número de casos. Estas frecuencias son:

Observadas: es el número real de casos en nuestro estudio

Esperadas: Número de casos que debería haber en la casilla si las categorías fueran independientes.

De igual manera, podemos agregarle cuanto representan estos valores con respecto a los totales, en porcentaje.

La tabla, además, comúnmente es presentada con los totales marginales para cada nivel de las variables y un total general

Para analizar las asociaciones entre dos variables se utilizan diferentes pruebas, la mayoría de ellas basan su cálculo en determinar si las frecuencias observadas difieren significativamente de las frecuencias esperadas, bajo la hipótesis nula de que no existe asociación.

Aunque la prueba más usada es la de chi-cuadrada, veremos algunas otras apoyándonos en el cuadro de estadísticas de jamovi para las tablas de contingencia.

- La Primera es precisamente Chi-cuadrada que, como les comentaba, parte de la hipótesis de que las variables son independientes, o sea, no existe relación entre ellas y ninguna ejerce influencia sobre la otra. Esto significa que si p > 0,05 se acepta esta hipótesis nula de independencia. Esta prueba se basa en la diferencia al cuadrado entre las frecuencias observadas y las esperadas. Se debe utilizar siempre que las frecuencias esperadas sean superiores a 5.

El problema surge con el uso indiscriminado de la prueba que, a veces, nos lleva a olvidar que el estadístico que utilizamos para el contraste, la ji-cuadrado, sigue una distribución aproximada que solo es útil cuando el número de observaciones es relativamente grande, pero que pierde efectividad cuando la información de que disponemos es escasa, lo que ocurre con cierta frecuencia.

Por eso, una vez construida la tabla de contingencia, comprobamos que no haya celdas con frecuencias menores de 5. Si esto ocurre, tenemos dos formas de solucionar el problema.

- Una es, la segunda opción, Chi-cuadrada con corrección de continuidad (Yates), la cual se usa cuando al menos una celda en la tabla de contingencia tiene una frecuencia esperada menor que 5. Esta corrección se basa en restar 0,5 a la diferencia entre valores observados y esperados al calcular el valor del estadístico ji-cuadrado.

- La otra opción es el Test exacto de Fisher que también es una corrección de Chi-cuadrada para cuando haya frecuencias esperadas <5, muchos autores consideran que es más segura que la corrección de continuidad. Esta prueba construye todas las tablas de contingencia más extremas que la observada y que cumplen con la dirección de la asociación de la tabla observada. Una vez calculada esta probabilidad exacta, se comparará con el nivel de significación estadística y se procederá a resolver el contraste de hipótesis.

El problema de estos métodos era que son mucho más laboriosos, lo que ha dificultaba su mayor utilización hasta que se dispuso de la potencia de cálculo actual. Esto explica la predilección histórica por el uso de las pruebas aproximadas como la de la chi-cuadrado.

·       Razón de verosimilitud, es una alternativa al estadístico Chi-cuadrado, La diferencia estriba en que en este caso se calcula la razón entre las frecuencias observadas y esperadas y se interpreta igual a Chi-cuadrado.

·       Prueba de z para diferencias de proporciones. A través de esta prueba se determina si existe una diferencia estadísticamente significativa entre los porcentajes obtenidos por cada una de las categorías de las variables. Es utilizada para tablas de 2 x 2.

Medidas de magnitud de la asociación

Ahora bien, como X2 y las demás pruebas no indica la magnitud de la asociación de las variables hay que otros estadísticos que complementen el análisis, según el tipo de variables que presente nuestro estudio, entre los más usados están:

Nominales

·       Tablas mayores a 2 x 2: Coeficiente de contingencia y V de Cramer

·       Para tablas 2x2: Coeficiente Phi, V de Cramer

Ordinales

·       Gamma

·       Tau b de Kendall

·       Mantel-Haenszel

Coeficiente de contingencia, es una extensión de Phi para el caso de tablas mayores a 2 x 2 pero no es una medida normalizada para este tipo de tablas pues oscila entre 0 para el caso de no asociación y Cmax (calculado), valor que nunca alcanza el 1.

-        0 indica independencia absoluta

-        Según el valor máximo que puede tomar, se calcula si la asociación es baja, moderada o alta.

V de Cramer: Obtiene valores entre 0 < V < 1, es también una extensión del coeficiente Phi pero en este caso, y a diferencia del Coeficiente de Contingencia, si se encuentra normalizada. El problema de este estadístico es que tiende a subestimar el grado de asociación entre las variables.

·       0 indica nada de relación

·       0,5 relación moderada

·       0,7 relación moderada-alta

·       1 relación perfecta

El Coeficiente Phi nos permite evaluar el grado de asociación entre dos variables, pero sólo esta normalizada, es decir oscila entre 0 y 1, en tablas de 2 x 2. En tablas con otras características toma valores >1. En estos casos lo recomendable es utilizar el Coeficiente de Contingencia.

Ordinales

Gamma es una medida del grado y tipo de asociación entre dos variables cualitativas ordinales que oscila entre -1 ( a medida que aumentan los valores de una variable, los de la otra disminuyen) y 1 (a medida que aumentan los valores de una variable los de la otra también aumentan) El 0 indica no asociación. La desventaja de esta medida es que alcanza tales valores, aunque la asociación no sea total, es decir, tiende a estar sobrestimada.

Tau-b- de Kendall:

Es una extensión de Gamma pero presenta la ventaja de que alcanza los valores -1 y 1 en situaciones de total asociación, aunque sólo para tablas cuadradas.

Mantel-Haenszel

Es un Test usado para comprobar la posible confusión que puede generar una tercera variable en la relación entre dos variables que se están analizando.

Se trata de estudiar si existe o no asociación entre una variable factor y otra variable respuesta, ambas dicotómicas, cuando se dispone de información referida a varios estratos (distintos grupos de edad o sexo, pacientes con diferente sintomatología, distintos grupos étnicos, distintas dosis de fármaco, etc.).

En estos casos, utilizar el estadístico χ2 sobre el conjunto de datos agrupados puede arrojar resultados inadecuados. Por otra parte, analizar separadamente cada estrato no proporciona una idea global del efecto de la variable factor.

Medidas comparativas (tablas 2 x 2)

También tenemos medidas comparativas que solo están disponibles para tablas de 2x2

Razón de odds (razón de probabilidades) Es una estadística que cuantifica la fuerza de asociación entre 2 variables o eventos, esta medida también indica el tamaño del efecto. Es una forma de expresar las probabilidades, con la que se indica la posibilidad con que suceda un evento, en relación con la probabilidad de otro.

-        Los odd ratio oscilan entre 0 e infinito.

-        Cuando el odd ratio es 1 indica ausencia de asociación entre las variables.

-        Los valores menores de 1 señalan una asociación negativa entre las variables y los valores mayores de 1 indican asociación positiva.

-        Cuanto más se aleje el odd ratio de 1, más fuerte es la relación.

-        Cuando el odd ratio es menor de 1 es conveniente calcular la inversa, es decir, 1/OR. De esta manera podemos expresar mejor la fortaleza de la relación.

Log Razón de odds

Esta segunda opción es el logaritmo natural de la razón de odds. La conversión al logaritmo permite obtener resultados simétricos alrededor de 0, lo cual es más fácil para su análisis.

Riesgo relativo

Es una medida semejante a Odd ratio (OR), pero es la razón de las proporciones, siendo su principal inconveniente que no está normalizada. De este modo, si las variables son independientes, su valor es 1. Es importante aclarar que si las dos proporciones son muy pequeñas su diferencia será muy pequeña, pero podría ser importante.

Diferencia de proporciones

Se utiliza para comprobar si hay diferencias entre estas proporciones, es decir, si se distribuyen homogéneamente entre los niveles de la variable o por el contrario, si existen diferencias.


No hay comentarios:

Publicar un comentario