Las tablas de contingencia (tambi茅n llamadas a veces tablas din谩micas, tablas cruzadas, o crosstabs como se conocen en ingl茅s) son una de las t茅cnicas estad铆sticas m谩s utilizadas en an谩lisis de datos. En este tutorial comentar茅 algunos conceptos b谩sicos para su an谩lisis y tambi茅n como elaborarlas en jamovi de forma muy f谩cil y sencilla y es que las tablas de contingencia es uno de los an谩lisis m谩s utilizados en investigaci贸n social y de la salud.
¡¡Comenzamos!!
Las tablas de contingencia son tablas de doble entrada, en cuyas entradas (o sea, filas y columnas) se sit煤an las diferentes categor铆as de cada variable. A trav茅s de un an谩lisis de tabla de contingencia podremos saber c贸mo se relacionan dos variables entre s铆.
Por ejemplo, seguimos analizando la base de datos de estudiantes que hemos usado en videos anteriores, en este caso queremos saber si hay relaci贸n entre el rendimiento acad茅mico y si tienen acceso a internet en casa los estudiantes.
En las casillas de la tabla se ubican las frecuencias o n煤mero de casos. Estas frecuencias son:
Observadas: es el n煤mero real de casos en nuestro estudio
Esperadas: N煤mero de casos que deber铆a haber en la casilla si las categor铆as fueran independientes.
De igual manera, podemos agregarle cuanto representan estos valores con respecto a los totales, en porcentaje.
La tabla, adem谩s, com煤nmente es presentada con los totales marginales para cada nivel de las variables y un total general
Para analizar las asociaciones entre dos variables se utilizan diferentes pruebas, la mayor铆a de ellas basan su c谩lculo en determinar si las frecuencias observadas difieren significativamente de las frecuencias esperadas, bajo la hip贸tesis nula de que no existe asociaci贸n.
Aunque la prueba m谩s usada es la de chi-cuadrada, veremos algunas otras apoy谩ndonos en el cuadro de estad铆sticas de jamovi para las tablas de contingencia.
- La Primera es precisamente Chi-cuadrada que, como les comentaba, parte de la hip贸tesis de que las variables son independientes, o sea, no existe relaci贸n entre ellas y ninguna ejerce influencia sobre la otra. Esto significa que si p > 0,05 se acepta esta hip贸tesis nula de independencia. Esta prueba se basa en la diferencia al cuadrado entre las frecuencias observadas y las esperadas. Se debe utilizar siempre que las frecuencias esperadas sean superiores a 5.
El problema surge con el uso indiscriminado de la prueba que, a veces, nos lleva a olvidar que el estad铆stico que utilizamos para el contraste, la ji-cuadrado, sigue una distribuci贸n aproximada que solo es 煤til cuando el n煤mero de observaciones es relativamente grande, pero que pierde efectividad cuando la informaci贸n de que disponemos es escasa, lo que ocurre con cierta frecuencia.
Por eso, una vez construida la tabla de contingencia, comprobamos que no haya celdas con frecuencias menores de 5. Si esto ocurre, tenemos dos formas de solucionar el problema.
- Una es, la segunda opci贸n, Chi-cuadrada con correcci贸n de continuidad (Yates), la cual se usa cuando al menos una celda en la tabla de contingencia tiene una frecuencia esperada menor que 5. Esta correcci贸n se basa en restar 0,5 a la diferencia entre valores observados y esperados al calcular el valor del estad铆stico ji-cuadrado.
- La otra opci贸n es el Test exacto de Fisher que tambi茅n es una correcci贸n de Chi-cuadrada para cuando haya frecuencias esperadas <5, muchos autores consideran que es m谩s segura que la correcci贸n de continuidad. Esta prueba construye todas las tablas de contingencia m谩s extremas que la observada y que cumplen con la direcci贸n de la asociaci贸n de la tabla observada. Una vez calculada esta probabilidad exacta, se comparar谩 con el nivel de significaci贸n estad铆stica y se proceder谩 a resolver el contraste de hip贸tesis.
El problema de estos m茅todos era que son mucho m谩s laboriosos, lo que ha dificultaba su mayor utilizaci贸n hasta que se dispuso de la potencia de c谩lculo actual. Esto explica la predilecci贸n hist贸rica por el uso de las pruebas aproximadas como la de la chi-cuadrado.
· Raz贸n de verosimilitud, es una alternativa al estad铆stico Chi-cuadrado, La diferencia estriba en que en este caso se calcula la raz贸n entre las frecuencias observadas y esperadas y se interpreta igual a Chi-cuadrado.
· Prueba de z para diferencias de proporciones. A trav茅s de esta prueba se determina si existe una diferencia estad铆sticamente significativa entre los porcentajes obtenidos por cada una de las categor铆as de las variables. Es utilizada para tablas de 2 x 2.
Medidas de magnitud de la asociaci贸n
Ahora bien, como X2 y las dem谩s pruebas no indica la magnitud de la asociaci贸n de las variables hay que otros estad铆sticos que complementen el an谩lisis, seg煤n el tipo de variables que presente nuestro estudio, entre los m谩s usados est谩n:
Nominales
· Tablas mayores a 2 x 2: Coeficiente de contingencia y V de Cramer
· Para tablas 2x2: Coeficiente Phi, V de Cramer
Ordinales
· Gamma
· Tau b de Kendall
· Mantel-Haenszel
Coeficiente de contingencia, es una extensi贸n de Phi para el caso de tablas mayores a 2 x 2 pero no es una medida normalizada para este tipo de tablas pues oscila entre 0 para el caso de no asociaci贸n y Cmax (calculado), valor que nunca alcanza el 1.
- 0 indica independencia absoluta
- Seg煤n el valor m谩ximo que puede tomar, se calcula si la asociaci贸n es baja, moderada o alta.
V de Cramer: Obtiene valores entre 0 < V < 1, es tambi茅n una extensi贸n del coeficiente Phi pero en este caso, y a diferencia del Coeficiente de Contingencia, si se encuentra normalizada. El problema de este estad铆stico es que tiende a subestimar el grado de asociaci贸n entre las variables.
· 0 indica nada de relaci贸n
· 0,5 relaci贸n moderada
· 0,7 relaci贸n moderada-alta
· 1 relaci贸n perfecta
El Coeficiente Phi nos permite evaluar el grado de asociaci贸n entre dos variables, pero s贸lo esta normalizada, es decir oscila entre 0 y 1, en tablas de 2 x 2. En tablas con otras caracter铆sticas toma valores >1. En estos casos lo recomendable es utilizar el Coeficiente de Contingencia.
Ordinales
Gamma es una medida del grado y tipo de asociaci贸n entre dos variables cualitativas ordinales que oscila entre -1 ( a medida que aumentan los valores de una variable, los de la otra disminuyen) y 1 (a medida que aumentan los valores de una variable los de la otra tambi茅n aumentan) El 0 indica no asociaci贸n. La desventaja de esta medida es que alcanza tales valores, aunque la asociaci贸n no sea total, es decir, tiende a estar sobrestimada.
Tau-b- de Kendall:
Es una extensi贸n de Gamma pero presenta la ventaja de que alcanza los valores -1 y 1 en situaciones de total asociaci贸n, aunque s贸lo para tablas cuadradas.
Mantel-Haenszel
Es un Test usado para comprobar la posible confusi贸n que puede generar una tercera variable en la relaci贸n entre dos variables que se est谩n analizando.
Se trata de estudiar si existe o no asociaci贸n entre una variable factor y otra variable respuesta, ambas dicot贸micas, cuando se dispone de informaci贸n referida a varios estratos (distintos grupos de edad o sexo, pacientes con diferente sintomatolog铆a, distintos grupos 茅tnicos, distintas dosis de f谩rmaco, etc.).
En estos casos, utilizar el estad铆stico 蠂2 sobre el conjunto de datos agrupados puede arrojar resultados inadecuados. Por otra parte, analizar separadamente cada estrato no proporciona una idea global del efecto de la variable factor.
Medidas comparativas (tablas 2 x 2)
Tambi茅n tenemos medidas comparativas que solo est谩n disponibles para tablas de 2x2
Raz贸n de odds (raz贸n de probabilidades) Es una estad铆stica que cuantifica la fuerza de asociaci贸n entre 2 variables o eventos, esta medida tambi茅n indica el tama帽o del efecto. Es una forma de expresar las probabilidades, con la que se indica la posibilidad con que suceda un evento, en relaci贸n con la probabilidad de otro.
- Los odd ratio oscilan entre 0 e infinito.
- Cuando el odd ratio es 1 indica ausencia de asociaci贸n entre las variables.
- Los valores menores de 1 se帽alan una asociaci贸n negativa entre las variables y los valores mayores de 1 indican asociaci贸n positiva.
- Cuanto m谩s se aleje el odd ratio de 1, m谩s fuerte es la relaci贸n.
- Cuando el odd ratio es menor de 1 es conveniente calcular la inversa, es decir, 1/OR. De esta manera podemos expresar mejor la fortaleza de la relaci贸n.
Log Raz贸n de odds
Esta segunda opci贸n es el logaritmo natural de la raz贸n de odds. La conversi贸n al logaritmo permite obtener resultados sim茅tricos alrededor de 0, lo cual es m谩s f谩cil para su an谩lisis.
Riesgo relativo
Es una medida semejante a Odd ratio (OR), pero es la raz贸n de las proporciones, siendo su principal inconveniente que no est谩 normalizada. De este modo, si las variables son independientes, su valor es 1. Es importante aclarar que si las dos proporciones son muy peque帽as su diferencia ser谩 muy peque帽a, pero podr铆a ser importante.
Diferencia de proporciones
Se utiliza para comprobar si hay diferencias entre estas proporciones, es decir, si se distribuyen homog茅neamente entre los niveles de la variable o por el contrario, si existen diferencias.
No hay comentarios:
Publicar un comentario