Introducción

Básicamente el análisis de correspondencias simple (ACS) permite determinar la existencia de asociaciones entre las categorías o modalidades de dos variables categóricas (también denominadas cualitativas) \(X\) e \(Y\). Las \(n\) observaciones de dichas variables se recogen en una tabla de contingencia, donde las posibles modalidades de \(X\) son \(x_1,...,x_i,...x_I\) y las de \(Y\) son \(y_1,...,y_j,...,y_J\). La modalidad \(x_i\) se repite \(n_{i \cdot}\) veces, la modalidad \(y_j\) se observa \(n_{\cdot j}\) veces y el par \((x_i,y_j)\) un total de \(n_{ij}\) veces.



Conceptos básicos

Perfiles fila y perfiles columna

El ACS se basa en los denominados perfiles fila y perfiles columna. Un perfil fila no es más que la distribución (en términos relativos) que se obtiene a partir de la tabla de contingencia condicionando a la categoría de una fila, esto es, sería la distribución de frecuencias relativas de las modalidades en las columnas condicionada a una modalidad fila. Así, la suma de los elementos de un perfil fila es 1, por lo que, a pesar de tener tantos elementos como columnas, los perfiles fila pertenecen a un subespacio de dimensión \(J – 1\), donde \(J\) es el número de columnas. La expresión de cada frecuencia relativa condicionada es:

\[f_{j/i}=\frac{n_{ij}}{n_{i\cdot }}=\frac{f_{ij}}{f_{i\cdot }}\]

A cada perfil fila \(i\) le corresponde una masa igual a su frecuencia relativa, \(f_{i \cdot}\), que representa el peso de dicho perfil en el análisis.

Del mismo modo, un perfil columna corresponde a la distribución en frecuencias relativas de las modalidades fila condicionada a una modalidad columna. De nuevo, al ser la suma de sus elementos igual a 1, los perfiles columna se ubican en un subespacio de dimensión \(I – 1\), donde \(I\) es el número de filas. Como antes, la expresión de cada frecuencia relativa condicionada viene dada por

\[f_{i/j}=\frac{n_{ij}}{n_{\cdot j }}=\frac{f_{ij}}{f_{\cdot j}}\]


A cada perfil columna \(j\) le corresponde una masa igual a su frecuencia relativa, \(f_{\cdot j}\), que representa el peso de dicho perfil en el análisis.

Finalmente, la dimensión inherente a una tabla de contingencia en la que no coinciden dos perfiles fila ni dos perfiles columna es el mínimo de \(I – 1\) y \(J – 1\) (esto es, el mínimo del número de filas y de columnas, menos 1), y la denotaremos por \(p\).


Centroides

Los elementos del centroide o vector de medias de los perfiles fila coinciden con las frecuencias relativas de las modalidades en las columnas,

\[ C_f=(f_{\cdot 1 },...,f_{\cdot j },...,f_{\cdot J })\]

De forma similar, el centroide (vector de medias) de los perfiles columna está formado por las frecuencias relativas de las modalidades en las filas,

\[ C_c=( f_{1 \cdot},...,f_{i \cdot },...,f_{I \cdot})\]

A partir de una tabla de contingencia en frecuencias relativas (\(f_{ij}\)), sumando por filas se obtiene el centroide de las columnas y sumando por columnas se obtiene el centroide de las filas.



Observe que las frecuencias relativas marginales de las modalidades en las filas, que son las masas de los perfiles fila, constituyen el centroide de los perfiles columnas. Y las frecuencias relativas marginales de las modalidades en las columnas representan tanto las masas de los perfiles columna como el centroide de los perfiles fila.


Distancia chi-cuadrado

La distancia chi-cuadrado es la distancia natural cuando se trabaja con datos cualitativos, entre otros motivos porque mantiene las distancias entre las filas cuando se agrupan dos columnas con el mismo perfil (y las distancias entre las columnas cuando se agrupan dos filas con el mismo perfil). Así, la distancia chí-cuadrado entre el perfil fila \(i\) y el perfil fila \(i'\) es

\[ d_{\chi ^{2}}(i,{i}')=\sqrt{{\sum_{j=1}^{J} \left ( f_{j/i} - f_{j/{i}'} \right )^{2}} \frac{1}{f_{\cdot j}}}\]


Inercia

La inercia total es la cantidad total de información de la tabla de contingencia, esto es, su variabilidad o dispersión. Puede obtenerse como la suma de las inercias de las filas o como la suma de las inercias de las columnas.

La inercia de la fila \(i\) es la masa de esa fila (\(f_{i \cdot}\)) multiplicada por el cuadrado de la distancia chi-cuadrado entre el perfil de fila \(i\) y su centroide, \(d_{\chi ^{2}}^{2}(i,{C}_f)\)

\[Inercia \, fila \, i = f_{i \cdot} \, d_{\chi ^{2}}^{2}(i,{C}_f)\] donde,

\[ d_{\chi ^{2}}^{2}(i,{C}_f)={\sum_{j=1}^{J} \left ( f_{j/i} - f_{\cdot j} \right )^{2}} \frac{1}{f_{\cdot j}}\]

Por lo tanto, la suma de las inercias de las filas resulta ser una media ponderada de los cuadrados de las distancias chi-cuadrado entre los perfiles fila y su centroide,

\[ Inercia \: total=\sum_{i=1}^{I} f_{i\cdot } \, d_{\chi ^{2}}^{2}(i,{C}_f)\]

Este valor también coincide con la suma de las inercias de las columnas, que da lugar al promedio de los cuadrados de las distancias chi-cuadrado de los perfiles columna y su centroide, ponderados por las frecuencias relativas de las correspondientes columnas,

\[Inercia \: total=\sum_{j=1}^{J} f_{\cdot j} \, d_{\chi ^{2}}^{2}(j,{C}_c)=\sum_{j=1}^{J}f_{\cdot j }{\sum_{i=1}^{I} \left ( f_{i/j} - f_{i \cdot } \right )^{2}} \frac{1}{f_{i \cdot}}\]

La inercia total coincide con el valor del estadístico chi-cuadrado del contraste de independencia, \(\chi ^{2}\), dividido por el número total de observaciones, \(n\), donde

\[\chi ^{2}=\sum_{i=1}^{I}{\sum_{j=1}^{J} \frac{\left ( n_{ij} - \frac{n_{i\cdot }n_{\cdot j}}{n} \right )^{2}} {\frac{n_{i\cdot }n_{\cdot j}}{n}}}\]


Reducción de la dimensión

El objetivo del ACS es determinar un espacio de baja dimensión (un plano a ser posible) que recoja la mayor parte de la inercia (variabilidad) de los datos. Es decir, que reproduzca lo mejor posible las distancias entre los perfiles fila y su centroide (y, por tanto, las distancias entre perfiles fila), y análogamente para los perfiles columna.

Realmente, el ACS permite obtener \(p\) coordenadas numéricas (o puntuaciones) para cada fila y cada columna, de modo que la distancia euclidea entre las coordenadas de dos filas (o de dos columnas) coincide con la distancia chi-cuadrado entre los respectivos perfiles fila (o perfiles columna). Pero como los ejes del nuevo espacio, que reciben el nombre de dimensiones, se determinan de modo que estén ordenados de mayor a menor inercia, en general se consigue una buena representación de los perfiles en el subespacio formado por las dos o tres primeras dimensiones, lo que permite la visualización de los mismos.


Interpretación de las contribuciones

A partir de las puntuaciones en el nuevo espacio y de las inercias se pueden calcular las denominadas contribuciones absolutas y relativas.

Contribuciones absolutas

La contribución absoluta de la fila \(i\) a una dimesión concreta es la proporción de inercia de esa dimensión de la que es responsable la fila \(i\). Así, la suma de contribuciones absolutas de todas las filas a esa dimensión es 1. De forma similar se puede definir para las columnas.

Las contribuciones absolutas, junto con las puntuaciones, ayudan a entender el significado de cada dimensión. Para interpretar las dimensiones se identifican las filas (y columnas) que más contribuyen a la inercia de dichas dimensiones, contraponiendo aquellas de puntuación positiva a las de puntuación negativa.


Contribuciones relativas

La contribución relativa de la fila \(i\) a una dimesión concreta se refiere a la proporción de inercia de esa fila que es recogida en esa dimensión. Por tanto, la suma de las contribuciones relativas de una misma fila en las distintas dimensiones es 1. De forma similar se puede definir para las columnas.

Las contribuciones relativas ayudan a determinar si una fila (o columna) está bien representada en el plano formado por dos dimensiones (o en un subespacio de dimensión mayor si así se considera). Esto sucede cuando la suma de las contribuciones relativas de una fila (o columna) en las dimensiones consideradas es alta.


Interpretación del gráfico

Si realmente la pérdida de información es mínima con la reducción de la dimensión llevada a cabo (usualmente el plano de las dos primeras dimensiones), las distancias (chi-cuadrado) entre los perfiles fila estarán bien representadas por las distancias (euclideas) entre los puntos correspondientes a las filas en el gráfico, y lo mismo sucederá con las columnas. Usualmente se utiliza una representación simétrica, en la que se ubican tanto los perfiles fila como los perfiles columna, aunque no tiene sentido interpretar la distancia euclidea en el gráfico entre las modalidades en las filas y las modalidades en las columnas, puesto que pertenecen a espacios diferentes.

En cualquier caso, se interpreta solo la posición en el gráfico de las filas y columnas bien representadas en el espacio de las dimensiones consideradas; esto es, aquellas para las que dicho espacio recoge una parte importante de su inercia. Por tanto, si dos filas (o dos columnas) tienen un perfil semejante y están bien representadas en el plano, su distancia en él será pequeña.

En cambio, las asociaciones entre filas y columnas (bien representadas) no se pueden deducir de su distancia en el gráfico sino más bien de su posición relativa en el sentido del ángulo formado por las semirrectas que parten del origen y pasan por los correspondientes puntos. Así, las modalidades fila próximas a la semirrecta que parte del origen y pasa por una modalidad columna dada, estarán positivamente asociadas con esa modalidad columna. En general, ángulos pequeños indican asociación positiva entre una fila y una columna, mientras que ángulos cercanos a 180º (oposición en el plano) corresponden a una asociación negativa. Finalmente, el origen de coordenadas en el gráfico representa el centroide o vector de medias de las filas, y también el de las columnas, de modo que aquellas filas (o columnas) que están cerca del origen en el gráfico tendrán un perfil muy similar a la media.



Licencia de Creative Commons
Grupo Innovación Docente: Estadística en Ciencias Sociales. Universidad de Murcia.
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.