El Centro Regional de Estadística de Murcia (CREM) proporciona información sobre infraestructura de empresas según el Directorio de Actividades Económicas de la Región de Murcia (DAERM). En particular, recoge información referente al número de establecimientos en los distintos municipios de la Región de Murcia según sector de actividad, entendiendo por establecimiento cualquier unidad local de actividad económica (esto es, una empresa o una parte de una empresa: taller, fábrica, almacén, oficina, mina, depósito…). A partir de los datos correspondientes al año 2013 se desea estudiar si hay comarcas especializadas en determinados sectores.


En una página web del CREM se pueden encontrar los datos distribuidos por municipios. La información por municipio se ha agrupado en las nueve comarcas reconocidas en el Atlas global de la Región de Murcia, publicado en 2007, y se han recogido en el fichero de datos.

Para una descripción más detallada de los sectores económicos considerados en el DAERM puede ir a la página 5 del documento sobre metodología donde aparecen las secciones del CNAE 2009 incluidas en cada sector económico.


Tabla de contingencia con los datos

En primer lugar, hay que leer los datos (el fichero .csv que los contiene debe descargarlo en su directorio de trabajo), que corresponden al número de establecimientos por comarca y sector económico en la Región de Murcia en 2013. Se utiliza la función read.csv2, en la que se especifica que la primera fila del fichero contiene los nombres de las variables:

establec <- read.csv2("establec.csv", row.names = 1)    
establec
##                         Agricultura Industria Energia Construccion
## Altiplano                       104      1732     164         1012
## Comarca_Lorca                   418      1249     265         4310
## Bajo_Guadalentin                180       836     192         1710
## Campo_Cartagena                 482      2454     283         6028
## Area_metropolitana              438      6127     688        12637
## Noroeste                        118      1242     160         1390
## Cuenca_Abanilla_Fortuna          22       292      54          286
## Cuenca_Mula                      30       156      70          430
## Vega_Segura                      86      1252     224         1828
##                         Comercio Otros_servicios
## Altiplano                   2970            3762
## Comarca_Lorca               8408           13463
## Bajo_Guadalentin            4268            6086
## Campo_Cartagena            16353           29929
## Area_metropolitana         36066           69546
## Noroeste                    3624            5028
## Cuenca_Abanilla_Fortuna      724             936
## Cuenca_Mula                  928            1376
## Vega_Segura                 4892            5774

Se observa que la tabla de contingencia que recoge la información sobre el número de establecimientos según comarca y sector económico tiene 9 filas (comarcas) y 6 columnas (sectores de actividad). Por tanto, el número máximo de dimensiones que se pueden obtener en el análisis de correspondencias serán 5 (mínimo del número de filas y columnas menos uno).

Existen varias librerías en R que permiten realizar un análisis de correspondencias simple, entre las que destacan ca y FactoMineR. Puesto que con la segunda es más sencillo acceder a ciertos resultados que ayudan a interpretar un ACS, especialmente cuando se dispone de un gran número de filas y/o columnas, se trabaja sobre todo con ella, aunque al final se incluye también alguna referencia a la primera, ya que permite representar un gráfico que, en cierta medida, facilita la interpretación de las asociaciones.


Resultados generales

En primer lugar, se carga la librería FactoMineR, con la función library (antes habría que instalarla con install.packages), y se realiza el ACS simple con la función CA. Este análisis proporciona un gráfico y unos resultados, que se han guardado en un objeto de R que hemos denominado establec.fmr. Un resumen de los mismos puede obtenerse con la función summary:

library("FactoMineR")
establec.fmr <- CA(establec)

summary(establec.fmr)
## 
## Call:
## CA(X = establec) 
## 
## The chi square of independence between the two variables is equal to 7315.64 (p-value =  0 ).
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5
## Variance               0.021   0.006   0.001   0.000   0.000
## % of var.             73.951  21.177   3.287   0.851   0.734
## Cumulative % of var.  73.951  95.128  98.415  99.266 100.000
## 
## Rows
##                           Iner*1000    Dim.1    ctr   cos2    Dim.2    ctr
## Altiplano               |    10.743 |  0.513 47.432  0.908 | -0.151 14.299
## Comarca_Lorca           |     3.140 |  0.013  0.082  0.005 |  0.167 50.355
## Bajo_Guadalentin        |     1.122 |  0.099  2.387  0.438 |  0.104  9.238
## Campo_Cartagena         |     1.254 | -0.070  5.094  0.835 |  0.012  0.524
## Area_metropolitana      |     4.068 | -0.078 13.945  0.705 | -0.049 19.516
## Noroeste                |     2.693 |  0.247 13.049  0.996 | -0.011  0.097
## Cuenca_Abanilla_Fortuna |     1.192 |  0.361  5.571  0.961 | -0.012  0.022
## Cuenca_Mula             |     0.534 |  0.089  0.437  0.168 |  0.148  4.213
## Vega_Segura             |     3.061 |  0.215 12.002  0.806 |  0.044  1.736
##                           cos2    Dim.3    ctr   cos2  
## Altiplano                0.078 |  0.063 15.934  0.014 |
## Comarca_Lorca            0.944 |  0.031 11.227  0.033 |
## Bajo_Guadalentin         0.485 | -0.014  1.119  0.009 |
## Campo_Cartagena          0.025 |  0.021 10.364  0.076 |
## Area_metropolitana       0.283 | -0.008  3.091  0.007 |
## Noroeste                 0.002 |  0.009  0.381  0.001 |
## Cuenca_Abanilla_Fortuna  0.001 | -0.036  1.240  0.010 |
## Cuenca_Mula              0.464 | -0.091 10.207  0.175 |
## Vega_Segura              0.033 | -0.089 46.438  0.139 |
## 
## Columns
##                           Iner*1000    Dim.1    ctr   cos2    Dim.2    ctr
## Agricultura             |     2.297 |  0.248  2.131  0.191 |  0.441 23.572
## Industria               |    14.279 |  0.470 62.689  0.903 | -0.151 22.445
## Energia                 |     2.462 |  0.487  9.193  0.768 |  0.165  3.712
## Construccion            |     2.622 |  0.051  1.411  0.111 |  0.141 37.814
## Comercio                |     0.786 |  0.035  1.778  0.465 |  0.021  2.169
## Otros_servicios         |     5.361 | -0.095 22.799  0.875 | -0.034 10.288
##                           cos2    Dim.3    ctr   cos2  
## Agricultura              0.604 |  0.240 45.011  0.179 |
## Industria                0.093 |  0.033  6.765  0.004 |
## Energia                  0.089 | -0.163 23.245  0.086 |
## Construccion             0.849 |  0.004  0.172  0.001 |
## Comercio                 0.162 | -0.025 20.179  0.235 |
## Otros_servicios          0.113 |  0.009  4.628  0.008 |

Esta salida ofrece la información de las primeras 10 modalidades de las filas y de las columnas. En nuestro ejemplo, al tener menos de 10 en ambos casos, es suficiente. Si no fuera así, se podría solicitar la información para cualquier número de filas y columnas con el argumento nbelements (en particular, nbelements = Inf si se desean todas las filas y columnas). Por otra parte, proporciona solo la información relativa a las 3 primeras dimensiones, que en general es suficiente, pero eso también se podría cambiar, con el argumento ncp.

El gráfico y la información aportada por esta salida permiten interpretar con bastante fiabilidad los resultados del ACS, si bien siempre es interesante corroborarlos con los perfiles fila y los perfiles columna, que habrá que calcular, puesto que la librería no los proporciona. En cualquier caso, se puede acceder a la información recogida en el objeto establec.fmr, la misma que se obtiene al aplicarle la función summary junto con otra adicional, para trabajar con ella en caso de interés, como veremos más adelante.

La primera parte de esta salida refleja el contraste de independencia entre las dos variables consideradas, la comarca y el sector económico, aunque al no corresponder en este caso los datos a una muestra aleatoria simple, no debería interpretarse. En general, un rechazo en dicho contraste evidenciaría una relación significativa entre ambas variables, de modo que la aplicación de un ACS permitiría detectar las asociaciones existentes entre las modalidades, si bien el ACS en ocasiones también puede arrojar luz sobre relaciones menos fuertes (no estadísticamente significativas). Este contraste no se proporciona en la librería ca.

En segundo lugar, en la salida resumen anterior se aprecian las inercias (Variance) de las 5 dimensiones existentes. En este caso el plano formado por las dos primeras dimensiones resumiría bastante bien la inercia de los datos, puesto que solo con ellas se consigue explicar el 95.128% de la inercia total (porcentaje de inercia acumulada por las dos primeras dimensiones).

Finalmente, se aporta la siguiente información para las filas (y columnas): inercia multiplicada por 1000 (Iner*1000); coordenada o puntuación de la fila (columna) en las tres primeras dimensiones (Dim.1, Dim.2 y Dim.3); proporcion de la inercia de la correspondiente dimensión explicada por la fila (columna), también llamada contribución absoluta (ctr) y proporción de inercia de la fila (columna) explicada por la correpondiente dimensión (cos2), también llamada contribución relativa.

NOTA: La forma de acceder a cualquier parte de la información anterior, a partir del objeto establec.fmr, para realizar cálculos adicionales, se explicará en el último epígrafe Opcional / Avanzado.


Observamos que el Altiplano tiene mayor inercia (0.010743) o variabilidad respecto al centroide que el resto de comarcas, siendo recogida casi la totalidad por el plano de las dos primeras dimensiones, en concreto, un 98.6% (0.986 = 0.908 + 0.078). De hecho, la primera dimensión sola ya recoge el 90.8% de su inercia. La Cuenca de Mula es la que menor inercia posee (0.000534) y también la peor explicada por dicho plano, que recoge un 63.2% de la misma. En particular, la segunda dimensión explica mayor porcentaje de su inercia (46.4%) que la primera (16.8%).

En cuanto a los sectores, la inercia de la industria (0.014279) es muy superior a la del resto y está muy bien representada en el plano de las dos primeras dimensiones (99.6% de su inercia, aunque la primera ya recoge el 90.3%), mientras que el comercio es el que menos inercia presenta (0.000786) y también el peor representado en dicho plano (recoge el 62.7% de su inercia).

En cualquier caso, tanto las comarcas como los sectores están relativamente bien explicados por las dos primeras dimensiones, porque en todos los casos se explica más del 50% de la inercia.

Las puntuaciones o coordenadas de cada fila y columna en las dos primeras dimensiones permiten dibujar el gráfico bidimensional que mejor resume las relaciones existentes entre la filas (comarcas) y las columnas (sectores de actividad) de la tabla.


Interpretación de las dimensiones


Para los sectores económicos (columnas)

La primera dimensión opone otros servicios (con puntuación negativa, -0.095), al resto de sectores, especialmente a la industria (con coordenada positiva, 0.470), que es el sector que más contribuye en esta primera dimensión (explica el 62.689% de la inercia de la dimensión), y también a la energía (coordenada positiva, 0.487 y contribución absoluta de 9.193%). De hecho, tanto otros servicios como industria y energía vienen explicados sobre todo por la primera dimensión (sus contribuciones relativas en esa dimensión son 87.5%, 90.3% y 76.8%, respectivamente). Por otra parte, los sectores que más contribuyen a la segunda dimensión son la construcción (37.814%) y la agricultura (23.572%), con puntuaciones positivas (0.141 y 0.441, respectivamente), correspondiendo la puntuación más negativa a la industria (-0.151), con una contribución absoluta del 22.445%. Construcción y agricultura son también los sectores mejor explicados por la segunda dimensión (84.9% y 60.4%, respectivamente).

Para las comarcas (filas)

La comarca que más contribuye a la primera dimensión es el Altiplano (47.432%, con puntuación positiva: 0.513) y, en menor medida, el área metropolitana (13.945%, con puntuación negativa: -0.078). A la dimensión 2 contribuye sobre todo la comarca de Lorca (50.355%, con puntuación positiva: 0.167) y el área metropolitana y el Altiplano algo menos (19.516% y 14.299%, con coordenadas negativas: -0.049 y -0.151). El Altiplano viene explicada sobre todo por la primera dimensión (contribución relativa de 90.8%), al igual que el área metropolitana (70.5%), mientras que la comarca de Lorca viene explicada sobre todo por la segunda (94.4%).

NOTA: Las contribuciones absolutas de las filas (o las columnas) a una dimensión dependen de la masa de la fila (o la columna) y del cuadrado de la coordenada en dicha dimensión, ambas multiplicando en el numerador, así como de la inercia de la dimensión (en el denominador). Por ese motivo, en ocasiones una fila (o columna) con una puntuación en valor absoluto menor que otra tiene mayor contribución, debido a su mayor masa.


Perfiles fila y perfiles columna

El análisis de correspondencias trabaja con los perfiles fila y los perfiles columna, que no son más que distribuciones condicionadas. El perfil fila de una comarca es la distribución, en frecuencias relativas, de los establecimientos por sectores para dicha comarca (proporción de establecimientos en cada sector para una comarca dada). Aunque FactoMineR no los proporciona en su salida, se pueden calcular de manera relativamente sencilla:

perfiles.fila <- prop.table(as.matrix(establec), 1)
perfiles.fila
##                         Agricultura  Industria     Energia Construccion
## Altiplano               0.010673235 0.17775041 0.016830870    0.1038588
## Comarca_Lorca           0.014868566 0.04442784 0.009426244    0.1533099
## Bajo_Guadalentin        0.013562387 0.06298975 0.014466546    0.1288427
## Campo_Cartagena         0.008680149 0.04419312 0.005096436    0.1085559
## Area_metropolitana      0.003489984 0.04881994 0.005481984    0.1006916
## Noroeste                0.010205847 0.10742086 0.013838436    0.1202214
## Cuenca_Abanilla_Fortuna 0.009507347 0.12618842 0.023336214    0.1235955
## Cuenca_Mula             0.010033445 0.05217391 0.023411371    0.1438127
## Vega_Segura             0.006118384 0.08907228 0.015936255    0.1300512
##                          Comercio Otros_servicios
## Altiplano               0.3048030       0.3860837
## Comarca_Lorca           0.2990787       0.4788888
## Bajo_Guadalentin        0.3215793       0.4585594
## Campo_Cartagena         0.2944948       0.5389796
## Area_metropolitana      0.2873739       0.5541426
## Noroeste                0.3134406       0.4348729
## Cuenca_Abanilla_Fortuna 0.3128781       0.4044944
## Cuenca_Mula             0.3103679       0.4602007
## Vega_Segura             0.3480364       0.4107854

Observe que los elementos en cada fila de la matriz correspondiente a los perfiles fila suman 1. Por ejemplo, en el Altiplano se observa que el 30.48% de los establecimientos son comercios, el 38.61% de otros servicios y el 17.78% de la industria:

perfiles.fila["Altiplano", ]
##     Agricultura       Industria         Energia    Construccion 
##      0.01067323      0.17775041      0.01683087      0.10385878 
##        Comercio Otros_servicios 
##      0.30480296      0.38608374

El ACS se basa en las distancias de los perfiles a su centroide. El centroide de los perfiles fila (comarcas) está formado por las frecuencias relativas marginales de las columnas (sectores económicos), en este caso, la proporción de establecimientos en cada sector económico en la Región de Murcia:

establec.fmr$call$marge.col
##     Agricultura       Industria         Energia    Construccion 
##     0.007138459     0.058308816     0.007982302     0.112630283 
##        Comercio Otros_servicios 
##     0.297371162     0.516568978

Se observa que el 81.39% de los establecimientos de la Región de Murcia pertenecen al sector servicios (comercio y otros servicios), el 11.26% a la construcción y solo un 5.83 % a la industria. La agricultura y la energía presentan menos de un 1% cada una.

Podemos comparar ahora los perfiles fila con su centroide, en términos relativos, calculando el cociente entre cada elemento de un perfil fila y el correspondiente elemento del centroide, de modo que si el cociente es mayor que 1 en dicha comarca el porcentaje de establecimientos en el sector considerado es mayor que la media. Observamos, por ejemplo, que el porcentaje de establecimientos de la industria en el Altiplano es algo más del triple del porcentaje de establecimientos de la industria en la Región. Por otra parte, el porcentaje de establecimientos agrícolas en el área metropolitana es algo menos de la mitad del porcentaje de establecimientos agrícolas en la Región.

t(t(perfiles.fila) / establec.fmr$call$marge.col)     # para poder dividir cada perfil fila entre el centroide de los perfiles fila es necesario trasponer la matriz, ya que el operador / entre una matriz y un vector divide todas las columnas de la matriz entre el vector (finalmente el resultado se vuelve a trasponer para tener la misma disposición original de filas y columnas)
##                         Agricultura Industria   Energia Construccion
## Altiplano                 1.4951736 3.0484311 2.1085233    0.9221213
## Comarca_Lorca             2.0828819 0.7619404 1.1808929    1.3611779
## Bajo_Guadalentin          1.8999041 1.0802784 1.8123276    1.1439435
## Campo_Cartagena           1.2159696 0.7579150 0.6384670    0.9638251
## Area_metropolitana        0.4888988 0.8372651 0.6867673    0.8940013
## Noroeste                  1.4296989 1.8422748 1.7336398    1.0673987
## Cuenca_Abanilla_Fortuna   1.3318486 2.1641396 2.9234943    1.0973559
## Cuenca_Mula               1.4055478 0.8947860 2.9329097    1.2768565
## Vega_Segura               0.8571015 1.5275954 1.9964485    1.1546737
##                          Comercio Otros_servicios
## Altiplano               1.0249916       0.7474002
## Comarca_Lorca           1.0057422       0.9270568
## Bajo_Guadalentin        1.0814070       0.8877021
## Campo_Cartagena         0.9903273       1.0433837
## Area_metropolitana      0.9663812       1.0727368
## Noroeste                1.0540383       0.8418486
## Cuenca_Abanilla_Fortuna 1.0521469       0.7830404
## Cuenca_Mula             1.0437054       0.8908794
## Vega_Segura             1.1703772       0.7952189


De forma análoga, el perfil columna de un sector es la distribución, en frecuencias relativas, de los establecimientos de dicho sector por comarcas (proporción de establecimientos en cada comarca para un sector dado):

perfiles.columna <- prop.table(as.matrix(establec), 2)
perfiles.columna
##                         Agricultura  Industria    Energia Construccion
## Altiplano                0.05537806 0.11290743 0.07809524  0.034153420
## Comarca_Lorca            0.22257721 0.08142112 0.12619048  0.145455773
## Bajo_Guadalentin         0.09584665 0.05449804 0.09142857  0.057709831
## Campo_Cartagena          0.25665602 0.15997392 0.13476190  0.203435591
## Area_metropolitana       0.23322684 0.39941330 0.32761905  0.426479025
## Noroeste                 0.06283280 0.08096480 0.07619048  0.046910330
## Cuenca_Abanilla_Fortuna  0.01171459 0.01903520 0.02571429  0.009652054
## Cuenca_Mula              0.01597444 0.01016949 0.03333333  0.014511829
## Vega_Segura              0.04579340 0.08161669 0.10666667  0.061692147
##                            Comercio Otros_servicios
## Altiplano               0.037963519     0.027682119
## Comarca_Lorca           0.107473828     0.099065489
## Bajo_Guadalentin        0.054554983     0.044782929
## Campo_Cartagena         0.209029438     0.220228109
## Area_metropolitana      0.461007503     0.511743929
## Noroeste                0.046323163     0.036997792
## Cuenca_Abanilla_Fortuna 0.009254407     0.006887417
## Cuenca_Mula             0.011862002     0.010125092
## Vega_Segura             0.062531157     0.042487123

Ahora son los elementos de cada columna en la matriz de perfiles columna los que suman 1. Por ejemplo, los establecimientos del sector industrial en la Región de Murcia se concentran sobre todo en el área metropolitana (39.94%), el campo de Cartagena (16%) y el Altiplano (11.29%):

perfiles.columna[ , "Industria"]
##               Altiplano           Comarca_Lorca        Bajo_Guadalentin 
##              0.11290743              0.08142112              0.05449804 
##         Campo_Cartagena      Area_metropolitana                Noroeste 
##              0.15997392              0.39941330              0.08096480 
## Cuenca_Abanilla_Fortuna             Cuenca_Mula             Vega_Segura 
##              0.01903520              0.01016949              0.08161669

El centroide de los perfiles columna (sectores) está constituido por las frecuencias relativas marginales de las filas (comarcas), en este caso, la proporción de establecimientos en cada comarca:

establec.fmr$call$marge.row
##               Altiplano           Comarca_Lorca        Bajo_Guadalentin 
##             0.037037882             0.106860218             0.050448149 
##         Campo_Cartagena      Area_metropolitana                Noroeste 
##             0.211071073             0.477045180             0.043948275 
## Cuenca_Abanilla_Fortuna             Cuenca_Mula             Vega_Segura 
##             0.008795737             0.011365278             0.053428209

Así, cerca del 80% de los establecimientos de la Región se reparten entre el área metropolitana (47.70%), el campo de Cartagena (21.11%) y la comarca de Lorca (10.69%).

Estableciendo una comparativa en términos relativos entre los perfiles columna y su centroide, análoga a la realizada anteriormente para los perfiles file, se obtienen exactamente los mismos cocientes:

perfiles.columna / establec.fmr$call$marge.row     
##                         Agricultura Industria   Energia Construccion
## Altiplano                 1.4951736 3.0484311 2.1085233    0.9221213
## Comarca_Lorca             2.0828819 0.7619404 1.1808929    1.3611779
## Bajo_Guadalentin          1.8999041 1.0802784 1.8123276    1.1439435
## Campo_Cartagena           1.2159696 0.7579150 0.6384670    0.9638251
## Area_metropolitana        0.4888988 0.8372651 0.6867673    0.8940013
## Noroeste                  1.4296989 1.8422748 1.7336398    1.0673987
## Cuenca_Abanilla_Fortuna   1.3318486 2.1641396 2.9234943    1.0973559
## Cuenca_Mula               1.4055478 0.8947860 2.9329097    1.2768565
## Vega_Segura               0.8571015 1.5275954 1.9964485    1.1546737
##                          Comercio Otros_servicios
## Altiplano               1.0249916       0.7474002
## Comarca_Lorca           1.0057422       0.9270568
## Bajo_Guadalentin        1.0814070       0.8877021
## Campo_Cartagena         0.9903273       1.0433837
## Area_metropolitana      0.9663812       1.0727368
## Noroeste                1.0540383       0.8418486
## Cuenca_Abanilla_Fortuna 1.0521469       0.7830404
## Cuenca_Mula             1.0437054       0.8908794
## Vega_Segura             1.1703772       0.7952189

Esto es, el porcentaje de establecimientos industriales que se ubican en el Altiplano es algo más del triple del porcentaje de establecimientos de la Región establecidos en el Altiplano. Por otra parte, el porcentaje de establecimientos agrícolas en el área metropolitana es algo menos de la mitad del porcentaje de establecimientos de la Región ubicados en dicha área.

Todas estas comparativas de perfiles con sus centroides van a ayudarnos a interpretar las asociaciones entre filas y columnas mostradas en el gráfico del análisis de correspondencias.


Interpretación del gráfico

Recuerde que se puede interpretar fiablemente la posición en el gráfico solo de aquellas filas y columnas que se encuentran relativamente bien representadas en este plano. En nuestro caso, todas las comarcas están muy bien representadas (más del 80% de su inercia), excepto la Cuenca de Mula, que tampoco está muy mal explicada (63.3%). Algo similar sucede con los sectores, donde el peor explicado es el comercio (62.7%).

El gráfico básico proporcionado por FactoMineR se puede modificar, para facilitar su interpretación, como se explica en el último epígrafe Opcional / Avanzado. Pero como el gráfico de la librería ca permite dibujar semirrectas que unen el origen con los perfiles fila y/o perfiles columna, que resultan de ayuda en la interpretación, usaremos dicho gráfico para determinar las asociaciones entre las comarcas y los sectores de actividad correspondientes a los establecimientos.

Con esta librería el gráfico no se proporciona por defecto con la salida de la función ca, sino que hay que solicitarlo aplicando plot al objeto obtenido:

library("ca")
establec.ca <- ca(establec)
summary(establec.ca)   # no aporta nada frente a lo análogo en FactoMineR
## 
## Principal inertias (eigenvalues):
## 
##  dim    value      %   cum%   scree plot               
##  1      0.020564  74.0  74.0  ******************       
##  2      0.005889  21.2  95.1  *****                    
##  3      0.000914   3.3  98.4  *                        
##  4      0.000237   0.9  99.3                           
##  5      0.000204   0.7 100.0                           
##         -------- -----                                 
##  Total: 0.027807 100.0                                 
## 
## 
## Rows:
##     name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1 | Altp |   37  986  386 | -513 908 474 |  151  78 143 |
## 2 | Cm_L |  107  950  113 |  -13   5   1 | -167 944 504 |
## 3 | Bj_G |   50  922   40 |  -99 438  24 | -104 485  92 |
## 4 | Cm_C |  211  860   45 |   70 835  51 |  -12  25   5 |
## 5 | Ar_m |  477  988  146 |   78 705 139 |   49 283 195 |
## 6 | Nrst |   44  998   97 | -247 996 130 |   11   2   1 |
## 7 | C_A_ |    9  962   43 | -361 961  56 |   12   1   0 |
## 8 | Cn_M |   11  633   19 |  -89 168   4 | -148 464  42 |
## 9 | Vg_S |   53  840  110 | -215 806 120 |  -44  33  17 |
## 
## Columns:
##     name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1 | Agrc |    7  795   83 | -248 191  21 | -441 604 236 |
## 2 | Inds |   58  995  514 | -470 903 627 |  151  93 224 |
## 3 | Enrg |    8  857   89 | -487 768  92 | -165  89  37 |
## 4 | Cnst |  113  960   94 |  -51 111  14 | -141 849 378 |
## 5 | Cmrc |  297  627   28 |  -35 465  18 |  -21 162  22 |
## 6 | Otr_ |  517  988  193 |   95 875 228 |   34 113 103 |
plot(establec.ca)

En este caso el aspecto del gráfico “a priori” es distinto al de FactoMineR porque las puntuaciones obtenidas ahora en las dos primeras dimensiones son las opuestas a las anteriores, pero esto realmente no cambia la posición relativas de las filas y las columnas. Son interesantes los siguientes argumentos: mass, para determinar si la masa de un perfil fila o columna se representa por el tamaño del correspondiente símbolo; contrib, para determinar si valores más altos de las contribuciones (absolutas o relativas) se representan con mayor intensidad de color; y arrows, para determinar si dibujar semirrectas desde el origen a los puntos de las filas y/o las columnas:

plot(establec.ca, mass = c(TRUE, TRUE), contrib = c("relative", "relative"), arrows = c(FALSE, TRUE))  

Como en el gráfico aparecen algunas etiquetas superpuestas, sería aconsejable acortar los nombres de las comarcas para intentar obtener un gráfico algo más claro:

dimnames(establec)
## [[1]]
## [1] "Altiplano"               "Comarca_Lorca"          
## [3] "Bajo_Guadalentin"        "Campo_Cartagena"        
## [5] "Area_metropolitana"      "Noroeste"               
## [7] "Cuenca_Abanilla_Fortuna" "Cuenca_Mula"            
## [9] "Vega_Segura"            
## 
## [[2]]
## [1] "Agricultura"     "Industria"       "Energia"         "Construccion"   
## [5] "Comercio"        "Otros_servicios"
dimnames(establec)[[1]] <- c("Altiplano", "C.Lorca", "B.Guadalentin", "C.Cartagena", "A.metropolitana", "Noroeste", "Abanilla.Fortuna", "C.Mula", "V.Segura")
establec.ca <- ca(establec)

plot(establec.ca, mass = c(TRUE, TRUE), contrib = c("relative", "relative"), arrows = c(FALSE, TRUE))  

En un gráfico de este tipo, el origen representa al centroide, de modo que los puntos muy cercanos tendrán un perfil parecido al del centroide. Esto sucede con el comercio, cuyos establecimientos se reparten entre las comarcas en proporción similar a como se reparte el total de establecimientos de la Región de Murcia.

perfiles.columna[ , "Comercio"]
##               Altiplano           Comarca_Lorca        Bajo_Guadalentin 
##             0.037963519             0.107473828             0.054554983 
##         Campo_Cartagena      Area_metropolitana                Noroeste 
##             0.209029438             0.461007503             0.046323163 
## Cuenca_Abanilla_Fortuna             Cuenca_Mula             Vega_Segura 
##             0.009254407             0.011862002             0.062531157
establec.fmr$call$marge.row
##               Altiplano           Comarca_Lorca        Bajo_Guadalentin 
##             0.037037882             0.106860218             0.050448149 
##         Campo_Cartagena      Area_metropolitana                Noroeste 
##             0.211071073             0.477045180             0.043948275 
## Cuenca_Abanilla_Fortuna             Cuenca_Mula             Vega_Segura 
##             0.008795737             0.011365278             0.053428209

En cuanto a las posiciones relativas de las comarcas, la cuenca de Mula y el Bajo Guadalentín están cerca en el gráfico, además en el mismo cuadrante, con coordenadas de los mismos signos, y como ambas comarcas están relativamente bien representadas en el plano de las dos primeras dimensiones, sus perfiles son similares:

perfiles.fila["Cuenca_Mula", ]
##     Agricultura       Industria         Energia    Construccion 
##      0.01003344      0.05217391      0.02341137      0.14381271 
##        Comercio Otros_servicios 
##      0.31036789      0.46020067
perfiles.fila["Bajo_Guadalentin", ]
##     Agricultura       Industria         Energia    Construccion 
##      0.01356239      0.06298975      0.01446655      0.12884268 
##        Comercio Otros_servicios 
##      0.32157926      0.45855937

En cambio, en el caso de las columnas realmente no hay dos sectores que estén tan cercanos.

En cuanto a las relaciones entre comarca y sectores (filas y columnas):

  • Lo que más claramente se observa en el gráfico es la asociación (positiva) de la comarca del Altiplano con el sector de la industria, ya detectada en el epígrafe dedicado a perfiles fila y columna. En el Altiplano, los sectores con mayor número de establecimientos son el comercio (30.48%) y otros servicios (38.61%), pero su porcentaje de establecimientos en la industria es superior al del resto de comarcas (17.78% frente a la media regional de 5.83%). Visto desde otra perspectiva, el 11.29% de las establecimientos de la industria se ubican en el Altiplano, mientras que a esta comarca solo corresponde el 3.71% de las establecimientos en Región de Murcia.

  • Otra asociación (positiva) que se desprende del gráfico es la del área metropolitana y el campo de Cartagena con el sector de otros servicios distintos del comercio. Si bien en todas las comarcas ese es siempre el sector con más establecimientos (el 51,66% de los establecimientos de la Región son de ese sector), el porcentaje en al área metropolitana (55.41%) y en el campo de Cartagena (53.90%) es algo superior (de hecho son las únicas dos comarcas con porcentaje superior a la media regional). Por otra parte, de todos los establecimientos dedicados a otros servicios en la Región el 51.17% se ubican en el área metropolitana y el 22.02% en el campo de Cartagena (en total, aglutinan el 73.19% de establecimientos del sector), mientras que a dichas comarcas corresponden, respectivamente, el 47.70% y el 21.11% del total de establecimientos de la Región.

  • Además, estas dos comarcas están negativamente asociadas con el sector de la energía (situación opuesta en el gráfico), puesto que son las únicas con un porcentaje de establecimientos en ese sector (0.55% para el área metropolitana y 0.51% para el campo de Cartagena) menor que la media de la Región (1.68%). Análogamente, de todos los establecimientos dedicados a la energía en la Región el 32.76% se ubican en el área metropolitana y el 13.48% en el campo de Cartagena, si bien a dichas comarcas corresponden porcentajes superiores del total de establecimientos de la Región (47.70% y 21.11%, respectivamente, como ya se ha visto).

  • También el área metropolitana está negativamente asociada con la agricultura (las dos semirrectas que parten del origen hacia cada uno de esos puntos forman un ángulo de casi 180º), ya que su porcentaje de establecimientos en ese sector (0.35%) es menor que la media de la Región (0.71%). Del mismo modo, el 23.32% de los establecimientos agrícolas de la Región se ubican en el área metropolitana aunque esta comarca reúne al 47.70% de total de establecimientos de la Región.

  • Y el campo de Cartagena se asocia negativamente a la industria, con un porcentaje de establecimientos en ese sector (4.42%) inferior a la media regional (5.83%). Visto de otro modo, solo el 16% de los establecimientos industriales de la Región se ubica en el campo de Cartagena aunque esta comarca reúne al 21.11% del total de establecimientos de la Región.

  • Otra asociación (positiva) es la de la Vega del Segura con el sector de la energía. Como en todas las comarcas, en la Vega del Segura la mayoría de las establecimientos son comercios (34.80%) u otros servicios (41.08%), pero su porcentaje de establecimientos relacionados con la energía es superior al del resto de comarcas (1.59% frente a la media regional de 0.80%). Además, el 10.67% de las establecimientos en el sector de la energía se concentran en la Vega del Segura, mientras que a esta comarca solo corresponde el 5.34% de las establecimientos de la Región.

  • También la comarca del Bajo Guadalentín presenta una asociación con el sector de la energía, pero algo más débil (su porcentaje de establecimientos relacionados con la energía es 1.45% frente a la media regional de 0.80%, y el 9.14% de las establecimientos en el sector de la energía se concentran dicha comarca frente al 5.34% que representan sus establecimientos, de cualquier tipo, sobre el total de la Región).

  • El gráfico también pone de manifiesto la relación de la comarca del Noroeste y la Cuenca de Abanilla y Fortuna tanto con la industria como con la energía, aunque en menor grado que las comarcas antes mencionadas, lo que se puede observar en los perfiles fila y columna.

  • La construcción y la agricultura se pueden asociar con la comarca de Lorca, la Cuenca de Mula y el Bajo Guadalentín, relación presente en los correspondientes perfiles.

  • Finalmente, aunque la distribución de los establecimiento comerciales entre las comarcas es muy similar a la distribucion del conjunto de todos los establecimientos, también se observa cierta relación entre el comercio con el Bajo Guadalentín y la Vega del Segura, como corroboran los perfiles.


NOTA: El gráfico por defecto representa las dos primeras dimensiones, pero en el caso de que fueran necesarias más, simplemente que añadir el argumento dim, por ejemplo:

plot(establec.ca, dim = c(1,3), mass = c(TRUE, TRUE), contrib = c("relative", "relative"))


Filas y columnas suplementarias

Conviene destacar que a la hora de aplicar un ACS se puede incluir información de alguna fila o columna que deseamos situar en el gráfico anterior pero sin que intervenga en la determinación de las dimensiones (no contaría a la hora de computar la inercia total). Dichas filas y/o columnas se introducen en el análisis como suplementarias. En nuestro ejemplo, podría ser un municipio del que se disponga de información sobre el número de establecimientos por sectores. Por ejemplo,

Aguilas <- c(136, 170, 40, 746, 1556, 2632)
Bullas <- c(10, 170, 30, 304, 528, 802)
Cieza   <- c(32, 322, 94, 544, 1622, 1776)

establec <- rbind(establec, M.Aguilas = Aguilas, M.Bullas = Bullas, M.Cieza = Cieza)     
establec    
##                  Agricultura Industria Energia Construccion Comercio
## Altiplano                104      1732     164         1012     2970
## C.Lorca                  418      1249     265         4310     8408
## B.Guadalentin            180       836     192         1710     4268
## C.Cartagena              482      2454     283         6028    16353
## A.metropolitana          438      6127     688        12637    36066
## Noroeste                 118      1242     160         1390     3624
## Abanilla.Fortuna          22       292      54          286      724
## C.Mula                    30       156      70          430      928
## V.Segura                  86      1252     224         1828     4892
## M.Aguilas                136       170      40          746     1556
## M.Bullas                  10       170      30          304      528
## M.Cieza                   32       322      94          544     1622
##                  Otros_servicios
## Altiplano                   3762
## C.Lorca                    13463
## B.Guadalentin               6086
## C.Cartagena                29929
## A.metropolitana            69546
## Noroeste                    5028
## Abanilla.Fortuna             936
## C.Mula                      1376
## V.Segura                    5774
## M.Aguilas                   2632
## M.Bullas                     802
## M.Cieza                     1776
establec.ca2 <- ca(establec, suprow = c(10, 11, 12))   # el argumento suprow indica los índices de las filas suplementarias
summary(establec.ca2)   # los resultados no cambian por introducir filas o columnas suplementarias
## 
## Principal inertias (eigenvalues):
## 
##  dim    value      %   cum%   scree plot               
##  1      0.020564  74.0  74.0  ******************       
##  2      0.005889  21.2  95.1  *****                    
##  3      0.000914   3.3  98.4  *                        
##  4      0.000237   0.9  99.3                           
##  5      0.000204   0.7 100.0                           
##         -------- -----                                 
##  Total: 0.027807 100.0                                 
## 
## 
## Rows:
##         name   mass  qlt  inr    k=1 cor  ctr    k=2 cor  ctr  
## 1  |    Altp |   37  986  386 | -513 908  474 |  151  78  143 |
## 2  |    CLrc |  107  950  113 |  -13   5    1 | -167 944  504 |
## 3  |    BGdl |   50  922   40 |  -99 438   24 | -104 485   92 |
## 4  |    CCrt |  211  860   45 |   70 835   51 |  -12  25    5 |
## 5  |    Amtr |  477  988  146 |   78 705  139 |   49 283  195 |
## 6  |    Nrst |   44  998   97 | -247 996  130 |   11   2    1 |
## 7  |    AbnF |    9  962   43 | -361 961   56 |   12   1    0 |
## 8  |    CMul |   11  633   19 |  -89 168    4 | -148 464   42 |
## 9  |    VSgr |   53  840  110 | -215 806  120 |  -44  33   17 |
## 10 | (*)MAgl | <NA>  708 <NA> |   33  16 <NA> | -217 691 <NA> |
## 11 | (*)MBll | <NA>  718 <NA> | -206 642 <NA> |  -71  75 <NA> |
## 12 | (*)MCiz | <NA>  645 <NA> | -191 527 <NA> |  -90 118 <NA> |
## 
## Columns:
##     name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1 | Agrc |    7  795   83 | -248 191  21 | -441 604 236 |
## 2 | Inds |   58  995  514 | -470 903 627 |  151  93 224 |
## 3 | Enrg |    8  857   89 | -487 768  92 | -165  89  37 |
## 4 | Cnst |  113  960   94 |  -51 111  14 | -141 849 378 |
## 5 | Cmrc |  297  627   28 |  -35 465  18 |  -21 162  22 |
## 6 | Otr_ |  517  988  193 |   95 875 228 |   34 113 103 |
plot(establec.ca2, mass = c(TRUE, TRUE), contrib = c("relative", "relative"), arrows = c(FALSE, TRUE))    # incluye las filas suplementarias (municipios), y también las columnas suplementarias si las hubiera, aunque no modifica la posición de las filas y columnas activas (comarcas y sectores)

Observe que los municipios se han ubicado relativamente cerca de su comarca (Aguilas de la comarca de Lorca, Cieza de la vega del Segura y Bullas del Noroeste).

Aguilas / sum(Aguilas)    # perfil de Aguilas
## [1] 0.025757576 0.032196970 0.007575758 0.141287879 0.294696970 0.498484848
perfiles.fila["Comarca_Lorca", ]
##     Agricultura       Industria         Energia    Construccion 
##     0.014868566     0.044427845     0.009426244     0.153309857 
##        Comercio Otros_servicios 
##     0.299078718     0.478888770
Bullas / sum(Bullas)    # perfil de Bullas
## [1] 0.005422993 0.092190889 0.016268980 0.164859002 0.286334056 0.434924078
perfiles.fila["Vega_Segura", ]
##     Agricultura       Industria         Energia    Construccion 
##     0.006118384     0.089072282     0.015936255     0.130051224 
##        Comercio Otros_servicios 
##     0.348036426     0.410785430
Cieza / sum(Cieza)    # perfil de Cieza
## [1] 0.007289294 0.073348519 0.021412301 0.123917995 0.369476082 0.404555809
perfiles.fila["Noroeste", ]
##     Agricultura       Industria         Energia    Construccion 
##      0.01020585      0.10742086      0.01383844      0.12022141 
##        Comercio Otros_servicios 
##      0.31344058      0.43487286


Aplicación shiny

En el paquete Factoshiny se encuentran algunas aplicaciones shiny que permiten ejecutar las funciones del paquete FactoMineR de forma interactiva en un formato web con menús. Para ello, una vez instalado y cargado el paquete, se utiliza la función CAshiny:

install.packages("Factoshiny")
library(Factoshiny)
CAshiny(establec.fmr)


El código anterior tiene como resultado que se abra la siguiente página en su navegador desde la que puede interactuar:

Opcional / Avanzado

Más sobre ACS con FactoMineR

En este apartado vemos como extraer, de forma parcial, información contenida en el objeto establec.fmr y cómo utilizarla para hacer cálculos adicionales.

Así, el objeto establec.fmr$eig contiene los valores propios o varianzas de las dimensiones, junto con el porcentaje acumulado y no acumulado.

El objeto establec.fmr$row contiene información relativa a las modalidades en las filas: sus coordenadas en las distintas dimensiones (también con establec.fmr$row$coord), sus contribuciones absolutas a las dimensiones (también con establec.fmr$row$contrib), sus contribuciones relativas (también con establec.fmr$row$cos2), sus inercias (también con establec.fmr$row$inertia).

La información relativa a las modalidades en las columnas se encuentra en el objeto establec.fmr$col, en particular, sus coordenadas en las distintas dimensiones (también con establec.fmr$col$coord), sus contribuciones absolutas a las dimensiones (también con establec.fmr$col$contrib), sus contribuciones relativas (también con establec.fmr$col$cos2), sus inercias (también con establec.fmr$col$inertia).

El objeto establec.fmr$call devuelve un resumen con la tabla de contingencia (que también se puede obtener como establec.fmr$call$X o establec.fmr$call$Xtot), las masas de las modalidades en las columnas (también establec.fmr$call$marge.col) y en las filas (establec.fmr$call$marge.row), el número de dimensiones (establec.fmr$call$ncp) y el total de observaciones (establec.fmr$call$N).


Situaciones en las que sería interesante disponer de dicha información:

  1. Para calcular la proporción de inercia de cada fila y cada columna que es explicada por el plano de las dos primeras dimensiones:

En relación a las comarcas (filas) obtenemos, en primer lugar, las contribuciones relativas en las dimensiones 1 y 2 por separado, esto es, los porcentajes de la inercia de cada comarca recogido en cada dimensión. Vector con las contribuciones relativas en las dimensiones 1 y 2 de las comarcas,

contr.rel.com <- establec.fmr$row$cos2[, 1:2]

Vector con la suma de las contribuciones relativas en ambas dimensiones,

contr.1.2.com <- rowSums(contr.rel.com)
cbind(contr.rel.com, Dim1y2 = contr.1.2.com)
##                               Dim 1       Dim 2    Dim1y2
## Altiplano               0.907914340 0.078381284 0.9862956
## Comarca_Lorca           0.005391442 0.944272961 0.9496644
## Bajo_Guadalentin        0.437500112 0.484828513 0.9223286
## Campo_Cartagena         0.835360802 0.024592507 0.8599533
## Area_metropolitana      0.705006806 0.282551961 0.9875588
## Noroeste                0.996346712 0.002118505 0.9984652
## Cuenca_Abanilla_Fortuna 0.960997641 0.001091249 0.9620889
## Cuenca_Mula             0.168199503 0.464487381 0.6326869
## Vega_Segura             0.806321872 0.033402430 0.8397243

Observamos que en la dimensión 1 no está bien representada la comarca de Lorca (solo recoge el 0.053% de su inercia) y la Cuenca de Mula (recoge el 16,82%), sin embargo, son las mejor representadas en la dimensión 2 junto con el Bajo Guadalentín (48,48% de su inercia). En general, todas las comarcas están bien representadas en el plano de la dimensión 1 y 2, ya que ambas dimensiones conjuntamente recogen un alto porcentaje de inercia de cada comarca, como se observa en la última columna.

En relación a los sectores económicos las contribuciones relativas en las dimensiones 1 y 2 son las siguientes:

contr.rel.sect <- establec.fmr$col$cos2[, 1:2]

Vector con la suma de las contribuciones relativas en ambas dimensiones,

contr.1.2.sect <- rowSums(contr.rel.sect)
cbind(contr.rel.sect, Dim1y2 = contr.1.2.sect)
##                     Dim 1      Dim 2    Dim1y2
## Agricultura     0.1907736 0.60439288 0.7951665
## Industria       0.9027763 0.09256365 0.9953400
## Energia         0.7679046 0.08878869 0.8566933
## Construccion    0.1106321 0.84933580 0.9599679
## Comercio        0.4648623 0.16244116 0.6273035
## Otros_servicios 0.8745131 0.11300446 0.9875175
  1. Para calcular la proporción de inercia total correspondiente a cada fila y columna y poder ordenarlas de mayor a menor:
iner.total <- sum(establec.fmr$row$inertia) 
iner.total
## [1] 0.02780745
iner.total <- sum(establec.fmr$col$inertia)
iner.total
## [1] 0.02780745

Vector con las inercias de las comarcas,

iner.com <- establec.fmr$row$inertia

Data.frame con toda la información anterior añadiendo la proporción de inercia total de cada comarca,

comar.iner <- as.data.frame(cbind(Dim1y2 = contr.1.2.com, Inercias = iner.com, Prop_iner = iner.com/iner.total))
comar.iner
##                            Dim1y2     Inercias  Prop_iner
## Altiplano               0.9862956 0.0107430763 0.38633805
## Comarca_Lorca           0.9496644 0.0031403414 0.11293166
## Bajo_Guadalentin        0.9223286 0.0011221062 0.04035272
## Campo_Cartagena         0.8599533 0.0012539652 0.04509458
## Area_metropolitana      0.9875588 0.0040675985 0.14627729
## Noroeste                0.9984652 0.0026931738 0.09685080
## Cuenca_Abanilla_Fortuna 0.9620889 0.0011921076 0.04287008
## Cuenca_Mula             0.6326869 0.0005341062 0.01920731
## Vega_Segura             0.8397243 0.0030609753 0.11007753

Ordenamos las comarcas de mayor a menor proporción de inercia,

comar.iner[order(comar.iner$Prop_iner, decreasing = TRUE), ]
##                            Dim1y2     Inercias  Prop_iner
## Altiplano               0.9862956 0.0107430763 0.38633805
## Area_metropolitana      0.9875588 0.0040675985 0.14627729
## Comarca_Lorca           0.9496644 0.0031403414 0.11293166
## Vega_Segura             0.8397243 0.0030609753 0.11007753
## Noroeste                0.9984652 0.0026931738 0.09685080
## Campo_Cartagena         0.8599533 0.0012539652 0.04509458
## Cuenca_Abanilla_Fortuna 0.9620889 0.0011921076 0.04287008
## Bajo_Guadalentin        0.9223286 0.0011221062 0.04035272
## Cuenca_Mula             0.6326869 0.0005341062 0.01920731

Observamos que el Altiplano tiene mayor inercia o variabilidad respecto al centroide que el resto de comarcas siendo recogida casi la totalidad (un 98.63%) por ambas dimensiones. La Cuenca de Mula es la que menor proporción de inercia posee, recogiendo el análisis de correspondencias un 63.27% de la misma entre ambas dimensiones.

En el caso de los sectores o columnas, el vector con las inercias de las comarcas,

iner.sec <- establec.fmr$col$inertia

Data.frame con toda la información anterior añadiendo la proporción de inercia total de cada comarca,

sect.iner <- as.data.frame(cbind(Dim1y2 = contr.1.2.sect, Inercias = iner.sec, Prop_iner = iner.sec/iner.total))

Ordenamos las comarcas de mayor a menor proporción de inercia,

sect.iner[order(sect.iner$Prop_iner, decreasing = TRUE), ]
##                    Dim1y2     Inercias  Prop_iner
## Industria       0.9953400 0.0142794870 0.51351299
## Otros_servicios 0.9875175 0.0053611003 0.19279366
## Construccion    0.9599679 0.0026218408 0.09428555
## Energia         0.8566933 0.0024617519 0.08852850
## Agricultura     0.7951665 0.0022967849 0.08259603
## Comercio        0.6273035 0.0007864856 0.02828327

El sector de la industria recoge el 51.35% de la inercia total, esto es, presenta mucha variabilidad entre las comarcas. El comercio es el que menos inercia presenta, un 2,83% de la inercia total.

  1. Para ordenar las filas y columnas según sus contribuciones (absolutas y relativas), así como sus puntuaciones:
com1 <- as.data.frame(cbind(Contrib = establec.fmr$row$contrib[, 1], Puntuacion = establec.fmr$row$coord[, 1]))
com1[order(com1$Contrib, decreasing = T ), ]
##                             Contrib  Puntuacion
## Altiplano               47.43195595  0.51317288
## Area_metropolitana      13.94533291 -0.07753288
## Noroeste                13.04885418  0.24709646
## Vega_Segura             12.00233572  0.21493089
## Cuenca_Abanilla_Fortuna  5.57102724  0.36089659
## Campo_Cartagena          5.09397802 -0.07044747
## Bajo_Guadalentin         2.38731437  0.09864690
## Cuenca_Mula              0.43686760  0.08890704
## Comarca_Lorca            0.08233402  0.01258731

La comarca que más contribuye a la primera dimensión es el Altiplano (con puntuación positiva), y en menor medida, el área metropolitana (con puntuación negativa) y el Noroeste y la Vega del Segura (positiva).

Para interpretar la dimensión 2 en relación a las comarcas, ordenamos las comarcas de mayor a menor contribución absoluta en la dimensión 2 y obtenemos sus puntuaciones en esta dimensión:

com2 <- as.data.frame(cbind(Contrib = establec.fmr$row$contrib[, 2], Puntuacion = establec.fmr$row$coord[, 2]))
com2[order(com2$Contrib, decreasing = T ), ]
##                             Contrib  Puntuacion
## Comarca_Lorca           50.35466888  0.16658243
## Area_metropolitana      19.51649061 -0.04908383
## Altiplano               14.29902277 -0.15078129
## Bajo_Guadalentin         9.23820128  0.10384568
## Cuenca_Mula              4.21276146  0.14774430
## Vega_Segura              1.73621386  0.04374553
## Campo_Cartagena          0.52366507  0.01208731
## Noroeste                 0.09688561 -0.01139400
## Cuenca_Abanilla_Fortuna  0.02209045 -0.01216140

Para los sectores económicos (o columnas)

sect1 <- as.data.frame(cbind(Contrib = establec.fmr$col$contrib[, 1], Puntuacion = establec.fmr$col$coord[, 1]))
sect1[order(sect1$Contrib, decreasing = T ), ]
##                   Contrib  Puntuacion
## Industria       62.688844  0.47019637
## Otros_servicios 22.799102 -0.09526776
## Energia          9.192827  0.48664437
## Agricultura      2.130767  0.24775193
## Comercio         1.777922  0.03506373
## Construccion     1.410538  0.05074767

En cuanto a los sectores económicos, los que más contribuyen a la primera dimensión son la industria (coordenada positiva) y otros servicios (coordenada negativa). Si ordenamos las puntuaciones o coordenadas:

sect1[order(sect1$Puntuacion), ]
##                   Contrib  Puntuacion
## Otros_servicios 22.799102 -0.09526776
## Comercio         1.777922  0.03506373
## Construccion     1.410538  0.05074767
## Agricultura      2.130767  0.24775193
## Industria       62.688844  0.47019637
## Energia          9.192827  0.48664437

Esta dimensión contrapone otros servicios con agricultura teniendo ambos sectores una contribución importante a la dimensión 1. Vemos ahora la dimensión 2.

sect2 <- as.data.frame(cbind(Contrib = establec.fmr$col$contrib[, 2], Puntuacion = establec.fmr$col$coord[, 2]))
sect2[order(sect2$Contrib, decreasing = T ), ]
##                   Contrib  Puntuacion
## Construccion    37.813865  0.14060970
## Agricultura     23.572464  0.44097869
## Industria       22.444937 -0.15055994
## Otros_servicios 10.287618 -0.03424606
## Energia          3.711652  0.16547671
## Comercio         2.169463  0.02072736

Los sectores económicos que más contribuyen a la segunda dimensión son la construcción y la agricultura (con puntuaciones positivas) y la industria (negativa). También podemos ordenar las coordenadas:

sect2[order(sect2$Puntuacion), ]
##                   Contrib  Puntuacion
## Industria       22.444937 -0.15055994
## Otros_servicios 10.287618 -0.03424606
## Comercio         2.169463  0.02072736
## Construccion    37.813865  0.14060970
## Energia          3.711652  0.16547671
## Agricultura     23.572464  0.44097869

Aquí se observa claramente que la dimensión 2 contrapone la industria a la agricultura, teniendo ambas una contribución elevada en dicha dimensión.


Más sobre los gráficos de FactoMineR

El gráfico básico proporcionado por FactoMineR se puede modificar, simplemente aplicando el comando plot al objeto establec.fmr y usando los argumentos necesarios. Por ejemplo, podemos destacar las filas y columnas para las que el plano recoge al menos el 70% de su inercia (el valor del argumento unselect proporciona el grado de transparencia con el que se representan los objetos no seleccionados):

plot(establec.fmr, selectRow = "cos2 0.7", selectCol = "cos2 0.7", unselect = 0.7, cex = 0.7, title = "")

Además, al igual que en ca, el gráfico representa por defecto las dos primeras dimensiones, que en este caso resumen de manera adecuada prácticamente toda la información de la tabla de contingencia (95.1%). En el caso de que fuera necesario representar más dimensiones simplemente habría que seleccionar los ejes deseados con el argumento axes, por ejemplo:

plot(establec.fmr, axes = c(1, 3), selectRow = "cos2 0.7", selectCol = "cos2 0.7", unselect = 0.6, cex = 0.7, title = "")


Más sobre ACS con ca

La salida con el resumen del análisis de correspondencias simple con la librería ca no aporta más información que la obtenida con FactoMineR:

summary(establec.ca)   
## 
## Principal inertias (eigenvalues):
## 
##  dim    value      %   cum%   scree plot               
##  1      0.020564  74.0  74.0  ******************       
##  2      0.005889  21.2  95.1  *****                    
##  3      0.000914   3.3  98.4  *                        
##  4      0.000237   0.9  99.3                           
##  5      0.000204   0.7 100.0                           
##         -------- -----                                 
##  Total: 0.027807 100.0                                 
## 
## 
## Rows:
##     name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1 | Altp |   37  986  386 | -513 908 474 |  151  78 143 |
## 2 | CLrc |  107  950  113 |  -13   5   1 | -167 944 504 |
## 3 | BGdl |   50  922   40 |  -99 438  24 | -104 485  92 |
## 4 | CCrt |  211  860   45 |   70 835  51 |  -12  25   5 |
## 5 | Amtr |  477  988  146 |   78 705 139 |   49 283 195 |
## 6 | Nrst |   44  998   97 | -247 996 130 |   11   2   1 |
## 7 | AbnF |    9  962   43 | -361 961  56 |   12   1   0 |
## 8 | CMul |   11  633   19 |  -89 168   4 | -148 464  42 |
## 9 | VSgr |   53  840  110 | -215 806 120 |  -44  33  17 |
## 
## Columns:
##     name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1 | Agrc |    7  795   83 | -248 191  21 | -441 604 236 |
## 2 | Inds |   58  995  514 | -470 903 627 |  151  93 224 |
## 3 | Enrg |    8  857   89 | -487 768  92 | -165  89  37 |
## 4 | Cnst |  113  960   94 |  -51 111  14 | -141 849 378 |
## 5 | Cmrc |  297  627   28 |  -35 465  18 |  -21 162  22 |
## 6 | Otr_ |  517  988  193 |   95 875 228 |   34 113 103 |

También en este caso pueden realizarse cálculos auxiliares a partir de información parcial contenida en el objeto establec.ca. Alguna información de interés para las filas sería establec.ca$rownames (nombres), establec.ca$rowmass (masas), establec.ca$rowdist (distancia chi-cuadrado al centroide) y establec.ca$rowinertia (inercias). Y análogo para las columnas: establec.ca$colnames, establec.ca$colmass, establec.ca$coldist y establec.ca$colinertia.


Licencia de Creative Commons
Grupo Innovación Docente: Estadística en Ciencias Sociales. Universidad de Murcia.
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.