El Centro Regional de Estadística de Murcia (CREM) proporciona información sobre infraestructura de empresas según el Directorio de Actividades Económicas de la Región de Murcia (DAERM). En particular, recoge información referente al número de establecimientos en los distintos municipios de la Región de Murcia según sector de actividad, entendiendo por establecimiento cualquier unidad local de actividad económica (esto es, una empresa o una parte de una empresa: taller, fábrica, almacén, oficina, mina, depósito…). A partir de los datos correspondientes al año 2013 se desea estudiar si hay comarcas especializadas en determinados sectores.
En una página web del CREM se pueden encontrar los datos distribuidos por municipios. La información por municipio se ha agrupado en las nueve comarcas reconocidas en el Atlas global de la Región de Murcia, publicado en 2007, y se han recogido en el fichero de datos.
Para una descripción más detallada de los sectores económicos considerados en el DAERM puede ir a la página 5 del documento sobre metodología donde aparecen las secciones del CNAE 2009 incluidas en cada sector económico.
En primer lugar, hay que leer los datos (el fichero .csv que los contiene debe descargarlo en su directorio de trabajo), que corresponden al número de establecimientos por comarca y sector económico en la Región de Murcia en 2013. Se utiliza la función read.csv2
, en la que se especifica que la primera fila del fichero contiene los nombres de las variables:
establec <- read.csv2("establec.csv", row.names = 1)
establec
## Agricultura Industria Energia Construccion
## Altiplano 104 1732 164 1012
## Comarca_Lorca 418 1249 265 4310
## Bajo_Guadalentin 180 836 192 1710
## Campo_Cartagena 482 2454 283 6028
## Area_metropolitana 438 6127 688 12637
## Noroeste 118 1242 160 1390
## Cuenca_Abanilla_Fortuna 22 292 54 286
## Cuenca_Mula 30 156 70 430
## Vega_Segura 86 1252 224 1828
## Comercio Otros_servicios
## Altiplano 2970 3762
## Comarca_Lorca 8408 13463
## Bajo_Guadalentin 4268 6086
## Campo_Cartagena 16353 29929
## Area_metropolitana 36066 69546
## Noroeste 3624 5028
## Cuenca_Abanilla_Fortuna 724 936
## Cuenca_Mula 928 1376
## Vega_Segura 4892 5774
Se observa que la tabla de contingencia que recoge la información sobre el número de establecimientos según comarca y sector económico tiene 9 filas (comarcas) y 6 columnas (sectores de actividad). Por tanto, el número máximo de dimensiones que se pueden obtener en el análisis de correspondencias serán 5 (mínimo del número de filas y columnas menos uno).
Existen varias librerías en R que permiten realizar un análisis de correspondencias simple, entre las que destacan ca
y FactoMineR
. Puesto que con la segunda es más sencillo acceder a ciertos resultados que ayudan a interpretar un ACS, especialmente cuando se dispone de un gran número de filas y/o columnas, se trabaja sobre todo con ella, aunque al final se incluye también alguna referencia a la primera, ya que permite representar un gráfico que, en cierta medida, facilita la interpretación de las asociaciones.
En primer lugar, se carga la librería FactoMineR
, con la función library
(antes habría que instalarla con install.packages
), y se realiza el ACS simple con la función CA
. Este análisis proporciona un gráfico y unos resultados, que se han guardado en un objeto de R
que hemos denominado establec.fmr
. Un resumen de los mismos puede obtenerse con la función summary
:
library("FactoMineR")
establec.fmr <- CA(establec)
summary(establec.fmr)
##
## Call:
## CA(X = establec)
##
## The chi square of independence between the two variables is equal to 7315.64 (p-value = 0 ).
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## Variance 0.021 0.006 0.001 0.000 0.000
## % of var. 73.951 21.177 3.287 0.851 0.734
## Cumulative % of var. 73.951 95.128 98.415 99.266 100.000
##
## Rows
## Iner*1000 Dim.1 ctr cos2 Dim.2 ctr
## Altiplano | 10.743 | 0.513 47.432 0.908 | -0.151 14.299
## Comarca_Lorca | 3.140 | 0.013 0.082 0.005 | 0.167 50.355
## Bajo_Guadalentin | 1.122 | 0.099 2.387 0.438 | 0.104 9.238
## Campo_Cartagena | 1.254 | -0.070 5.094 0.835 | 0.012 0.524
## Area_metropolitana | 4.068 | -0.078 13.945 0.705 | -0.049 19.516
## Noroeste | 2.693 | 0.247 13.049 0.996 | -0.011 0.097
## Cuenca_Abanilla_Fortuna | 1.192 | 0.361 5.571 0.961 | -0.012 0.022
## Cuenca_Mula | 0.534 | 0.089 0.437 0.168 | 0.148 4.213
## Vega_Segura | 3.061 | 0.215 12.002 0.806 | 0.044 1.736
## cos2 Dim.3 ctr cos2
## Altiplano 0.078 | 0.063 15.934 0.014 |
## Comarca_Lorca 0.944 | 0.031 11.227 0.033 |
## Bajo_Guadalentin 0.485 | -0.014 1.119 0.009 |
## Campo_Cartagena 0.025 | 0.021 10.364 0.076 |
## Area_metropolitana 0.283 | -0.008 3.091 0.007 |
## Noroeste 0.002 | 0.009 0.381 0.001 |
## Cuenca_Abanilla_Fortuna 0.001 | -0.036 1.240 0.010 |
## Cuenca_Mula 0.464 | -0.091 10.207 0.175 |
## Vega_Segura 0.033 | -0.089 46.438 0.139 |
##
## Columns
## Iner*1000 Dim.1 ctr cos2 Dim.2 ctr
## Agricultura | 2.297 | 0.248 2.131 0.191 | 0.441 23.572
## Industria | 14.279 | 0.470 62.689 0.903 | -0.151 22.445
## Energia | 2.462 | 0.487 9.193 0.768 | 0.165 3.712
## Construccion | 2.622 | 0.051 1.411 0.111 | 0.141 37.814
## Comercio | 0.786 | 0.035 1.778 0.465 | 0.021 2.169
## Otros_servicios | 5.361 | -0.095 22.799 0.875 | -0.034 10.288
## cos2 Dim.3 ctr cos2
## Agricultura 0.604 | 0.240 45.011 0.179 |
## Industria 0.093 | 0.033 6.765 0.004 |
## Energia 0.089 | -0.163 23.245 0.086 |
## Construccion 0.849 | 0.004 0.172 0.001 |
## Comercio 0.162 | -0.025 20.179 0.235 |
## Otros_servicios 0.113 | 0.009 4.628 0.008 |
Esta salida ofrece la información de las primeras 10 modalidades de las filas y de las columnas. En nuestro ejemplo, al tener menos de 10 en ambos casos, es suficiente. Si no fuera así, se podría solicitar la información para cualquier número de filas y columnas con el argumento nbelements
(en particular, nbelements = Inf
si se desean todas las filas y columnas). Por otra parte, proporciona solo la información relativa a las 3 primeras dimensiones, que en general es suficiente, pero eso también se podría cambiar, con el argumento ncp
.
El gráfico y la información aportada por esta salida permiten interpretar con bastante fiabilidad los resultados del ACS, si bien siempre es interesante corroborarlos con los perfiles fila y los perfiles columna, que habrá que calcular, puesto que la librería no los proporciona. En cualquier caso, se puede acceder a la información recogida en el objeto establec.fmr
, la misma que se obtiene al aplicarle la función summary
junto con otra adicional, para trabajar con ella en caso de interés, como veremos más adelante.
La primera parte de esta salida refleja el contraste de independencia entre las dos variables consideradas, la comarca y el sector económico, aunque al no corresponder en este caso los datos a una muestra aleatoria simple, no debería interpretarse. En general, un rechazo en dicho contraste evidenciaría una relación significativa entre ambas variables, de modo que la aplicación de un ACS permitiría detectar las asociaciones existentes entre las modalidades, si bien el ACS en ocasiones también puede arrojar luz sobre relaciones menos fuertes (no estadísticamente significativas). Este contraste no se proporciona en la librería ca
.
En segundo lugar, en la salida resumen anterior se aprecian las inercias (Variance
) de las 5 dimensiones existentes. En este caso el plano formado por las dos primeras dimensiones resumiría bastante bien la inercia de los datos, puesto que solo con ellas se consigue explicar el 95.128% de la inercia total (porcentaje de inercia acumulada por las dos primeras dimensiones).
Finalmente, se aporta la siguiente información para las filas (y columnas): inercia multiplicada por 1000 (Iner*1000
); coordenada o puntuación de la fila (columna) en las tres primeras dimensiones (Dim.1
, Dim.2
y Dim.3
); proporcion de la inercia de la correspondiente dimensión explicada por la fila (columna), también llamada contribución absoluta (ctr
) y proporción de inercia de la fila (columna) explicada por la correpondiente dimensión (cos2
), también llamada contribución relativa.
NOTA: La forma de acceder a cualquier parte de la información anterior, a partir del objeto establec.fmr
, para realizar cálculos adicionales, se explicará en el último epígrafe Opcional / Avanzado
.
Observamos que el Altiplano tiene mayor inercia (0.010743) o variabilidad respecto al centroide que el resto de comarcas, siendo recogida casi la totalidad por el plano de las dos primeras dimensiones, en concreto, un 98.6% (0.986 = 0.908 + 0.078). De hecho, la primera dimensión sola ya recoge el 90.8% de su inercia. La Cuenca de Mula es la que menor inercia posee (0.000534) y también la peor explicada por dicho plano, que recoge un 63.2% de la misma. En particular, la segunda dimensión explica mayor porcentaje de su inercia (46.4%) que la primera (16.8%).
En cuanto a los sectores, la inercia de la industria (0.014279) es muy superior a la del resto y está muy bien representada en el plano de las dos primeras dimensiones (99.6% de su inercia, aunque la primera ya recoge el 90.3%), mientras que el comercio es el que menos inercia presenta (0.000786) y también el peor representado en dicho plano (recoge el 62.7% de su inercia).
En cualquier caso, tanto las comarcas como los sectores están relativamente bien explicados por las dos primeras dimensiones, porque en todos los casos se explica más del 50% de la inercia.
Las puntuaciones o coordenadas de cada fila y columna en las dos primeras dimensiones permiten dibujar el gráfico bidimensional que mejor resume las relaciones existentes entre la filas (comarcas) y las columnas (sectores de actividad) de la tabla.
La primera dimensión opone otros servicios (con puntuación negativa, -0.095), al resto de sectores, especialmente a la industria (con coordenada positiva, 0.470), que es el sector que más contribuye en esta primera dimensión (explica el 62.689% de la inercia de la dimensión), y también a la energía (coordenada positiva, 0.487 y contribución absoluta de 9.193%). De hecho, tanto otros servicios como industria y energía vienen explicados sobre todo por la primera dimensión (sus contribuciones relativas en esa dimensión son 87.5%, 90.3% y 76.8%, respectivamente). Por otra parte, los sectores que más contribuyen a la segunda dimensión son la construcción (37.814%) y la agricultura (23.572%), con puntuaciones positivas (0.141 y 0.441, respectivamente), correspondiendo la puntuación más negativa a la industria (-0.151), con una contribución absoluta del 22.445%. Construcción y agricultura son también los sectores mejor explicados por la segunda dimensión (84.9% y 60.4%, respectivamente).
La comarca que más contribuye a la primera dimensión es el Altiplano (47.432%, con puntuación positiva: 0.513) y, en menor medida, el área metropolitana (13.945%, con puntuación negativa: -0.078). A la dimensión 2 contribuye sobre todo la comarca de Lorca (50.355%, con puntuación positiva: 0.167) y el área metropolitana y el Altiplano algo menos (19.516% y 14.299%, con coordenadas negativas: -0.049 y -0.151). El Altiplano viene explicada sobre todo por la primera dimensión (contribución relativa de 90.8%), al igual que el área metropolitana (70.5%), mientras que la comarca de Lorca viene explicada sobre todo por la segunda (94.4%).
NOTA: Las contribuciones absolutas de las filas (o las columnas) a una dimensión dependen de la masa de la fila (o la columna) y del cuadrado de la coordenada en dicha dimensión, ambas multiplicando en el numerador, así como de la inercia de la dimensión (en el denominador). Por ese motivo, en ocasiones una fila (o columna) con una puntuación en valor absoluto menor que otra tiene mayor contribución, debido a su mayor masa.
El análisis de correspondencias trabaja con los perfiles fila y los perfiles columna, que no son más que distribuciones condicionadas. El perfil fila de una comarca es la distribución, en frecuencias relativas, de los establecimientos por sectores para dicha comarca (proporción de establecimientos en cada sector para una comarca dada). Aunque FactoMineR no los proporciona en su salida, se pueden calcular de manera relativamente sencilla:
perfiles.fila <- prop.table(as.matrix(establec), 1)
perfiles.fila
## Agricultura Industria Energia Construccion
## Altiplano 0.010673235 0.17775041 0.016830870 0.1038588
## Comarca_Lorca 0.014868566 0.04442784 0.009426244 0.1533099
## Bajo_Guadalentin 0.013562387 0.06298975 0.014466546 0.1288427
## Campo_Cartagena 0.008680149 0.04419312 0.005096436 0.1085559
## Area_metropolitana 0.003489984 0.04881994 0.005481984 0.1006916
## Noroeste 0.010205847 0.10742086 0.013838436 0.1202214
## Cuenca_Abanilla_Fortuna 0.009507347 0.12618842 0.023336214 0.1235955
## Cuenca_Mula 0.010033445 0.05217391 0.023411371 0.1438127
## Vega_Segura 0.006118384 0.08907228 0.015936255 0.1300512
## Comercio Otros_servicios
## Altiplano 0.3048030 0.3860837
## Comarca_Lorca 0.2990787 0.4788888
## Bajo_Guadalentin 0.3215793 0.4585594
## Campo_Cartagena 0.2944948 0.5389796
## Area_metropolitana 0.2873739 0.5541426
## Noroeste 0.3134406 0.4348729
## Cuenca_Abanilla_Fortuna 0.3128781 0.4044944
## Cuenca_Mula 0.3103679 0.4602007
## Vega_Segura 0.3480364 0.4107854
Observe que los elementos en cada fila de la matriz correspondiente a los perfiles fila suman 1. Por ejemplo, en el Altiplano se observa que el 30.48% de los establecimientos son comercios, el 38.61% de otros servicios y el 17.78% de la industria:
perfiles.fila["Altiplano", ]
## Agricultura Industria Energia Construccion
## 0.01067323 0.17775041 0.01683087 0.10385878
## Comercio Otros_servicios
## 0.30480296 0.38608374
El ACS se basa en las distancias de los perfiles a su centroide. El centroide de los perfiles fila (comarcas) está formado por las frecuencias relativas marginales de las columnas (sectores económicos), en este caso, la proporción de establecimientos en cada sector económico en la Región de Murcia:
establec.fmr$call$marge.col
## Agricultura Industria Energia Construccion
## 0.007138459 0.058308816 0.007982302 0.112630283
## Comercio Otros_servicios
## 0.297371162 0.516568978
Se observa que el 81.39% de los establecimientos de la Región de Murcia pertenecen al sector servicios (comercio y otros servicios), el 11.26% a la construcción y solo un 5.83 % a la industria. La agricultura y la energía presentan menos de un 1% cada una.
Podemos comparar ahora los perfiles fila con su centroide, en términos relativos, calculando el cociente entre cada elemento de un perfil fila y el correspondiente elemento del centroide, de modo que si el cociente es mayor que 1 en dicha comarca el porcentaje de establecimientos en el sector considerado es mayor que la media. Observamos, por ejemplo, que el porcentaje de establecimientos de la industria en el Altiplano es algo más del triple del porcentaje de establecimientos de la industria en la Región. Por otra parte, el porcentaje de establecimientos agrícolas en el área metropolitana es algo menos de la mitad del porcentaje de establecimientos agrícolas en la Región.
t(t(perfiles.fila) / establec.fmr$call$marge.col) # para poder dividir cada perfil fila entre el centroide de los perfiles fila es necesario trasponer la matriz, ya que el operador / entre una matriz y un vector divide todas las columnas de la matriz entre el vector (finalmente el resultado se vuelve a trasponer para tener la misma disposición original de filas y columnas)
## Agricultura Industria Energia Construccion
## Altiplano 1.4951736 3.0484311 2.1085233 0.9221213
## Comarca_Lorca 2.0828819 0.7619404 1.1808929 1.3611779
## Bajo_Guadalentin 1.8999041 1.0802784 1.8123276 1.1439435
## Campo_Cartagena 1.2159696 0.7579150 0.6384670 0.9638251
## Area_metropolitana 0.4888988 0.8372651 0.6867673 0.8940013
## Noroeste 1.4296989 1.8422748 1.7336398 1.0673987
## Cuenca_Abanilla_Fortuna 1.3318486 2.1641396 2.9234943 1.0973559
## Cuenca_Mula 1.4055478 0.8947860 2.9329097 1.2768565
## Vega_Segura 0.8571015 1.5275954 1.9964485 1.1546737
## Comercio Otros_servicios
## Altiplano 1.0249916 0.7474002
## Comarca_Lorca 1.0057422 0.9270568
## Bajo_Guadalentin 1.0814070 0.8877021
## Campo_Cartagena 0.9903273 1.0433837
## Area_metropolitana 0.9663812 1.0727368
## Noroeste 1.0540383 0.8418486
## Cuenca_Abanilla_Fortuna 1.0521469 0.7830404
## Cuenca_Mula 1.0437054 0.8908794
## Vega_Segura 1.1703772 0.7952189
De forma análoga, el perfil columna de un sector es la distribución, en frecuencias relativas, de los establecimientos de dicho sector por comarcas (proporción de establecimientos en cada comarca para un sector dado):
perfiles.columna <- prop.table(as.matrix(establec), 2)
perfiles.columna
## Agricultura Industria Energia Construccion
## Altiplano 0.05537806 0.11290743 0.07809524 0.034153420
## Comarca_Lorca 0.22257721 0.08142112 0.12619048 0.145455773
## Bajo_Guadalentin 0.09584665 0.05449804 0.09142857 0.057709831
## Campo_Cartagena 0.25665602 0.15997392 0.13476190 0.203435591
## Area_metropolitana 0.23322684 0.39941330 0.32761905 0.426479025
## Noroeste 0.06283280 0.08096480 0.07619048 0.046910330
## Cuenca_Abanilla_Fortuna 0.01171459 0.01903520 0.02571429 0.009652054
## Cuenca_Mula 0.01597444 0.01016949 0.03333333 0.014511829
## Vega_Segura 0.04579340 0.08161669 0.10666667 0.061692147
## Comercio Otros_servicios
## Altiplano 0.037963519 0.027682119
## Comarca_Lorca 0.107473828 0.099065489
## Bajo_Guadalentin 0.054554983 0.044782929
## Campo_Cartagena 0.209029438 0.220228109
## Area_metropolitana 0.461007503 0.511743929
## Noroeste 0.046323163 0.036997792
## Cuenca_Abanilla_Fortuna 0.009254407 0.006887417
## Cuenca_Mula 0.011862002 0.010125092
## Vega_Segura 0.062531157 0.042487123
Ahora son los elementos de cada columna en la matriz de perfiles columna los que suman 1. Por ejemplo, los establecimientos del sector industrial en la Región de Murcia se concentran sobre todo en el área metropolitana (39.94%), el campo de Cartagena (16%) y el Altiplano (11.29%):
perfiles.columna[ , "Industria"]
## Altiplano Comarca_Lorca Bajo_Guadalentin
## 0.11290743 0.08142112 0.05449804
## Campo_Cartagena Area_metropolitana Noroeste
## 0.15997392 0.39941330 0.08096480
## Cuenca_Abanilla_Fortuna Cuenca_Mula Vega_Segura
## 0.01903520 0.01016949 0.08161669
El centroide de los perfiles columna (sectores) está constituido por las frecuencias relativas marginales de las filas (comarcas), en este caso, la proporción de establecimientos en cada comarca:
establec.fmr$call$marge.row
## Altiplano Comarca_Lorca Bajo_Guadalentin
## 0.037037882 0.106860218 0.050448149
## Campo_Cartagena Area_metropolitana Noroeste
## 0.211071073 0.477045180 0.043948275
## Cuenca_Abanilla_Fortuna Cuenca_Mula Vega_Segura
## 0.008795737 0.011365278 0.053428209
Así, cerca del 80% de los establecimientos de la Región se reparten entre el área metropolitana (47.70%), el campo de Cartagena (21.11%) y la comarca de Lorca (10.69%).
Estableciendo una comparativa en términos relativos entre los perfiles columna y su centroide, análoga a la realizada anteriormente para los perfiles file, se obtienen exactamente los mismos cocientes:
perfiles.columna / establec.fmr$call$marge.row
## Agricultura Industria Energia Construccion
## Altiplano 1.4951736 3.0484311 2.1085233 0.9221213
## Comarca_Lorca 2.0828819 0.7619404 1.1808929 1.3611779
## Bajo_Guadalentin 1.8999041 1.0802784 1.8123276 1.1439435
## Campo_Cartagena 1.2159696 0.7579150 0.6384670 0.9638251
## Area_metropolitana 0.4888988 0.8372651 0.6867673 0.8940013
## Noroeste 1.4296989 1.8422748 1.7336398 1.0673987
## Cuenca_Abanilla_Fortuna 1.3318486 2.1641396 2.9234943 1.0973559
## Cuenca_Mula 1.4055478 0.8947860 2.9329097 1.2768565
## Vega_Segura 0.8571015 1.5275954 1.9964485 1.1546737
## Comercio Otros_servicios
## Altiplano 1.0249916 0.7474002
## Comarca_Lorca 1.0057422 0.9270568
## Bajo_Guadalentin 1.0814070 0.8877021
## Campo_Cartagena 0.9903273 1.0433837
## Area_metropolitana 0.9663812 1.0727368
## Noroeste 1.0540383 0.8418486
## Cuenca_Abanilla_Fortuna 1.0521469 0.7830404
## Cuenca_Mula 1.0437054 0.8908794
## Vega_Segura 1.1703772 0.7952189
Esto es, el porcentaje de establecimientos industriales que se ubican en el Altiplano es algo más del triple del porcentaje de establecimientos de la Región establecidos en el Altiplano. Por otra parte, el porcentaje de establecimientos agrícolas en el área metropolitana es algo menos de la mitad del porcentaje de establecimientos de la Región ubicados en dicha área.
Todas estas comparativas de perfiles con sus centroides van a ayudarnos a interpretar las asociaciones entre filas y columnas mostradas en el gráfico del análisis de correspondencias.
Recuerde que se puede interpretar fiablemente la posición en el gráfico solo de aquellas filas y columnas que se encuentran relativamente bien representadas en este plano. En nuestro caso, todas las comarcas están muy bien representadas (más del 80% de su inercia), excepto la Cuenca de Mula, que tampoco está muy mal explicada (63.3%). Algo similar sucede con los sectores, donde el peor explicado es el comercio (62.7%).
El gráfico básico proporcionado por FactoMineR
se puede modificar, para facilitar su interpretación, como se explica en el último epígrafe Opcional / Avanzado
. Pero como el gráfico de la librería ca
permite dibujar semirrectas que unen el origen con los perfiles fila y/o perfiles columna, que resultan de ayuda en la interpretación, usaremos dicho gráfico para determinar las asociaciones entre las comarcas y los sectores de actividad correspondientes a los establecimientos.
Con esta librería el gráfico no se proporciona por defecto con la salida de la función ca
, sino que hay que solicitarlo aplicando plot
al objeto obtenido:
library("ca")
establec.ca <- ca(establec)
summary(establec.ca) # no aporta nada frente a lo análogo en FactoMineR
##
## Principal inertias (eigenvalues):
##
## dim value % cum% scree plot
## 1 0.020564 74.0 74.0 ******************
## 2 0.005889 21.2 95.1 *****
## 3 0.000914 3.3 98.4 *
## 4 0.000237 0.9 99.3
## 5 0.000204 0.7 100.0
## -------- -----
## Total: 0.027807 100.0
##
##
## Rows:
## name mass qlt inr k=1 cor ctr k=2 cor ctr
## 1 | Altp | 37 986 386 | -513 908 474 | 151 78 143 |
## 2 | Cm_L | 107 950 113 | -13 5 1 | -167 944 504 |
## 3 | Bj_G | 50 922 40 | -99 438 24 | -104 485 92 |
## 4 | Cm_C | 211 860 45 | 70 835 51 | -12 25 5 |
## 5 | Ar_m | 477 988 146 | 78 705 139 | 49 283 195 |
## 6 | Nrst | 44 998 97 | -247 996 130 | 11 2 1 |
## 7 | C_A_ | 9 962 43 | -361 961 56 | 12 1 0 |
## 8 | Cn_M | 11 633 19 | -89 168 4 | -148 464 42 |
## 9 | Vg_S | 53 840 110 | -215 806 120 | -44 33 17 |
##
## Columns:
## name mass qlt inr k=1 cor ctr k=2 cor ctr
## 1 | Agrc | 7 795 83 | -248 191 21 | -441 604 236 |
## 2 | Inds | 58 995 514 | -470 903 627 | 151 93 224 |
## 3 | Enrg | 8 857 89 | -487 768 92 | -165 89 37 |
## 4 | Cnst | 113 960 94 | -51 111 14 | -141 849 378 |
## 5 | Cmrc | 297 627 28 | -35 465 18 | -21 162 22 |
## 6 | Otr_ | 517 988 193 | 95 875 228 | 34 113 103 |
plot(establec.ca)
En este caso el aspecto del gráfico “a priori” es distinto al de FactoMineR
porque las puntuaciones obtenidas ahora en las dos primeras dimensiones son las opuestas a las anteriores, pero esto realmente no cambia la posición relativas de las filas y las columnas. Son interesantes los siguientes argumentos: mass
, para determinar si la masa de un perfil fila o columna se representa por el tamaño del correspondiente símbolo; contrib
, para determinar si valores más altos de las contribuciones (absolutas o relativas) se representan con mayor intensidad de color; y arrows
, para determinar si dibujar semirrectas desde el origen a los puntos de las filas y/o las columnas:
plot(establec.ca, mass = c(TRUE, TRUE), contrib = c("relative", "relative"), arrows = c(FALSE, TRUE))
Como en el gráfico aparecen algunas etiquetas superpuestas, sería aconsejable acortar los nombres de las comarcas para intentar obtener un gráfico algo más claro:
dimnames(establec)
## [[1]]
## [1] "Altiplano" "Comarca_Lorca"
## [3] "Bajo_Guadalentin" "Campo_Cartagena"
## [5] "Area_metropolitana" "Noroeste"
## [7] "Cuenca_Abanilla_Fortuna" "Cuenca_Mula"
## [9] "Vega_Segura"
##
## [[2]]
## [1] "Agricultura" "Industria" "Energia" "Construccion"
## [5] "Comercio" "Otros_servicios"
dimnames(establec)[[1]] <- c("Altiplano", "C.Lorca", "B.Guadalentin", "C.Cartagena", "A.metropolitana", "Noroeste", "Abanilla.Fortuna", "C.Mula", "V.Segura")
establec.ca <- ca(establec)
plot(establec.ca, mass = c(TRUE, TRUE), contrib = c("relative", "relative"), arrows = c(FALSE, TRUE))
En un gráfico de este tipo, el origen representa al centroide, de modo que los puntos muy cercanos tendrán un perfil parecido al del centroide. Esto sucede con el comercio, cuyos establecimientos se reparten entre las comarcas en proporción similar a como se reparte el total de establecimientos de la Región de Murcia.
perfiles.columna[ , "Comercio"]
## Altiplano Comarca_Lorca Bajo_Guadalentin
## 0.037963519 0.107473828 0.054554983
## Campo_Cartagena Area_metropolitana Noroeste
## 0.209029438 0.461007503 0.046323163
## Cuenca_Abanilla_Fortuna Cuenca_Mula Vega_Segura
## 0.009254407 0.011862002 0.062531157
establec.fmr$call$marge.row
## Altiplano Comarca_Lorca Bajo_Guadalentin
## 0.037037882 0.106860218 0.050448149
## Campo_Cartagena Area_metropolitana Noroeste
## 0.211071073 0.477045180 0.043948275
## Cuenca_Abanilla_Fortuna Cuenca_Mula Vega_Segura
## 0.008795737 0.011365278 0.053428209
En cuanto a las posiciones relativas de las comarcas, la cuenca de Mula y el Bajo Guadalentín están cerca en el gráfico, además en el mismo cuadrante, con coordenadas de los mismos signos, y como ambas comarcas están relativamente bien representadas en el plano de las dos primeras dimensiones, sus perfiles son similares:
perfiles.fila["Cuenca_Mula", ]
## Agricultura Industria Energia Construccion
## 0.01003344 0.05217391 0.02341137 0.14381271
## Comercio Otros_servicios
## 0.31036789 0.46020067
perfiles.fila["Bajo_Guadalentin", ]
## Agricultura Industria Energia Construccion
## 0.01356239 0.06298975 0.01446655 0.12884268
## Comercio Otros_servicios
## 0.32157926 0.45855937
En cambio, en el caso de las columnas realmente no hay dos sectores que estén tan cercanos.
En cuanto a las relaciones entre comarca y sectores (filas y columnas):
Lo que más claramente se observa en el gráfico es la asociación (positiva) de la comarca del Altiplano con el sector de la industria, ya detectada en el epígrafe dedicado a perfiles fila y columna. En el Altiplano, los sectores con mayor número de establecimientos son el comercio (30.48%) y otros servicios (38.61%), pero su porcentaje de establecimientos en la industria es superior al del resto de comarcas (17.78% frente a la media regional de 5.83%). Visto desde otra perspectiva, el 11.29% de las establecimientos de la industria se ubican en el Altiplano, mientras que a esta comarca solo corresponde el 3.71% de las establecimientos en Región de Murcia.
Otra asociación (positiva) que se desprende del gráfico es la del área metropolitana y el campo de Cartagena con el sector de otros servicios distintos del comercio. Si bien en todas las comarcas ese es siempre el sector con más establecimientos (el 51,66% de los establecimientos de la Región son de ese sector), el porcentaje en al área metropolitana (55.41%) y en el campo de Cartagena (53.90%) es algo superior (de hecho son las únicas dos comarcas con porcentaje superior a la media regional). Por otra parte, de todos los establecimientos dedicados a otros servicios en la Región el 51.17% se ubican en el área metropolitana y el 22.02% en el campo de Cartagena (en total, aglutinan el 73.19% de establecimientos del sector), mientras que a dichas comarcas corresponden, respectivamente, el 47.70% y el 21.11% del total de establecimientos de la Región.
Además, estas dos comarcas están negativamente asociadas con el sector de la energía (situación opuesta en el gráfico), puesto que son las únicas con un porcentaje de establecimientos en ese sector (0.55% para el área metropolitana y 0.51% para el campo de Cartagena) menor que la media de la Región (1.68%). Análogamente, de todos los establecimientos dedicados a la energía en la Región el 32.76% se ubican en el área metropolitana y el 13.48% en el campo de Cartagena, si bien a dichas comarcas corresponden porcentajes superiores del total de establecimientos de la Región (47.70% y 21.11%, respectivamente, como ya se ha visto).
También el área metropolitana está negativamente asociada con la agricultura (las dos semirrectas que parten del origen hacia cada uno de esos puntos forman un ángulo de casi 180º), ya que su porcentaje de establecimientos en ese sector (0.35%) es menor que la media de la Región (0.71%). Del mismo modo, el 23.32% de los establecimientos agrícolas de la Región se ubican en el área metropolitana aunque esta comarca reúne al 47.70% de total de establecimientos de la Región.
Y el campo de Cartagena se asocia negativamente a la industria, con un porcentaje de establecimientos en ese sector (4.42%) inferior a la media regional (5.83%). Visto de otro modo, solo el 16% de los establecimientos industriales de la Región se ubica en el campo de Cartagena aunque esta comarca reúne al 21.11% del total de establecimientos de la Región.
Otra asociación (positiva) es la de la Vega del Segura con el sector de la energía. Como en todas las comarcas, en la Vega del Segura la mayoría de las establecimientos son comercios (34.80%) u otros servicios (41.08%), pero su porcentaje de establecimientos relacionados con la energía es superior al del resto de comarcas (1.59% frente a la media regional de 0.80%). Además, el 10.67% de las establecimientos en el sector de la energía se concentran en la Vega del Segura, mientras que a esta comarca solo corresponde el 5.34% de las establecimientos de la Región.
También la comarca del Bajo Guadalentín presenta una asociación con el sector de la energía, pero algo más débil (su porcentaje de establecimientos relacionados con la energía es 1.45% frente a la media regional de 0.80%, y el 9.14% de las establecimientos en el sector de la energía se concentran dicha comarca frente al 5.34% que representan sus establecimientos, de cualquier tipo, sobre el total de la Región).
El gráfico también pone de manifiesto la relación de la comarca del Noroeste y la Cuenca de Abanilla y Fortuna tanto con la industria como con la energía, aunque en menor grado que las comarcas antes mencionadas, lo que se puede observar en los perfiles fila y columna.
La construcción y la agricultura se pueden asociar con la comarca de Lorca, la Cuenca de Mula y el Bajo Guadalentín, relación presente en los correspondientes perfiles.
Finalmente, aunque la distribución de los establecimiento comerciales entre las comarcas es muy similar a la distribucion del conjunto de todos los establecimientos, también se observa cierta relación entre el comercio con el Bajo Guadalentín y la Vega del Segura, como corroboran los perfiles.
NOTA: El gráfico por defecto representa las dos primeras dimensiones, pero en el caso de que fueran necesarias más, simplemente que añadir el argumento dim
, por ejemplo:
plot(establec.ca, dim = c(1,3), mass = c(TRUE, TRUE), contrib = c("relative", "relative"))
Conviene destacar que a la hora de aplicar un ACS se puede incluir información de alguna fila o columna que deseamos situar en el gráfico anterior pero sin que intervenga en la determinación de las dimensiones (no contaría a la hora de computar la inercia total). Dichas filas y/o columnas se introducen en el análisis como suplementarias. En nuestro ejemplo, podría ser un municipio del que se disponga de información sobre el número de establecimientos por sectores. Por ejemplo,
Aguilas <- c(136, 170, 40, 746, 1556, 2632)
Bullas <- c(10, 170, 30, 304, 528, 802)
Cieza <- c(32, 322, 94, 544, 1622, 1776)
establec <- rbind(establec, M.Aguilas = Aguilas, M.Bullas = Bullas, M.Cieza = Cieza)
establec
## Agricultura Industria Energia Construccion Comercio
## Altiplano 104 1732 164 1012 2970
## C.Lorca 418 1249 265 4310 8408
## B.Guadalentin 180 836 192 1710 4268
## C.Cartagena 482 2454 283 6028 16353
## A.metropolitana 438 6127 688 12637 36066
## Noroeste 118 1242 160 1390 3624
## Abanilla.Fortuna 22 292 54 286 724
## C.Mula 30 156 70 430 928
## V.Segura 86 1252 224 1828 4892
## M.Aguilas 136 170 40 746 1556
## M.Bullas 10 170 30 304 528
## M.Cieza 32 322 94 544 1622
## Otros_servicios
## Altiplano 3762
## C.Lorca 13463
## B.Guadalentin 6086
## C.Cartagena 29929
## A.metropolitana 69546
## Noroeste 5028
## Abanilla.Fortuna 936
## C.Mula 1376
## V.Segura 5774
## M.Aguilas 2632
## M.Bullas 802
## M.Cieza 1776
establec.ca2 <- ca(establec, suprow = c(10, 11, 12)) # el argumento suprow indica los índices de las filas suplementarias
summary(establec.ca2) # los resultados no cambian por introducir filas o columnas suplementarias
##
## Principal inertias (eigenvalues):
##
## dim value % cum% scree plot
## 1 0.020564 74.0 74.0 ******************
## 2 0.005889 21.2 95.1 *****
## 3 0.000914 3.3 98.4 *
## 4 0.000237 0.9 99.3
## 5 0.000204 0.7 100.0
## -------- -----
## Total: 0.027807 100.0
##
##
## Rows:
## name mass qlt inr k=1 cor ctr k=2 cor ctr
## 1 | Altp | 37 986 386 | -513 908 474 | 151 78 143 |
## 2 | CLrc | 107 950 113 | -13 5 1 | -167 944 504 |
## 3 | BGdl | 50 922 40 | -99 438 24 | -104 485 92 |
## 4 | CCrt | 211 860 45 | 70 835 51 | -12 25 5 |
## 5 | Amtr | 477 988 146 | 78 705 139 | 49 283 195 |
## 6 | Nrst | 44 998 97 | -247 996 130 | 11 2 1 |
## 7 | AbnF | 9 962 43 | -361 961 56 | 12 1 0 |
## 8 | CMul | 11 633 19 | -89 168 4 | -148 464 42 |
## 9 | VSgr | 53 840 110 | -215 806 120 | -44 33 17 |
## 10 | (*)MAgl | <NA> 708 <NA> | 33 16 <NA> | -217 691 <NA> |
## 11 | (*)MBll | <NA> 718 <NA> | -206 642 <NA> | -71 75 <NA> |
## 12 | (*)MCiz | <NA> 645 <NA> | -191 527 <NA> | -90 118 <NA> |
##
## Columns:
## name mass qlt inr k=1 cor ctr k=2 cor ctr
## 1 | Agrc | 7 795 83 | -248 191 21 | -441 604 236 |
## 2 | Inds | 58 995 514 | -470 903 627 | 151 93 224 |
## 3 | Enrg | 8 857 89 | -487 768 92 | -165 89 37 |
## 4 | Cnst | 113 960 94 | -51 111 14 | -141 849 378 |
## 5 | Cmrc | 297 627 28 | -35 465 18 | -21 162 22 |
## 6 | Otr_ | 517 988 193 | 95 875 228 | 34 113 103 |
plot(establec.ca2, mass = c(TRUE, TRUE), contrib = c("relative", "relative"), arrows = c(FALSE, TRUE)) # incluye las filas suplementarias (municipios), y también las columnas suplementarias si las hubiera, aunque no modifica la posición de las filas y columnas activas (comarcas y sectores)
Observe que los municipios se han ubicado relativamente cerca de su comarca (Aguilas de la comarca de Lorca, Cieza de la vega del Segura y Bullas del Noroeste).
Aguilas / sum(Aguilas) # perfil de Aguilas
## [1] 0.025757576 0.032196970 0.007575758 0.141287879 0.294696970 0.498484848
perfiles.fila["Comarca_Lorca", ]
## Agricultura Industria Energia Construccion
## 0.014868566 0.044427845 0.009426244 0.153309857
## Comercio Otros_servicios
## 0.299078718 0.478888770
Bullas / sum(Bullas) # perfil de Bullas
## [1] 0.005422993 0.092190889 0.016268980 0.164859002 0.286334056 0.434924078
perfiles.fila["Vega_Segura", ]
## Agricultura Industria Energia Construccion
## 0.006118384 0.089072282 0.015936255 0.130051224
## Comercio Otros_servicios
## 0.348036426 0.410785430
Cieza / sum(Cieza) # perfil de Cieza
## [1] 0.007289294 0.073348519 0.021412301 0.123917995 0.369476082 0.404555809
perfiles.fila["Noroeste", ]
## Agricultura Industria Energia Construccion
## 0.01020585 0.10742086 0.01383844 0.12022141
## Comercio Otros_servicios
## 0.31344058 0.43487286
En el paquete Factoshiny
se encuentran algunas aplicaciones shiny que permiten ejecutar las funciones del paquete FactoMineR
de forma interactiva en un formato web con menús. Para ello, una vez instalado y cargado el paquete, se utiliza la función CAshiny
:
install.packages("Factoshiny")
library(Factoshiny)
CAshiny(establec.fmr)
El código anterior tiene como resultado que se abra la siguiente página en su navegador desde la que puede interactuar:
FactoMineR
En este apartado vemos como extraer, de forma parcial, información contenida en el objeto establec.fmr
y cómo utilizarla para hacer cálculos adicionales.
Así, el objeto establec.fmr$eig
contiene los valores propios o varianzas de las dimensiones, junto con el porcentaje acumulado y no acumulado.
El objeto establec.fmr$row
contiene información relativa a las modalidades en las filas: sus coordenadas en las distintas dimensiones (también con establec.fmr$row$coord
), sus contribuciones absolutas a las dimensiones (también con establec.fmr$row$contrib
), sus contribuciones relativas (también con establec.fmr$row$cos2
), sus inercias (también con establec.fmr$row$inertia
).
La información relativa a las modalidades en las columnas se encuentra en el objeto establec.fmr$col
, en particular, sus coordenadas en las distintas dimensiones (también con establec.fmr$col$coord
), sus contribuciones absolutas a las dimensiones (también con establec.fmr$col$contrib
), sus contribuciones relativas (también con establec.fmr$col$cos2
), sus inercias (también con establec.fmr$col$inertia
).
El objeto establec.fmr$call
devuelve un resumen con la tabla de contingencia (que también se puede obtener como establec.fmr$call$X
o establec.fmr$call$Xtot
), las masas de las modalidades en las columnas (también establec.fmr$call$marge.col
) y en las filas (establec.fmr$call$marge.row
), el número de dimensiones (establec.fmr$call$ncp
) y el total de observaciones (establec.fmr$call$N
).
Situaciones en las que sería interesante disponer de dicha información:
En relación a las comarcas (filas) obtenemos, en primer lugar, las contribuciones relativas en las dimensiones 1 y 2 por separado, esto es, los porcentajes de la inercia de cada comarca recogido en cada dimensión. Vector con las contribuciones relativas en las dimensiones 1 y 2 de las comarcas,
contr.rel.com <- establec.fmr$row$cos2[, 1:2]
Vector con la suma de las contribuciones relativas en ambas dimensiones,
contr.1.2.com <- rowSums(contr.rel.com)
cbind(contr.rel.com, Dim1y2 = contr.1.2.com)
## Dim 1 Dim 2 Dim1y2
## Altiplano 0.907914340 0.078381284 0.9862956
## Comarca_Lorca 0.005391442 0.944272961 0.9496644
## Bajo_Guadalentin 0.437500112 0.484828513 0.9223286
## Campo_Cartagena 0.835360802 0.024592507 0.8599533
## Area_metropolitana 0.705006806 0.282551961 0.9875588
## Noroeste 0.996346712 0.002118505 0.9984652
## Cuenca_Abanilla_Fortuna 0.960997641 0.001091249 0.9620889
## Cuenca_Mula 0.168199503 0.464487381 0.6326869
## Vega_Segura 0.806321872 0.033402430 0.8397243
Observamos que en la dimensión 1 no está bien representada la comarca de Lorca (solo recoge el 0.053% de su inercia) y la Cuenca de Mula (recoge el 16,82%), sin embargo, son las mejor representadas en la dimensión 2 junto con el Bajo Guadalentín (48,48% de su inercia). En general, todas las comarcas están bien representadas en el plano de la dimensión 1 y 2, ya que ambas dimensiones conjuntamente recogen un alto porcentaje de inercia de cada comarca, como se observa en la última columna.
En relación a los sectores económicos las contribuciones relativas en las dimensiones 1 y 2 son las siguientes:
contr.rel.sect <- establec.fmr$col$cos2[, 1:2]
Vector con la suma de las contribuciones relativas en ambas dimensiones,
contr.1.2.sect <- rowSums(contr.rel.sect)
cbind(contr.rel.sect, Dim1y2 = contr.1.2.sect)
## Dim 1 Dim 2 Dim1y2
## Agricultura 0.1907736 0.60439288 0.7951665
## Industria 0.9027763 0.09256365 0.9953400
## Energia 0.7679046 0.08878869 0.8566933
## Construccion 0.1106321 0.84933580 0.9599679
## Comercio 0.4648623 0.16244116 0.6273035
## Otros_servicios 0.8745131 0.11300446 0.9875175
iner.total <- sum(establec.fmr$row$inertia)
iner.total
## [1] 0.02780745
iner.total <- sum(establec.fmr$col$inertia)
iner.total
## [1] 0.02780745
Vector con las inercias de las comarcas,
iner.com <- establec.fmr$row$inertia
Data.frame con toda la información anterior añadiendo la proporción de inercia total de cada comarca,
comar.iner <- as.data.frame(cbind(Dim1y2 = contr.1.2.com, Inercias = iner.com, Prop_iner = iner.com/iner.total))
comar.iner
## Dim1y2 Inercias Prop_iner
## Altiplano 0.9862956 0.0107430763 0.38633805
## Comarca_Lorca 0.9496644 0.0031403414 0.11293166
## Bajo_Guadalentin 0.9223286 0.0011221062 0.04035272
## Campo_Cartagena 0.8599533 0.0012539652 0.04509458
## Area_metropolitana 0.9875588 0.0040675985 0.14627729
## Noroeste 0.9984652 0.0026931738 0.09685080
## Cuenca_Abanilla_Fortuna 0.9620889 0.0011921076 0.04287008
## Cuenca_Mula 0.6326869 0.0005341062 0.01920731
## Vega_Segura 0.8397243 0.0030609753 0.11007753
Ordenamos las comarcas de mayor a menor proporción de inercia,
comar.iner[order(comar.iner$Prop_iner, decreasing = TRUE), ]
## Dim1y2 Inercias Prop_iner
## Altiplano 0.9862956 0.0107430763 0.38633805
## Area_metropolitana 0.9875588 0.0040675985 0.14627729
## Comarca_Lorca 0.9496644 0.0031403414 0.11293166
## Vega_Segura 0.8397243 0.0030609753 0.11007753
## Noroeste 0.9984652 0.0026931738 0.09685080
## Campo_Cartagena 0.8599533 0.0012539652 0.04509458
## Cuenca_Abanilla_Fortuna 0.9620889 0.0011921076 0.04287008
## Bajo_Guadalentin 0.9223286 0.0011221062 0.04035272
## Cuenca_Mula 0.6326869 0.0005341062 0.01920731
Observamos que el Altiplano tiene mayor inercia o variabilidad respecto al centroide que el resto de comarcas siendo recogida casi la totalidad (un 98.63%) por ambas dimensiones. La Cuenca de Mula es la que menor proporción de inercia posee, recogiendo el análisis de correspondencias un 63.27% de la misma entre ambas dimensiones.
En el caso de los sectores o columnas, el vector con las inercias de las comarcas,
iner.sec <- establec.fmr$col$inertia
Data.frame con toda la información anterior añadiendo la proporción de inercia total de cada comarca,
sect.iner <- as.data.frame(cbind(Dim1y2 = contr.1.2.sect, Inercias = iner.sec, Prop_iner = iner.sec/iner.total))
Ordenamos las comarcas de mayor a menor proporción de inercia,
sect.iner[order(sect.iner$Prop_iner, decreasing = TRUE), ]
## Dim1y2 Inercias Prop_iner
## Industria 0.9953400 0.0142794870 0.51351299
## Otros_servicios 0.9875175 0.0053611003 0.19279366
## Construccion 0.9599679 0.0026218408 0.09428555
## Energia 0.8566933 0.0024617519 0.08852850
## Agricultura 0.7951665 0.0022967849 0.08259603
## Comercio 0.6273035 0.0007864856 0.02828327
El sector de la industria recoge el 51.35% de la inercia total, esto es, presenta mucha variabilidad entre las comarcas. El comercio es el que menos inercia presenta, un 2,83% de la inercia total.
com1 <- as.data.frame(cbind(Contrib = establec.fmr$row$contrib[, 1], Puntuacion = establec.fmr$row$coord[, 1]))
com1[order(com1$Contrib, decreasing = T ), ]
## Contrib Puntuacion
## Altiplano 47.43195595 0.51317288
## Area_metropolitana 13.94533291 -0.07753288
## Noroeste 13.04885418 0.24709646
## Vega_Segura 12.00233572 0.21493089
## Cuenca_Abanilla_Fortuna 5.57102724 0.36089659
## Campo_Cartagena 5.09397802 -0.07044747
## Bajo_Guadalentin 2.38731437 0.09864690
## Cuenca_Mula 0.43686760 0.08890704
## Comarca_Lorca 0.08233402 0.01258731
La comarca que más contribuye a la primera dimensión es el Altiplano (con puntuación positiva), y en menor medida, el área metropolitana (con puntuación negativa) y el Noroeste y la Vega del Segura (positiva).
Para interpretar la dimensión 2 en relación a las comarcas, ordenamos las comarcas de mayor a menor contribución absoluta en la dimensión 2 y obtenemos sus puntuaciones en esta dimensión:
com2 <- as.data.frame(cbind(Contrib = establec.fmr$row$contrib[, 2], Puntuacion = establec.fmr$row$coord[, 2]))
com2[order(com2$Contrib, decreasing = T ), ]
## Contrib Puntuacion
## Comarca_Lorca 50.35466888 0.16658243
## Area_metropolitana 19.51649061 -0.04908383
## Altiplano 14.29902277 -0.15078129
## Bajo_Guadalentin 9.23820128 0.10384568
## Cuenca_Mula 4.21276146 0.14774430
## Vega_Segura 1.73621386 0.04374553
## Campo_Cartagena 0.52366507 0.01208731
## Noroeste 0.09688561 -0.01139400
## Cuenca_Abanilla_Fortuna 0.02209045 -0.01216140
Para los sectores económicos (o columnas)
sect1 <- as.data.frame(cbind(Contrib = establec.fmr$col$contrib[, 1], Puntuacion = establec.fmr$col$coord[, 1]))
sect1[order(sect1$Contrib, decreasing = T ), ]
## Contrib Puntuacion
## Industria 62.688844 0.47019637
## Otros_servicios 22.799102 -0.09526776
## Energia 9.192827 0.48664437
## Agricultura 2.130767 0.24775193
## Comercio 1.777922 0.03506373
## Construccion 1.410538 0.05074767
En cuanto a los sectores económicos, los que más contribuyen a la primera dimensión son la industria (coordenada positiva) y otros servicios (coordenada negativa). Si ordenamos las puntuaciones o coordenadas:
sect1[order(sect1$Puntuacion), ]
## Contrib Puntuacion
## Otros_servicios 22.799102 -0.09526776
## Comercio 1.777922 0.03506373
## Construccion 1.410538 0.05074767
## Agricultura 2.130767 0.24775193
## Industria 62.688844 0.47019637
## Energia 9.192827 0.48664437
Esta dimensión contrapone otros servicios con agricultura teniendo ambos sectores una contribución importante a la dimensión 1. Vemos ahora la dimensión 2.
sect2 <- as.data.frame(cbind(Contrib = establec.fmr$col$contrib[, 2], Puntuacion = establec.fmr$col$coord[, 2]))
sect2[order(sect2$Contrib, decreasing = T ), ]
## Contrib Puntuacion
## Construccion 37.813865 0.14060970
## Agricultura 23.572464 0.44097869
## Industria 22.444937 -0.15055994
## Otros_servicios 10.287618 -0.03424606
## Energia 3.711652 0.16547671
## Comercio 2.169463 0.02072736
Los sectores económicos que más contribuyen a la segunda dimensión son la construcción y la agricultura (con puntuaciones positivas) y la industria (negativa). También podemos ordenar las coordenadas:
sect2[order(sect2$Puntuacion), ]
## Contrib Puntuacion
## Industria 22.444937 -0.15055994
## Otros_servicios 10.287618 -0.03424606
## Comercio 2.169463 0.02072736
## Construccion 37.813865 0.14060970
## Energia 3.711652 0.16547671
## Agricultura 23.572464 0.44097869
Aquí se observa claramente que la dimensión 2 contrapone la industria a la agricultura, teniendo ambas una contribución elevada en dicha dimensión.
FactoMineR
El gráfico básico proporcionado por FactoMineR
se puede modificar, simplemente aplicando el comando plot
al objeto establec.fmr
y usando los argumentos necesarios. Por ejemplo, podemos destacar las filas y columnas para las que el plano recoge al menos el 70% de su inercia (el valor del argumento unselect
proporciona el grado de transparencia con el que se representan los objetos no seleccionados):
plot(establec.fmr, selectRow = "cos2 0.7", selectCol = "cos2 0.7", unselect = 0.7, cex = 0.7, title = "")
Además, al igual que en ca
, el gráfico representa por defecto las dos primeras dimensiones, que en este caso resumen de manera adecuada prácticamente toda la información de la tabla de contingencia (95.1%). En el caso de que fuera necesario representar más dimensiones simplemente habría que seleccionar los ejes deseados con el argumento axes
, por ejemplo:
plot(establec.fmr, axes = c(1, 3), selectRow = "cos2 0.7", selectCol = "cos2 0.7", unselect = 0.6, cex = 0.7, title = "")
ca
La salida con el resumen del análisis de correspondencias simple con la librería ca
no aporta más información que la obtenida con FactoMineR
:
summary(establec.ca)
##
## Principal inertias (eigenvalues):
##
## dim value % cum% scree plot
## 1 0.020564 74.0 74.0 ******************
## 2 0.005889 21.2 95.1 *****
## 3 0.000914 3.3 98.4 *
## 4 0.000237 0.9 99.3
## 5 0.000204 0.7 100.0
## -------- -----
## Total: 0.027807 100.0
##
##
## Rows:
## name mass qlt inr k=1 cor ctr k=2 cor ctr
## 1 | Altp | 37 986 386 | -513 908 474 | 151 78 143 |
## 2 | CLrc | 107 950 113 | -13 5 1 | -167 944 504 |
## 3 | BGdl | 50 922 40 | -99 438 24 | -104 485 92 |
## 4 | CCrt | 211 860 45 | 70 835 51 | -12 25 5 |
## 5 | Amtr | 477 988 146 | 78 705 139 | 49 283 195 |
## 6 | Nrst | 44 998 97 | -247 996 130 | 11 2 1 |
## 7 | AbnF | 9 962 43 | -361 961 56 | 12 1 0 |
## 8 | CMul | 11 633 19 | -89 168 4 | -148 464 42 |
## 9 | VSgr | 53 840 110 | -215 806 120 | -44 33 17 |
##
## Columns:
## name mass qlt inr k=1 cor ctr k=2 cor ctr
## 1 | Agrc | 7 795 83 | -248 191 21 | -441 604 236 |
## 2 | Inds | 58 995 514 | -470 903 627 | 151 93 224 |
## 3 | Enrg | 8 857 89 | -487 768 92 | -165 89 37 |
## 4 | Cnst | 113 960 94 | -51 111 14 | -141 849 378 |
## 5 | Cmrc | 297 627 28 | -35 465 18 | -21 162 22 |
## 6 | Otr_ | 517 988 193 | 95 875 228 | 34 113 103 |
También en este caso pueden realizarse cálculos auxiliares a partir de información parcial contenida en el objeto establec.ca
. Alguna información de interés para las filas sería establec.ca$rownames
(nombres), establec.ca$rowmass
(masas), establec.ca$rowdist
(distancia chi-cuadrado al centroide) y establec.ca$rowinertia
(inercias). Y análogo para las columnas: establec.ca$colnames
, establec.ca$colmass
, establec.ca$coldist
y establec.ca$colinertia
.