Número Actual - Números Anteriores - TonosDigital en OJS - Acerca de Tonos
logo
Revista de estudios filológicos
Nº33 Junio 2017 - ISSN 1577-6921
<Portada
<Volver al índice de corpora  

corpora

DISEÑO DE UNA ENCUESTA SOCIOLINGÜÍSTICA (CIUDAD DE MURCIA)

Pedro Hernández Meseguer

(Universidad de Murcia)

pedro.ir@audiest.es

 

CONSIDERACIONES PREVIAS

El objetivo principal (aunque no el único) de la siguiente encuesta es el de traducir a valores una impresión que parece generalizada entre los murcianos: se está perdiendo el léxico propio de la Región de Murcia. Sin entrar ahora en la discusión acerca de si se trata de un auténtico dialecto o no, ni en consideraciones sobre el prestigio encubierto, e independientemente de que otros rasgos (algunos morfológicos pero, sobre todo, los de naturaleza fonológica) sigan identificando el habla murciana, existe la sensación de que –salvo unos cuantos vocablos que “chocan” fuera de nuestra comunidad lingüística, como leja, picoesquina, perigallo y algún otro– una buena parte de lo que constituía nuestro acervo lexicográfico particular, nuestro vernáculo, ha desaparecido o está en vías de ello. Quizá obedezca esta tendencia a lo que Hernández Campoy describe como «acomodación a la variedad de prestigio castellana del norte, en casos de contacto interdialectal y en contextos públicos»[1]. Aquí pretendemos plasmar numéricamente esta impresión (o desecharla, si fuera el caso), cuantificando el dominio de este léxico propio, aunque no necesariamente exclusivo, sobre todo en relación con la variable edad ya que será la que mejor pueda mostrar esta evolución. Se trata, en definitiva, del estudio de la covariación de la dimensión léxica y la diacrónica (Penny, 2004: 23). Asimismo, no estamos interesados en los simples vulgarismos, como la “diferiencia” a la que se refiere Gómez Ortín (2004).

Por otro lado, sería lamentable no aprovechar esta oportunidad para extraer más información de esta encuesta –referida exclusivamente a la ciudad de Murcia y sus pedanías–, así que se utilizará, también, para estudiar esta variación en relación con el nivel socioeconómico y con la localización geográfica, que hemos denominado lugar de residencia (criterios diastrático y diatópico). Por último, también puede ser objeto de atención el análisis de los resultados de la misma relación con la variable sexo, aunque como intención terciaria ya que presuponemos falta de relación entre esta variable y el conocimiento léxico. 

         Así pues, esta encuesta no tiene vocación de excesiva amplitud, ya que se va a estudiar un único aspecto, pero sí de profundidad, porque lo haremos desde varios puntos de vista y con tratamientos no usuales. Como ya se verá, utilizaremos métodos de contraste paramétricos, además de alguno de los usuales no paramétricos (Hernández, 2005; xiv).

PRELIMINARES DE LA ENCUESTA

El primer problema (quizá el mayor desde un punto de vista estadístico teórico) con el que se encuentra el investigador que estudia fenómenos relacionados con los seres humanos reside en que, normalmente, estos no se encuentran numerados, por lo que resulta casi imposible efectuar un muestreo aleatorio, en el sentido estricto del término estadístico. Para que fuera así, todas las unidades que componen la Población a muestrear deberían tener exactamente la misma probabilidad (por ejemplo, entre infinidad de ellos, Cuadras, 1984: 372), y no solo «alguna probabilidad» (Moreno, 2009: 311), de ser elegidas para formar parte de la muestra en cada prueba (muestreo aleatorio simple) o bien que esa probabilidad variase ínfimamente de una unidad a la siguiente (muestreo irrestrictamente aleatorio). El primer caso solo se da en los “laboratorios”, cuando se extraen bolas de un bombo y estas se van reintegrando tras cada extracción; el segundo, en el que la unidad examinada no tiene probabilidad alguna de ser seleccionada de nuevo (lo habitual en estudios sociológicos), solo puede aplicarse con técnicas estadísticas basadas en la probabilidad si la Población tiene un tamaño lo suficientemente grande como para que esta variación en la probabilidad pueda ser considerada como despreciable.

Tanto la falta de numeración de las unidades como la imposibilidad práctica de garantizar la aleatoriedad en este tipo de estudios hacen que, en la mayoría de las ocasiones, las selecciones muestrales obedezcan a criterios opináticos (en el mejor de los casos) o a lo que se suele denominar –indebidamente– azar, es decir, la elección de la unidad que más o menos se ajusta a lo que pretendo o la que le viene más a mano al encuestador, lo cual tiene evidentes ventajas desde el punto de vista práctico, pero también graves inconvenientes de sesgo, por mucho que se empeñe el investigador en evitarlo. Se trata de muestras obtenidas de forma no aleatoria, con gran diversidad de métodos posibles, aplicables según las circunstancias poblacionales: por cuotas o accidental, opinático o intencional, causal o incidental, errático o sin norma, o el conocido como método de la bola de nieve (Martín, 2015: 8). A todo esto hay que añadir que la inmensa mayoría de los rasgos estudiados son de naturaleza cualitativa, variables no métricas que presentan resultados en forma de modalidades: cualidades, atributos o categorías, ordinales o nominales; pero no de valores, lo que imposibilita la aplicación de una buena parte de las técnicas estadísticas.

En nuestro caso pretendemos salvar todos estos inconvenientes. En primer lugar, contamos con los datos del censo de población de Murcia y sus pedanías (esto bien podría suponer un problema –salvable– de orden práctico, ya que los datos personales se encuentran muy protegidos en la actualidad[2]) en el que la información se puede filtrar por tramos de edad y, sobre todo, están ordenadas sin sesgo todas las unidades que constituyen la Población estadística lo que, en la práctica, equivale a decir que son susceptibles de numeración y, por consiguiente, que podemos aplicar una selección muestral (irrestrictamente) aleatoria, ya que la imprescindible equiprobabilidad está garantizada. En segundo lugar, el diseño de las preguntas de la encuesta nos permitirá traducir las respuestas (de naturaleza, en esencia, cualitativa) a valores, con lo que se abre toda una gama nueva de posibilidades, en cuanto a su tratamiento estadístico paramétrico, sobre todo en cuanto a medias poblacionales que es lo que más nos interesa, y todo ello sin tener que renunciar a los análisis cualitativos. Finalmente, el disponer de la Población dividida en estratos, de forma natural y sin coste añadido, nos permite utilizar el muestreo aleatorio estratificado[3], con la consiguiente reducción de la varianza –ya que la de los estratos es inferior a la poblacional– y la posibilidad derivada de, o bien reducir los tamaños muestrales sin perder fiabilidad, o bien mantenerlos y ganar en precisión.

Por contra, el trabajar con censos también tiene sus inconvenientes: en primer lugar, los datos de los que se dispone están desplazados en el tiempo (desajuste o desfase, mejor que decalaje, según la Fundéu) y esta circunstancia hay que considerarla a la hora de la selección muestral, sobre todo si la edad juega un papel importante; en segundo lugar, hay que tener en cuenta que en el tiempo transcurrido desde la realización efectiva de la encuesta censal (2011) hasta la nuestra (2016) pueden haber variado las circunstancias personales de los censados (cambios de domicilio, defunciones, etc.), y hay que considerar la posibilidad de que estas variaciones, en el supuesto de que no hayan sido registradas, impidan la comprobación de la unidad seleccionada, por lo que resulta obligado incrementar los tamaños muestrales, a nivel teórico, con el fin de paliar los efectos negativos de estas contingencias. Esto nos lleva a adoptar la segunda posibilidad de las planteadas en el párrafo anterior: no utilizaremos la ventaja de la menor varianza para reducir los tamaños muestrales, al menos hasta comprobar que se han alcanzado los mínimos que garantizan la fiabilidad de los resultados.

PREPARACIÓN DE LA POBLACIÓN Y SELECCIÓN DE LA MUESTRA   

            Supuestamente, disponemos de los datos que proporciona el censo de población de Murcia del año 2011 (que nos ha proporcionado el Ayuntamiento de la ciudad y el Centro Regional de Estadística de Murcia, tras la obtención de los permisos correspondientes y ateniéndonos a la legislación vigente, y que coinciden exactamente –en cuanto a número de habitantes– con los publicados en el diario La Verdad de Murcia[4]), en el que los habitantes están ordenados alfabéticamente y clasificados (o susceptibles de clasificación) de acuerdo con diversos criterios, entre otros el que más nos interesa ahora: la edad, en tramos de cinco años (que nosotros adaptamos a nuestras necesidades y conveniencias), actualizado –con la información disponible a diciembre de 2015–, en mayo de 2016. Puesto que ya contamos con la información semielaborada, es decir, disponemos de las unidades poblacionales agrupadas por los tramos de edad que nosotros mismos hemos fijado (la usual de quince años en los tramos centrales), dividida entre Murcia y pedanías, se eliminan de la Población original los elementos que entendemos no deben formar parte de la misma, a los efectos de nuestro trabajo (extranjeros y habitantes con edad inferior a veinte años), y considerando la cautela ya apuntada del diferimiento temporal y la eventual falta de registro de variaciones, procedemos a la determinación del tamaño muestral, tanto del total como del correspondiente a cada uno de los estratos que consideraremos.

            Nos encontramos, pues, con una Población estadística compuesta por 292 103 unidades (ver anexo nº 1.a) y calcularemos el tamaño muestral con las condiciones más adversas: desconocimiento de la varianza y p = q  (o 1-p) = 0,5. Otros datos: Nivel de confianza, en prueba unilateral (1-α): 95%. Error máximo admisible: 5%. Normalidad aceptada (tanto por el tamaño de la Población como por su propia naturaleza).

n = Nz2 pq / [e2 (N-1) + z2 pq] = 270,32 ~ 271

donde n = tamaño de la muestra (a determinar)

          N = tamaño de la población = 292.103

          z = valor crítico de la variable Normal (α = 0,05; 1 cola) = 1,6449

         p  y q = probabilidades del suceso principal y de su contrario. Valor máximo: 0,25

         e = error máximo admisible: 0,05

  Sin considerar el tamaño poblacional, el cálculo sería:

n = z2pq / e2  = 270,57 ~ 271

            Los cálculos anteriores nos permiten poner de manifiesto que el tamaño de la Población, en cuanto a la determinación del de la muestra, tiene muy poca relevancia, por no decir ninguna, a partir de cierto valor (se suele considerar 30.000) y que carece de sentido determinar el tamaño de esta mediante un porcentaje sobre el tamaño de aquella (Labov, citado por Moreno, 2009: 313), ya que la evolución gráfica del tamaño muestral resulta asintótica con la constante que determinaría una Población de tamaño infinito. A partir del tamaño poblacional mencionado, lo que realmente influye en el muestral es el nivel de confianza y el error máximo que estamos dispuestos a cometer.

            De la gama de posibilidades que existe para dividir el tamaño muestral total entre los diferentes estratos, proceso conocido como afijación y que puede ser igual (tamaño total dividido por el número de estratos), proporcional (en relación con el tamaño de cada estrato) u óptima (considerando, además, las varianzas estratales), optaremos por la segunda, ya que las mínimas variaciones (a la baja) que se podrían conseguir con la tercera pretendemos utilizarlas para cubrir los presumibles fallos que se van a producir en el proceso de la encuesta, como ya se ha dicho. Por otra parte, la aplicación de la tercera posibilidad nos obligaría a la obtención de muestras piloto previas para poder calcular varianzas muestrales, y ello excede con mucho las pretensiones de nuestro trabajo, además de no compensar el sobreesfuerzo con resultados.

            Aplicado este criterio a nuestros datos, el tamaño de la muestra para cada estrato quedaría como sigue:    

Tramos de edad

Número de unidades

   Porcentaje

Tamaño muestra

Hasta 20

(94.254)

 

 

De 20 a 34

68.959

23,61

64

De 35 a 49

91.125

31,20

84

De 50 a 64

68.615

23,49

64

65 o más

63.404

21,70

59

Total

292.103

100,00

271

 

Siguiendo el criterio diatópico, y dado que en nuestra Población de referencia hay 113 607 habitantes de capital y 178 496 de pedanías, la distribución sería:

Lugar de residencia

Número de unidades

Porcentaje

Tamaño muestra

Capital

113.607

38,89

105

Pedanías

178.496

61,11

166

Total

292.103

100,00

271

 

Evidentemente, resulta imposible seguir los dos criterios de forma simultánea. Daremos prioridad al cronológico (que consideramos más importante) y confiamos en que, dada la aleatoriedad que existe en la composición poblacional, los resultados se ajusten suficientemente a los datos que se han obtenido en la afijación por lugar de residencia. No obstante, si no fuese así, un pequeño “ajuste” estaría sobradamente justificado, habida cuenta del margen de seguridad con el que contamos.

Si se sigue el criterio del sexo en la selección muestral, los tamaños de las submuestras quedarían del siguiente modo:

  

Sexo

Número de unidades

Porcentaje

Tamaño muestra

Hombres

140.093

47,96

130

Mujeres

152.010

52,04

141

Total

292.103

100,00

271

 

Y sería aplicable lo dicho anteriormente para el supuesto de la distribución por lugar de residencia.

Una vez fijados los tamaños por estratos hay que proceder a la selección de las unidades concretas. Para ello, y siguiendo con la consigna de la máxima aleatoriedad, se suelen seguir algunos de los dos métodos siguientes: el sistemático y el de tablas de números aleatorios (ver, por ejemplo, Cuadras, 1984: 380-383).

De acuerdo con el primero de ellos hay que dividir el tamaño de cada estrato entre el número de unidades que constituyen su muestra (por ejemplo, para el primer estrato: 68.959 / 64 = 1.073, en enteros); a continuación se escoge un número al azar, por cualquier método realmente aleatorio, entre el 1 y el 1.073 (supongamos que es el 777) que sería la primera unidad a examinar, las siguientes se obtienen sumando 1.073 a la inmediata anterior, es decir, que las unidades elegidas en este caso, serían las número: 777, 1 850, 2 923, 3 996, … y así sucesivamente, hasta lograr las 64 unidades de la primera submuestra. Con el resto de las submuestras se procedería del mismo modo. Para aplicar este procedimiento es absolutamente imprescindible que la Población tenga las unidades suficientemente “mezcladas”, que no exista ningún tipo de orden numérico preestablecido (el orden alfabético, lógicamente, no influye). El segundo método consiste en utilizar unas tablas donde los diez dígitos se encuentran distribuidos, en composiciones variadas, de forma totalmente aleatoria; solo hay que fijarse un método de selección de grupos de cinco dígitos (ya que nuestro valor máximo es 91 025): de derecha a izquierda o al revés, de arriba hacia abajo, en diagonal, etc. y anotar los diferentes resultados hasta completar el tamaño pretendido. Siguiendo este método las unidades no van apareciendo en ningún orden, pero son igualmente aleatorias.

TRABAJO DE CAMPO

Los encuestadores/entrevistadores no tienen por qué disponer de una preparación especial ya que, en principio, estarán completamente dirigidos hacia las unidades concretas de la muestra que han sido previamente seleccionadas. Debería bastar, pues, con instruirlos ligeramente acerca del comportamiento cortés que han de mantener durante la realización de la encuesta (buenas maneras, ustedeo inicial –sobre todo con los de más edad –, vestimenta adecuada, etc.) y acerca de la valoración que han de dar a las respuestas de los encuestados, una vez finalizada la fase presencial. Entendemos que cualquier estudiante universitario cumpliría las condiciones mínimas exigidas, por lo que el mayor componente del coste del muestreo estará constituido por el tiempo invertido en la localización de las unidades y no por la parte de realización, propiamente dicha, de la encuesta.

Cada encuesta culminará cumplimentando el encuestador de una ficha del tipo:

ANVERSO:

APELLIDOS Y NOMBRE

 

 

 

EDAD

 

 

 

SEXO

H

M

 

DIRECCIÓN

 

 

 

LUGAR DE NACIMIENTO

 

 

 

LUGAR DE RESIDENCIA

C

P

 

NIVEL DE ESTUDIOS

BAJO

MEDIO

ALTO

NIVEL DE INGRESOS

BAJO

MEDIO

ALTO

 

 REVERSO:

1. abonico                 1                       2                      3       Sinónimo:

2. licera                     1                       2                      3       Sinónimo:

3. perigallo               1                       2                      3       Sinónimo:

4. esfisar                   1                       2                      3       Sinónimo:

5. leja                        1                       2                      3       Sinónimo:

6. revenir                  1                       2                      3       Sinónimo:

7. jenares                  1                       2                      3       Sinónimo:

8. desperfollar          1                       2                      3       Sinónimo:

9. amanoso               1                       2                      3       Sinónimo:

10. cornijal               1                       2                      3       Sinónimo:

11. tanimientras        1                       2                      3       Sinónimo:

12. corrental              1                       2                      3       Sinónimo:

13. crilla                   1                       2                      3       Sinónimo:

14. ajuntaera             1                       2                      3       Sinónimo:

15. panocha              1                       2                      3       Sinónimo:

16. pava                    1                       2                      3       Sinónimo:

     (de La Arboleja)              

Puntuación       L. general:               L. especializado:              Total:

 

 

La metodología será la siguiente: se completará la parte del cuestionario que contiene los datos personales (en la mayoría de los casos, según se espera, para corroborar la información ya disponible) y, a continuación, el encuestador preguntará al encuestado acerca de dieciséis palabras que consideramos propias del dialecto murciano. Para cada una de ellas, el encuestado dispondrá de tres posibles respuestas: No la he oído nunca, La he oído, pero no sé exactamente qué significa y La conozco y significa… (nombrar sinónimo). Conforme se vayan obteniendo las respuestas se irán marcando las diferentes posibilidades (1, 2 o 3), lo que, en definitiva, equivale a puntuar de forma simple el conocimiento léxico del encuestado. Con posterioridad a la entrevista (no durante la misma), el encuestador recalificará como 2 aquellas respuestas de 3 que realmente no supongan un sinónimo y procederá a la suma de puntuaciones, tanto del léxico general como del especializado y del total. El recuento de las calificaciones nos proporcionará un espacio referencial discreto con valores comprendidos entre el dieciséis y el cuarenta y ocho (ambos incluidos), es decir,  un total de treinta y tres valores posibles que agruparemos en tres intervalos cerrados de la misma amplitud y que se corresponderán con un conocimiento léxico bajo (de dieciséis a veintiséis), medio (de veintisiete a treinta y siete) y alto (de treinta y ocho a cuarenta y ocho).

Asimismo, se ha procurado dividir y entremezclar palabras de léxico general (preguntas nº 1, 4, 5, 7, 9, 11, 12 y 14) con otras más relacionadas con la huerta o el campo (preguntas nº 2, 3, 6, 8, 10, 13, 15 y 16), por si fuera conveniente utilizar esta información, al buscar una posible correlación entre el conocimiento léxico con el lugar de residencia.

TRATAMIENTO DE LA INFORMACIÓN

En primer lugar, intentaremos determinar si existe o no relación entre diversos pares de variables, estudiadas conjuntamente. Para ello dispondremos los datos en tablas k (filas) x l (columnas) de contingencia (tablas de doble entrada). En ellas, los márgenes lateral izquierdo y superior nos indicarán los diferentes resultados de cada variable y los márgenes lateral derecho e inferior las frecuencias absolutas que les han correspondido, respectivamente, en el recuento muestral. Cada casilla de la tabla recogerá, en la parte superior, la frecuencia absoluta real de cada par y, en la inferior y entre paréntesis, la frecuencia absoluta teórica que debería haberse obtenido en caso de independencia entre las variables (incorrelación entre los datos muestrales). Estas tablas, por otra parte, permiten trabajar de forma indistinta con variables métricas y no métricas.

El emparejamiento Puntuación/Edad es el más interesante, atendiendo al objetivo principal de este trabajo, pero también son teóricamente estudiables los de Puntuación/Sexo, Puntuación/Estatus y Puntuación/Lugar de residencia, que darían lugar a tablas como las siguientes: 

 

 

PUNTUACIÓN

 

 

 

16-26

27-37

38-48

 

EDAD

20-34

n11

n12

n13

64

(n11)

(n12)

(n13)

35-49

n21

n22

n23

84

(n21)

(n22)

(n23)

50-64

n31

n32

n33

64

(n31)

(n32)

(n33)

65 o más

n41

n42

n43

59

(n41)

(n42)

(n43)

 

 

n.1

n.2

n.3

271

                                                          Tabla 4x3 de contingencia

 

 

PUNTUACIÓN

 

 

 

16-26

27-37

38-48

 

SEXO

HOMBRE

n11

n12

n13

130

(n11)

(n12)

(n13)

MUJER

n21

n22

n23

141.

(n21)

(n22)

(n23)

 

 

n.1

n.2

n.3

271

                                                          Tabla 2x3 de contingencia

  

 

 

PUNTUACIÓN

 

 

 

16-26

27-37

38-48

 

NIVEL SOCIECONÓMICO

ALTO

n11

n12

n13

n1.

(n11)

(n12)

(n13)

MEDIO

n21

n22

n23

n2.

(n21)

(n22)

(n23)

BAJO

n31

n32

n33

n3.

(n31)

(n32)

(n33)

 

 

n.1

n.2

n.3

271

                                                          Tabla 3x3 de contingencia

 

 

 

PUNTUACIÓN

 

 

 

16-26

27-37

38-48

 

LUGAR DE RESIDENCIA

CAPITAL

n11

n12

n13

105

(n11)

(n12)

(n13)

PEDANÍAS

n21

n22

n23

166

(n21)

(n22)

(n23)

 

 

n.1

n.2

n.3

271

                                                          Tabla 2x3 de contingencia

 

en las que se ha incorporado la información disponible de los tamaños de las submuestras, en función de las diferentes estratificaciones, quedando pendiente la información de la puntuación de la encuesta. En cada casilla de la matriz central de las tablas se recoge la frecuencia absoluta conjunta real correspondiente a cada par de resultados, de forma que nij representa el número de individuos que poseen la característica i-ésima de la primera variable (izquierda) y la j-ésima de la segunda (arrriba), y  (nij) = (ni. x n.j) / n  representa la frecuencia absoluta conjunta teórica correspondiente al mismo par, en caso de incorrelación entre las variables.

         Por supuesto que la coincidencia de valores entre nij y  (nij), no solo para todo i,j sino incluso para alguno (supuesto que indicaría la máxima incorrelación), es algo que solo se podría atribuir al azar. Ahora bien, las diferencias que se van a producir entre esos valores ¿es posible que obedezcan al proceso de muestreo o son tan grandes que nos lleven a concluir que las variables tienen relación entre sí?  Para dilucidar esta cuestión someteremos a los resultados al contraste de independencia de la chi-cuadrado de Pearson, calculando la suma de dichas diferencias al cuadrado (para evitar la compensación que se produciría en una suma algebraica simple), es decir, ΣΣ dij2 = ΣΣ [nij - (nij )]2 y lo compararemos con el valor crítico correspondiente de la chi-cuadrado, χ2α; (k-1)(l-1), donde α es el “nivel de significación”, contrario a la probabilidad de éxito con la que trabajaremos (que será del 95%) y (k-1) y (l-1) son los llamados “grados de libertad”, número de filas y de columnas menos la unidad, al trabajar con datos muestrales. En nuestro caso, los valores críticos de la chi-cuadrado serían, para las cuatro tablas planteadas:

              χ20,05;6 = 12,59          χ20,05;2 = 5,99             χ20,05;4 = 9,49   y        χ20,05;2 = 5,99

         Si nuestra suma de diferencias supera, en cada caso, los valores citados no se podrá admitir la hipótesis de independencia y habrá que concluir, por tanto que las variables comparadas están correlacionadas.

  De un modo semejante se podría actuar separando preguntas y respuestas correspondientes a léxico general y a léxico más asociado a labores de campo o huerta, buscando entonces una hipotética relación entre el conocimiento léxico de cada ámbito y el lugar de residencia del encuestado. Las hipótesis de trabajo podrían ser: a) existe correlación positiva entre los habitantes de las pedanías y el léxico de campo o huerta, y b) existe correlación positiva entre los habitantes de la capital y el léxico general; las otras opciones nos parecen menos atractivas, aunque es perfectamente factible su planteamiento a nivel teórico.

  Otra posibilidad interesante de estudio podría consistir en dividir las pedanías en dos grupos, conforme a la proximidad a la capital (ver anexo nº 1.b) para comprobar si existen, o no, diferencias en cuanto a conocimiento atribuibles a esta circunstancia. También podrían dividirse las pedanías por zonas de influencia de la subvariedades (Altiplano, Noroeste, Campo de Cartagena, etc.), para tratar de determinar si estas zonas están relacionadas con el conocimiento de determinados vocablos. La gama de posibilidades es tan amplia como pudiera permitir el tiempo de dedicación y el coste del tratamiento de la información.

  La segunda parte (y creo que la más novedosa) del trabajo consistiría en el tratamiento cuantitativo de la información. Se trata de averiguar, no solo si existe relación o no entre dos variables, sino también si hay diferencias cuantificables de conocimiento entre edades, entre lugares de residencia y hasta entre estratos sociales (en principio, descartamos el sexo por experiencias previas, pero también sería factible su cuantificación). A estos efectos, cabe destacar que la información referente a la variable estrato social debe proceder de los datos de la encuesta exclusivamente (no como ocurre con las variables edad y lugar de residencia) ya que la información que recoge el censo con respecto al nivel de ingresos y de estudios resulta poco fiable (circunstancia reconocida tanto por el propio Ayuntamiento como por el CREM).

  En estudios paramétricos, una hipótesis es una afirmación cuantitativa acerca de una población (Mills, 1980: 217), aunque, en general, se pueden establecer hipótesis sobre otras cuestiones, como hemos comprobado anteriormente contrastando la correlación/incorrelación entre dos variables, sin considerar ningún parámetro poblacional. Pero ahora sí estamos interesados en un parámetro poblacional concreto: la media. Tal y como se ha planteado la encuesta y el tratamiento de los datos, la puntuación media (de la Población y de los diferentes estratos) equivale al grado de conocimiento medio del léxico murciano, con lo que podemos hacernos las preguntas clave, ¿existen diferencias de conocimiento léxico entre generaciones? ¿se conoce más o menos léxico conforme aumenta la edad? ¿hay diferencias entre todos los grupos de edad o solo entre algunos? ¿se pueden medir estas diferencias?

  Como lo que se pretende es una serie de comparaciones y no determinar el valor exacto de ese “conocimiento léxico medio”, en adelante m, nos estamos refiriendo al contraste de hipótesis compuestas (Arnaiz, 1978: 599-601) que, si bien no dejan totalmente definida la Población objeto de estudio, tampoco constituye nuestro objetivo. Definiremos, previa y brevemente, algunos conceptos:

       H0: Hipótesis nula. Es la que se pretende contrastar, no necesariamente la preferida.

         H1:   Hipótesis alternativa. Se opone completamente a la anterior.

       (La aceptación de una hipótesis conlleva el rechazo de la otra)

       m1,  m2, m3,  m4: medias de los diferentes estratos según la edad.

 

            Los contrastes posibles son, en general:

H0: m1 ≥ m2      vs.    H1: m1 ˂ m2

H0: m1 ≤ m2      vs.    H1: m1 ˃ m2

H0: m1 = m2      vs.    H1: m1 ≠ m2

            Como lo que pretendemos demostrar es que el grado de conocimiento léxico es mayor cuanto mayor es la edad, el único que nos sirve es el primero ya que, en caso de rechazar la hipótesis nula, aceptaríamos que la media del segundo estrato es superior a la del primero. Cualquiera de los otros dos contrastes no nos permitirían llegar a esta conclusión, fuese cual fuese el resultado. Por supuesto, el mismo planteamiento habría que hacer para los otros estratos, es decir,

H0: m2 ≥ m3      vs.    H1: m2 ˂ m3

H0: m3 ≥ m4      vs.    H1: m3 ˂ m4

              Se trata de contrastes unilaterales (de una cola), con los tamaños suficientes como para admitir la normalidad, por lo que el estadígrafo a utilizar para compararlo con el valor crítico de la t de Student, se obtiene de la expresión

t = ( ̅x1̅x2) / √(n1s12+n2s22)/(n1+n2-2) √(n1+n2)/n1n2

donde  ̅x̅xson las medias obtenidas de las dos primeras submuestras (primer y segundo estrato), n1 y n2, los correspondientes tamaños muestrales (en nuestro caso, 64 y 84) y s12 y s22 son las varianzas muestrales. Tanto las medias como las varianzas muestrales se obtienen sin dificultad, mediante un programa estadístico (SPSS u otro) o una simple hoja de cálculo. Los mismos datos habría que obtener de las submuestras tercera y cuarta.

                 Una vez calculado el valor del estadígrafo de contraste se comprueba si está dentro o fuera de la llamada “región de aceptación”, lo que determinará, a su vez y como su nombre indica, nuestra decisión con respecto a la hipótesis nula formulada. En nuestro caso, dicha región vendrá dada por la expresión  A: (-tα;n1+n2-2; +∞) que, para nuestro primer contraste, tomaría el valor A: (-t0,05; 146 ;  +∞ ) = (- 1,65 ; +∞). En el caso de que t perteneciese al anterior intervalo se aceptaría la hipótesis nula; en caso contrario (lo que esperamos) se rechazaría, aceptando la alternativa, es decir, que la media del segundo estrato es superior a la del primero lo que, traducido a nuestro planteamiento inicial, significaría que el dominio léxico medio del murciano de los hablantes con edades comprendidas entre los treinta y cinco y los cuarenta y nueve años es superior al de los que están en edades comprendidas entre los veinte y los treinta y cuatro años.

                 El mismo procedimiento habría que seguir en los otros dos contrastes en los que los tamaños, las medias y las varianzas muestrales serán diferentes, así como el estadígrafo de prueba, pero no el límite de la región de aceptación, dado lo elevado de los tamaños muestrales con los que trabajamos.

              Suponiendo que los tres contrastes hayan concluido con la aceptación de la hipótesis alternativa (se podrían hacer más pero, si se ha dado por cierto que   m1 ˂ m2, que m2 ˂ m3 y que m3 ˂ m4,  ya conocemos los resultados de las otras combinaciones comparativas), nos quedaría la tarea de cuantificar estas diferencias. Para ello utilizaremos los “intervalos aleatorios y de confianza para la diferencia de medias”. Un intervalo aleatorio para la diferencia de medias es aquel que contiene dicha diferencia, con una determinada probabilidad; es un intervalo con límites teóricos que se concreta en valores determinados cuando le incorporamos los datos obtenidos de las muestras. Una vez fijados los límites precisos, confiamos en que el intervalo obtenido sea uno de los (1-α)% que realmente contienen esa diferencia. En nuestro trabajo utilizaremos el valor de probabilidad más usual, el 95% (α = 0,05), y actuaremos bajo los supuestos de normalidad y de varianzas poblacionales desconocidas, con muestras grandes. Con estas condiciones el intervalo aleatorio, para las dos primeras muestras, será:

Ia =   [( ̅x1̅x2) -/+ zα/2 √ s12 / n1 +  s22 / n2 ]

  Este intervalo contendrá la diferencia de las medias, en 95 de cada 100 casos de muestras extraídas de la misma Población. Nosotros confiamos en que el intervalo que obtengamos tras aplicar nuestros datos muestrales sea uno de ellos. El resultado será, por tanto, un intervalo de confianza (Ic) que, supuestamente, contendrá la diferencia de las medias de las dos primeras subpoblaciones, o sea, m1 - m2 y si, tal y como esperamos, tiene ambos extremos negativos, indicará, en primer lugar, que  m1 ˂ m2 (información de la que ya disponíamos) pero, también, entre qué valores (los límites del intervalo) fluctúa dicha diferencia, con la fiabilidad que nos ofrece el nivel fijado por nosotros (95%).                                          

CONCLUSIONES

              Resulta una obviedad decir que las conclusiones dependerán de los resultados obtenidos pero, como ya se ha ido adelantando, es de suponer que en cuanto a las variables edad y conocimiento léxico exista una correlación positiva y que esto no esté tan claro entre conocimiento léxico y lugar de residencia ni entre conocimiento léxico y nivel socioeconómico, y mucho menos entre conocimiento léxico y sexo. Asimismo, de los contrastes compuestos para las medias, lo esperable es que la de cada estrato sea inferior a la del estrato siguiente (ordenados estos por edad). La cuantificación de las diferencias, si se comprueba su existencia, vendrá dada por los intervalos de confianza que elaboremos, como ya se ha visto.

              Los resultados de la aplicación de esta metodología, con menos garantías estadísticas y sobre una “muestra piloto” muy reducida y algo sesgada, se puede ver plasmada en el anexo nº 2 de este trabajo y lograr una idea más precisa del primer objetivo del mismo.

 

  

BIBLIOGRAFÍA CITADA

 

Arnaiz, G. (1978): Introducción a la Estadística teórica. Valladolid. Lex Nova.

Cuadras, C.M.; Echeverría, B.; Mateo, J. y Sánchez, P. (1984): Fundamentos de Estadística. Barcelona. PPU.

Gómez Ortín, F. (2004): El dialecto murciano y sus variedades. Tonos Digital, Revista Electrónica de Estudios Filológicos, 8. Universidad de Murcia.  http://www.um.es/tonosdigital/znum8/portada/monotonos/03-GORTIN.pdf

Hernández, J.M. y Almeida, M. (2005): Metodología de la investigación sociolingüística. Introducción. Málaga. Comares.

Martín, P.J.; Lafuente, M. y Faura, U. (2015): Guía práctica de Estadística aplicada a la Empresa y al Marketing. Madrid. Paraninfo.

Mills, R.L. (1980): Estadística para Economía y Administración. Bogotá. McGraw-Hill latinoamericana.

Moreno Fernández, F. (2009): Principios de Sociolingüística y Sociología del Lenguaje. Madrid. Ariel.

Penny, R. (2004): Variación y cambio en español. Madrid. Gredos.

  



[1] Juan Manuel Hernández Campoy, en declaraciones al diario La Verdad de Murcia, el 19/6/2016, con motivo de la clausura del Sociolinguistics Symposium 21. Actitudes y Prestigio, celebrado en la ciudad.

[2]  Ley 6/2002, de 25 de junio, de estadística de la Región de Murcia. BORM,  número del martes, 9 de julio de 2002; Ley 12/1989, de 9 de mayo, de la Función Estadística Pública.  BOE de 11 de mayo de 1989 y Ley orgánica 15/1999, de Protección de Datos de Carácter Personal.

[3]Estratificar una Población estadística consiste en dividirla en subpoblaciones no solapadas (estratos) lo más homogéneas posible, y de forma que cada unidad quede asignada a un, y solo un, estrato. Este proceso será beneficioso si se consigue que esta división logre grupos cuyas unidades sean semejantes entre sí respecto a la variable considerada y será rentable si el coste de la estratificación queda compensado por la reducción en la variabilidad. En el caso que nos ocupa, la estratificación nos viene prácticamente dada en cuanto a las variables edad (la más importante), género y localización geográfica, por lo que la conveniencia del uso de la estratificación es indiscutible.

[4] Diario La Verdad de Murcia. Extra comercial. Pedanías de Murcia, del 31 de mayo de 2016.