Una propuesta de distancias entre series no estacionarias convertidas a secuencias de patrones de orden


Marzo, 2021

Partimos del concepto de cointegración entre series no estacionarias. Aquí tenemos datos de la Contabilidad Nacional del INE de Consumo e Inversión (Formación Bruta de Capital Fijo).

Estas series no están cointegradas. Regresamos una contra otra y realizamos un ADF test sobre los residuos para comprobarlo.

Simbolización de las series

Consideramos dos series $\{ x_t, y_t \}_{t=1}^T$. La idea es tomar una ventana $m$ y convertir sucesivamente las observaciones $x_t,\ldots,x_{t+m-1}$ e $y_t,\ldots,y_{t+m-1}$ en n-tuples ordenados $\left( s_1^x (t),\ldots , s_m^x(t)\right)$ y $\left( s_1^y (t),\ldots , s_m^y(t)\right)$ para $t=1,\ldots,T-m+1$.

Con las series convertidas en símbolos, podemos calcular la distancia $d(s,s')$ entre dos símbolos cualesquiera $\left( s_1,\ldots , s_m\right)$ y $\left( s'_1,\ldots , s'_m\right)$ como la suma de sus distancias en valor absoluto y normalizado sobre el máximo valor que puede alcanzar dicha diferencia, es decir,:

$d(s,s') = \frac{1}{\delta(m)} \sum_{j=1}^m \mid s_j - s'_j \mid $

La función $\delta(m)$ es dos veces la suma de los números naturales pares inferiores a $m$, si $m$ es impar o de los naturales impares inferiores a $m$ si $m$ es par. Es decir:

$ \delta(m) = \left\{ \begin{array}{ll} % m^2/2 & \textrm{ si m es par}\\ (m^2-1)/2 & \textrm{ si m es impar} \end{array} \right. $

A modo de ejemplo, supongamos que las primeras seis observaciones de consumo e inversión son

entonces:

Consumo C.Symbol Inversion I.Symbol Normalizada
11.39 11.40 11.41 11.43 4 3 2 1 12.39 12.40 12.41 12.43 4 3 2 1 0.00
11.40 11.41 11.43 11.39 3 2 1 4 12.40 12.41 12.43 12.42 3 4 2 1 0.75
11.41 11.43 11.39 11.36 2 1 3 4 12.41 12.43 12.42 12.36 2 3 1 4 0.50

Obsérvese que la serie de distancias admite un número discreto de valores posibles. Si por ejemplo $m=4$, entonces los valores posibles para la distancia entre dos series son {0,2,4,6,8} sin normalizar o {0, 1/4, 1/2, 3/4, 1} normalizados. Si $m$ es por ejemplo $m=5$ entonces tenemos {0,2,4,6,8,10,12} sin normalizar o {0, 1/6, 1/3, 1/2, 2/3, 5/6, 1} normalizados. Es decir, la serie de las distancias también es una serie con un número finito $\delta(m)$ de símbolos.

A continuación calculamos esa serie para nuestro consumo e inversión y hacemos el plot.

Lo que vemos es que las series "se parecen mucho" en los trimestres anteriores al inicio de la crisis del 2008 y que ambas empiezan a diverger alcanzándose una distancia de casi 1 en torno a 2009. Pero ¿qué significan estos números? Si miramos las series originales, hasta 2005 las dos series seguían un mismo trend. Si ambas presentan patrones constantemente crecientes, se distancia es pequeña o cero. A partir de 2005 consumo sube, pero inversión baja. Cuando una serie sube y la otra baja en una vetana concreta, la distancia medida va a ser máxima (1 normalizada). Eso es lo que reflejan los picos de casi uno durante la crisis. Una pregunta natural de la que aún no tengo certeza en la respuesta es cómo podemos saber si un valor entra dentro de "las series divergen" o "las series se comportan de manera parecida". La cointegración si que te dice que las series tienen relación de largo plazo y eso tiene significado económico. Aquí no estoy seguro de que interpretación tienen estos números. Lo único que se me ha ocurrido es calcular unas "bandas de confianza" bajo la nula de que las dos series se comportasen de manera completamente aleatoria. Esto (que no es la manera correcta de calcularlo, ya lo sé) es lo que hago con la siguiente función que hace una simulación del proceso simbolico y halla valores críticos de la distribución simulada).

Lo que queda por debajo de la linea inferior serían periodos en los que las series "van a la par" (whatever it means), lo que queda por arriba son períodos en los que las series "van a la contra" y lo que queda por en medio periodos en los que "van por libre".

NOTA FINAL: El procedimiento anterior no es la manera correcta de calcular esas bandas de confianza. La manera correcta tendría en cuenta que si la distancia en "t" ha sido cero por ejemplo, en t+1 es imposible que tome ciertos valores porque t+1 tiene m-1 valores (los m-1 últimos de t) que siguen un mismo orden, y la aparición de un nuevo valor solo puede modificar la distancia en ciertas formas (es decir, hay persistencia en la serie de distancias, y mi procedimiento no la tiene en cuenta).