El enriquecimiento semántico es uno de los conceptos esenciales para redibujar el flujo de trabajo de catalogación y descripción de contenidos en la red: los contenidos necesitan diferentes capas de descripción según su naturaleza, a menudo aportadas por diferentes productores, en diferentes momentos. No hay una única fuente de metadatos descriptivos para un objeto informativo. El enriquecimiento va sucediendo, un contenido no puede nacer enriquecido (del todo), tan solo puede aportar un punto de partida de metadatos de calidad y potencialmente extensible. Si en la web semántica se insistía en que partimos de un universo digital en el que "cualquiera puede decir cualquier cosa sobre cualquier cosa" (El eslogan AAA, "Anyone can say Anything about Any topic") y que la inteligencia que es necesaria es la filtrado y consolidación de esas informaciones acumulativas y que, potencialmente, tanto se pueden reforzar como anular entre sí.
Voy a extractar y traducir algunos esquemas de referencia para entender qué es y cómo puede tomar forma, el enriquecimiento semántico. Tomaremos como punto de partida el trabajo de revisión de Marcia Zeng publicado en 2018 en la revista El Profesional de la información.
Marcia Zeng, 2018, El profesional de la información, "Semantic enrichment for enhancing LAM data and supporting digital humanities. Review article".
Toma las cuatro categorías propuestas por Damjanovic, en donde se obtendrían mejoras derivadas del enriquecimiento semántico:
- Búsqueda y descubrimiento semántico: expansión mediante técnicas semánticas de la búsqueda convencional por palabras clave; localización de conceptos básica (por ejemplo: búsqueda multi-facetada, auto-completado semántico, investigación de comportamiento de búsqueda); consultas complejas para la creación de patrones de búsqueda lo más intuitivos posibles; resolución de problemas; y "connecting path discovery", que ahora mismo no acierto a traducir satisfactoriamente.
- Mediación semántica: Fusión y mapeo. La fusión (merging) unifica varias ontologías que se solapan en parte, en una sola que incluye toda la información de las fuentes. El mapeo (mapping) construye declaraciones de mapeo que definen relaciones entre conceptos de ontologías y reglas que especifican las transformaciones entre dos ontologías diferentes.
- Anotación semántica: identifica formalmente conceptos y relaciones entre conceptos presentes en documentos, con la finalidad de posibilitar su uso por aplicaciones informáticas.
- Analítica semántica y descubrimiento de conocimiento: La analítica semántica es un proceso de análisis, búsqueda y presentación de información usando relaciones semánticas explícitas entre entidades conocidas. En Linked Open Data se aplica una aproximación a este reto tanto federada como centralizada.
Al traducir estos conceptos encontramos un uso recurrente de "machine", que cuando se traduce por "máquina" o "máquinas" nos parece que adquiere resonancias de tornillería y robots. Por lo general se sustituye por "aplicaciones informáticas" o "sistemas inteligentes" o "algoritmos automatizados" o "procesamiento informático" o "agentes digitales". Aunque quizá deberíamos acostumbrarnos a usar simplemente "máquinas" y entender que ahí metemos todo lo anterior.
La autora también pone el foco en la propuesta denominada modelo DERA, que se caracteriza por una transición desde un modelado del conocimiento documento-céntrico a uno entidad-céntrico. Al bien conocido lema de "things not strings" convendría añadir el de "entities, not documents" (Cosas y no palabras; Entidades y no documentos). Para modelar un dominio, por lo tanto hay que contemplar:
- Dominio (D): un área participar de conocimiento o campo de interés o actividad.
- Entidad (E): un conjunto de facetas en el que cada faceta representa un grupo de términos que denotan clases de entidades del mundo real (instancias) que tanto pueden ser perceptibles o simplemente conceptuales.
- Relación (R): conjunto de facetas en las que cada faceta representa un grupo de términos que denotan relaciones entre entidades. Cada término de relación establece una relación semántica entre dos entidades.
- Atributos (A): un conjunto de facetas en las que cada faceta representa un grupo de términos que denotan las propiedades cualitativas o cuantitativas de entidades.
El modelo LRM de IFLA para el universo bibliográfico encaja perfectamente con el enfoque DERA.
Su trabajo se entiende desde la perspectiva de una transición que parte de la digitalización para ir hacia la datificación. Quizá la autora podría querer decir que los buenos metadatos son "smart data" en el sentido de que no solo son legibles por ordenadores (machine-readable), sino que son comprensibles, procesables y accionables por ordenadores (machine-understandable, machine-processable, machine-actionable).
La autora también nos apunta al Europeana Semantic Enrichment Framework, en el que se diferencian conceptualemnte tres fases, si bien , aunque para Europeana el enriquecimiento semántico es un concepto core, lo aplican por lo general solo a la segunda etapa del proceso, la de "enlazado", refiriéndose a la "creación de enlaces a vocabularios controlados" que representan recursos contextuales como lugares, conceptos, agentes o periodos temporales (lo que en bibliotecas se ha entendido como los diferentes tipos de encabezamientos de materias).
- Analysis: the pre-enrichment phase focuses on the analysis of the metadata fields in the original resource descriptions, the selection of potential resources to be linked to and derives rules to match and link the original fields to the contextual resource.
- Linking: the process of automatically matching the values of the metadata fields to values of the contextual resources and adding contextual links (whose values are most often based on equivalent relationships) to the dataset.
- Augmentation: the process of selecting the values from the contextual resource to be added to the original object description. This might not only include (multilingual) synonyms of terms to be enriched but also further information, for example broader or narrower concepts.
El informe de Karen Smith-Yoshimura para OCLC Research, titulado "Transitioning to the next generation of Metadata" también nos aporta insights sobre este "enriquecer". Además, existe versión traducida al español por la BNE.