IATEI II. Sistemas de gestión de terminología

Diccionarios en los sistemas de traducción

Los diccionarios en los sistemas de traducción son los componentes más voluminosos (por lo que respecta a la cantidad de información que contienen) e incluso pueden ser los componentes más costosos de crear (en función de la información que contengan). El tamaño y la calidad de los diccionarios es un factor que limita el alcance y la calidad de una traducción.

¿Qué tipo de diccionarios se utilizan en los sistemas de traducción?

Se suelen utilizar diccionarios especializados para la traducción de documentos de un tipo dado dentro de un dominio de conocimiento. Por ejemplo,

Dominio médico

Dominio informático

Dominio financiero

Dominio jurídico

Ventajas de los diccionarios electrónicos:

Mayor rapidez de acceso a la información

Mejor mantenimiento: actualización y ampliación de las entradas del diccionario

Permiten búsqueda exacta o por aproximación, o mediante comodines (*,?)

Permiten la consulta de información relacionada con la entrada del diccionario. Por ejemplo el diccionario de la RAE ofrece consultar la conjugación de los verbos.

Permiten la traducción de documentos específicos

Permiten diferentes tipos de búsqueda:

Búsqueda en entrada

Búsquedas en lista

Búsqueda asistida

Búsqueda múltiple

Búsqueda mediante palabras relacionadas

Búsqueda de anagramasPalabra que resulta de la transposición o reordenación de las letras de otra

ship

hips, pish, ship

Búsqueda utilizando abreviaturas y marcas

A estos modos habituales hay que añadir búsquedas más refinadas, que poco a poco se van introduciendo en los diccionarios electrónicos. Estas búsquedas localizan elementos de información más precisos y resuelven consultas más complejas basadas, incluso, en una comprensión semántica de la consulta y de la propia la información léxica del diccionario. Se trata de mejorar el procesamiento semántico de la información.

Información en internet

Entre los usuarios de internet existe la idea bastante extendida de que en la red se puede encontrar todo, lo que, en cierta medida, no deja de ser cierto, pero además, esta idea se traslada a las búsquedas que se realizan en los diccionarios, de modo que se espera encontrar en ellos cualquier palabra buscada. Sin duda, la comprobación de que los diccionarios no contienen todas las palabras que se buscan y que tampoco se obtiene la información esperada constituye la primera decepción de muchos de ellos. La obtención de informaciones amplias a través de los buscadores disponible en internet, con tan solo introducir una palabra, hace que los resultados que se obtienen mediante palabras que se consideran claves de acceso a todo tipo de información, sin verificar si esta información es o no propia de los diccionarios de la lengua. Es recurrente entre los usuarios la búsqueda de datos históricos, ligados o no a nombres propios, la búsqueda de información enciclopédica sobre cualquier tema, la propia información lingüística de una palabra, el uso pragmático que se puede hacer en el discurso o la terminología específica de áreas de conocimiento, por citar sólo algunos ejemplos bastante habituales. Algunas de estas informaciones se encuentran, pero lógicamente muchas de ellas están ausentes de los diccionarios.

Este fracaso en las búsquedas, que sin duda no está ligado específicamente al diccionario electrónico, está unido a la elección errónea del diccionario, en algunos casos por desconocimiento de la amplia gama de diccionarios existentes. Sin duda, el desconocimiento lleva a la consulta de los diccionarios más accesibles, los diccionarios generales monolingües. Estos diccionarios se utilizan cada vez más como ayuda para la redacción, es decir, se utilizan con fines de codificación de mensajes, sobre todo en el ámbito laboral, cuando, como sabemos, los diccionarios de uso españoles están pensados prioritariamente para la descodificación. Para empezar, hay que tener en cuenta que los propios programas de procesamiento de texto proporcionan al usuario herramientas encaminadas a este fin, como son los correctores ortográficos en varias lenguas (con la posibilidad de crear diccionarios personales), diccionarios de sinónimos, y otros recursos. Aunque estos programas denominan diccionarios a estas herramientas, en realidad son nomenclaturas de formas léxicas o de formas de palabra en terminología de , sobre todo los diccionarios ortográficos.

Internet contribuye a poner rápidamente de moda palabras como "posverdad" (el Diccionario Oxford incorporó la palabra post-truth a su listado y la denominó "palabra del año 2016", y en el de la RAE apareción en 2017), la mayor parte de los que leen de nuevas la palabra “posverdad” se sienten obligados a darle inmediatamente un significado. Y razonan (más o menos) así: si la "posverdad" está claro que no es la verdad, y lo contrario de la verdad es la mentira, apresurémonos a concluir que “posverdad” no es sino un nuevo rótulo para las mentiras de toda la vida, que a saber por qué oscuros motivos no reciben ya ese nombre de siempre. Yerran, sin embargo, lo cierto es que no, que la "posverdad" no es lo mismo que la mentira. Mientras que a un mentiroso le interesa la verdad, para transmitir la idea contraria (su mentira), en tiempos de "posverdad" lo que le ocurre a la verdad es que simplemente ha dejado de interesar. No importa que lo que digas sea verdadero. Tampoco, como al mentiroso, te interesa convencer de algo falso (y beneficioso para ti). Simplemente interesa hablar con una total indiferencia hacia cómo son las cosas en realidad. Y que a la audiencia, naturalmente, también le dé igual qué sea o no sea verdad.

Según el profesor de la UNAM (México) Arnoldo Kraus, "estudios recientes han demostrado que el 70 % de los internautas tienen dificultades para distinguir entre una noticia falsa y una verdadera. Esa es una de las razones por las cuales Trump obtuvo más de sesenta millones de votos. Nada bueno auguran los tiempos donde lo fatuo y estúpido se viraliza. Televisión, internet y el mundo, bastante imbécil, de los tuits, suman mucho. Si a ese conglomerado agregamos miedo, inseguridad e inestabilidad económica, el caldo de cultivo queda servido: la posverdad cuenta con suficientes nutrientes".

La comunidad científica de EE.UU. está preocupada porque el presidente Trump ha manifestado su propósito de tomar decisiones ajenas a los hechos contrastados y porque creen que su política se opondrá al progreso del conocimiento. Y los científicos del Reino Unido creen que la salida de la Unión Europea debilitará de forma significativa a la ciencia británica. De confirmarse esos temores, el avance del conocimiento se vería frenado en dos de los países con mayor tradición y potencia científica del mundo. Dejarían así un mayor espacio al avance de la sinrazón. Habría comenzado a formarse de ese modo un círculo vicioso de imprevisibles consecuencias.

La siguiente imagen (tomada del blog Magonia) muestra cómo saber si una información es falsa.

¿Verdadera o falsa?

Como ejemplo de que no nos debemos de fiar de cualquier información, se puede ver el siguiente artículo publicado en la revista de ARP-SAPC, Burundanga: nunca dejes que la verdad arruine una buena noticia" También es interesante La Medicina, la magia y la posverdad, publicado en el periódico Redacción Médica.

Otro ejemplo más sobre la propagación de falsas noticias, sucedió en Francia, la prensa especuló sobre qué había tras el “misterio de las braguitas y calzoncillos de Poligny”, una ciudad en el centro-este del país donde, desde principios de febrero, por las mañanas aparecía colgada ropa interior en cuerdas de tender extendidas en las calles de esta población de 4000 habitantes. Hay quienes creían ver una acción de protesta contra la construcción de un parque de atracciones. O un acto publicitario. Para otros, estaba relacionado con San Valentín. Y muchos más pensaron que se trataba de una simple broma. El caso es que nadie reivindicaba una acción que vecinos y prensa acabaron atribuyendo “a la banda de la ropa interior”. Y a medida que el misterio crecía, así lo hacía también su eco: de una noticia en la emisora local, la historia se propagó a medios nacionales. Hasta periódicos extranjeros se hicieron eco del “misterio de Poligny”. La realidad es que se trataba de un proyecto escolar con el que se ha demostrado, a alumnos y a mayores, lo fácil que es hoy en día difundirr noticias falsas y rumores y la velocidad a la que estos se propagan. Un caso que ha sido promovido desde un medio de comunicación y que se ha difundido ampliamente por internet, es el relativo a las granjas de cerdos y una empresa de Murcia (El Pozo). Para hacerse idea de la falsedad de las conclusioes que se han difundido por internet respecto al asunto es interesante leer el blog Cartas desde el imperio

Introducción a los sistemas de gestión de terminología

Por terminología se entiende, según la Real Academia de la Lengua: "el conjunto de términos y vocablos propios de determinada profesión, ciencia o materia".

Los sistemas de gestión de terminología son aplicaciones de bases de datos destinadas a aumentar la calidad de las traducciones. Como ejemplo de sistema de gestión de terminología multilingüe que se utiliza en las prácticas, Multiterm de TRADOS es un programa que permite guardar glosarios en un formato flexible de bases de datos terminológicas. Además, se puede añadir información, como por ejemplo definiciones o indicaciones contextuales para cada uno de los términos.

La mayor parte de un proceso de traducción consiste en la identificación de equivalencias para términos especializados. Campos clave como, informática, ingeniería, leyes y medicina, tienen cantidades significativas de terminología específica para cada uno. Además, muchos clientes podrían tener preferencias en alguna terminología en particular. La búsqueda de los términos específicos que se necesitan para completar una traducción es una tarea que consume mucho tiempo, y los traductores no desean tener que repetir el trabajo cada vez que inician una nueva traducción. Un sistema de gestión de terminología (sigla en inglés TMS) puede servir de ayuda al traductor en varios aspectos de las tareas relacionadas con la terminología. Un TMS puede ayudar a lograr una mayor consistencia en el uso de la terminología, que no solo hace que la documentación sea más fácil de leer y establecer, sino también a prevenir errores de comunicación. Un gestor de terminología eficaz puede ayudar a reducir costes mejorar la calidad lingüística, y reduce el tiempo que se precisa para la traducción, lo cual es muy importante en nuestra época en la que es de suma importancia responder de forma adecuada a las presiones del mercado.

Los TMS existen desde hace cierto tiempo. Los primeros trabajos para introducir los ordenadores en la gestión de terminología comenzaron en la década de 1960 que eventualmente dieron lugar al desarrollo de algunos bancos terminológicos a gran escala, tales como Eurodicautom, Termium y Banque de terminologie du Québec (actualmente conocido como Gran dictionnaire terminologique), que estaban gestionado por ordenadores tipo mainframeUna computadora central (en inglés mainframe) es un gran ordenador, usado principalmente por una gran compañía para el procesamiento de gran cantidad de datos; por ejemplo, para el procesamiento de transacciones bancarias." en grandes organizaciones. En la década de 1980 con la irrupción masiva del ordenador IBM PC y clónicos, los TMS personales fueron las primeras herramientas TAO comercialmente disponibles para los traductores. Aunque fueron bien recibidos, los primeros TMS tenían algunas limitaciones. Estaban diseñados para funcionar en un ordenador y no se podían compartir. Habitualmente solo permitían la gestión simple de terminología bilingüe con limitaciones considerables sobre el número y tipo de datos, así como la máxima cantidad de datos que se pueden almacenar en estos campos. Sin embargo, actualmente este tipo de programas son más potentes y flexibles, particularmente en términos de las opciones de almacenamiento y recuperación.

El siguiente vídeo es un ejemplo real de la terminología usada en ciencia.

Introducción a las bases de datos

Desde hace mucho tiempo, los datos han sido almacenados por los humanos en algún tipo de soporte (piedra, papel, madera, etc.) a fin de que quedara constancia. Así mismo estos datos han de ser interpretados para que se conviertan en información útil, interpretación que supone un fenómeno de agrupación y clasificación.

En los años 50 del siglo pasado, los sistemas de archivos generados a través de los primeros lenguajes de programación como CobolAcrónimo de COmmon Business-Oriented Language (Lenguaje Común Orientado a Negocios), fue creado en el año 1959 con el objetivo de crear un lenguaje de programación universal que pudiera ser usado en cualquier ordenador, ya que en los años 1960 existían numerosos modelos de ordenadores incompatibles entre sí, y que estuviera orientado principalmente a los negocios, es decir, a la llamada informática de gestión. y Fortran, permitieron almacenar los datos a través de archivos sin formato alguno (conocido como texto plano) con las únicas funciones de lectura y escritura.

Posteriormente surgió el denominado sistema de ficheros que es un conjunto de programas que prestan servicio a los usuarios finales. Cada programa define y maneja sus propios datos. Los sistemas de ficheros surgieron al tratar de informatizar el manejo de los archivadores manuales con objeto de proporcionar un acceso más eficiente a los datos. En lugar de establecer un sistema centralizado en donde almacenar todos los datos de la organización o empresa, se escogió un modelo descentralizado en el que cada división almacena y gestiona sus propios datos.

Los sistemas de ficheros presentan una serie de inconvenientes:

Separación y aislamiento de los datos. Cuando los datos se separan en diferentes ficheros, es más complicado acceder a ellos, ya que el programador de aplicaciones debe sincronizar el procesamiento de los distintos ficheros implicados para asegurar que se extraen los datos correctos.

Duplicación de datos. La redundancia de datos existente en los sistemas de ficheros hace que se desperdicie espacio de almacenamiento y lo que es más importante, puede llevar a que se pierda la consistencia de los datos. Se produce una inconsistencia cuando copias de los mismos datos no coinciden.

Dependencia de datos. Ya que la estructura física de los datos (la definición de los ficheros y de los registros) se encuentra codificada en los programas de aplicación, cualquier cambio en dicha estructura es difícil de realizar. El programador debe identificar todos los programas afectados por este cambio, modificarlos y volverlos a probar, lo que cuesta mucho tiempo y está sujeto a que se produzcan errores. A este problema, tan característico de los sistemas de ficheros, se le denomina también falta de independencia de datos lógica-física.

Formatos de ficheros incompatibles. Ya que la estructura de los ficheros se define en los programas de aplicación, es completamente dependiente del lenguaje de programación. La incompatibilidad entre ficheros generados por distintos lenguajes hace que los ficheros sean difíciles de procesar de modo conjunto.

Consultas fijas y proliferación de programas de aplicación. Desde la consideración de los usuarios finales, los sistemas de ficheros fueron un gran avance en comparación con los sistemas manuales. Como consecuencia, creció la necesidad de realizar distintos tipos de consultas de datos, sin embargo, los sistemas de ficheros son muy dependientes del programador de aplicaciones: cualquier consulta o informe que se quiera realizar debe ser programado por él. En algunas organizaciones se conformaron con fijar el tipo de consulta.

Los inconvenientes de los sistemas de ficheros se pueden atribuir a dos factores:

- La definición de los datos se encuentra codificada dentro de los programas de aplicación, en lugar de estar almacenada aparte y de forma independiente.

- No hay control sobre el acceso y la manipulación de los datos más allá de lo impuesto por los programas de aplicación.

Para trabajar de forma más efectiva, en 1964 se diseñaron los primeros Gestores de Base de Datos (DBMS en inglés, SGDB en español), por medio de los cuales se pretendía dar un cambio total a los sistemas de archivos. Con los DBMS se creó el concepto de administración de datos, por medio de actividades integradas que permiten verlos físicamente en un almacenamiento único pero lógicamente se manipulan a través de esquemas compuestos por estructuras donde se establecen vínculos de integridad, métodos de acceso y organización física sobre los datos, permitiendo así obtener valores agregados de utilización tales como: manejo de usuarios, seguridad, atomicidad e independencia física y lógica de los datos, entre otros.

Los sistemas de bases de datos tienen su origen en el proyecto estadounidense Apolo de mandar al hombre a la luna, dada la gran cantidad de información que requería el proyecto. La primera empresa encargada del proyecto, NAA (North American Aviation), desarrolló un software denominado GUAM (General Update Access Method) que estaba basado en el concepto de que varias piezas pequeñas se unen para formar una pieza más grande, y así sucesivamente hasta que el producto final está ensamblado.

Un Sistema de Bases de Datos (SBD) es una serie de recursos para manejar grandes volúmenes de información, sin embargo no todos los sistemas que manejan información son bases de datos. Un sistema de bases de datos debe responder a las siguientes características:

Abstracción de la información. Ahorran a los usuarios detalles acerca del almacenamiento físico de los datos. Da lo mismo si una base de datos ocupa uno o cientos de archivos, este hecho se hace transparente al usuario. Así, se definen varios niveles de abstracción.

Independencia de los datos. Es decir, que los datos nunca dependen del programa y por tanto cualquier aplicación pueda hacer uso de ellos.

Reducción de la redundancia. Redundancia es la existencia de duplicación de datos, al reducirla al máximo conseguimos un mejor aprovechamiento del espacio y además evitamos que existan inconsistencias entre los datos. Las inconsistencias se dan cuando nos encontramos con datos contradictorios.

Seguridad. Un SGBD debe permitir que tengamos un control sobre la seguridad de los datos, frente a usuarios malintencionados que intenten leer información no permitida, a ataques que pretendan manipular o destruir la información o simplemente ante las torpezas de algún usuario.

Integridad. Se trata de adoptar las medidas necesarias para garantizar la validez de los datos almacenados. Se han de proteger los datos ante fallos de hardware, datos introducidos por usuarios descuidados, o cualquier otra circunstancia capaz de corromper la información almacenada. Los SGBD proveen mecanismos para garantizar la recuperación de la base de datos hasta un estado consistente conocido en forma automática.

Respaldo. Los SGBD deben proporcionar una forma eficiente de realizar copias de seguridad de la información almacenada en ellos, y de restaurar a partir de estas copias los datos que se hayan podido perder.

Control de la concurrencia. En la mayoría de entornos (excepto el personal), lo más habitual es que sean muchas las personas que acceden a una base de datos, bien para recuperar información, bien para almacenarla. Y es también frecuente que dichos accesos se realicen de forma simultánea. Así pues, un SGBD debe controlar este acceso concurrente a la información, que podría derivar en inconsistencias.

Manejo de transacciones. Una transacción es un programa que se ejecuta como una sola operación. Esto quiere decir que el estado luego de una ejecución en la que se produce un fallo es el mismo que se obtendría si el programa no se hubiera ejecutado. Los SGBD proveen mecanismos para programar las modificaciones de los datos de una forma mucho más simple que si no se dispusiera de ellos.

Tiempo de respuesta. Lógicamente, es deseable minimizar el tiempo que el SGBD tarda en proporcionar la información solicitada y en almacenar los cambios realizados.

Tablas de una base de datos. Informática Aplicada a la Traducción. UMU. Rafael Barzanallana

La solución a los diversos problemas que se plantearon llegó con el tipo de base de datos relacional es una base de datos que cumple con el modelo relacional, que es el modelo más utilizado para desarrollar bases de datos previamente planificadas. Permiten establecer relaciones entre los datos (que están guardados en tablas), y a través de ellas relacionar los datos entre tablas, de ahí proviene su nombre: "Modelo Relacional". Tras ser postuladas sus bases en 1970 por Edgar Frank Codd, de los laboratorios IBM en San José (California-EE.UU.), no tardó en consolidarse como un nuevo paradigma en los modelos de base de datos siendo actualmente el más usado.

La siguiente imagen muestra un esquema de relaciones entre tablas, para un sistema gestor de bases de datos de una biblioteca.

Almacenamiento

La función principal de un TMS es actuar como un repositorio para consolidar y almacenar la información de terminología para uso en proyectos futuros. Previamente, muchos de los TMS almacenaban la información en ficheros de texto estructurado, mapeando la terminología fuente a destino mediante el uso de una correspondencia unidireccional uno a uno. Esto causaba dificultades, por ejemplo, si se necesita una base de términos francés-inglés para usarse en una traducción inglés-francés. Los programas más sofisticados almacenan la información mediante un modelo de base de datos relacional. Esto significa que la información está en un forma basada en conceptos, forma que permite el mapeo en sentidos múltiples para los distintos lenguajes bajo consideración. También aumenta la flexibilidad en el tipo y cantidad de información que se puede almacenar en un registro de un término. En una fase previa los usuarios han de seleccionar un conjunto predefinido de campos (por ejemplo: asunto, definición, contexto, fuente) que se han de llenar en cada término del registro. El número de campos habitualmente está fijado, así como el número de caracteres permitidos en cada campo. Por ejemplo, si un TMS, solo permite un contexto, el usuario se ve forzado a registrar un único contexto, aunque sea habitual en él trabajar con varios. Seguidamente se muestra un ejemplo de plantilla de registro convencional, con un conjunto prefijado de campos.

Término (En):
Término (Fr):
Campo asunto:
Definición:
Contexto:
Sinónimo(s):
Fuente:
Comentarios:
Información administrativa (fecha, autor calidad, código, …)

En contraste, como se ilustra en la siguiente estructura, que es más reciente,

Term (inglés)	select (v)
Campo asunto	computing
Contexto 1:	El elemento seleccionado no existe
Fuente	Computer Magazine ABC
Contexto 2:	Al terminar de seleccionar el menú formato
Fuente	Manual del usuario XYZ

Cliente	empresa A
Francés	sélectionner
Fecha	Enero 2015

Cliente	empresa B
Francés	choisir
Fecha	Marzo 2015

los TMS han adoptado una estructura más libre, que permite a los usuarios definir sus propios campos de información, incluyendo campos repetidos (por ejemplo: para múltiples contextos) y algunos también permiten la inclusión de gráficos. Los usuarios no solo pueden elegir sus propios campos de información, sino que también pueden ordenarlos y darles formato, eligiendo diferentes máscaras, tipos de letra (fuentes), colores, … para la fácil identificación de la información importante. Esto significa que los programas se deben adaptar para seguir las necesidades de un usuario dado, y crecer en función de los cambios futuros. La cantidad de información que se puede almacenar en cualquier campo o registro dado se incrementa considerablemente. Se pueden crear diferentes bases terminológicas y ser mantenidas para diferentes campos de asunto o clientes e incluso algunos sistemas permiten la fusión de bases terminológicas.

Recuperación

Una vez que la terminología ha sido almacenada, se precisa la posterior recuperación de la información. Se dispone de varias posibilidades para efectuar búsquedas y recuperación. La técnica de búsqueda más simple consiste en una operación análoga a la que realizamos para buscar algo en una agenda convencional, para recuperar de forma exacta lo deseado. Algunos TMS permiten el uso de caracteres comodín, para realizar búsquedas más generales. Como se explicó anteriormente, un carácter comodín es un símbolo, por ejemplo un “*” que puede ser usado para representar cualquier cadena de caracteres. Por ejemplo una búsqueda con “escép*” devolverá (caso de existir en el archivo bajo consideración) los términos: escéptica y escéptico. Los TMS más sofisticados también emplean para sus búsquedas técnicas de lógica difusa o borrosa (fuzzy). Los sistemas de este tipo pueden recuperar registros que son similares al patrón de búsqueda, pero que no se emparejan exactamente. Esto permite a los traductores recuperar registros para variantes morfológicas, como diferentes formas de verbos y palabras con sufijos y prefijos; variantes ortográficas; y términos de varias palabras, incluso no conoce con precisión como están ordenados los elementos de varias palabras. La siguiente tabla proporciona algunos ejemplos de los registros de términos que se pueden recuperar usando técnicas de emparejamiento mediante lógica difusa También llamada lógica borrosa o lógica heurística, se basa en lo relativo de lo observado como posición diferencial. Este tipo de lógica toma dos valores aleatorios, pero contextualizados y referidos entre sí. Así, por ejemplo, una persona que mida dos metros es claramente una persona alta, si previamente se ha tomado el valor de persona baja y se ha establecido en un metro. Ambos valores están contextualizados a personas y referidos a una medida métrica lineal. Fue formulada en 1965 por el ingeniero y matemático Lofti Zadeh. .

Términos recuperados mediante emparejamiento fuzzi

Patrón introducido por el usuario	Término recuperado
"anovulatorio"	ovulación
"discos"	disquetera
"Departamento para emergencias peligrosas"	Centro de emergencias peligrosas

Cuando se usan caracteres comodín o técnicas de lógica difusa, es posible que se obtenga más de un registro de posibles emparejamientos. Cuando este sucede, aparece una lista de todos los registros en relación con el término base que pueden ser de interés y el traductor puede seleccionar los que desea ver. Una muestra aparece a continuación.

Ejemplo de listas recuperadas para patrones de búsqueda

Lista que muestra registros que coinciden con el patrón de búsqueda comodín "cake"	Lista que muestra registros que coinciden con el patrón de búsqueda difusa "skate-boarding champion"
cheescake	champion
cupcake	skateboard (n)
fruitcake	skateboard (v)
pancake	skateboarding
	International Skateboarding Championships

Reconocimiento activo de terminología y pretraducción

Otra característica de algunos TMS, particularmente los que operan como parte de un paquete integrado con editor de textos y sistema de memoria de traducción, se conoce como reconocimiento activo de terminología. Este hecho da lugar a un diccionario automático. Cuando el traductor se desplaza a través del texto, el componente de reconocimiento terminológico, compara los elementos del texto fuente frente a los contenidos del término base, y si se encuentra coincidencia, el registro del término en cuestión se muestra para que el usuario lo consulte.

Algunos TMS también permiten una extensión más automatizada de este hecho, el traductor puede interrogar al sistema sobre una especie de ordenamiento de pretraducción o procesado por lotes del texto. En este caso el TMS tendría la posibilidad de identificar términos para los que existe una entrada en la base terminológica y podrían insertar automáticamente los correspondientes equivalentes en el texto destino. El resultado de esta fase de pretraducción es un ordenamiento híbrido de texto, como se indica en la siguiente tabla. En una fase de postedición es cuando el traductor verifica la corrección de los términos propuestos y traduce el resto del texto para el que no se han encontrado equivalencias en la base de términos.

Reemplazamiento automático del texto fuente con la traducción equivalente encontrada en una base terminológica

Texto fuente	Entradas encontradas en la base de términos para elementos contenidos en el texto fuente	Sentencia obtenida siguiendo la pretraducción
The file operation cannot be completed because the disk is full.	disk - disque file operation - opération de fichier full - saturé	The opération de fichier cannot be completed because the disque is saturé.

Extracción de términos

Otra característica que puede estar incluida en algunos TMS es una herramienta de extracción de términos, que se refiere a veces como un sistema de reconocimiento de términos o herramienta de identificación de términos. La mayoría de herramientas de extracción de términos son monolingües, y tratan de analizar los textos de origen con el fin de identificar los términos candidatos. Sin embargo, se están desarrollando algunas herramientas bilingües que analizan los textos de origen, junto con sus traducciones en un intento de identificar los términos potenciales y sus equivalentes. Este proceso puede ayudar a un traductor a construir una base de términos, con mayor rapidez, sin embargo, aunque el intento de extracción inicial se realiza mediante ordenador, la lista resultante de candidatos deberá ser verificada, y por lo tanto el proceso se describe mejor como asistido por ordenador o semiautomático en lugar de totalmente automático.

A diferencia de las listas de frecuencia de palabras que se han descrito en otro capítulo, las herramientas de extracción de términos tratan de identificar las unidades multipalabras. Hay dos enfoques principales para la extracción: lingüístico y estadístico. Para mayor claridad, estos enfoques se explicarán en secciones separadas, sin embargo, aspectos de ambas aproximaciones se pueden combinar en una sola herramienta de extracción terminológica.

Aproximación lingüística

Las herramientas que usan una aproximación lingüística, típicamente intentan una aproximación para identificar combinaciones de palabras que concuerdan con tipos particulares de patrones hablados. Por ejemplo, en inglés muchos términos constan de sustantivo + sustantivo o adjetivo + combinaciones de sustantivo. Con el fin de implementar, dicho enfoque, cada palabra en el primer texto debe ser etiquetada con su parte apropiada de la oración, tal como se describe en el capítulo anterior. Una vez que el texto ha sido correctamente etiquetado la herramienta de extracción de términos simplemente identifica todas las apariciones que emparejan los patrones. Por ejemplo, una herramienta que ha sido programada para identificar combinaciones sustantivo + sustantivo y adjetivo + sustantivo como potenciales términos podría identificar todas las combinaciones léxicas que coinciden con los patrones de un determinado texto como se muestra seguidamente.

Antivirus programs now include a number of options. Integrity checking performs checks of the status of the files against the information that is stored in a database. Behaviour blocking performs before the fact detection. Heuristic analysis is a form of after thefact detection.

Un texto corto que ha sido generado empleando una aproximación lingüística para la extracción de términos.

Por desgracia, no todos los textos se pueden procesar tan perfectamente. Si el texto se modifica ligeramente, como se ilustra seguidamente, problemas como "ruido" y “silencio” se hacen evidentes.

Antivirus programs now include more options. Integrity checking performs periodic checks of the current status of the files against the stored information. Behaviour blocking performs before the fact detection. Heuristic analysis is a form of after the fact detection.

Una versión ligeramente modificada del texto que ha sido procesado con una aproximación lingüística de extracción de términos.

En primer lugar, no todas las combinaciones que siguen patrones específicos pueden ser calificadas como términos. De las candidatas sustantivo + sustantivo y adjetivo + sustantivo que se identifican previamente, algunas pueden calificarse como términos (“antivirus programs”, “integrity checking”, “ behaviour blocking” “heuristic analysis”), mientras que otras no (“more options”, “periodic checks”, current status”, “stored information”). Las últimas constituyen ruido y es preciso eliminarlas por un humano de la lista de candidatas.

Otro problema potencial es que algunos de los términos legítimos pueden formarse de acuerdo a patrones que no han sido preprogramados en la herramienta. Esto puede resultar en "silencio" una situación en la que la información relevante no se recupera. Por ejemplo, los términos "antes de la detección del hecho” y “después a los hechos de detección " se han formado mediante el patrón preposición + artículo + sustantivo + sustantivo, sin embargo, este patrón no es común y no es probable que sea reconocido por muchas herramientas de extracción.

Un inconveniente final en el enfoque lingüístico es que es fuertemente dependiente del lenguaje. La formación de patrones de términos difieren de idioma a idioma. La formación de patrones de términos que son típicos en inglés, (por ejemplo adjetivo + sustantivo, sustantivo + sustantivo) no son lo mismo como patrones de formación de términos habituales en francés (por ejemplo, sustantivo + adjetivo, sustantivo + preposición + sustantivo). En consecuencia, las herramientas de extracción de términos que usan un enfoque lingüístico suelen están diseñadas generalmente para trabajar en el idioma inglés (o estrechamente relacionados) y no pueden ser extendidas fácilmente para trabajar con otras lenguas.

Aproximación estadística

Es el enfoque más sencillo de extracción de términos, consiste en una herramienta para buscar series repetidas de elementos léxicos. El intervalo de frecuencia (el número de veces que una serie de elementos debe ser repetida) puede ser especificado por el usuario. Por ejemplo, como se ilustra seguidamente. El umbral de frecuencia mínimo se fija en dos, una serie determinada de items léxicos debe aparecer al menos dos veces en orden a ser reconocida como término candidato por la herramienta de extracción terminológica.

Major antivirus software developers are introducing automated updating of virus signatura files and antivirus software. Updates will soon be available as often as once an hour, via the internet. Some developers update their virus signature files up to six times a day. A number of developers now offer the convenience of push-technolgy updating, which only requires a one time setup to guarantee continuously up-to-date virus siqnature files.

Un breve texto que ha sido procesado por extracción de términos estadística con un umbral de frecuencia mínimo de dos.

Sobre la base de un umbral mínimo de frecuencia de dos, en el texto de ejemplo previo se obtuvieron dos términos posibles: "software antivirus" y "virus signature files". Desafortunadamente, esta estrategia simple a menudo conduce a problemas porque el lenguaje está lleno de repeticiones, pero no todas las series repetidas de items léxicos pueden calificarse como términos. Por ejemplo, considerando la versión ligeramente modificada del texto que se muestra a continuación.

Major antivirus software developers are introducing automated updating of virus signature files and antivirus software. Updates will soon be available as often as once an hour, via the internet. Some developers are updating their virus signature files as often as six times a day. A number of developers are now offering the convenience of pusht-technology updating, which only requires a one time setup to guarantee continuously up-to-date virus signatura files.

Un breve texto, ligeramente modificado, que ha sido procesado por extracción de términos estadística con un umbral de frecuencia mínimo de dos.

Trabajando únicamente en base a la identificación de series repetidas de items léxicos, el software de extracción ha identificado dos candidatos: "developers are" y "as often as". Estos candidatos contienen "ruido" en lugar de términos, y tendrían que ser eliminados de la lista de potenciales términos, por un ser humano. Las listas de parada, como se describe en el capítulo anterior, se pueden utilizar para reducir el número de términos improbables que de lo contrario se identificarían como candidatos. Por ejemplo, una lista de detención se podría implementar para instruir a la herramienta de extracción de términos para ignorar series que empiezan o terminan con las palabras de función, como preposiciones, artículos y conjunciones.

Otro inconveniente del método estadístico es que no todos los términos que aparecen en un texto dado se repetirán, lo que puede conducir a "silenciar". Por ejemplo, el término "push-tecnología updating" no fue identificado como un candidato, ya que sólo apareció una vez en el texto y el umbral de frecuencia mínima se establece en dos.

Un enfoque relacionado con la aproximación estadística identificando términos candidatos es calculando la información mutua (MI), como se describió en el capítulo previo. Aquí la premisa es que si dos elementos léxicos aparecen juntos más a menudo de lo que aparecen por separado, la unidad multipalabra en cuestión puede ser un potencial término. Una vez más, sin embargo, este método no es infalible, y el ruido y el silencio pueden aparecer.

Sin embargo, el uso de las estadísticas como base para la extracción de términos tiene una fortaleza clara: no depende del idioma. Esto significa que una herramienta estadística de extracción de términos puede, en principio, ser utilizada para procesar textos en varias lenguas.

Características adicionales

Los TMS también pueden incluir otros tipos de utilidades, tales como características que permiten a los usuarios crear y administrar sistemas conceptuales o tesauros, combinar múltiples bases a largo plazo, importar o exportar a otros formatos o imprimir el contenido de una base de términos en el formato especificado por el usuario del glosario.

Ventajas y desventajas de trabajar con un TMS

La idea detrás del mantenimiento de un glosario de cualquier tipo es que alienta la coherencia terminológica y salva a los traductores de tener que repetir la búsqueda cada vez que inician un proyecto de traducción. No es necesario el uso de software especializado para mantener un glosario, muchos traductores han empleado durante mucho tiempo índices de tarjetas o procesadores de texto para crear fichas terminológicas. El software de gestión terminológica ofrece una serie de ventajas con respecto a estos enfoques convencionales, pero las modernas tecnologías no están libres de defectos. Las ventajas y desventajas de trabajar con los TMS se describen a continuación.

Velocidad y flexibilidad

Las principales ventajas de la utilización de software de gestión de terminología en lugar de un índice de tarjetas han sido ampliamente descrito en secciones previas: los TMS permiten un almacenamiento y recuperación más flexible. Además, facilitan la actualización de la información electrónica, y es un procedimiento más rápido para buscar masivamente archivos electrónicos. A pesar de que un procesador de textos permite que la información se tenga en forma electrónica, no es una herramienta adecuada para la gestión de la terminología de una manera eficiente y sus servicios de búsqueda sufren una considerable desaceleración cuando se trabaja con gran cantidad de datos.

Otra forma en que un TMS puede potencialmente acelerar el trabajo de un traductor, es permitir que los términos aparezcan directamente en el texto de destino, evitando así el trabajo de volver a escribir las palabras. Por supuesto, los términos pueden ser editados para encajar en el contexto, por ejemplo, un verbo puede ser conjugado, lo que significa que el tiempo ahorrado en copiar y pegar puede ser posteriormente gastado en la edición. En algunos caso, esto ha dado lugar a una nueva forma de gestionar la información en los registros de terminología.

Calidad

Aunque cualquier tipo de glosario puede ayudar a mejorar la coherencia en un proyecto de traducción, la función activa de reconocimiento de la terminología de algunos TMS conduce un paso más allá. No tiene mucho sentido tomar la molestia de asegurarse de que la terminología se acordó previamente y se almacenó en una base terminológica, si los traductores no seleccionan y consultan esta base. Con el reconocimiento de terminología activa, la elección se elimina porque los términos en el texto original se comprueban automáticamente frente a la base terminológica.

Cambio de la naturaleza de la tarea

Además de acelerar la tarea de búsqueda de terminología, hay algunas pruebas de que la tecnología está comenzando a tener un impacto en la cantidad y el tipo de información terminológica que se está grabando en bases terminológicas, así como sobre la forma en que esta información está siendo grabada.

Aunque las herramientas flexibles permiten a los usuarios introducir información detallada en glosarios, cada vez es más común ver como los glosarios, son utilizados en la industria de la localización, contienen solo la fuente y el destino, y tal vez un comentario si el término fuente tiene múltiples traducciones posibles dependiendo del contexto. Hay varias razones para este tipo de formato de glosario simplificado. En primer lugar, el tiempo requerido en la industria de localización es a menudo tan corto que no permite la preparación de glosarios detallados. En segundo lugar, la terminología utilizada (incluso por el mismo cliente) puede cambiar rápidamente, con nuevos glosarios cada vez que el cliente tiene un producto localizado. Por último, el traductor, que también tiene que producir con tiempos de respuesta muy rápidos, está interesado solo en la terminología que consideró el cliente y en el contexto en el que ésta sucede si hay más de una traducción por término. La tendencia ha sido causada más por la naturaleza del mercado de la traducción que por la naturaleza de la tecnología en sí, sin embargo, el hecho de que la tecnología hace que sea fácil de compilar y transferir información rápidamente ha contribuido a la tendencia de tratar glosarios como artículos desechables, en lugar de como registros para muchos años.

La tecnología es responsable de haber provocado un cambio, tanto el tipo de datos que se almacenan y la forma en que se incorporan a los registros a largo plazo. Por ejemplo, en el paquete integrado (paquetes que están vinculados con otras aplicaciones, como procesadores de texto o memorias de traducción), los traductores pueden insertar de forma automática terminología de los TMS directamente en el texto de destino (por ejemplo, haciendo clic en el término en el registro de terminología). Esto puede ahorrar tiempo, ya que no hay necesidad de volver a escribir o cortar y pegar. Un resultado de esto es que algunos traductores están creando registros a largo plazo de las frases o expresiones que se producen frecuentemente en un campo especializado, pero no califican como términos en el sentido convencional. Por ejemplo, un traductor que trabaja en la traducción de un manual de ordenador puede crear registros de largo plazo para expresiones como "haga clic en Aceptar" o "es fácil" porque es más rápido insertar estas expresiones de uso frecuente directamente desde el TMS que escribirlas.

Por supuesto, cuando la terminología se inserta en el texto de destino del TMS, un poco de edición puede ser necesaria (por ejemplo, para conjugar un verbo), y esto ha planteado una cuestión interesante con respecto a qué forma de un término se debe registrar en un archivo a largo plazo. Tradicionalmente, los archivos a largo plazo siempre han contenido la forma canónica de un término (la forma singular de un sustantivo, el infinitivo de un verbo, la forma masculina de un adjetivo. Sin embargo, se ha observado que con el fin de reducir la cantidad de tiempo dedicado a la edición de términos que se han insertado directamente desde un TMS, algunos traductores están eligiendo registrar la forma más común de un término, o indexar varias formas de un término, en el registro, como se muestra a continuación. De esta manera, la forma correcta se puede insertar simplemente haciendo clic en élla, y no habrá necesidad de modificar el término en el texto de destino.

Inglés:

select
selected
selecting
selects

Francés:

sélectionner
sélectionne
sélectionnez
sélectionné
sélectionnée
sélectionnée
sélectionnés

Registro de muestra en el que se han registrado múltiples formas del término.

Compartir la información: creación de redes, formatos de archivos, y estándares

Los sistemas de gestión de terminología se puede utilizar como herramientas de manera autónoma, pero cada vez más, están siendo conectados en red para que varios usuarios puedan acceder y contribuir a la base a largo plazo. En tales casos, puede ser deseable dar a los usuarios diferentes tipos de privilegios en el sistema de red. Por ejemplo, todos los usuarios deben poder consultar la información almacenada en la base de terminología, pero sólo algunos usuarios, como los traductores encargados del control de calidad, deben ser capaces de agregar nuevos registros.

Otra forma de intercambio de información terminológica es mediante el intercambio de datos con clientes o con otros traductores. Por desgracia, no todo el mundo utiliza los mismos TMS. Como se vio previamente, la información de diferentes aplicaciones está almacenada bajo distintos formatos, por lo que con el fin de intercambiar información, los formatos de archivos deben ser compatibles o convertibles. Algunos TMS permitirán que los datos se exporten directamente a un procesador de textos o formatos de programas de autoedición (desktop-publishing) o para ser importados y exportados de acuerdo a las normas internacionales, como el Machine Readable Terminology Interchange Format (ISO 12200 MARTIF). El estándar, conocido como Term Base eXchange (TBX,ISO 30042), fue desarrollado por Open Standards for Container/ Content Allowing Reuse (OSCAR) grupo de interés especial que perteneció a la extinta Localization lndustry Standards Association (LISA)

Conjunto de caracteres y dificultades relacionadas con las lenguas

Una limitación de algunos TMS son los conjuntos de caracteres que se pueden manejar. Como se explica en el capítulo anterior, muchas aplicaciones informáticas, se han elaborado de tal forma que solo pueden procesar caracteres representados un solo octeto (byte). Por lo tanto, los traductores que trabajan con los idiomas que requieren de conjuntos de caracteres de dos octetos (por ejemplo, chino, japonés, coreano) pueden no ser capaces de utilizar algunos TMS. Este problema está siendo abordado por numerosos desarrolladores, que buscan incorporar la codificación de doble octeto en los futuros productos, mediante la adaptación del estándar Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas, además de textos clásicos de lenguas muertas. El término Unicode proviene de los tres objetivos perseguidos: universalidad, uniformidad y unicidad"> .

Apectos económicos

La mayoría de los traductores no consideran el costo involucrado en la adquisición y mantenimiento de un TMS como prohibitivo. Muchos sistemas están a un precio razonable para un profesional, incluso Omega T es "software libre"y se puede ejecutar en ordenadores de escritorio sencillos con una cantidad de memoria y potencia de procesamiento limitadas. La cantidad de espacio de almacenamiento requerido en el disco duro depende del tamaño de las bases terminológicas. Aunque si un traductor desea ejecutar los TMS como parte de un conjunto integrado con un sistema de memoria de traducción, los requisitos del sistema y el precio se incrementan.