IATEI II. Memorias de Traducción

Prácticas 2016/17

Prácticas 2015/16

Memorias de traducción

El concepto de memoria de traducción (en abreviatura MT) existe desde hace varias décadas. La idea se originó en los años 70 del siglo XX y las primeras implementaciones se produjeron en la década de 1980, pero este tipo de herramientas solo representaron una entidad comercial significativa desde finales de 1990. Muchas de las herramientas que están disponibles comercialmente hoy en día, se desarrollaron por primera vez como herramientas internas utilizadas por las agencias de traducción para apoyar el trabajo del cliente, como las memorias de traducción están mucho más disponibles, su popularidad entre los traductores profesionales ha crecido de manera constante.

Una MT es un tipo de base de datosUna base de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso lingüística que se utiliza para almacenar textos originales y sus traducciones. Los textos se dividen en segmentos cortos que a menudo se corresponden con oraciones. Como se muestra seguidamente, una unidad de traducción se compone de un segmento de texto origen y su equivalente traducido; de manera más simple, una MT puede verse como una lista de segmentos de texto origen explícitamente alineados con sus homólogos de texto destino. La estructura resultante se denomina corpus paralelo o bitextoUn corpus paralelo es una colección de bitextos, siendo un bitexto el texto constituido por un texto y su traducción..

Unidad de traducción 1 IN: The following document name has invalid characteres or is too long.

FR: Le nom du document ci-dessous est trop long ou contient des caractères non valides.
Unidad de traducción 2 IN: Please rename the document.

FR: Veuilez renommer le document.

Estas unidades de traducción se almacenan en la base de datos de la MT. Algunos programas de MT sofisticados utilizan la tecnología llamada red neuronalSistemas ideado como abstracción de las estructuras neurobiológicas (cerebros) encontradas en la naturaleza, tienen la característica de ser sistemas desordenados capaces de guardar información para almacenar información. Una red neuronal permite que la información se recupere más rápidamente que mediante una técnica de búsqueda secuencial. La idea esencial de un sistema de MT es que permite a un traductor reutilizar o "reciclar" segmentos previamente traducidos, lo que a veces se llama "aprovechamiento". Aunque el lenguaje es dinámico, es muy repetitivo, y se suelen utilizar expresiones similares para comunicar ideas similares en dominios determinados. El volumen de la traducciones se incrementa cada día y cada vez es más común que se pidan traducciones de textos con párrafos que ya han traducido con anterioridad en otros proyectos. Anteriormente, la mayoría de los traductores no guardaba los archivos de traducciones previas en formato electrónico y los que lo hacían, solían recogerlos de manera no sistemática o de forma que no se podían buscar fácilmente (por ejemplo, en papel). Incluso cuando manteniendo las copias electrónicas, puede resultar difícil y consumir mucho tiempo localizar el segmento necesario. Por ejemplo, si un traductor mantiene copias de las traducciones anteriores en los archivos del procesador de textos, probablemente tendría que adoptar una búsqueda de varios pasos parecidos a los enumerados a continuación con el fin de poder reutilizar una traducción anterior:

  • Localizar en archivo de texto origen adecuado (que a menudo implica descifrar un nombre de archivo críptico).

  • Abrir el archivo de texto origen y utilizar la función de búsqueda del procesador de textos para localizar el segmento apropiado.

  • Abrir el archivo de destino (la traducción).

  • Desplazarse a través del archivo de destino hasta la ubicación aproximada del segmento en cuestión.

  • Comenzar a leer para encontrar el equivalente de destino adecuado.

  • Copiar y pegar el segmento destino deseado en la nueva traducción.

  • Editar el segmento según proceda.

  • En muchos casos, los traductores que adoptan este enfoque pueden llegar a pasar tanto tiempo abriendo varios archivos, buscando, copiando, pegando y editando, que habría sido más rápido volver a traducir los segmentos a partir de cero. En los últimos años, los investigadores y desarrolladores han trabajado intensamente para encontrar una solución a este problema y ​​uno de los resultados de sus esfuerzos ha sido los sistemas de MT, un nuevo tipo de herramienta TAO Este término designa la traducción realizada con ayuda de programas informáticos específicos; por ejemplo, los que crean y organizan memorias de traducción y los editores de recursos interactivos de software de tipo textual, también llamados herramienta de localización que permite a los traductores reutilizar, y por lo tanto beneficiarse, del gran volumen de trabajo ya traducido.

    ¿Cómo funciona una MT?

    Esta tecnología funciona mediante la comparación automática de un texto fuente (u origen) con una base de datos de textos que ya han sido traducidos. Cuando un traductor tiene que traducir un nuevo segmento, el sistema consulta la base de datos MT para ver si este nuevo segmento corresponde a un segmento ya traducido. Si un segmento coincide, el sistema MT presenta al traductor la traducción anterior, como se muestra a continuación y este puede consultar esta traducción previa y decidir si la incorpora o no a la nueva.

    Nuevo segmento fuente El nombre de fichero no es válido
    Unidad MT almacenada Español: El nombre de fichero no es válido
    Francés: Le nom de fichier n'est pas valide


    Equipos de traducción

    Los equipos de traducción suelen estar formados por:

  • Jefe de proyecto
  • Terminólogos
  • Traductor principal
  • Traductores
  • Revisores
  • Maquetadores

  • Importancia de la comunicación del equipo:

  • Herramientas de trabajo colaborativas, por ejemplo Google Drive
  • Intranets.
  • Correo electrónico, FTPExplicación y uso del programa FTP Filezilla aquí , etc.
  • Uso de una terminología común en el proyecto.
  • Sistemas gestores de terminología.
  • Misma traducción de expresiones en el proyecto
  • Memorias de traducción

  • Red en anillo, para traductores


    Segmentación

    En la mayoría de los casos, la unidad básica de segmentación en un sistema de MT es la frase, lo que explica por qué se las conoce a veces como memorias de frases. Sin embargo, no todo el texto está escrito en forma de frase. Encabezamientos, listados y tablas son elementos familiares de texto, pero que no se pueden calificar estrictamente como oraciones. Por lo tanto, muchos sistemas de MT permiten al usuario definir otras unidades de segmentación, además de las oraciones, unidades que pueden incluir fragmentos de oraciones o incluso párrafos enteros. Decidir qué constituye un segmento no es una tarea trivial, como podría parecer. A primera vista, parece razonable decidir que las frases completas se calificarán como segmentos, pero ¿cómo puede el sistema MT identificar las oraciones? Los signos de puntuación como puntos, signos de interrogación y admiración se utilizan normalmente para indicar el final de una frase, pero ahí los problemas no hacen más que empezar. ¿Qué sucede en el caso de las abreviaturas, como Sr., Dr., Sra., EE.UU., etc.? Los puntos que siguen a las abreviaturas no siempre indican el final de una frase, ni los que se encuentran en números decimales o en encabezamientos de secciones numeradas. La elipsisLa elipsis en lingüística se refiere a ciertas construcciones sintácticas en las que no aparece alguna palabra que se refiera a una entidad lógica necesaria para el sentido de la frase. es otra forma de puntuación que puede aparecer ya sea en medio o al final de una frase. Una dificultad adicional es el caso de las oraciones subordinadas, tales como: "Cuando vea el mensaje ¿Desea continuar? haga clic en Aceptar”. Los dos puntos y el punto y coma son signos de puntuación que puede que los usuarios deseen incluir o no como marcadores al final de su segmento. En el caso de las lenguas que no utilizan el estilo de puntuación indoeuropeo todavía hay más dificultades.

    Algunos de esos problemas se pueden resolver mediante la incorporación de las listas de parada (por ejemplo, las listas de abreviaturas que no indican el final de una frase, como Sra. y etc.) en el sistema de MT. Otras decisiones de segmentación, tales como si los dos puntos se utilizan o no para representar el final de un segmento, se pueden dejar en manos del usuario.

    Un problema adicional relacionado con la segmentación es el hecho de que las unidades de segmentación utilizadas en el texto origen pueden no corresponder exactamente a las utilizadas en la traducción. Por ejemplo, es posible que una frase de la lengua origen se divida en dos frases en la lengua destino o viceversa. Esta falta de correspondencia uno a uno puede crear dificultades para los programas de alineación automática. Se seguirá tratando este tipo de problemas posteriormente, con ejemplos de los diferentes tipos de segmentación. La siguiente tabla muestra ejemplos de distintos tipos de segmentación.

    Cabecera ES: Peligro:

    FR: Avertissement:
    Una frase traducida en otra frase ES: Este programa de ordenador está protegido por la ley de Copyright y tratados internacionales.

    FR: Ce logiciel est protégé par les lois et les traités internationaux sur le droit d'auteur.
    Una frase traducida en dos frases ES: La reproducción o distribución no autorizada de este programa, o cualquier parte de el, puede resultar en severas penas civiles y criminales, y podría ser perseguido con la máxima extensión posible de la ley.

    FR: Toute reproduction ou distribution partielle ou totale, par quelque moyen que ce soit, est strictemet interdite. Toute personne ne respectant pas ces dispositions se rendra coupable du délit de contrefaçon et sera passible des sanctions pênales prévues para la loi.
    Dos frases traducidas en una frase ES: Las opciones del botón "0" y el "1" afectan la aplicación actual. Las otras opciones afectan todas las aplicaciones.

    Les modificationes apportées par le bouton "0" et l'option "1" n'affecteront que l'application en cours alors que les autres options seront répercutées dans toutes les applications.

    Coincidencias

    La mayoría de sistemas MT presentan al usuario varios tipos de coincidencias de segmentos. Las más comunes son las exactas, las fuzzyLa lógica difusa (tambien llamada lógica borrosa o lógica heurística) se basa en lo relativo de lo observado como posición diferencial. Este tipo de lógica toma dos valores aleatorios, pero contextualizados y referidos entre síy las de términos. Algunos desarrolladores de MT están ahora trabajando en nuevos tipos de coincidencias, como la completa y la de subsegmentos, pero estas características todavía no se han implantado en la mayoría de sistemas; es más, las técnicas de coincidencia existentes que usan la mayoría de sistemas de MT tienen algunas limitaciones.

    - Coincidencias exactas

    La correspondencia exacta entre segmentos se conoce como coincidencia exacta o perfecta. Una coincidencia exacta es 100% idéntica al segmento que el traductor está traduciendo, tanto lingüísticamente como en términos de formato. El proceso utilizado por un sistema de MT para identificar los segmentos de coincidencias exactas es uno de los patrones de coincidencia más estrictos, lo que supone que las dos partes deben ser idénticas en todos los sentidos, incluyendo puntuación, inflexión, números e incluso formato (cursiva, negrita…).

    Cualquier segmento en el texto fuente que no coincide exactamente con un segmento original, no producirá una coincidencia exacta, como se muestra en la siguiente tabla.

    Diferente ortografía Cambia el color de la fuente
    Cambia la coloración de la fuente.
    Puntuación diferente Abre el fichero y selecciona el texto.
    Abre el fichero, y selecciona el texto
    Ininflexión diferente Elimina el documento.
    Elimina los documentos.
    Números diferentes Emplea versión 1.1.
    Emplea versión 1.2.
    Formato diferente Pulsa en OK.
    Pulsa en OK.
    Es importante recordar que incluso cuando el sistema MT recupera lo que parece ser una coincidencia exacta, el traductor no se ve obligado a aceptar la propuesta de traducción. De hecho, hay momentos en que la traducción propuesta no es apropiada, como por ejemplo cuando un cliente ha expresado su preferencia por una terminología o un determinado estilo. A pesar de que un segmento puede ser idéntico, los traductores se ocupan de la traducción de textos completos en lugar de segmentos aislados, por lo que es importante leer la traducción propuesta en su nuevo contexto para estar seguro de que es a la vez estilísticamente apropiado y correcto semánticamente. Por ejemplo, en los casos en que surge la homonimiaEs la cualidad de dos palabras (de distinto origen y significado por evolución histórica) que se escriben diferente pero se pronuncian de la misma manera, aunque con significados diferentes, por ejemplo «mas» y «más» , un segmento puede ser en realidad una traducción exacta cuando se considera aisladamente, pero no si se coloca en el contexto equivocado. Los homónimos son palabras que se escriben igual pero tienen dos (o más) significados diferentes. Por ejemplo, la palabra inglesa "pipe" puede referirse a un conducto cilíndrico utilizado para transportar una sustancia tal como agua o gas natural o puede hacer referencia a un artículo para fumar. Dependiendo del significado intencional, la palabra puede ser traducida al francés como "tuyau" (conducto) o "pipe" (fumar). En un sistema de MT que trata los segmentos como unidades aisladas, los indicados en la tabla siguiente, se presentarían como una coincidencia exacta.


    Nuevo segmento fuente Empty the pipe.
    Unidad MT almacenada IN: Empty the pipe.
    FR: Videz la pipe.
    Sin embargo, en un texto acerca de fontanería, es poco probable que esta fuera la traducción adecuada. El traductor debe tener cuidado de leer el segmento propuesto en todo el contexto y editar la traducción sugerida si es necesario para asegurarse de que el significado correcto es el que se transmite.

    - Coincidencias completas

    Como se mencionó al principio del subapartado, algunos desarrolladores de sistemas de MT han introducido en sus sistemas un nuevo tipo de coincidencia conocida como coincidencia completa. Una coincidencia completa se produce cuando un nuevo segmento origen difiere de una unidad almacenada en la MT sólo en términos de los llamados elementos variables, llamados algunas veces "placeables" o "named entities". Los elementos variables incluyen números, fechas, horas, monedas, medidas y hasta nombres propios. Estos elementos suelen requerir algún tipo de tratamiento especial en un texto. Por ejemplo, los nombres personales o de empresa no se suelen traducir, mientras que las fechas y horas pueden tener el orden cambiado (por ejemplo, DD/MM/AA puede estar expresado así: DD/MM/AAAA y 2 pm como 14:00h).

    En cualquier caso, el número exacto o nombre propio que aparece en el segmento de texto origen generalmente no afecta al resto del segmento que se traduce. No obstante, con una MT que utiliza un sistema de coincidencias de caracteres superficiales como método para identificar posibles equivalentes de traducción, la presencia de una fecha o un nombre propio diferente puede dar como resultado que se pase por alto una coincidencia potencialmente útil, tal cual se ilustra en la siguiente tabla.

    Nuevo segmento fuente The party for John is scheduled for 03-30-13 at 4pm El nuevo segmento fuente tiene 52 caracteres.
    Unidad MT 1 almacenada IN: The game with John is scheduled for 03-30-13 at 4pm.

    FR: Le match contre John est prévu le 30 mars 2013 à 16h.
    El segmento se puede recuperar como la mejor coincidencia a causa de que difiere del nuevo segmento fuente en ocho caracteres.
    Unidad MT 2 almacenada IN: The party for Mary is scheduled for 28/04/13 at 16:00.

    FR: La fête pour Mary est prévue le 28 avril 2013 à 1hh
    Este segmento podría no ser identificado como la mejor coincidencia ya que difiere del nuevo segmento fuente por 17 caracteres.
    En el ejemplo, el segmento almacenado en la unidad 2 de la MT proporcionaría a un traductor más información útil de la que lo haría el segmento almacenado en la unidad 1 de la MT; sin embargo, debido a que los nombres propios, fechas y horas se han incluido en el proceso de reconocimiento de caracteres, la unidad 1 ha sido identificada por el sistema como una coincidencia mejor que la unidad 2. Para mejorar su utilidad, los sistemas de MT deben hacer caso omiso de los elementos variables para la búsqueda de coincidencias y algunos sistemas ya están empezando a integrar estas estrategias.

    - Coincidencias fuzzy

    Por supuesto, no todos los textos con los que el traductor se encuentra se han expresado de la misma forma previamente o difieren de éste únicamente en términos de elementos variables, pero los pasajes que son similares todavía pueden tener utilidad y, por esta razón, muchos sistemas de MT son capaces de localizar equivalencias aproximadas, conocidas como coincidencias “difusas” o “fuzzy”. Una coincidencia fuzzy recupera un segmento que es similar, pero no idéntico, al nuevo segmento fuente. Un buen sistema de MT pondrá de relieve las diferencias entre los segmentos con el fin de llamar la atención del traductor sobre las áreas que pueden necesitar edición antes de integrar la traducción propuesta en el texto destino. Algunos sistemas utilizan un código de colores para ilustrar los distintos tipos de diferencias entre el nuevo segmento origen y el segmento recuperado. Seguidamente un ejemplo de una coincidencia aproximada.

    Nuevo segmento fuente The specified file is not valid.
    Unidad MT almacenada IN: The specified file is not a valid file.

    FR: Le fichier spécifié n'est pas un fichier valide.
    El grado de similitud en una coincidencia aproximada puede ser de 1% a 99% y el usuario en general tiene la capacidad de fijar el umbral de sensibilidad para permitir que el sistema localice segmentos previamente traducidos que pueden diferir ligeramente o variar enormemente del nuevo segmento o segmentos. Si el umbral de sensibilidad es demasiado alto (por ejemplo, un mínimo de similitud del 95%), existe un riesgo de que el sistema produzca "silencio": habrá coincidencias parciales potencialmente útiles que no se recuperarán. Sin embargo, si el umbral de sensibilidad es demasiado bajo (por ejemplo, un mínimo de similitud del 10%), existe riesgo de que el sistema produzca "ruido", las traducciones sugeridas que se recuperen serán demasiado diferentes del nuevo segmento origen y por lo tanto no serán útiles. Cuando el umbral es muy bajo, se pueden marcar coincidencias sobre la base de palabras muy generales (por ejemplo, "la", "y", "de", "a") y el contenido global del segmento recuperado puede ser de poca ayuda para que el traductor traduzca el nuevo segmento. A continuación se tabulan ejemplos de segmentos recuperados utilizando los umbrales de sensibilidad alta y baja respectivamente. Muchos traductores prefieren establecer el umbral de sensibilidad entre el 60% y el 70%; sin embargo, dependiendo de la naturaleza del texto en cuestión, algunos traductores estiman que coincidencias con una similitud tan baja como el 40% todavía pueden proporcionar información útil . A pesar de que la coincidencia aproximada puede ser útil, se requiere una cuidadosa revisión y edición para asegurar que la traducción propuesta es adecuada para su inclusión en el texto destino.

    Nuevo segmento fuente The text for the property of the command is either missing a right parenthesis or includes a misplaced left parenthesis.
    Unidad MT almacenada IN: The text for the property of the command is missing a right square bracket or includes a misplaced left square bracket.

    FR: Le texte de la propiété de la comande ne se termine pas par un crochet, ou le crochet ouvrant est mal placé dans le texte.
    Nuevo segmento fuente The specified operation failes beit requires the file a cause
    Unidad MT almacenada IN: The pecified language for the file is not supported on this computer.

    FR: La langue spécifié pour le fichier n'est pas prise en charge par cet ordinateur.
    Como se muestra en la tabla posterior, algunos sistemas de MT recuperarán más de una coincidencia aproximada de la MT (siempre que todas estas coincidencias entren dentro de los límites del umbral de sensibilidad especificado por el usuario). En estos casos, toda la gama de coincidencias se presenta al traductor en orden, clasificadas de mejor (el segmento que más se asemeja el segmento de origen) a peor (el segmento que más difiere del nuevo segmento). El traductor puede ver todas las coincidencias recuperadas y determinar cuál de todas, si las hay, pueden ser mejor para adaptarlas en la nueva traducción.

    Nuevo segmento fuente The operation was interrupted because the file was hidden.
    Unidad MT almacenada (mejor coincidencia) IN: The operation was interrupted beacause the Ctrl-c key was pressed.

    FR: L'opérationn a été interrompue car la touche Ctrl-e a été enfoncée.
    Unidad MT almacenada (segunda mejor coincidencia) IN: The specified method failed because the file is hidden.

    FR: La méthode spécifiée a échoué car le fichier est masqué.
    Unidad MT almacenada (tercera mejor coincidencia) The operation was interrupted by the application.

    FR: L'opération a été interrompue par l'application.
    Unidad MT almacenada (cuarta mejor coincidencia) IN: The requested operation cannot be completed because the disk is full.

    FR: Le disque est saturé. impossible de continuer l'operation requise.
    - Correspondencia de términos

    La mayoría de los sistemas de MT operan junto con una base de términos asociada. Utilizando un gestor terminológico compatible con el software, un traductor puede crear una base de terminología bilingüe y el sistema comparará los términos individuales que figuran en cada segmento del texto origen con los términos de la base terminológica. Este proceso se conoce como reconocimiento activo de terminología y constituye esencialmente una búsqueda en un diccionario automático . Por ejemplo, como se muestra en la siguiente tabla, si uno o más términos están en la base de datos, el sistema de MT señalará los registros apropiados y el traductor podrá hacer uso de la información pertinente que figura allí. Esto significa que cuando no se encuentran coincidencias exactas o fuzzy para los segmentos de texto fuente, el traductor al menos podría encontrar alguna equivalencia de traducción de los términos individuales en la base de términos.

    Nuevo segmento fuente Puede no haber suficiente memoria disponible en su ordenador
    Entrada en base terminológica IN: memory

    FR: mémoire (f)
    IN: computer

    FR ordinateur (m)
    - Correspondencia de subsegmentos

    Como se mencionó anteriormente, algunos desarrolladores de sistemas de MT están tratando de incluir un nuevo tipo de correspondencia, que opera a nivel de subsegmento. Una coincidencia de subsegmentos se sitúa a medio camino entre la coincidencia fuzzy y la de términos. En la coincidencia fuzzy, el sistema compara todo el segmento fuente con segmentos completos almacenados en la base de datos de la MT. Ambos segmentos deben tener un número de elementos en común con el fin de que se establezca una coincidencia. En general, cuanto mayor sea el umbral de sensibilidad, más similares deben ser dos segmentos para que se establezca una coincidencia fuzzy.

    En la coincidencia de términos, el segmento fuente se compara con las entradas de una base terminológica. Esta base de términos se ha compilado por separado por el traductor y se puede integrar al sistema de MT con el fin de aprovechar el reconocimiento activo de terminología.

    Entonces, ¿en qué se diferencia la correspondencia de subsegmentos de la coincidencia fuzzy o la de términos? A primera vista, podría parecer que la correspondencia de subsegmentos es simplemente una coincidencia fuzzy con un umbral de sensibilidad muy bajo, sin embargo, en el caso de la coincidencia fuzzy, la similitud se determina basándose en la semejanza global de los dos segmentos .

    En el caso de la correspondencia de subsegmentos, los elementos que se comparan son pequeños fragmentos de los segmentos. Esto significa que se puede recuperar una coincidencia entre dos bloques pequeños de segmentos, incluso si los segmentos completos no tienen un alto grado de similitud global. Por ejemplo, en los dos segmentos que se muestran,

    Nuevo segmento fuente First, check the disk space on the drive that containts the Temp folder;
    Unidad MT almacenada IN: 3. Close others programs, check for disk space on the drive you are saving to, and then save again.

    FR: 3. Fermez des applications, vérifiez l'espace disque disponible sur le lecteur où vous voulez enegistrer votre fichier, puis réenregistrez votre travail.
    no es probable que se recupere una coincidencia fuzzy, porque cuando se toma como un todo, los segmentos no son muy similares: un segmento es considerablemente más largo que el otro; uno termina con un punto y coma y el otro con un punto; una tiene formato (negrita); una forma parte de una lista numerada, y así sucesivamente. No obstante, estos dos segmentos contienen un fragmento que es muy similar y hay una posibilidad de que el traductor pueda reutilizar dicho fragmento.

    Una coincidencia de subsegmentos también se diferencia de una coincidencia de términos. Aunque técnicamente es posible almacenar cadenas arbitrarias de palabras en un registro de términos, los traductores tradicionalmente han restringido el registro de entrada de términos a los elementos léxicos que se utilizan para referirse a conceptos específicos en un campo de especialidad. Por lo tanto, mientras que una base de términos posiblemente podría contener entradas de términos tales como "espacio en disco" o "unidad", sería poco probable que contenga una entrada para el subsegmento del término "verificación de espacio en disco de la unidad", como se ve en el ejemplo de la tabla previa. (Sin embargo, como se señaló anteriormente, algunos traductores están empezando a almacenar cadenas utilizadas con frecuencia en sus bases de términos, incluso cuando estas cadenas no constituyen "términos" en el sentido convencional).

    Como mejora adicional, algunos desarrolladores de sistemas de MT están trabajando en un enfoque que combine segmentos completos y subsegmentos que permitirá que el sistema compare automáticamente el nuevo segmento origen con lo almacenado en la MT usando varias repeticiones. Se comenzará por examinar los segmentos completos, primero en busca de coincidencias exactas y luego fuzzy y, si no se encuentra ninguna coincidencia en el nivel de segmento, se compararán bloques cada vez más pequeños para encontrar una coincidencia. De esta manera, como se muestra en la tabla posterior, el traductor puede obtener coincidencias de subsegmentos procedentes de varios segmentos diferentes, aunque ninguno de los segmentos completos estuviese calificado como una coincidencia fuzzy.

    Nuevo segmento fuente The file operation cannot be completed because the disk is full.
    Coincidencia de subsegmento IN: There is not enough memory to perform the file operation.

    FR: Mémoire insuffisante pour continuer cette opération de fichier.
    Coincidencia de subsegmento IN: This action cannot be completed beacause the program is busy.

    FR: Impossible de continuer cette action car le program est occupé.
    Coincidencia de subsegmento IN: Disk is full.

    FR: Le disque est saturé.
    Esta estrategia es similar al enfoque utilizado en la traducción automática basada en ejemplos (EBMT). La principal diferencia entre una MT como herramienta de apoyo para los traductores y un sistema de EBMT de pleno derecho es básicamente una cuestión de quién tiene la responsabilidad primordial de hacer la traducción. Con una MT, el traductor se encarga del análisis de los segmentos y la formulación del texto de destino, mientras que con la EBMT, el ordenador es responsable de la elaboración de un borrador completo de un texto destino, aunque esto necesite ser post-editado por un traductor humano.

    - No coincidencias

    Como no hay dos textos iguales, es probable que haya segmentos para los cuales no se recupere ninguna coincidencia útil. En tales casos, el nuevo segmento fuente debe ser traducido por el traductor desde cero, aunque es posible encontrar algunos equivalentes de los términos en una base de términos asociada . Otra opción consiste en utilizar un sistema de traducción automática para traducir porciones del texto origen para las que no se encontró ninguna coincidencia en la MT . Independientemente del método que se utiliza, una vez que un segmento fuente se ha traducido, se puede añadir a continuación a la MT, de modo que estará disponible para su reutilización en el futuro.

    - Limitaciones de los algoritmos de correspondencia actuales

    Aunque las diversas técnicas de coincidencia descritas anteriormente son útiles en muchas situaciones, tienen algunas limitaciones. Una limitación seria de muchos de los actuales sistemas de MT es su incapacidad para hacer frente a la inflexión y la derivación . La inflexión es el proceso que se utiliza para hacer un sustantivo plural (por ejemplo, "niño" + "s" = "niños") o conjugar un verbo (por ejemplo, "hablar" + "ado" = "hablado"). Con el fin de identificar las coincidencias posibles, algunos sistemas de MT utilizan métodos muy superficiales, tales como la comparación de la similitud de los caracteres en los nuevos segmentos y en los ya almacenados. En tales casos, la inflexión puede tergiversar la semejanza y evitar la recuperación de una coincidencia potencialmente útil, como se ilustra en la siguiente tabla.

    EJEMPLO Coincidencia caracteres Comentarios
    Nuevo segmento fuente The pattern on the disk is very appealing. El nuevo segmento fuente tiene un total de 42 caracteres.
    Unidad 1 MT almacenada IN: The pattern on the disk is very revealing.

    FR: Les tendances statistiques qui se trouvent sur la disquette son très révélateurs.
    Este segmento se puede recuperar como la mejor coincidencia por tener también 42 caracteres y diferir del nuevo segmento fuente en solo 4 caracteres.
    Unidad 2 MT almacenada IN: the patterns on the dishes were very appealing.

    FR: Les motifs sur la vaisselle étaient très agréables.
    Este segmento podría no ser identificado como la mejor coincidencia porque tiene 47 caracteres y dfiere del nuevo segmento fuente por 7 caracteres.
    Desde el punto de vista del traductor, el segmento que figura en la unidad 2 de la MT es en realidad más parecido al segmento fuente, que es el segmento que figura en la unidad 1 y, por lo tanto, sería más útil para la producción de una traducción exacta. Las diferencias entre el segmento fuente y el segmento de la unidad 2 son simplemente diferencias de inflexión: los nombres se han pluralizado y el verbo se ha conjugado en tiempo pasado y concuerda con el sujeto plural. Un traductor puede fácilmente hacer los ajustes pertinentes de inflexión en el nuevo texto original. Por otra parte, aunque el segmento origen y el segmento almacenado en la unidad 1 son muy similares a escala superficial (en términos de la semejanza total de los caracteres individuales), son muy diferentes en cuanto a su significado. En este caso, las diferencias no son simplemente resultado de inflexión, sino que son elementos léxicos completamente diferentes que tienen traducciones muy distintas y, por lo tanto, tendría una utilidad limitada para ayudar a que el nuevo traductor trabaje con el segmento origen. Un paso hacia la mejora de los sistemas de MT sería que pudieran reconocer y hacer coincidir las variantes de una palabra (de modo que "plato" se correspondería con "platos", pero no con "placa"). El supuesto subyacente aquí es que para un usuario que desea encontrar la traducción de una frase que contiene una palabra dada X, las traducciones de cualquier frase que contenga una variante flexiva de X (como Xado o Xndo), podría ser potencialmente informativa, independientemente de los ajustes menores que deban hacerse para dar cabida a la variación flexiva. Se podría usar un enfoque similar para hacer frente a la derivación, que es el proceso de añadir un prefijo o sufijo a una palabra existente con el fin de crear una nueva (por ejemplo, la adición del sufijo "mente" al adjetivo "prudente" produce el adverbio "prudentemente”).

    Creación de una MT

    Un sistema MT es esencialmente un tipo de base de datos, en otras palabras, es una componente de software que permite a un usuario almacenar y recuperar información. Los recientes avances en la tecnología de base de datos y la potencia de los ordenadores han hecho posible que los sistemas de MT puedan almacenar y recuperar rápidamente grandes cantidades de material ya traducido. Sin embargo, como es el caso de cualquier sistema de base de datos, la información debe proporcionarla el usuario. Por lo tanto, cuando un traductor compra un sistema de MT por vez primera, la base de datos está vacía. La MT resulta útil cuando el traductor comienza a almacenar algunos datos (textos de origen y de destino) en el sistema. De hecho, cuanto mayor sea el número de textos almacenados en la base de datos, mayor será la probabilidad de encontrar algún tipo de coincidencia. Sin embargo, el tamaño no debe emplearse en detrimento de la organización. No es necesario, y puede no ser deseable, construir una sola MT. Los traductores pueden encontrar más útil crear memorias de traducción separadas para los distintos campos de estudio existentes (por ejemplo, con el fin de reducir las coincidencias falsas provocadas por homonimia), o tener diferentes memorias de traducción para los distintos clientes (por ejemplo, para dar cabida a las preferencias terminológicas y estilísticas). Se ha de tener en cuenta que una mayor MT se traducirá en un mayor número de coincidencias sólo si los textos almacenados contienen vocabulario y estructuras similares a los encontrados en el texto de la nueva fuente. Por lo tanto, si bien puede parecer lógico a primera vista construir una sola y amplia MT que abarque todos los campos temáticos o a todos los clientes, esto puede en realidad llegar a ser un atraso, ya que es probable que solo un porcentaje de los textos en la MT proporcionen buenas coincidencias. Por otra parte, existe una mayor probabilidad de hallar "ruido" (por ejemplo, coincidencias que no son útiles, que contienen confusiones con homónimos) y el traductor puede perder una cantidad considerable de tiempo en analizar, eliminar o editar estas coincidencias erróneas.

    Hay dos formas principales de introducir traducciones en la base de datos MT: a través de traducción interactiva o a través de la alineación post-traducción. Como veremos, la fortaleza de un método constituye la debilidad del otro: la traducción interactiva tiene potencial para producir un MT de alta calidad, pero (en principio) de bajo volumen, mientras que la alineación post-traducción tiene potencial para producir una MT que es mayor en volumen, pero (posiblemente) de menor calidad. Por supuesto, los dos métodos no son mutuamente excluyentes, y es totalmente posible construir una MT utilizando una combinación de ambos.

    Traducción interactiva

    La forma más sencilla de construir una MT destinada a los traductores, para llevar a cabo el trabajo de traducción en el entorno de MT, añadiendo unidades de traducción a la memoria a medida que avanzan. Cada vez que el traductor traduce un segmento fuente de texto, la unidad de traducción emparejada (el segmento de texto de origen y su traducción equivalente) se puede almacenar en la base de datos de MT. Una vez que un segmento se ha traducido y almacenado, se convierte de inmediato en parte de la MT. Esto significa que si ese segmento (o uno similar) aparece de nuevo en el texto —incluso en la siguiente frase— se sugiere la traducción anterior al traductor de forma automática. Como se explicó anteriormente, el traductor tiene la opción de aceptar dicha traducción o modificarla si el contexto requiere un cambio.

    La creación de una MT través de la traducción interactiva generalmente da como resultado una base de datos de mayor calidad; sin embargo, dependiendo del volumen de trabajo que un traductor produce o del número de traductores que contribuyen, el construir una MT de tamaño considerable utilizando este método puede conllevar una cantidad considerable de tiempo. Vale la pena señalar, sin embargo, que muchos sistemas de MT pueden conectarse en red, lo que significa que varios traductores pueden contribuir a formar una MT, y el volumen de datos que contiene se puede ampliar con mayor rapidez. En una situación en red, también es posible dar diferentes tipos de privilegios a los usuarios existentes con el fin de ejercer alguna forma de control de calidad. Por ejemplo, todos los usuarios pueden tener permiso para consultar la MT, pero al añadir nuevas unidades de traducción se puede limitar a los revisores o traductores consolidados. Las unidades de traducción realizadas por traductores noveles se pueden enviar a un "tanque de almacenamiento" (“holding tank”), donde un revisor pueda verificarlas antes de ser almacenadas en la MT.

    Un inconveniente del enfoque interactivo para la construcción de una MT  es que los traductores no pueden reutilizar cualquiera de los trabajos de traducción que hicieron antes de adquirir un sistema de MT. Por lo tanto, otra forma de introducir información en una MT es a través de la alineación post-traducción.

    Alineación post-traducción

    La mayoría de los sistemas de MT también contiene una función para alinear traducciones ya existentes, algo que permite a los traductores reutilizar potencialmente las traducciones de sus archivos (siempre que estos textos estén en formato electrónico). La alineación es el proceso de comparar un texto original y su traducción, haciendo coincidir los segmentos correspondientes y uniéndolos como unidades de traducción en una MT. Como se mencionó en el capítulo previo, algunos sistemas tratan de hacer la alineación "on the fly" (cuando una búsqueda está en curso); sin embargo, la mayoría de los sistemas requieren que la alineación se lleve a cabo antes de la búsqueda. Para este proceso se puede utilizar una herramienta de alineación automática; sin embargo, como hemos visto con la segmentación, esto no es una tarea tan trivial como cabría esperar. Existen algunas limitaciones y los resultados dependen de la idoneidad de los textos para la alineación. Para obtener mejores resultados, los textos de origen y de destino deben tener una estructura similar, si no idéntica.

    Las técnicas para la alineación automática incluyen la explotación de la correlación natural entre las longitudes de los segmentos traducidos. Por ejemplo, mirando las unidades de la muestra de traducción en la siguiente tabla, las traducciones al francés parecen ser aproximadamente el 35% más largas que sus segmentos correspondientes de origen inglés.

    IN: The file path is invalid.

    FR: Le chmin dácèss au fichier est non valid.
    IN: Unable to write preferences to registry

    FR: Impossible d'enregistrer les préférences dans la table de registred.
    IN: A disk error has occurred during a seek operation.

    FR: Un erreur de disque s'est produite lors d'une operation de recherche.
    Basándonos en estas frases de ejemplo, un programa de alineación automática podría, anticipar que todas las traducciones al francés serán entre el 25% y el 45% más largas que sus segmentos correspondientes de origen inglés. Si durante el proceso de alineación el programa encuentra una situación en la que el segmento francés parece ser el 75% más largo que el segmento de inglés, o en la que el segmento de inglés parece ser más largo que el segmento francés, el programa alertará al usuario y pedirá ayuda. Como se analizó previamente, este tipo de situaciones pueden surgir en los casos en que dos segmentos de la lengua origen han sido traducidos por un solo segmento de la lengua destino o viceversa.

    Otras técnicas de alineación automática consisten en hacer uso de pares de palabras análogas conocido como cognadosEn lingüística histórica, se llama cognados o dobletes a aquellos términos con un mismo origen etimológico, pero con distinta evolución fonética. El vocablo se deriva del latín cognatus, de co- (con) y -gnatus, natus, participio del verbo latino nascì "nacer". Su traducción literal sería consanguíneos, con un mismo antepasado, o relacionado por una misma naturaleza, característica o función análoga o dobletes (cognate) o traducciones conocidas. En tales casos, con una lectura mecánica bilingüe del léxico se pueden utilizar los equivalentes de traducción como palabras de anclaje para ayudar a unir la fuente y los segmentos destino. Por lo tanto, si una palabra dada aparece en el segmento de origen, el programa de alineación espera encontrar en el segmento destino correspondiente su equivalente en lista. Otros tipos de pistas que pueden utilizarse también para orientar el proceso de alineación son los números, las siglas y el formato (negrita, cursiva, subrayado). Si se encuentra alguna de estas características en un segmento de texto fuente, el programa de alineamiento espera encontrarla asimismo en el correspondiente segmento de texto meta.

    Estas técnicas no suelen ser capaces de hacer frente a situaciones tales como la inversión, en las que frases o párrafos pueden presentarse en un orden diferente en el texto de destino del que tenían en el texto original. Otro tipo de problema de alineación se produce cuando una sección del texto de destino no se ha traducido (por ejemplo, una referencia específica de la cultura puede haber sido eliminada) o cuando se ha añadido una nueva sección al texto de destino y no aparece en el texto fuente (por ejemplo, una explicación de una referencia de texto origen). En la alineación automática, es casi inevitable que algunos sectores queden sin alinear. Hay formas de tratar esta cuestión, como enviar las frases mal alineadas a un archivo separado para que queden excluidas de la MT o que un ser humano las alinee de forma manual. Por supuesto, puede deslizarse algún desalineamiento o desajuste, por lo que es importante para un traductor verificar que la alineación automática se ha hecho con precisión y corregir manualmente los errores si fuera necesario con el fin de mantener un nivel de calidad. Las memorias de traducción que se han creado por traducción interactiva suelen ser más precisas que las que se han creado por alineación automática, pero éstas pueden producir una MT razonablemente exacta que puede emplearse como punto de partida. Esto puede ser importante, especialmente para los traductores que trabajan solos o en pequeñas empresas, ya que, como se mencionó anteriormente, puede llevar mucho tiempo para una sola persona construir una MT utilizando el método interactivo de traducción. El principal beneficio de una MT es que permite a los traductores la reutilización de traducciones anteriores; sin embargo, la MT debe para ello contener traducciones anteriores y cuanto mayor sea el volumen de texto en la MT, mayor será la probabilidad de que se encuentren segmentos idénticos o similares para su reutilización en nuevas traducciones. La alineación post-traducción permite a los traductores "fortalecer" sus memorias de traducción y así aumentar la probabilidad de obtener una coincidencia. Un tipo de reutilización que la alineación post-traducción no permite, sin embargo, es la reutilización de repeticiones internas .

    Trabajo con una MT existente

    Una vez que se ha introducido la información en la base de datos de la MT, ya sea mediante la traducción interactiva o por la alineación post-traducción, el traductor tiene una MT disponible para usar cuando lleve a cabo nuevas traducciones. Hay dos formas principales de trabajar con una MT existente: en modo interactivo y en modo no interactivo.

    El modo interactivo

    Un traductor que trabaja en el modo interactivo sigue el mismo proceso descrito previamente para la construcción de una MT mediante la traducción interactiva. A medida que el traductor trabaja con el nuevo segmento fuente segmento a segmento, el sistema de MT intenta hacer coincidir los segmentos almacenados en la base de datos con los los nuevos segmentos de texto origen. Si se encuentra una coincidencia, el sistema presenta la traducción anterior al traductor, quien tiene la opción de aceptar, modificar o rechazar esta propuesta. A medida que cada nuevo segmento se traduce, la unidad de traducción se agrega inmediatamente a la MT y está disponible para reutilizar la próxima vez que se ha detecte un segmento idéntico o similar. De esta manera, la MT se va construyendo conforme el traductor trabaja.

    Modo no interactivo (por lotes)

    La mayoría de los sistemas de MT también permiten la traducción no interactiva, a veces denominada pretraducción, lo que significa que un usuario puede ejecutar un texto original completo a través del sistema y, cada vez que encuentra una coincidencia exacta, se sustituirá automáticamente el nuevo texto del segmento fuente con la traducción que se almacena en la MT. Los segmentos para los cuales no se encuentra ninguna coincidencia más adelante deberán ser traducidos por un traductor, ya sea humano o un sistema de traducción automática . En cualquier caso, todo el texto debe entonces ser post-editado por un traductor humano para asegurar que las sustituciones realizadas por el sistema eran correctas. Si el traductor realiza cambios en las coincidencias que se insertaron de forma automática, estos cambios se pueden añadir posteriormente a la MT para mantenerla al día.

    Textos adecuados para MT

    No todos los textos son igualmente adecuados para su inclusión en una MT. Teniendo en cuenta que el objetivo de una MT es permitir a los traductores la reutilización del trabajo ya traducido, tiene sentido que los tipos de textos más adecuados para trabajar con una MT sean aquellos repetitivos o que se actualizarán o revisarán. Los textos que se escriben sobre temas altamente especializados son también buenos candidatos para su inclusión en una MT, sobre todo si el traductor trabaja con frecuencia en ese campo con la MT. A continuación se describen las características de los diferentes textos para los que puede resultar más útil la ayuda de una MT.

    Textos que contienen repeticiones internas

    Un tipo de texto que es propicio para su uso con una MT es aquel que contiene una gran cantidad de contenido repetitivo, lo que se conoce como un texto con repeticiones internas. Cuanto mayor sea el porcentaje de contenido repetitivo, más deseable es utilizar un sistema de MT. Desde el momento en se almacena un segmento en la MT, estará disponible para su reutilización (incluso se puede utilizar para ayudar a traducir el segmento siguiente del nuevo texto origen). Al proceso de reutilización de una repetición interna se llama a veces propagación.

    Hay muchos géneros diferentes de textos, pero algunos tienden a contener más repeticiones que otros. Por lo general, los textos técnicos, científicos y legales contienen repeticiones, mientras que los textos literarios y de publicidad contienen menos estructuras repetitivas y son menos apropiados para una MT.

    Revisiones

    Las revisiones son otro tipo de texto que puede ser traducido con éxito con la ayuda de una MT. Una revisión es una versión corregida de un texto anterior. Con frecuencia, los manuales de usuario entran en esta categoría. Imagina un manual para un producto determinado que se ha redactado y traducido; posteriormente, se añaden al producto algunas nuevas características y sus descripciones correspondientes al manual. Como resultado, el manual revisado puede diferir del manual original en sólo un 20%. Ahora imagina que el traductor que fue el encargado de hacer la traducción del manual original había almacenado el trabajo en una MT. En lugar de retraducir todo el manual, el traductor puede reutilizar las traducciones anteriores para las partes del manual que no se han modificado (en este ejemplo, el 80% del texto) y luego se puede concentrar en la traducción de las nuevas incorporaciones que se han hecho (20% del texto). Las páginas Web son otro ejemplo de textos que se revisan ​​con frecuencia. Los sitios web comerciales se comprueban de forma regular, bien cada mes, cada semana o incluso diariamente.

    Textos reciclados

    Algunos traductores trabajan en campos especializados en los que el tema y el formato de los textos que se traducen no varían mucho. Algunos traductores también trabajan regularmente para el mismo cliente, que puede tener preferencias terminológicas y estilísticas. En tales casos, aunque un texto de origen nuevo no puede ser una revisión real de un texto anterior, puede haber pasajes similares en otros textos (se denominan a veces repeticiones externas) que con se pueden reciclar éxito en el texto origen nuevo. Como se mencionó anteriormente, la reutilización de estas repeticiones externas se denomina a veces apalancamiento.

    Actualizaciones

    Otro tipo de texto que se puede traducir provechosamente con la ayuda de una MT es una actualización. Las actualizaciones se producen cuando el cliente realiza cambios en el texto de origen, mientras que la traducción está en curso. Recibir una actualización puede provocar dificultades graves para un traductor, sobre todo si el texto es largo y se han realizado cambios en todo el documento. Sin MT, el traductor tendría que comparar físicamente el original y los textos originales actualizados en busca de cambios (por ejemplo, con la ayuda de un "control de cambios" de un procesador de textos). Por el contrario, con un sistema de MT, el traductor puede ejecutar el texto original actualizado a través del sistema y rápidamente identificar los segmentos nuevos o modificados.

    El uso de una MT de este modo significa que un traductor puede comenzar el proceso de traducción incluso antes de que el texto original esté finalizado. Como se señaló en el capítulo de introducción a la asignatura, a medida que más empresas comiencen a vender productos en el mercado mundial, existe una creciente presión para lanzar sus productos de forma simultánea en todo el mundo. Esto significa que la documentación del producto debe estar disponible de forma simultánea en varios idiomas. Si un traductor no recibe un texto origen hasta que haya sido finalizado, el traductor probablemente tendrá un plazo muy corto para producir la traducción. Sin embargo, si el traductor recibe los borradores del documento original en las primeras etapas de desarrollo, el texto puede ser traducido y almacenado en la base de datos MT. Entonces, como las secciones actualizadas del texto origen están disponibles, el traductor puede ejecutar las actualizaciones a través de la MT con el fin de aislar las partes nuevas o modificadas de las que ya han sido traducidas.

    Ventajas y desventajas de MT

    Los avances en la capacidad de almacenamiento y velocidad de procesamiento de los ordenadores significan que los traductores ahora pueden tener acceso rápido y eficiente a las grandes bases de datos textuales de las traducciones anteriores; sin embargo, así como conlleva estos beneficios, la tecnología también tiene sus limitaciones. Como la mayoría de formas de tecnología, los sistemas de MT tienen sus partidarios y sus detractores. Obviamente, cada traductor y cliente tendrán su opinión propia acerca de la utilidad de estas herramientas, y la siguiente sección sólo pretende esbozar algunos de los beneficios percibidos y los inconvenientes de este enfoque de la traducción.

    En primer lugar, sin embargo, debe hacerse hincapié en que el rendimiento del sistema MT depende de la extensión y la calidad de la base de datos existente y se espera que mejore a medida que crece la base de datos. Una MT no sirve de nada si está vacía, y la calidad de las traducciones almacenadas en la MT depende de la habilidad del traductor. Recuerde que una MT es una herramienta TAO (Traducción Asistida por Ordenador) que está diseñada para ayudar a los traductores, pero las traducciones sugeridas por la MT se encuentran en los textos que hayan sido previamente traducidos y almacenados en la base de datos por un traductor humano. Por otra parte, los textos fuente y sus traducciones deben almacenarse explícitamente en la MT. Cualquier trabajo de traducción realizado fuera del entorno de la MT no se almacenará automáticamente en la base de datos y por lo tanto no estará disponible para su reutilización en el futuro, a menos que, por supuesto, se alinee y añada en una etapa posterior.

    Tiempo

    Una de las ventajas más ampliamente reconocidas de una MT es que ahorra tiempo. Los traductores que son capaces de reutilizar partes de una traducción anterior serán capaces de traducir textos con mayor rapidez y, por el aumento de su productividad, en principio, ganar más dinero. A primera vista, este argumento parece convincente, sin embargo, puede ser simplificar un poco el asunto.

    Siempre que se introduce una nueva forma de trabajar, habrá una curva de aprendizaje. En el caso de las memorias de traducción, los traductores deben aprender a dominar una nueva y bastante sofisticada aplicación de software, que les obliga a recurrir a destrezas que no están relacionadas con el arte de la traducción. En algunos casos, los traductores pueden necesitar familiarizarse con varias herramientas, ya que sus diversos clientes pueden utilizar diferentes sistemas de MT. Aunque aprender a usar este tipo de software se está convirtiendo en una parte esencial del trabajo, es posible que un traductor necesite varias semanas para sentirse cómodo trabajando con un nuevo paquete de software. Es más que probable que haya algo de estrés durante el proceso, debido a que la necesidad de aprender un nuevo paquete coincidirá inevitablemente con una fecha límite de entrega importante. Por lo tanto, los traductores pueden experimentar una caída inicial de la productividad durante esta fase de aprendizaje, aunque ésta comenzará a aumentar a medida que se habitúen al software. Además, como se ha mencionado anteriormente, cuanto mayor sea la MT, mayor será la probabilidad de conseguir una coincidencia y ser capaz de reutilizar traducciones anteriores. Cuando un traductor comienza a trabajar con una MT por vez primera, es probable que sea más bien pequeña y habrá pocas coincidencias, pero el rendimiento del sistema mejorará a medida que crece la MT. Es importante que los traductores no se sientan frustrados y renuncien a las memorias de traducción demasiado pronto, porque las ganancias significativas en la productividad tienden a estar en el medio y largo plazo en lugar de a corto plazo.

    La importancia de la identificación de un umbral de sensibilidad adecuado para la coincidencia fuzzy se ha tratado previamente, pero vale la pena repetirlo aquí. Por un lado, si el umbral es demasiado alto, las equivalencias fuzzy que podrían ser de utilidad no podrán recuperarse. Por otro lado, si el umbral es demasiado bajo, los coincidencias recuperadas pueden no ser muy útiles. Algunos traductores sienten que la edición de una coincidencia fuzzy en realidad puede llevar más tiempo que la traducción de un segmento a partir de cero. Otros traductores creen que incluso si las coincidencias fuzzy no se pueden incorporar directamente a la nueva traducción, pueden aportar pistas útiles, inspiración o indicaciones para una investigación adicional. Por último, cabe señalar que la conversión de archivos hacia y desde el formato requerido por la MT exige pasos adicionales que pueden en efecto necesitar cierto tiempo .

    Calidad

    Como se mencionó anteriormente, una MT es una herramienta TAO y no una herramienta de traducción automática. Las traducciones de la memoria las guarda siempre un traductor humano, por lo que un requisito previo para la obtención de un resultado de alta calidad a partir de una MT es que las traducciones almacenadas por los traductores humanos deben ser correctas. Si el contenido de la MT es de mala calidad, los usuarios deben pasar un tiempo corrigiendo las traducciones y se arriesgan a perder tiempo que podrían haber ahorrado al trabajar con la MT en primer lugar. Además, es importante señalar que, aunque pueden ser traducciones precisas cuando se almacenan inicialmente en una MT, pueden convertirse en incorrectas con el tiempo (por ejemplo, si hubiera cambios de terminología) o pueden ser inapropiadas en un contexto dado (por ejemplo, si contienen homónimos o si son específicas del cliente). De manera similar, como se hacen a menudo cambios de última hora a un texto traducido después de haber sido reconvertido a su formato original, éstos no siempre se insertan en la MT, lo cual significa que es difícil mantener la MT actualizada. Como resultado, el control de calidad debe tratarse como un proceso continuo, y no es aconsejable para los traductores la reutilización de traducciones anteriores sin antes verificar que son correctas. Esto puede conducir a un conflicto entre la promesa de aumento de la productividad y la necesidad de mantener una alta calidad. Existe el temor de que algunos traductores que trabajan con plazos muy ajustados puedan sentir la tentación de trabajar con demasiada rapidez y utilizar memorias de traducción a ciegas, sustituyendo traducciones propuestas sin verificar su exactitud.

    Si suponemos que el contenido de la MT es correcto, un beneficio frecuentemente citado de trabajar con un sistema de MT es que mejora la consistencia. Un traductor que está trabajando en un documento largo es capaz de mantener la coherencia en todo el texto. Esto es particularmente útil cuando el traductor recibe una actualización , en la que los cambios se han hecho en todo el documento. Además, muchos sistemas de MT pueden conectarse en red, lo que significa que varios traductores que trabajan en el mismo documento o que trabajan para la misma agencia o cliente pueden compartir las mismas memorias de traducción, manteniendo así la coherencia dentro del grupo. Por supuesto, este tipo de coherencia no será conveniente cuando se trabaja para diferentes clientes, ya que las empresas pueden no estar de acuerdo en tener su documentación por escrito con un estilo y una terminología similares a la de sus competidores. Por otra parte, si se aprovechan los segmentos de traducción para un único texto meta de clientes diferentes, de distintos tipos de texto o de varios campos de materia, el resultado puede ser una mezcla de estilos y de terminología.

    El cambio en la forma de trabajo que provoca la tecnología MT también ha planteado preguntas con respecto a la calidad. Como se explica al principio, el trabajo de las memorias de traducción es hacer coincidir los segmentos de textos. Por lo tanto, a fin de que los traductores obtengan el máximo beneficio de las memorias de traducción, las traducciones deben segmentarse de la misma forma. Esto significa que los traductores que traducen frase por frase, en lugar de cambiar el orden de las oraciones o la combinación o la división de frases, mejorarán sus posibilidades de encontrar coincidencias en la MT en futuras traducciones. La rigidez de mantener el mismo orden y el número de frases en el texto de destino que se encuentra en el texto origen puede afectar a la naturalidad y la calidad de la traducción. Además, se ha observado un fenómeno que se conoce como peephole translation, en el cual los traductores elaboran deliberadamente textos de manera que sean más fácilmente reciclables a partir de una MT. Por ejemplo, evitando referencias anafóricas y catafóricas (por ejemplo, las referencias de pronombres como "él" o "esto"), porque las coincidencias recuperadas por lo general requieren menos cambios si no las contienen. Los traductores que trabajan con memorias de traducción podrán evitar el uso de tales estructuras, lo que puede dar como resultado un texto menos cohesivo y por consiguiente menos legible.

    Problemas como éstos han provocado la inquietud entre algunos traductores de que la noción de "texto" se ha perdido debido a que las herramientas operan principalmente en el nivel de la oración. Como se subraya en muchos manuales de traducción, como los de Baker (1992) y Hatim y Mason (1990), las oraciones no se pueden tratar de forma aislada, sino que deben ser vistas como parte de un texto más grande. En consecuencia, algunos usuarios de MT han pasado de basarse en la frase a hacerlo en el párrafo para la segmentación . Si se utiliza la segmentación por párrafos, los traductores pueden utilizar libremente referencias anafóricas y catafóricas o dividir o unir frases dentro de un párrafo. Aunque el número de coincidencias que se recuperan cuando se trata de párrafos es menor que cuando se trata de oraciones, las coincidencias de párrafos exigen generalmente menos trabajo de edición que las coincidencias de frases y las traducciones resultantes son a menudo mucho más legibles.

    Por último, debido a que una MT se percibe como menos flexible que un procesador de textos (por ejemplo, requiere medidas adicionales para fusionar dos segmentos o para modificar las unidades de traducción que ya están almacenadas en la MT), algunos traductores pueden verse tentados a hacer menos borradores antes de presentar su traducción final, y esto puede tener un impacto en la calidad de la traducción.

    Formato electrónico

    Como se mencionó anteriormente, con el fin de ser almacenados en una MT, el texto de origen y su traducción primero deben estar en forma electrónica. Aunque cada vez son más los clientes que entregan los textos fuente a los traductores en formato electrónico, las copias impresas todavía se utilizan a veces. En tales casos, el traductor debe tener en cuenta si vale la pena convertir la copia en papel del texto a formato electrónico con el fin de utilizar una MT. Si el texto no parece contener repeticiones internas, si está fuera del ámbito de especialización habitual del traductor o si es poco probable su reutilización por cualquier otro motivo, puede que no valga la pena incorporarlo. Por supuesto, la dificultad de tomar tal decisión es que no es probable que los traductores sepan en cada momento exactamente a qué textos fuente se enfrentarán en el futuro. Si el traductor sí decide convertir el texto en formato electrónico, lo más habitual es que utilice un OCR (programa de reconocimiento óptico de caracteres) o de reconocimiento de voz.

    Formatos de archivo, filtros y normas

    Como se expuso anteriormente, las diferentes aplicaciones de software almacenan la información en formatos de archivo distintos. Las memorias de traducción no son una excepción, el formato utilizado por una MT dada no es necesariamente compatible con los de otras MT o con otros tipos de aplicaciones de software (por ejemplo, tipos de procesadores de texto, hojas de cálculo, paquetes gráficos y bases de datos). Para ser capaz de importar y exportar archivos desde y a otros formatos, las MT deben estar equipadas con filtros que permitan el intercambio de datos entre ellos. No todas las MT vienen equipadas con un filtro para cada formato de archivo la existente, y un traductor que desee utilizar una MT para ayudarse con la traducción de textos de un cliente debe estar seguro de que la MT es capaz de procesar los formatos de archivo de los textos originales en cuestión.

    Otro problema asociado con algunos filtros es que la información se puede perder durante el proceso de importación o de exportación. Lo ideal es un filtro que extraiga el texto traducible a partir del archivo original y lo presente al traductor en un formato de fácil traducción; y luego, una vez el texto ha sido traducido, el filtro convertirá el archivo a su formato original, sin necesidad de un trabajo adicional de maquetación. Un buen conjunto de filtros tratará de asegurarse de que ni el contenido ni la información del formato se pierden. Sin embargo, como se mencionó anteriormente, los filtros no siempre funcionan perfectamente, y los traductores deben ponerlos a prueba cuidadosamente antes de intercambiar archivos con los clientes. Un problema relacionado es el de intercambio de datos entre dos diferentes sistemas de MT. Aunque muchos paquetes tienen alguna herramienta para importar y exportar datos, el formato de exportación de un sistema no siempre coincide con el formato de importación de otro. Un grupo de interés especial conocido como OSCAR, que es parte de LISA, ha desarrollado un estándar de intercambio de datos de formato llamado Translation Memory eXchange (TMX). El TMX comprueba como están definidos y alineados los segmentos de texto dentro de las MT, lo que permite transferir estos segmentos a cualquier otro sistema que soporte el estándar. El objetivo de TMX es hacer que sea más fácil importar y exportar datos entre diferentes sistemas de MT sin pérdida de información o distorsión.

    Un estándar de intercambio de datos de formato de las MT sería bien recibido por los traductores, pues significaría que se podría adquirir y utilizar un solo sistema MT, independientemente de los sistemas de sus clientes. Esto les ahorraría tiempo (por ejemplo, la curva de aprendizaje se reduciría) y dinero. Muchos desarrolladores de sistemas de MT también apoyan esta iniciativa, aunque algunos son un poco menos entusiastas con la idea. Debido a que actualmente no es fácil hacer la transición de una herramienta a otra, los usuarios tienden a quedarse con la herramienta que tienen, a pesar de podría no ser la más barata o la más fácil de usar, pero algunos desarrolladores temen perder la lealtad de sus clientes una vez los datos de MT puedan leerse mediante cualquier sistema de MT.

    Conjuntos de caracteres y dificultades relacionadas con el idioma

    Algunas lenguas son más fáciles de procesar que otras, por lo que es importante asegurarse de que el sistema MT seleccionado es capaz de procesar los idiomas de trabajo. Por ejemplo, los idiomas como el árabe y el hebreo necesitan soporte bidireccional ya que estas lenguas normalmente se muestran y leen de derecha a izquierda, pero también necesitan poder visualizarse de izquierda a derecha (por ejemplo, si los nombres propios o las palabras prestadas a partir de lenguas como Inglés o Francés se integran en el texto).

    Para los traductores que trabajan con algunos idiomas asiáticos pueden surgir otras dificultades técnicas. En la mayoría de idiomas, un solo carácter se puede almacenar generalmente con un byte (es decir, una unidad de almacenamiento); sin embargo, idiomas de doble byte (por ejemplo: chino, japonés y coreano) requieren dos bytes para almacenar un solo carácter. Desafortunadamente, muchas aplicaciones informáticas, incluyendo algunos sistemas de MT, se han escrito de manera que sólo pueden procesar conjuntos de caracteres de un solo byte. Esto significa que los traductores que trabajan con conjuntos de caracteres de doble byte pueden no ser capaces de utilizar algunos sistemas de MT ya existentes. Esperemos que todos los sistemas en el futuro sean compatibles con Unicode y por lo tanto, tengan habilitado el doble byte.

    Pueden surgir dificultades adicionales relacionadas con el lenguaje con respecto a la segmentación. Con el fin de crear una MT, el sistema debe ser capaz de dividir el texto origen en segmentos. Esto significa que el sistema debe poder reconocer qué elementos indican el final de un segmento (por ejemplo, puntuación). Cuando se trabaja con idiomas como el chino, japonés o coreano, algunos sistemas de MT tienen dificultades para determinar dónde termina uno y dónde comienza el segmento siguiente. Este problema surge sobre todo cuando estos idiomas se utilizan para el texto fuente, por lo general es más fácil de usar las MT en el modo interactivo para traducir de lenguas como el inglés o francés a idiomas como el chino porque las decisiones de segmentación se basan en el idioma de origen. La mayoría de los desarrolladores de MT reconoce problemas tales como las limitaciones importantes y están trabajando para resolverlos.

    Actitudes

    En el pasado, las herramientas informatizadas se veían con frecuencia como una amenaza a los traductores. La toma de conciencia de los traductores y sus clientes de los beneficios potenciales de usar los ordenadores para ayudarse en la traducción crece constantemente; no obstante, todavía existe una necesidad real de educar a los dos grupos sobre las capacidades reales de herramientas TAO. Los traductores tienen que estar seguros de que las herramientas, tales como las MT, pueden ayudar a su tarea mediante la eliminación de una parte del trabajo aburrida y repetitiva y liberarlos para hacer frente para hacer frente a los desafíos más interesantes (por ejemplo, las traducciones que requieren un conocimiento de la semántica o la pragmática). Ningún traductor quiere tener la sensación de que va a ser reemplazado por un ordenador o simplificado a una persona que sólo tiene que hacer clic en el botón "OK" para aceptar una traducción ya hecha. Los clientes necesitan ser conscientes de las limitaciones de las herramientas. A pesar de que están muy entusiasmados con el potencial para lograr un lanzamiento al mercado de una traducción en menos tiempo, necesitan que se les recuerde que la traducción no la realiza un ordenador. Los traductores siguen realizando una tarea difícil y valiosa y como tal, deben ser tratados con el respeto y la atención adecuados por el trabajo que realizan.

    Tasas de remuneración

    La idea de la reutilización de traducciones ha dado lugar a preguntas acerca de la cantidad que debe abonarse a los traductores cuando utilizan las MT. Algunos sistemas de MT están equipados con un módulo de análisis de repetición (a veces llamado módulo de análisis de apalancamiento) que compara el texto fuente en con la MT antes de la traducción y se lleva a cabo con el fin de calcular el número de coincidencias que probablemente se encuentren, así como el número de repeticiones internas del texto origen. Algunos módulos también pueden calcular el número de palabras y las unidades de traducción que figuran en un texto, haciendo caso omiso de elementos tales como las etiquetas HTML o el código de software que podrían influir en el número de palabras. El análisis de la repetición está desempeñando un papel cada vez más importante en la negociación de precios de los trabajos de traducción. También es útil para ayudar a los clientes o traductores en la estimación del tiempo que deben programar para una tarea de traducción en particular.

    Tradicionalmente, los traductores han cobrado por palabra, línea o página. Sin embargo, algunos clientes están pidiendo descuentos por el trabajo realizado con una MT, argumentando que no se debe pagar la tarifa completa a los traductores cuando reutilizan traducciones anteriores. Por ejemplo, mientras que un cliente puede estar dispuesto a pagar la tasa completa por la traducción de un segmento que no tiene coincidencia en la MT, ese mismo cliente puede que desee pagar sólo una parte de la tarifa estándar por que un traductor edite un segmento para el que se ha encontrado una coincidencia fuzzy (por ejemplo, el pago de un 40% de la tarifa estándar para una coincidencia fuzzy del 60% o el pago de un 30% de la tarifa estándar para una coincidencia fuzzy del 70%). Además, algunos clientes no quieren pagar nada en absoluto si una coincidencia exacta se recupera, aunque ésta sea el resultado de una repetición interna.

    Por su parte, los traductores sienten que todavía deben recibir tarifas competitivas por coincidencias fuzzy y exactas debido a que estos segmentos todavía necesitan revisión y análisis en contexto antes de incorporarlos a la nueva traducción. De hecho, algunos traductores señalan que el uso de una MT puede mejorar la coherencia, beneficiando la calidad global del texto, y sugieren que tal vez los clientes deban pagar más por esta mejora de la calidad.

    El debate sobre la tasa de remuneración por coincidencias fuzzy también ha dado lugar a una controversia sobre los umbrales de sensibilidad que se deben utilizar en las MT. Como pagan menos por coincidencias fuzzy, los clientes prefieren ver el umbral de sensibilidad en torno al 50%, pero los traductores sostienen que la edición de un coincidencia al 50% puede llevar más tiempo que la traducción del segmento desde cero, por lo que preferirían que la sensibilidad del umbral se fijara cerca del 80%. Las dos partes suelen acordar el uso de umbrales de sensibilidad de entre el 60% y el 70%.

    A raíz de estos debates, una tendencia notable es que muchos traductores están cobrando a sus clientes por hora, más que por palabra, línea o página. Otra razón para esto es que a menudo hay trabajo adicional implicado en el uso de MT: tratamiento previo, conversión de archivos, mantenimiento de bases de datos y así sucesivamente. ¡Un traductor que cobrase por palabra podría terminar haciendo este tipo de trabajo de forma gratuita! Otra tendencia que está empezando a surgir es que los clientes, que están ansiosos por beneficiarse de los costos potencialmente más bajos y más rápidos tiempos de entrega, están buscando traductores que utilizan memorias de traducción. En un futuro próximo, los traductores que no estén dispuestos a incorporar esta tecnología a sus prácticas de trabajo podrían verse en apuros para conseguir trabajo.

    Propiedad

    Otra cuestión espinosa que ha surgido con el advenimiento de las MTs es la de quién es dueño de una MT. Teniendo en cuenta que una MT puede ser un recurso valioso, tanto traductores como clientes están naturalmente ansiosos por obtener la propiedad. Los traductores argumentan que puesto que han hecho el trabajo, la deberían poseer, alegando que la MT ni siquiera existiría si no se hubieran tomado la molestia de crearla; por el contrario, los clientes quieren proyectar su propiedad intelectual y no ven bien que sus competidores se beneficien en última instancia de los trabajos de traducción por los que han pagado. Estos clientes sostienen que dado que encargaron y pagaron el trabajo, que debe ser suya. Ambos argumentos tienen cierto peso y, ya que este es un concepto relativamente nuevo en la industria, no existen precedentes legales que regulen esta cuestión. En consecuencia, la propiedad es a veces objeto de negociación y debe ser abordada específicamente en los contratos para que ambas partes sepan a qué atenerse.

    Cabe señalar, sin embargo, que en los casos en que los clientes ostentan la propiedad de una MT, por lo general la ponen a disposición de los traductores que contratan para trabajar en nuevos proyectos (y a veces incluso una copia del propio sistema MT). De este modo, los traductores pueden aprovechar los beneficios de trabajar con una MT aun cuando no la hayan creado ellos mismos, aunque para algunos traductores resulta restrictivo tener que adoptar el estilo y la redacción del material que ha traducido previamente otra persona. Por otra parte, este tipo de acuerdo se limita generalmente a un determinado proyecto y cliente, pues no sería ético que un traductor utilizar la MT y el sistema proporcionados por el cliente A para trabajar en un proyecto para el cliente B.

    Integración con otras herramientas

    Muchos de los sistemas de MT disponibles en la actualidad se integran con otras herramientas de apoyo a la traducción. Por ejemplo, las herramientas más populares en el mercado también incorporan potentes sistemas de gestión de terminología y concordancias bilingües y algunas memorias de traducción se pueden acoplar a sistemas de traducción automática.

    A un nivel más fundamental, algunas MT trabajan con procesadores de texto existentes, mientras que otras vienen con un editor de texto propietario. En el primer caso, un traductor abre el texto fuente y crea del texto meta directamente en un procesador de textos de terceros (por ejemplo, MS Word). Esto reduce la curva de aprendizaje del traductor, ya que puede seguir trabajando dentro de un programa de software conocido. En el segundo caso, el traductor debe importar y exportar archivos de formato propietario de la MT propietario mediante el uso de filtros. Como se señala en otros capítulos, cuando se realiza la conversión de archivos existe el riesgo de que los datos se pierdan o distorsionen.

    Sistemas gestores de terminología

    Los sistemas de MT han incorporado a menudo sistemas gestores de terminología. Un sistema de MT compara los segmentos de texto origen con los segmentos previamente traducidos almacenados en la base de datos. Al mismo tiempo, gracias a un proceso conocido como reconocimiento de terminología activa, el sistema gestor de terminología compara los términos individuales que figuran en cada segmento del texto origen con los términos que aparecen en la base de términos. Si un término está reconocido en la base de términos, se llama la atención del traductor sobre el hecho de que existe una entrada para este término y podrá ver el registro del término y luego insertarlo directamente en el texto de destino a partir del registro. De esto se deriva que incluso cuando no hay coincidencias exactas o fuzzy para los segmentos de texto origen, el traductor al menos podría encontrar alguna equivalencia de traducción de los términos individuales en la base de términos del sistema gestor de terminología.

    Concordancias bilingües

    Como se ha señalado en un apartado previo , usuarios y desarrolladores de las MT han reconocido en cuanto a que la segmentación por frases que no siempre puede ser lo más idóneo para permitir la máxima cantidad de reutilización de traducciones anteriores. El lenguaje es de hecho repetitivo, pero gran parte de la repetición tiende a tener lugar en el nivel subfrase. Por lo tanto, otra característica que se ha integrado en algunas memorias de traducción es un concordador bilingüe. Como se describió en el capítulo anterior, las concordancias permiten al usuario recuperar todos los ejemplos de una cadena de búsqueda específica y verlas en su contexto inmediato. Esto significa que un traductor puede solicitar ver todos los ejemplos de cualquier fragmento de texto (no sólo un segmento predefinido, que suele ser más o menos equivalente a una frase) que aparecen en cualquier parte de la MT junto con sus equivalentes de traducción, lo que permite al traductor ver rápidamente la cadena de búsqueda en contexto junto con sus traducciones, que no siempre serán las mismas. Como se ilustra seguidamente, una búsqueda de concordancia bilingüe para el patrón "no válida" ha recuperado seis ejemplos diferentes de esta cadena, que se ha traducido de tres formas diferentes, dependiendo del contexto.

    IN. The specified object is not valid.

    FR: L'object spécifié est non valide.
    IN: The file identifier is not valid.

    FR: L'identificateur du fichier n'est pas valid.
    IN: The specified file is not valid or does not include the correct data.

    FR: Le fichier éspecifié est non valide ou contiente des données incorrectes.
    IN: The specified animation is not valid.

    FR: L'animation spécifié est non valide.
    IN. The default file location is not valid.

    FR: L'emplacement du fichier par default n- est pas valide.
    IN: The value entered for the X property is not valid.

    FR: La valeur entrée pour la propieté X es incorrecte.
    Aun así, los dos enfoques pueden considerarse complementarios dependiendo de la naturaleza del texto que se esté traduciendo y los traductores pueden beneficiarse de tener acceso a ambos tipos: por un lado, pueden trabajar con textos que contienen un gran número de segmentos repetidos, tales como las revisiones, para lo que les vendrá bien el método de segmentación; por otro lado, quienes aspiren a aprovechar o reciclar información de traducciones anteriores que sean del mismo campo temático, sin ser revisiones, pueden encontrar el método de concordancia bilingüe más productivo.

    Sistemas de traducción automática

    Por último, algunos desarrolladores están integrando memorias de traducción a sistemas de traducción automática. Esta combinación de herramientas se puede utilizar de la siguiente manera: un nuevo texto origen se puede comparar primero con una MT que sustituya los segmentos para los que se recuperen coincidencias exactas. Los segmentos que estén todavía sin traducir se pueden introducir en un sistema de traducción automática, que produce un borrador de traducción. El documento completo se pasará entonces a un traductor humano para la post-edición. La traducción final podrá alinearse con el texto fuente original y almacenarse en la base de datos de la MT para su reutilización en el futuro.

    Aspectos económicos

    Una consideración a tener en cuenta para los traductores que están pensando en trabajar con memorias de traducción es el coste que conllevan. Si bien con las memorias de traducción existe la posibilidad de recuperar la inversión con el aumento de la productividad a largo plazo, el conjunto de costes iniciales podría ser prohibitivo, especialmente para los traductores autónomos o pequeñas empresas de traducción que operan con presupuestos limitados.

    Los sistemas de MT son relativamente sofisticados y han necesitado mucho tiempo y esfuerzo para su desarrollo. Como resultado, los sistemas buenos pueden ser bastante caros. Muchos se venden por varios miles de euros; además, los diferentes sistemas de MT no son necesariamente compatibles entre sí, por lo que si un traductor tiene varios clientes diferentes que utilizan diferentes sistemas de MT, puede verse en la obligación de invertir en más de un sistema. En algunos casos, un cliente podrá comprar un sistema de MT y ponerlo a disponibilidad del traductor durante la duración del proyecto. Por supuesto, esto implica que el traductor solo puede utilizar el sistema MT cuando trabaja en dicho proyecto específico o para tal cliente específico, lo que significa que el traductor no obtendrá la totalidad de beneficios a largo plazo que reporta la construcción una MT con el tiempo.

    Los traductores pueden incurrir en otros gastos adicionales además del coste del sistema de MT. Por ejemplo, aunque los requisitos mínimos del sistema para ejecutar el software puedan ser bajos, quizá quieran actualizar su hardware (procesador, memoria, capacidad de almacenamiento) para obtener un rendimiento óptimo. Por otra parte, como la mayoría de sistemas de MT trabajan en modo de pantalla dividida (el texto fuente se muestra en la mitad de la pantalla, mientras que el contenido de la MT se muestra en la otra), los usuarios son se ven tentados a trabajar con monitores de 48 cm o más (en comparación con el estándar de 43 cm), de modo que haya suficiente espacio para mostrar toda la información. Por último, si una empresa de traducción desea permitir que varios traductores se beneficien del uso de las mismas memorias de traducción, se debe instalar una red estable y adquirir una licencia multiusuario.

    Los traductores que deseen integrar las traducciones existentes en un nuevo sistema de MT pueden encontrar gastos adicionales. Si los textos se encuentran ya en formato electrónico, se necesita un programa de alineación ; sin embargo, si los textos están en forma impresa, primero deben ser convertidos a formato electrónico utilizando un escáner y el software de OCR o de reconocimiento de voz.

    Por último, los traductores que no son gurús de la informática y que tienen dificultades para aprender por sí mismos cómo configurar y utilizar con eficacia el software o para localizar averías y problemas técnicos que puedan surgir, podrían tener que pagar cuotas adicionales para la instalación, capacitación y contratos de soporte técnico.

    En total, estos gastos pueden ser muy importantes y es posible que la devolución prevista de la inversión no se materialice tan pronto como cabría esperar. Antes de tomar una decisión de compra de software de MT, se debe hacer un examen cuidadoso de factores tales como los tipos de textos que normalmente va a traducir, cómo se sienten sus clientes respecto a los sistemas de MT y los problemas de pago y propiedad. Las respuestas a estas preguntas le ayudarán a decidir si la inversión inicial se ve justificada con los potenciales beneficios a largo plazo.

    Memorias de traducción comerciales

    Trados translator’s Workbench

    Es líder en el mercado.

    Permite trabajar con cualquier tipo de documento con extensión .doc.

    Se integra con Trados MultiTerm para gestión terminológica.

    Incluye filtros adicionales para trabajar en el formato RTF.

    Dispone de un módulo de alineación de memorias externo al programa. (WinAlign)

    Su funcionamiento se basa en la inclusión de una serie de macros y plantillas dentro de Microsoft Word, por lo que su dependencia de este producto es total y no opera de forma autónoma.


    Wordfast

    Con miles de usuarios, esta empresa con ubicada en Francia, produce la segunda memoria de traducción más utilizada en el mundo. Entre sus clientes figuran organizaciones importantes como las Naciones Unidas y la NASA.

    Ventajas: Su producto más popular – Wordfast Classic – en realidad no es un programa sino un conjunto de macros de Microsoft Word que operan exclusivamente en ese programa. Es muy fácil de instalar y de utilizar, ya que los usuarios trabajan con una interfaz familiar. Asimismo, es mucho menos costoso que Trados.

    Desventajas: Aunque Wordfast Classic es una excelente opción para traducir textos de Microsoft Word, el software maneja un menor número de formatos de archivos en comparación con Trados y otras herramientas de memoria de traducción, lo cual puede ser difícil cuando se trabaja con clientes que utilizan formatos más complicados. También existe Wordfast Pro, que puede manejar algunos formatos de archivos avanzados, incluyendo archivos PDF.

    OmegaT

    OmegaT es un programa de traducción asistida distribuido bajo licencia GPL para la gestión de memorias de traducción. Inicialmente creado por Keith Godfrey y difundido desde Sourceforge y desde su propia web8, a su desarrollo ha contribuido un grupo de programadores que han ido aportando diversas porciones de código para mejorar aspectos de su funcionamiento o corregir errores.

    OmegaT está desarrollado en Java, que es un entorno de programación multiplataforma, lo que significa que puede ser ejecutado en cualquier sistema operativo (Windows, Linux, Mac OS, etc.) sin necesidad de operaciones específicas de instalación y puede ser transportado en cualquier sistema de almacenamiento para ser ejecutado en cualquier ordenador que tenga instalado el entorno de Java (Java Runtime Environment, JRE) De hecho, las últimas versiones incluyen como parte de la descarga el JRE que se instala de forma automática lo que simplifica las tareas de ejecución.

    OmegaT incluye las funcionalidades habituales de los gestores de memorias de traducción, tales como la búsqueda de coincidencias exactas y difusas, mantenimiento de memorias de traducción, gestión de glosarios y filtros para diferentes formatos, así como la gestión simultánea de múltiples proyectos de traducción o de múltiples memorias. OmegaT fue concebido originalmente para manejar documentos en el formato estándar Open Document Format (ODF), generados por los programas de la suite informática de código abierto Open Office (Sun Microsystems) o Oracle Open Office. Puede manejar también otros formatos abiertos tales como: XHTML y HTML; Microsoft Office 2007, XML, XLIFF (Okapi), MediaWiki, y Plain text. Los documentos producidos por otras aplicaciones con formatos de propietario no abiertos como los de Microsoft Office anteriores a 2007 (.ppt .doc, etc.) no son compatibles con OmegaT, por lo que para poder trabajar con ellos habrán de ser convertidos previamente.

    Ventajas:

    — Sencillez de uso como consecuencia de la simplicidad y la falta de sofisticación de su interfaz.Sencillez de uso como consecuencia de la simplicidad y la falta de sofisticación de su interfaz.Sencillez de uso como consecuencia de la simplicidad y la falta de sofisticación de su interfaz.

    — Portabilidad: al tratarse de un desarrollo Java que funciona independientemente del sistema operativo (Windows, Linux, Mac OSX, etc) que se use, puede ser transportada a cualquier sistema con facilidad, lo cual resulta muy conveniente cuando se utilizan entornos de traducción diferentes.

    — Su compatibilidad con otros gestores de memorias de traducción (Trados, SDL, Wordfast, etc) a través del estándar TMX.

    — El dinamismo del grupo de desarrolladores y de los participantes en foros, lo que hace que, en la mayoría de los casos, los problemas puedan resolverse con rapidez y eficacia.

    Desventajas:

    — La simplicidad de las herramientas terminológicas, cuyas posibilidades están por debajo de la sofisticación que pueden ofrecer los programas de software propietario más extendidos.

    — La falta de correspondencia que ocasionalmente puede producirse entre las diferentes actualizaciones y la documentación que de ellas se ofrece, dado que en ocasiones la introducción de algún cambio no siempre se ve reflejada en la documentación del programa.

    — Los problemas de conversión que pueden surgir con la representación TMX generada por otros gestores de memorias de traducción. Estos problemas no son atribuibles a OmegaT, sino más bien a las conversiones que se llevan a cabo desde el lenguaje de representación utilizado por el software propietario y el estándar de TMX.

    IBM TranslationManager

    Es el programa de memorias de traducción más antiguo, diseñado inicialmente por IBM para sus grupos internos de traducción. Todas sus funciones están integradas en el sistema y no dispone de módulos externos al programa.

    Combina su sistema de traducción asistida con funciones de memoria de traducción y consulta de diccionarios.

    Integra su propio procesador de textos e incluye un módulo de alineación de memorias.

    Admite diversos formatos sin limitarse a un procesador de textos específico.

    Presenta un alto grado de personalización y flexibilidad.

    Dispone de una potente función de fusión de segmentos.

    Actualmente hay un programa derivado, OpenTM2, que es software libre.

    Start transit

    Permite abrir varios archivos de modo simultáneo.

    Se vincula a una aplicación de gestión terminológica externa denominada Star TermStar.

    Los filtros de formatos presentan un alto grado de personalización.

    Permite almacenar un gran número de segmentos en menos espacio que los tradicionales sistemas de memorias de traducción.

    Contiene un editor integrado de traducción que puede emular la navegación de menús de Microsoft Word.

    Star transit

    Atril Déjà-Vu

    Contiene diversos módulos para creación de proyectos, mantenimiento de base de datos y terminología, conversión y alineación de bases de datos y gestión terminológica (TermWatch), todos ellos integrados en el producto.

    Incluye la función de propagación de texto por todo el documento de forma automática o manual sin incluir la traducción en la memoria si así se desea.

    Combina la memoria de traducción y la base de datos terminológica para generar una propuesta de traducción cuando el sistema no encuentra una coincidencia al 100% o parcial.

    Tiene una excelente asistencia postventa.

    Ventajas: Ofrece actualizaciones gratuitas y políticas de actualización flexibles, lo que le permite asegurarse de que su software esté al día sin ningún costo adicional. Lo que es más, los usuarios han reportado un muy buen nivel de servicio al cliente y un excelente sistema de gestión de bases de datos con varias posibilidades de filtrado.

    Desventajas: Este software no sirve para los traductores que están encargados de coordinar proyectos grandes distribuidos entre un equipo. Como este software es menos conocido que Trados y Wordfast, puede que algunas agencias de traducción desconfíen de él y prefieran utilizar traductores con un software más familiar.

    ATRIL Déjà Vu

    Euramis (memoria de traducción en la Comisión Europea)

    Actualmente, la memoria central de traducción Euramis contiene más de 88 millones de unidades de traducción en todos los idiomas oficiales de la UE.

    Los idiomas origen más comunes son: Inglés, Francés y Alemán.

    No se utiliza directamente durante el proceso de traducción: es una base de datos accedida para obtener o guardar los datos procesados localmente con TRADOS Translator’s Workbench.

    Computación en "la nube"

    Google Translator Toolkit: servicio al que se accede mediante una cuenta Gmail. Combina una herramienta de traducción automática (Google Translate) con la posibilidad de la traducción asistida (el usuario puede modificar la primera versión ofrecida por el sistema segmento a segmento y después descargarse la traducción).

    Wordfast Everywhere: herramienta en línea hospedada en el servidor del software Wordfast que funciona de forma muy parecida a su versión Classic (a su vez similar a Trados Workbench) combinada con traducción automática y dotada de las mismas prestaciones: creación de memorias de traducción, traducción asistida, etc. Esta herramienta es gratuita, pero para acceder a este servicio hay que registrarse en la web.

    Estándares en memorias de traducción

    Open Document

    Open Document es un formato para los documentos creados con las aplicaciones ofimáticas típicas: procesadores de textos, hojas de cálculo y presentaciones (tipo PowerPoint o Impress).

    Este formato se convirtió en un estándar OASIS a principios de mayo de 2005 y estandard ISO en mayo de 2006. Se trata de un formato «abierto» cuyas específicaciones técnicas se puede descargar gratuitamente desde la página web de OASIS. Este formato se basa en XML, del que hereda toda la flexibilidad y la potencia características de este lenguaje.

    Hasta ahora, el formato más difundido en las aplicaciones empresariales ha sido el del paquete Office de Microsoft. Sin embargo, dicho formato presenta una serie de problemas, principalmente en la elaboración de documentos que van a traducirse a varios idiomas. A menudo, los documentos creados con una versión anterior de Office no son compatibles con la versión más reciente del programa, la exportación y la posterior reimportación del texto, en aplicaciones como Excel o PowerPoint resultan muy complejas.

    En cambio, el formato Open Document ofrece numerosas ventajas: los documentos creados con este formato pueden abrirse con cualquier aplicación que admita este formato (hasta ahora, LibreOffice, OpenOffice y KOffice, productos del mundo OpenSource) con independencia de la versión del producto. Al estar basado en XML, la exportación y reimportación del texto resultan muy sencillas (el texto está completamente separado del formato).

    Estándares de traducción

    Las nuevas tecnologías, los lenguajes como el XML y, sobre todo, la difusión de internet, han desempeñado un papel determinante en la creación y difusión de los estándares aplicados al mundo de la traducción.

    A continuación, se enumeran los principales estándares:

    TBX

    Estándar desarrollado en 2002 por OSCAR, basado en el lenguaje XML, utilizado para la creación, gestión e intercambio de glosarios terminológicos.

    TMX

    Hay un estándar Translation Memory eXchange (TMX), formato de intercambio de datos para Memorias de Traducción, desarrollado por OSCAR (Open Standards for Container/Content Allowing Reuse), elaborado por un grupo de LISA (Localization Industry Standards Association), y cumple con el estándar XML; LISA fue declarada insolvente en el año 2011 y sus especificaciones pasaron a tener la licencia Creative Commons. Con la aplicación de este formato es más viable la colaboración en proyectos de traducción entre personas que usan sistemas de traducción asistida diferentes, seleccionadas en función de sus necesidades y preferencias. El formato TMX también hace más fácil la migración de un sistema de traducción asistida a otro, lo que favorece la competitividad entre las tecnologías ofertadas y el desarrollo constante de las mismas para marcar diferencias con respecto a sus competidores.

    TMX consta de dos partes:

    • Una especificación del formato del contenedor, es decir, los elementos de nivel superior que proporcionan información sobre el archivo en conjunto y sobre las entradas. En TMX una entrada consistente en segmentos alineados de texto en dos o más lenguas se denomina unidad de traducción (el elemento ).
    • Una especificación para el formato de metamarcado de bajo nivel para el contenido de un segmento de texto de la memoria de traducción. En TMX, un segmento individual del texto de la memoria de traducción en una lengua determinada se denota con el elemento .

    Se muestra un ejemplo de memoria de traducción con formato TMX de un único segmento en castellano y catalán:

    <?xml version=”1.0” encoding=”UTF-8”?>
    <!DOCTYPE tmx SYSTEM “tmx11.dtd”>
    <tmx version=”1.1”>
     <header creationtool=”OmegaT” o-tmf=”OmegaT TMX” adminlang=”EN-US”
    datatype=”plaintext” creationtoolversion=”2.6.3” segtype=”sentence”
    srclang=”CA”/>
     <body>
     <tu>
     <tuv lang=”CA”>
     <seg>EDICTE de 14 de febrer de 2017, sobre un acord de la Comissió
    d’Urbanisme de Tarragona referent al municipi de Reus.</seg>
     </tuv>
      <tuv lang=”ES” changeid=”aoliverg” changedate=”20140508T150609Z”>
     <seg>EDICTO de 14 de febrero de 2017, sobre un acuerdo de la Comisión
    de Urbanismo de Tarragona referente al municipio de Reus.</seg>
     </tuv>
     </tu>
     </body>
    </tmx>
    
    Los archivos con formato TMX utilizan siempre la codificación Unicode, ya sea UTF-16, UTF-8 o ISO-646 (es decir US-ASCII, que es subconjunto del UTF-8). Como solo se permiten estas codificaciones, no es necesario incluir la declaración correspondiente en la cabecera del XML. A diferencia del HTML y, como ocurre con cualquier otro XML, en TMX sólo se permiten las siguientes referencias a entidades: & (&), < ( <),> (>), ' (‘) y " (“).

    TRANSLATION WEB SERVICES

    Estándar desarrollado en el año 2003 por OASIS, basado en el lenguaje XML, empleado para facilitar el intercambio de información entre los diversos protagonistas en los procesos de traducción.

    XLIFF (XML Localisation Interchange File Format)

    Es un estándar desarrollado en 2001 por OASIS, basado en el lenguaje XML, empleado para la extracción y la elaboración del texto para traducir en el interior de los documentos. Se desarrolló para resolver una serie de problemas existentes en la gestión de la traducción multilingüe.

    La primera versión fue comercializada en mayo de 2001 por un grupo de empresas dedicadas al campo de la tecnología, como IBM, Novell, Oracle y Sun Microsystems (actualmente integrada en Oracle). En diciembre de 2001, XLIFF entró a formar parte de OASIS (Organization for the Advancement of Structured Information Standards) y, en octubre de 2003, se publicaron las especificaciones técnicas para la versión 1.1.

    El concepto que subyace bajo este formato es muy sencillo, del documento original se extraen, por una parte, los contenidos que se van a traducir (translation units) y, por otra, todos los elementos que no son traducibles (skeleton). Una vez realizada la traducción se vuelven a unir estos elementos para formar el documento final. La principal ventaja de utilizar el formato XLIFF radica en la separación de los contenidos y la forma, lo que simplifica enormemente el proceso de traducción de un documento.

    A continuación, se muestra el proceso sin emplear XLIFF:

    Memorias de traducción, estándar XLIFF


    A continuación se describe el mismo proceso empleando XLIFF:

    Memorias de traducción, estándar XLIFF


    Seguidamente, se muestra un ejemplo de archivo XLIFF:

    <xliff version='1.1' xmlns="urn:oasis:names:tc:xliff:document:1.1">
    <file original="file1.prop" source-language="en-US" datatype="javapropertyresourcebundle">
    <header>
     <skl><external-file href="file1.prop"/></skl>
    </header>
    <body>
     <trans-unit id="1" resname="id1">
     <source xml:lang="en-US">Texto para traducir 1</source>
     </trans-unit>
     <trans-unit id="2" resname="id2">
     <source xml:lang="en-US">Texto para traducir 2 </source>
     </trans-unit>
     </body>
    </file>


    XML

    XML (eXtensible Markup Language) es una tecnología textual (text-based) relativa a la descripción y estructura de los datos. En el ámbito de los documentos, el ordenador gestiona dos tipos de archivos: binarios y de texto.

    El principal inconveniente en lo que respecta a los archivos binarios es el hecho de que son creados con software propietario (“fuente cerrada”) es decir, que sólo se pueden leer e interpretar desde la aplicación en la que se hayan creado. Por otra parte, el inconveniente de los archivos de texto es la imposibilidad de dar formato al texto: por ejemplo, aplicar negrita o bien introducir un archivo de imagen (informaciones que se suelen denominar metadatos).

    XML es el formato que reúne las ventajas de los formatos binarios y de texto: por una parte, la posibilidad de guardar los contenidos con formato (rich text) y, por otra, es un formato que se puede leer en cualquier aplicación (universalmente intercambiable). Por este motivo se le denomina «lenguaje universal por excelencia».

    El primer intento de crear un lenguaje similar fue el SGML (Standard Generalized Markup Language) en 1960. EL XML no es más que una simplificación de este primer lenguaje.

    Otras ventajas del empleo de XML son:

  • La separación total de contenido y formato.

  • Multiplataforma (puede funcionar en cualquier sistema operativo).

  • Metalenguaje (XML permite crear lenguajes derivados para gestionar un tipo de datos específico).

  • La sintaxis de un archivo XML es bastante sencilla:

    <empleado>
      <nombre>Marisol</nombre>
      <apellido>Collazos</apellido>
    </empleado>

    Uno de los aspectos más interesantes de este lenguaje es la posibilidad de crear lenguajes derivados para gestionar cualquier tipo de dato, como por ejemplo el formato XLIFF, que permite «marcar» todos los elementos que se van a traducir dentro de un documento para después elaborarlo con un editor, de forma que se pueda leer este formato.



    Top