Informática Aplicada a la Traducción e Interpretación

Herramientas de análisis del corpus

Departamento Informática y Sistemas

Generalidades

El diccionario

Otras fuentes similares: léxicos, glosarios, vocabularios, tesauros, enciclopedias, e incluso, guías, manuales, atlas...

Generalidades

El diccionario

Generalidades

¿Qué es un diccionario de datos en sistemas de información?

Razones para su utilización:

Generalidades

Traductores de lenguajes de programación

Traductor es un programa que toma como entrada un texto escrito en un lenguaje fuente y da como salida otro texto en un lenguaje objeto

Así surgió el concepto de un traductor, como un programa que traducía un lenguaje a otro lenguaje. En el caso particular de este lenguaje, su función era traducir un lenguaje de alto nivel a su equivalente en lenguaje de bajo nivel o de máquina mediante un proceso de compilación, por lo que por primera vez se empleó el término compilador

Generalidades

Ensambladores

Programas informáticos que traducen un fichero fuente escrito en lenguaje ensamblador, a un fichero objeto que contiene código máquina, ejecutable directamente por el ordenador

Facilitan la programación, escribir en código binario, el único código que entienden las máquinas es muy difícil


Preprocesadores

Traducen un lenguaje de alto nivel a otro, cuando el primero no puede pasar a lenguaje máquina directamente

Generalidades

Intérpretes

Traducen lenguaje de alto nivel a lenguaje máquina

Realizan el proceso instrucción por instrucción

Trabajan con lenguajes de alto nivel

No producen código objeto, la ejecución de un programa requiere forzosamente del código fuente

Se ejecutan con más lentitud que aquellos en lenguaje compilado

Generalidades

Compiladores

Son el tipo de traductores más conocidos

Traducen código fuente escrito en un lenguaje de alto nivel a código máquina

Son más rápidos que los intérpretes

Presentan mayor dificultad a la hora de detectar errores

Generalidades

Diferencias entre compiladores e intérpretes

Un programa compilado puede ejecutarse solo, pues en el proceso de compilación fue transformado en lenguaje máquina

Un intérprete traduce el programa cuando lo lee, convirtiendo el código del programa directamente en acciones

La ventaja del intérprete es que dado cualquier programa se puede interpretar en cualquier plataforma, en cambio el archivo generado por el compilador solo funciona en la plataforma en donde se ha creado

Un archivo compilado puede ser distribuido fácilmente, mientras que un archivo interpretado no funciona sin el intérprete

Un archivo compilado se ejecuta hasta 20 veces más rápido que uno interpretado

Generalidades

La comunicación

Un proceso de comunicación está constituido por un EMISOR

que envía INFORMACIÓN

a través de un CANAL de transmisión

que es recibida por un RECEPTOR


Se puede hablar de comunicación oral, escrita, etc., donde el canal será respectivamente el aire, el papel, etc.

Generalidades

La comunicación

El proceso usa CÓDIGOS comprensibles por el emisor y el receptor

Se comunican mediante SEÑALES físicas

La información se CODIFICA en la transmisión y de DECODIFICA en la recepción

En un proceso de comunicación la información que se envía ha de ser idéntica a la que se recibe. Se usa la redundancia o sistemas de control de paridad

Generalidades

Generalidades

Comunicación en la literatura

Requisitos:

En textos literarios, la experiencia personal no compartida del emisor y el receptor puede ser un obstáculo

En la comunicación en el ámbito literario no se transmiten significados sino que se provocan significados en el destinatario

El significado nunca es objetivo y está condicionado por la adquisición y el uso de un sistema conceptual

Generalidades

Comunicación en la literatura


La experiencia física es personal, pero está mediatizada por conceptos acuñados socialmente, lo que hace posible la comunicación

Los contextos del que emite un mensaje y del que lo percibe no son los mismos

Los constructos mentales constituyen el contexto de un enunciado, se identifican dentro de la línea cognitivista de acercamiento a la comunicación

El éxito de una oferta de información en el emisor dependerá de la información que contenga su mensaje como de la información que evoque en su destinatario, de las experiencias e información compartidas que permitan la contextualización adecuada para desambiguar la información

Generalidades

Comunicación en la literatura


En mensajes muy relacionados con las experiencias personales de los participantes en el acto de la comunicación es muy improbable que se "comunique" de forma plena

En la comunicación en la literatura de carácter autobiográfico, de memorias o personal, se muestran, en grado extremo los ingredientes que hacen peligrar las intenciones comunicativas del emisor

La intención comunicativa del autor puede llegar a sufrir una merma significativa porque el significado que asocia el autor del original a su texto se aparta de los significados que evoca éste en una parte significativa de sus lectores

Generalidades

Comunicación en la literatura


La información más relacionada con la experiencia personal es la que se refiere a personas, a lugares, a momentos

Desambiguar en el texto toda la información que evocan estos elementos en el autor del original de una obra literaria de carácter personal exigiría enormes explicaciones, descripciones e interpretaciones, nunca suficientes, que habrían de resultar enormemente redundantes para los lectores con más experiencia compartida con el autor y probablemente tediosas para los lectores más distantes

La adición de información relacionada con la experiencia para asegurar la interpretación propuesta en la mayoría de los lectores supondría en todo caso una desvirtuación del género original que habría de desviarse inevitablemente de lo literario a una mezcolanza imposible entre lo literario o lo lírico y lo enciclopédico que le haría perder todo su valor

Generalidades

Comunicación en la literatura

Ejemplo real: historia corta de Doris Lesing, titulada «Lions, Leaves, Roses...» (The Story of a Non-Marrying Man and Other Stories, Harmondsworth: Penguin, 1975: 107-12)

Generalidades

Comunicación en la literatura


Los lectores del texto de Doris Lessing no familiarizados con Regent’s Park les va a resultar difícil compartir su experiencia y percibir lo que la autora quiere decir

La lectura del texto por destinatarios de otras culturas puede no tener suficiente sentido como para que éstos aprecien las intenciones de la autora

El traductor se va a enfrentar a una ardua tarea, no solo en su papel de lector sino también en su papel de comunicador que debe intentar que los significados que evoca el texto en el lector de la traducción se acerquen lo más posible a las intenciones de la autora, incluidos los significados más puramente literarios y estéticos

Generalidades

Comunicación en la literatura


Para comprobar el grado en que se cumplen o se dejan de cumplir las hipótesis se ha propuesto el siguiente procedimiento:

Generalidades

Comunicación en la literatura


Regent's Park, plano

Generalidades

Comunicación en la literatura


Regent's Park, plano

Generalidades

Comunicación en la literatura


Después de la primera traducción se dieron a los traductores las siguientes imágenes: Regent's Park

Generalidades

Comunicación en la literatura


Regent's Park, leones

Corpus lingüístico


Conjunto recopilado de textos hablados o escritos cuya finalidad es algún tipo de análisis lingüístico

El término corpus se considera como referido específicamente a una colección extensa de textos en formato electrónico, que han sido reunidos de acuerdo a criterios explícitos:

Corpus lingüístico

La principal ventaja del formato digital es que puede ser manipulado por un ordenador

Corpus lingüístico


Las herramientas de análisis del corpus sirven para ayudar el trabajo del traductor humano

Un corpus no es una colección de textos aleatorios

Muestra representativa de un lenguaje o un subconjunto del lenguaje

Corpus lingüístico

Clasificación

Herramientas de análisis de corpus

Corpus electrónico:

Refinamiento que permite a los traductores aprovechar las ventajas ofrecidas por los medios electrónicos

Características que permiten generar y manipular la frecuencia de palabras, listas, concordancias y colocaciones

Destinados a profesionales de otros idiomas, incluidos los docentes de lengua extranjera y lexicógrafos

Populares entre traductores y terminólogos

Herramientas de análisis de corpus

Listas de frecuencia de palabras


- Permiten descubrir la cantidad de palabras diferentes en un corpus y con qué frecuencia aparece cada una

- Se conocen como tipos y fichas (tokens), respectivamente


Corpus que consiste en la siguiente frase:

"La traducción me gusta mucho, porque creo que la traducción es realmente divertida"

Herramientas de análisis de corpus

Listas de frecuencia de palabras

Lista de frecuencia

la 2
traducción 2
me 1
gusta 1
mucho 1
porque 1
creo 1
que 1
es 1
realmente 1
divertida 1

Herramientas de análisis de corpus

Listas de frecuencia de palabras


Se puede presentar de diferentes maneras

Pueden ser clasificadas con distintos órdenes, incluyendo el de aparición en el corpus, alfabético y de frecuencia, además estas listas se pueden organizar en orden ascendente o descendente

La lista de palabras puede ser dispuesta en al menos seis formas diferentes

Herramientas de análisis de corpus

Listas lematizadas


Una lista de frecuencia puede procesar formas individuales de palabras. Ej.: las palabras "traducir", "traduce" y "traducido" son tratadas como formas separadas

Listas lematizadas agrupan las palabras relacionadas para obtener un recuento de la frecuencia combinada

Lema se utiliza para describir una palabra que engloba y representa a todas las formas conexas


La siguiente tabla contiene un extracto de los tipos más frecuentes (de un total de 29589) de un corpus que contiene 183832 fichas

Herramientas de análisis de corpus

Listas lematizadas

Lista de frecuencia

the 1435
to 800
a 729
and 669
of 633
virus 366
in 357
for 350
is 346
that 323
on 250
it 224
antivirus 209
are 200
viruses 197
be 179
or 178
as 177
with 176
an 152

Herramientas de análisis de corpus

Listas lematizadas


El mismo extracto lematizado, se muestra en la siguiente tabla

the 1435
a 881
a (729)
an (152)
to 800
be 725
is (346)
are (200)
and 669
of 633
virus 563
virus (366)
viruses (197)
in 357
for 350
that 323
on 250
it 224
antivirus 209
or 178
as 177
as 177

Herramientas de análisis de corpus

Listas lematizadas


Homógrafo es una palabra que se escribe igual que otra palabra

Ej.: "test" puede ser un sustantivo (The students wrote the test, los estudiantes realizaron la prueba) o un verbo (The teacher decided to test the students, el maestro decidió poner una prueba a los estudiantes)

Para que el equipo sea capaz de distinguir estas formas diferentes, es necesario disponer de un corpus anotado

Herramientas de análisis de corpus

Listas de parada


Contienen los elementos que el usuario desea que el equipo informático ignore

Más interés en las palabras que tienen un contenido semántico y ​​en las palabras con función gramatical

Se muestra una nueva lista de frecuencia de palabras para el mismo corpus, utilizando una lista de parada para ignorar las palabras con función gramatical

Herramientas de análisis de corpus

Listas de parada

Lista de frecuencia

virus 366
is 346
it 224
antivirus 209
are 200
viruses 197
be 179
network 151
you 148
your 138
can 133
email 126
we 125
have 120
software 115
files 109
not 109
said 102
security 93
products 90

Concordancias


Los diccionarios son útiles para la comprensión


Para ser capaces de determinar cómo se pueden utilizar los términos, es más útil verlos en su contexto


Común a la mayoría de los análisis de corpus es una herramienta de concordancia


Concordancia es una herramienta que recupera las ocurrencias de un patrón de búsqueda en particular en sus contextos inmediatos y los muestra en un formato fácil de leer

Concordancias

Concordancias monolingües

video 2 apariciones
aparición 1: línea 53
aparición 2: línea 724
virus 512 apariciones
aparicición 1: línea 2
aparición 2: línea 7
...
aparición 512: línea 12876
viruses 204 apariciones
aparición 1: línea 12
aparición 2: línea 39
...
aparición 204: línea 978

Concordancias

Concordancias monolingües


Los resultados se muestran para el usuario

El formato más común se conoce como visualización KWIC (palabra clave en el contexto)

Término acuñado por Hans Peter Luhn

Se basa en el concepto "palabra clave en los títulos", se propuso para las bibliotecas de Manchester en 1864 por Andrea Crestadoro

Al igual que con las listas de frecuencia, estos contextos pueden ser ordenados en una variedad de formas

Concordancias

Concordancias monolingües


Permiten patrones de búsqueda:

Concordancias

Concordancias bilingües


Herramienta que puede utilizarse para investigar el contenido de un corpus paralelo

Alineamiento es el proceso mediante el cual las secciones del texto de origen se vinculan con sus correspondientes traducciones

Pueden tener lugar en niveles diferentes: texto, párrafo, oración, frase, subfrase, o palabra

La mayoría de concordancias bilingües alinean los textos ya sea en el nivel de párrafo o de oración

Concordancias

Concordancias bilingües


Alineación durante la generación de concordancias bilingües

La mayoría de los programas separan los procesos de adaptación y generación de concordancia bilingües

Proceso difícil, los textos fuente y destino deben estructura similar si no idéntica

El patrón de búsqueda se puede introducir en cualquier lenguaje A, B, independientemente de cual sea el idioma fuente original

Muchas de las opciones de búsqueda disponibles en concordancias monolingües también están disponibles en concordancias bilingües

Concordancias

Concordancias bilingües

Certains objets contiennent des virus qui peuvent endommager votre ordinateur. II est important de s'assurer que cet objet provient d'une source fiable. Etes-vous sin- que cet objet incorpore provient d'une source fiable? Some objects contain viruses that can be harmful to your computer. It is important to be certain that this object is from a trustworthy source. Do you trust this embedded object?
______________ATTENTION: Les pages Web, les fichiers executables ou autres pieces jointes peuvent contenir des virus ou endommager votre ordinateur d'une autre facon. II est important de s'assurer que ce fichier provient d'une source sare. ______________WARNING: Web pages, executables, and other attachments may contain viruses or scripts that can be harmful to your computer. It is important to be certain that this file is from a trustworthy source.
______________Le formulaire de cet element n'a pas Me enregistre dans ce dossier ni dans la bibliotheque de formulaires de votre societe. Peut-etre preferez-vous ne pas executer les macros car cet element contient des macros susceptibles de contenir virus pouvant endommager votre ordinateur. ______________The form for this item has not been registered in this folder or in your company's forms library. Because this item contains macros, which could contain a virus harmful to your computer, you may not want to run the macros.

Concordancias

Concordancias bilingües

Checking for messages to clean up off the server...
Verification des messages A nettoyer depuis le serveur en cours...
.
Do you want to clean up your personalized settings for this program?
Souhaitez-vous supprimer vos parametres personnalises pour ce programme?
.
Unable to clean your free/busy information on the server
Impossible d'effacer les informations de disponibilité sur le serveur
.
Cleaner for Downloaded Program Files
Nettoyage des fichiers programmes telecharges

Concordancias

Concordancias bilingües


Algunas concordancias bilingües han tratado de implementar características más sofisticadas

Identifican específicamente posibles equivalentes mediante el uso de estadísticas

Ej.: con el término de búsqueda "disk", el gestor de concordancias podrá proponer una lista de candidatos, que incluye los términos franceses "disque", "disquette", y "lecteur"

Una ventaja es que los segmentos texto fuente y destino se pueden ordenar de forma independiente para revelar patrones en ambos idiomas

Colocaciones

Patrones característicos de coocurrencias de las palabras

Palabras que "van de la mano" o se "encuentran en compañía de otra"

Palabras que aparecen juntas con una mayor probabilidad que si fuera debido al azar

El lenguaje no es aleatorio, ciertas palabras tienden a juntarse

Fórmula de información mutua (MI), entre cualquier par de palabras dadas compara la probabilidad de que dos que aparecen juntas como una unidad frente a la probabilidad de que su coocurrencia sea simplemente un resultado del azar

Se asume que las palabras se producen en diferentes eventos totalmente independientes, mientras que la lengua está en realidad llena de dependencias, además se requiere un mínimo de coocurrencias

Colocaciones

3 2 1 1 2 3
Colocaciones de "infected" Pos. izda. nodo Pos. izda. nodo Pos. izda. nodo Pos. dcha. nodo Pos. dcha. nodo Pos. dcha. nodo
file 26 1
attachment 11 3
clean 1 4 7
document 7 3
disk 6 1 1
system 5 2 1 1

Anotaciones y marcas

Proceso del corpus mediante córpora "crudos"

Es posible codificar información adicional en el corpus

Naturaleza lingüística o no lingüística:

- La lingüística se conoce como anotación

- La no lingüística se conoce como marcado de corpus

Anotaciones y marcas

Anotación sintáctica, cada palabra en el corpus tiene su parte asociada de la palabra especificada con las etiquetas

No hay un estándar para las etiquetas


Palabra etiquetada Conjunto de etiquetas
Anotaciones usando etiqueta general Scan<VB> for <PREP> viruses <NN> regularly <ADV>. <PUNC> VB=verbo
PREP=preposición
NN=nombre
ADV= adverbio
PUNC= símbolo puntuación
Anotaciones usando etiquetas más específicas Scan <VBO> FOR <II> viruses <NN2> regularly <RR>; <YSTP> VBO=verbo imperativo
II=preposición general
NN2=nombre plural común
RR=adverbio
YSTP=punto final

Anotaciones y marcas

Se tarda demasiado tiempo en añadirlas manualmente

Existen programas de ordenador denominados taggers que pueden efectuar el proceso automáticamente

Para textos con 14 o más palabras el nivel de exactitud baja a menos del 50 % y el resultado debe ser revisado por un traductor humano


Anotaciones y marcas

Anotación semántica


Distingue entre los distintos significados de una palabra

Homónimas las palabras que muestran el mismo aspecto pero que tienen distinto significado al aparecer en contextos diferentes. Ej.,"banco" hace referencia a:

1) institución financiera

2) Conjunto de peces que van juntos en gran número

Beneficios y desventajas de trabajar con herramientas de análisis del corpus

Frecuencia de datos

Contexto

Disponibilidad y derechos de copia

Preprocesado

Velocidad y recuperación de la información

Conjuntos de caracteres y dificultades relacionadas con el lenguaje

Aspectos económicos

/