Rafael Barzanallana.
    Informática, Ciencia, Escepticismo

Prácticas Traducción e Interpretación
D. Herramientas de análisis del corpus

Introducción


Esta práctica tiene por objetivo la utilización de la herramienta de análisis del corpus KWIC (para Windows 7 y posteriores), para Windows XP pulsar aquí. Este programa permite analizar documentos de texto para buscar la frecuencia de aparición de las palabras, las concordancias y las colocaciones presentes en el mismo y obtener un listado con los resultados del análisis.

La práctica consiste en la realización del estudio del corpus de cuatro archivos de texto, escritos en francés o inglés. Estos archivos, que se eligen libremente entre los corpora de escritores famosos franceses se encuentran en la web de CRNTL. Para inglés se puede acceder a los cuatro archivos en formato texto plano, que se enlazan a continuación: Texto 1 Texto 2 Texto 3 Texto 4

Se analizarán los cuatro archivos de texto con KWIC para:

a) Obtener una lista con la frecuencia de aparición de las palabras;

b) Realizar un estudio de concordancia;

c) Observar las colocaciones (collocations) para dos palabras seleccionadas según los criterios de quien realiza la práctica.

Práctica a realizar


Listado de frecuencias de palabras

En este apartado vamos a obtener un listado ordenado de mayor a menor con la frecuencia de aparición de las palabras en cada uno de los cuatro documentos de texto. Para ello, en primer lugar debemos ejecutar el programa KWIC; seleccionar el documento a analizar; y utilizar la opción Descending WordList del menú WordList sobre el documento elegido.

Nota. Para poder analizar un documento debemos agregarlo primero al programa KWIC con el botón Add de la ficha Corpus Files que se encuentra en la opción Corpus Setup del menú File. (El botón Remove lo elimina).

Se pide cumplimentar, para cada uno de los cuatro textos, dos tablas en las que debemos insertar las diez palabras que aparecen con mayor frecuencia en el documento analizado así como su frecuencia de aparición. La primera tabla sin utilizar una StopList, y la segunda tabla utilizando una StopList.

KWIC no permite definir automáticamente una StopList, por tanto, para crearla, debemos elegir manualmente (eliminar) de la primera tabla las palabras que no sean determinantes, como conjunciones y preposiciones.

Estudio de concordancia (concordancers)

En este apartado realizaremos un estudio de concordancia monolingüe del documento para detectar términos que estén formados por más de una palabra. En Kwic podemos buscar las concordancias por la izquierda o por la derecha de cada palabra con las opciones KWIC Sort by Left o KWIC Sort by Rigth del menú Concordance.

En particular, en inglés se han de buscar concordancias a la derecha con la palabra (Keyword) humanitarian en cada uno de los textos (Kwic muestra la palabra clave localizada en el texto destacada en color rojo). Una vez localizadas las concordancias, las insertaremos en una tabla, junto con su frecuencia de aparición. Para el caso de farncés, se ha brá de buscar otra palabra en función del texto selecccionado a partir de CRNTL.

Estudio de colocaciones léxicas (collocations).

En este apartado haremos un estudio de colocaciones léxicas (collocations) para dos palabras dadas (de libre elección). En KWIC podemos localizar las colocaciones mediante la opción Collocation del menú Concordance.

Utilizaremos esta opción para cada documento y anotaremos los resultados obtenidos para cada una de estas palabras en formato de tablas.

Búsqueda escéptica




Apuntes teoría


Apuntes prácticas


Website Translation Widget