Sobre PaEnS

El corpus paralelo inglés/español, PaEnS, forma parte de un proyecto más amplio, PaCorES, Parallel Corpora Spanish, cuyo objetivo es reunir una serie de corpus paralelos bilingües con el español como lengua central. Hasta el momento, se han realizado tres corpus: alemán/español (www.corpuspages.eu), francés/español (www.corpuspafres.eu) y este.

PaEnS es un corpus paralelo bilingüe compuesto por dos partes principales: el corpus nuclear y los suplementos.

El corpus nuclear está compuesto por 148 textos originales en inglés y español y sus respectivas traducciones. Incluye obras de ficción -novelas y relatos cortos, que suponen alrededor del 80%- así como de no ficción -especialmente psicología, ensayos y textos de divulgación científica-. Las obras seleccionadas no están representadas por los textos completos, sino por muestras, lo que permite una mejor transversalidad de los textos. Los cortes en el texto (original y traducción) están marcados.

Esta parte de PaEnS (vid. abajo) contiene unos 37 millones de tokens y más de un millón de bisegmentos, es decir, pares de unidades alineadas (oraciones o unidades suboracionales).

Para garantizar la calidad se han verificado manualmente los textos incluidos a diferentes niveles y el alineado automático, realizado por LF-Aligner y también por youalign or Gargantua, ha sido revisado manualmente. El etiquetado de clases de palabras (pos tagging) de los textos ingleses se ha realizado con Treetagger el de los textos españoles con Freeling. Tras realizar una supervisión manual de los errores sistemáticos, se hizo un mapping con las etiquetas universales, que marcan las categorías principales. En el futuro se espera que se ofrezcan categorías más precisas.

De cada ocurrencia se facilita la fuente original que incluye información sobre el autor, título, año de la primera publicación, en su caso, de la edición utilizada y la parte o capítulo dentro de la obra a la que pertenece la ocurrencia. Las indicaciones bibliográficas completas de las obras incluidas en PaEnS figuran aqui.

Los suplementos comprenden un total de más de 110 millones de palabras. Si no se especifica lo contrario, no se ha realizado revisión manual alguna. Los suplementos por el momento incluyen:

Ted-Talks, un corpus que recoge las traducciones en español e inglés de las transcripciones de 4043 charlas Ted entre 2006 y 2020. El alineado de esos segmentos ha sido revisado manualmente.
Europarl v7, un corpus que recoge las actas literales del Parlamento europeo de 1996 a 2011.
Global-Voices un corpus de textos escritos por una comunidad internacional, multilingüe y básicamente voluntaria de escritores, traductores, académicos y activistas de derechos humanos. Un grupo de voluntarios de Lingua hace que las historias estén disponibles en docenas de idiomas.

En un futuro próximo se prevé incorporar nuevas colecciones de textos bilingües de origen diverso.

Esperamos que PaEnS, sea un recurso multifuncional capaz de satisfacer necesidades bien diferenciadas. Nuestro objetivo es construir un recurso lingüístico representativo para el inglés y el español que pueda ser explotado para múltiples propósitos. Aquí se incluye la investigación general en lingüística contrastiva, tipología lingüística, estudios de traducción y lexicografía bilingüe o el suministro de datos de entrenamiento a sistemas de traducción automática. PaEnS, es además un recurso muy útil para traductores y estudiantes de inglés o español como lengua extranjera de niveles intermedios y avanzados para obtener una multitud de sugerencias de traducción, realizadas por humanos y mostradas en ejemplos de uso.

A pesar de todos los esfuerzos, estamos seguros de que se han deslizado errores. Por ello, le agradecemos que si los detecta nos lo comunique haciendo clik aquí.

Nota:

Si usas PaEnS en tus trabajos, por favor indícalo y comunícanoslo a: corpuspaens@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estadísticas PaEnS (Noviembre 2023)

PaEnS: Corpus nuclear

LENGUA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS	OBRAS
Inglés Original	10.747.688	9.322.434	0,526	631.927	78
Español Traducción	11.276.785	9.899.639	0,534	631.927	78
Español Original	7.267.961	6.381.143	0,539	395.791	70
Inglés Traducción	7.518.400	6.578.254	0,523	395.791	70
Total	36.810.834	32.181.470	0,531	1.027.718	148

Suplementos 1: Europarl v7

LENGUA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS
Inglés	39.481.818	35.918.308	0,485	1.536.548
Español	41.476.923	37.600.223	0,465	1.536.548
Total	80.958.741	73.518.531	0,475	1.536.548

Suplementos 2: TED-Talks

LENGUA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS
Inglés	8.676.842	7.043.470	0,476	431.095
Español	8.338.726	6.816.425	0,506	431.095
Total	17.015.568	13.859.895	0,491	431.095

Supplements 3: Global Voices

LENGUA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS
Inglés	15.285.853	12.724.972	0,558	680.530
Español	16.361.642	13.826.084	0,528	680.530
Total	31.647.495	26.551.056	0.543	680.530

*MSTTR es la TTR (relación Tipo/Token, por sus siglas en inglés) promedio para cada segmento no superpuesto de igual tamaño (en este caso, 1000 tokens).