en | es | gl
|
Recursos textuales
|
Publicaciones
|
Equipo
|
Contacto

Sobre PaEnS


El corpus paralelo inglés/español, PaEnS, forma parte de un proyecto más amplio, PaCorES, Parallel Corpora Spanish, cuyo objetivo es reunir una serie de corpus paralelos bilingües con el español como lengua central. Hasta el momento, se han realizado tres corpus: alemán/español (www.corpuspages.eu), francés/español (www.corpuspafres.eu) y este.

PaEnS es un corpus paralelo bilingüe compuesto por dos partes principales: el corpus nuclear y los suplementos.

El corpus nuclear está compuesto por 148 textos originales en inglés y español y sus respectivas traducciones. Incluye obras de ficción -novelas y relatos cortos, que suponen alrededor del 80%- así como de no ficción -especialmente psicología, ensayos y textos de divulgación científica-. Las obras seleccionadas no están representadas por los textos completos, sino por muestras, lo que permite una mejor transversalidad de los textos. Los cortes en el texto (original y traducción) están marcados.

Esta parte de PaEnS (vid. abajo) contiene unos 37 millones de tokens y más de un millón de bisegmentos, es decir, pares de unidades alineadas (oraciones o unidades suboracionales).

Para garantizar la calidad se han verificado manualmente los textos incluidos a diferentes niveles y el alineado automático, realizado por LF-Aligner y también por youalign or Gargantua, ha sido revisado manualmente. El etiquetado de clases de palabras (pos tagging) de los textos ingleses se ha realizado con Treetagger el de los textos españoles con Freeling. Tras realizar una supervisión manual de los errores sistemáticos, se hizo un mapping con las etiquetas universales, que marcan las categorías principales. En el futuro se espera que se ofrezcan categorías más precisas.

De cada ocurrencia se facilita la fuente original que incluye información sobre el autor, título, año de la primera publicación, en su caso, de la edición utilizada y la parte o capítulo dentro de la obra a la que pertenece la ocurrencia. Las indicaciones bibliográficas completas de las obras incluidas en PaEnS figuran aqui.

Los suplementos comprenden un total de más de 110 millones de palabras. Si no se especifica lo contrario, no se ha realizado revisión manual alguna. Los suplementos por el momento incluyen:

  1. Ted-Talks, un corpus que recoge las traducciones en español e inglés de las transcripciones de 4043 charlas Ted entre 2006 y 2020. El alineado de esos segmentos ha sido revisado manualmente.
  2. Europarl v7, un corpus que recoge las actas literales del Parlamento europeo de 1996 a 2011.
  3. Global-Voices un corpus de textos escritos por una comunidad internacional, multilingüe y básicamente voluntaria de escritores, traductores, académicos y activistas de derechos humanos. Un grupo de voluntarios de Lingua hace que las historias estén disponibles en docenas de idiomas.

En un futuro próximo se prevé incorporar nuevas colecciones de textos bilingües de origen diverso.

Esperamos que PaEnS, sea un recurso multifuncional capaz de satisfacer necesidades bien diferenciadas. Nuestro objetivo es construir un recurso lingüístico representativo para el inglés y el español que pueda ser explotado para múltiples propósitos. Aquí se incluye la investigación general en lingüística contrastiva, tipología lingüística, estudios de traducción y lexicografía bilingüe o el suministro de datos de entrenamiento a sistemas de traducción automática. PaEnS, es además un recurso muy útil para traductores y estudiantes de inglés o español como lengua extranjera de niveles intermedios y avanzados para obtener una multitud de sugerencias de traducción, realizadas por humanos y mostradas en ejemplos de uso.

A pesar de todos los esfuerzos, estamos seguros de que se han deslizado errores. Por ello, le agradecemos que si los detecta nos lo comunique haciendo clik aquí.

Nota:

Si usas PaEnS en tus trabajos, por favor indícalo y comunícanoslo a: corpuspaens@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estadísticas PaEnS (Noviembre 2023)

PaEnS: Corpus nuclear

LENGUA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS OBRAS
Inglés Original 10.747.688 9.322.434 0,526 631.927 78
Español Traducción 11.276.785 9.899.639 0,534
Español Original 7.267.961 6.381.143 0,539 395.791 70
Inglés Traducción 7.518.400 6.578.254 0,523
Total 36.810.834 32.181.470 0,531 1.027.718 148

Suplementos 1: Europarl v7

LENGUA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Inglés 39.481.818 35.918.308 0,485 1.536.548
Español 41.476.923 37.600.223 0,465
Total 80.958.741 73.518.531 0,475 1.536.548

Suplementos 2: TED-Talks

LENGUA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Inglés 8.676.842 7.043.470 0,476 431.095
Español 8.338.726 6.816.425 0,506
Total 17.015.568 13.859.895 0,491 431.095

Supplements 3: Global Voices

LENGUA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Inglés 15.285.853 12.724.972 0,558 680.530
Español 16.361.642 13.826.084 0,528
Total 31.647.495 26.551.056 0.543 680.530

*MSTTR es la TTR (relación Tipo/Token, por sus siglas en inglés) promedio para cada segmento no superpuesto de igual tamaño (en este caso, 1000 tokens).

                                                    
PaEnS Vers. 1.1
Última actualización: 09.11.2023
ISLRN 778-213-630-221-1
ISSN 2605-5228    ©PaCorES
Creative Commons Licencia Creative Commons
Universidad de Santiago de Compostela
Este proyecto es financiado por la Agencia Estatal de Investigación del Ministerio de Ciencia, Innovación e Universidades (PID2021-125313OB-I00).