en | es | gl
|
Recursos textuales
|
Publicaciones
|
Equipo
|
Contacto

Sobre PaEnS


El corpus paralelo inglés/español, PaEnS, forma parte de un proyecto más amplio, PaCorES, Parallel Corpora Spanish, cuyo objetivo es reunir una serie de corpus paralelos bilingüs con el español como lengua central. Hasta el momento, se han realizado dos corpus: alemán/español (www.corpuspages.eu) y este.

PaEnS es un corpus paralelo bilingüe compuesto por dos partes principales: el corpus nuclear y los suplementos.

El corpus nuclear está compuesto por textos originales en inglés y español y sus respectivas traducciones. Incluye obras de ficción -novelas y relatos cortos, que suponen alrededor del 80%- así como de no ficción -especialmente psicología, ensayos y textos de divulgación científica-. Las obras seleccionadas no están representadas por los textos completos, sino por muestras, lo que permite una mejor transversalidad de los textos. Los cortes en el texto (original y traducción) están marcados.

Esta parte de PaEnS (vid. abajo) contiene unos 16.000.000 tokens y 515.490 bisegmentos, es decir, pares de unidades alineadas (oraciones o unidades suboracionales).

Para garantizar la calidad se han verificado manualmente los textos incluidos a diferentes niveles y el alineado automático, realizado por LF-Aligner, ha sido revisado manualmente. El etiquetado de clases de palabras (pos tagging) de los textos ingleses se ha realizado con Treetagger el de los textos españoles con Freeling. Tras realizar una supervisión manual de los errores sistemáticos, se hizo un mapping con las etiquetas universales, que marcan las categorías principales. En el futuro se espera que se ofrezcan categorías más precisas.

De cada ocurrencia se facilita la fuente original que incluye información sobre el autor, título, año de la primera publicación, en su caso, de la edición utilizada y la parte o capítulo dentro de la obra a la que pertenece la ocurrencia. Las indicaciones bibliográficas completas de las obras incluidas en PaEnS figuran aqui.

Los suplementos comprenden un total de más de 110 millones de palabras. Si no se especifica lo contrario, no se ha realizado revisión manual alguna. Los suplementos por el momento incluyen:

  1. Ted-Talks, corpus que recoge las actas literales del Parlamento europeo de 1996 a 2011.
  2. Europarl v7, un corpus que recoge las traducciones en español y inglés de las transcripciones de 4043 charlas Ted entre 2006 y 2020. El alineado de esos segmentos ha sido revisado manualmente.
  3. Global-Voices un corpus de textos escritos por una comunidad internacional, multilingüe y básicamente voluntaria de escritores, traductores, académicos y activistas de derechos humanos. Un grupo de voluntarios de Lingua hace que las historias estén disponibles en docenas de idiomas.

En un futuro próximo se prevé incorporar nuevas colecciones de textos bilingües de origen diverso.

Esperamos que PaEnS, sea un recurso multifuncional capaz de satisfacer necesidades bien diferenciadas. Nuestro objetivo es construir un recurso lingüístico representativo para el inglés y el español que pueda ser explotado para múltiples propósitos. Aquí se incluye la investigación general en lingüística contrastiva, tipología lingüística, estudios de traducción y lexicografía bilingüe o el suministro de datos de entrenamiento a sistemas de traducción automática. PaEnS, es además un recurso muy útil para traductores y estudiantes de inglés o español como lengua extranjera de niveles intermedios y avanzados para obtener una multitud de sugerencias de traducción, realizadas por humanos y mostradas en ejemplos de uso.

A pesar de todos los esfuerzos, estamos seguros de que se han deslizado errores. Por ello, le agradecemos que si los detecta nos lo comunique haciendo clik aquí.

Nota:

Si usas PaEnS en tus trabajos, por favor indícalo y comunícanoslo a: corpuspaens@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estadísticas PaEnS (Diciembre 2021)

Corpus nuclear

LENGUA TOKENS PALABRAS RATIO BISEGMENTOS OBRAS
Inglés Original 4.446.050 4.436.921 79,79 279.624 37
Español Traducción 4.521.373 4.512.774 48,28
Español Original 3.755.859 3.754.583 41,66 235.866 38
Inglés Traducción 3.948.366 3.949.193 83,80
Total 16.671.648 16.577.618 63,38 515.490 75

Suplementos: Europarl v7

LENGUA TOKENS PALABRAS RATIO BISEGMENTOS
Inglés 42.178.712 36.485.783 21,11 1.550.421
Español 44.128.158 44.128.158 20,61
Total 86.306.870 74.887.296 20,86 1.550.421

Suplementos: TED-Talks

LENGUA TOKENS PALABRAS RATIO BISEGMENTOS
Inglés 8.676.842 7.043.470 11,95 430.667
Español 8.338.726 6.816.425 10,75
Total 17.015.568 13.859.895 11,35 430.667

Supplements: Global Voices

LENGUA TOKENS PALABRAS RATIO BISEGMENTOS
Inglés 15.285.853 12.724.972 12,21 680.530
Español 16.361.642 13.826.084 14,15
Total 31.647.495 26.551.056 13,18 680.530
                                                              
PaEnS Vers. 2.0
Última actualización: 31.05.2022
Creative Commons Licencia Creative Commons
Universidad de Santiago de Compostela
Este proyecto es financiado por la Agencia Estatal de Investigación del Ministerio de Ciencia, Innovación e Universidades (FFI2017-85938-R) y por la Consellería de Economía y Competitividad de la Xunta de Galicia (2017-PG023).