en | es | gl
|
Recursos textuais
|
Publicacións
|
Equipo
|
Contacto

Sobre PaEnS


O corpus paralelo inglés/español, PaEnS, forma parte dun proxecto máis grande, PaCorES, Parallel Corpora Spanish, cuxo obxetivo é reunir unha serie de corpus paralelos bilingües co español como lingua central. Ata o momento, realizáronse tres corpus: alemán/español (www.corpuspages.eu), francés/español (https://www.corpuspafres.eu) e este.

PaEnS é un corpus paralelo bilingüe composto por dúas partes principais: o corpus nuclear e os suplementos.

O corpus nuclear está composto por 148 textos orixinais en inglés e español e as súas respectivas traducións. Inclúe obras de ficción: novelas e contos, que representan preto do 80% - así como de non ficción -especialmente de psicoloxía, ensaio e textos de divulgación científica-. As obras seleccionadas non son representada polos textos completos, senón por mostras, o que permite unha mellor transversalidade dos textos. Márcanse as pausas no texto (orixinal e tradución).

Esta parte de PaEnS (vid. abajo) contén preto de 37 millóns de tokens y máis dun millón de bisegmentos, é dicir, pares de unidades aliñadas (oracións ou unidades de suboracións).

Para garantir a calidade, os textos incluídos a distintos niveis e o aliñamento automático, realizado por LF-Aligner, youalign, ou por Gargantua, foi verificado manualmente. Realizouse a etiquetación de clases de palabras (post tagging) dos textos en inglés con Treetagger o dos textos españois con Freeling. Despois de realizar unha supervisión manual dos erros sistemáticos, realizouse unha cartografía coas etiquetas universais, que marcan as principais categorías. Espérase que no futuro ofrezan categorías máis precisas.

Para cada ocorrencia achégase a fonte orixinal, que inclúe información sobre o autor, título, ano de primeira publicación, se é o caso, da edición utilizada e a parte ou capítulo da mesma ao que pertence a ocorrencia. As indicacións bibliográficas completas das obras incluídas en PaEnS figuran aqui.

Os suplementos comprenden un total de máis de 110 millóns de palabras. Se non se especifica o contrario, non se realizou ningunha revisión manual. Os suplementos neste momento inclúen:

  1. Ted-Talks, un corpus que recolle as traducións en castelán e inglés das transcricións de 4043 conversas de Ted entre 2006 e 2020. O aliñamento deses segmentos foi verificado manualmente.
  2. Europarl v7, un corpus que recolle os actos textuais do Parlamento Europeo desde 1996 ata 2011.
  3. Global-Voices un corpus de textos escritos por unha comunidade internacional, multilingüe e en gran parte voluntaria de escritores, tradutores, académicos e activistas de dereitos humanos. Un grupo de voluntarios de Lingua fan que as historias estean dispoñibles en decenas de idiomas.

Nun futuro próximo está previsto incorporar novas coleccións de textos bilingües de diversa procedencia.

Agardamos que PaEnS , ser un recurso multifuncional capaz de satisfacer necesidades ben diferenciadas. O noso obxectivo é construír un recurso lingüístico representativo para o inglés e o español que poida ser explotado para múltiples propósitos. Isto inclúe investigacións xerais en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe ou a subministración de datos de formación en sistemas de tradución automática. PaEnS tamén é un recurso moi útil para tradutores e estudantes de inglés ou español como lingua estranxeira de niveis intermedio e avanzado para obter multitude de suxestións de tradución realizadas por humanos e mostradas en exemplos de uso.

A pesar de tódolos esforzos, estamos seguros de que apareceron erros. Por este motivo, agradecemos que se os detectas, por favor, nos avises facendo clic aquí.

Nota:

Se usa PaEnS no seu traballo, indíqueo e notifíqueno a: corpuspaens@usc.es, así contribúes á sostibilidade do proxecto.

Estatísticas PaEnS (Novembro 2023)

PaEnS: Corpus nuclear

LINGUA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS OBRAS
Inglés Orixinal 10.747.688 9.322.434 0,526 631.927 78
Español Tradución 11.276.785 9.899.639 0,534
Español Orixinal 7.267.961 6.381.143 0,539 395.791 70
Inglés Tradución 7.518.400 6.578.254 0,523
Total 36.810.834 32.181.470 0,531 1.027.718 148

Suplementos 1: Europarl v7

LINGUA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Inglés 39.481.818 35.918.308 0,485 1.536.548
Español 41.476.923 37.600.223 0,465
Total 80.958.741 73.518.531 0,475 1.536.548

Suplementos 2: TED-Talks

LINGUA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Inglés 8.676.842 7.043.470 0,476 431.095
Español 8.338.726 6.816.425 0,506
Total 17.015.568 13.859.895 0,491 431.095

Supplements 3: Global Voices

LINGUA TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Inglés 15.285.853 12.724.972 0,558 680.530
Español 16.361.642 13.826.084 0,528
Total 31.647.495 26.551.056 0.543 680.530

*MSTTR é a TTR (relación Tipo/Token, polas súas siglas en inglés) media para cada segmento non superposto de tamaño igual (neste caso, 1000 tokens).

                                                    
PaEnS Vers. 1.1
Derradeira actualización : 09.11.2023
ISLRN 778-213-630-221-1
ISSN 2605-5228    ©PaCorES
Creative Commons Licencia Creative Commons
Universidade de Santiago de Compostela
Este proxecto está financiado pola Axencia Estatal de Investigación do Ministerio de Ciencia, Innovación e Universidades (PID2021-125313OB-I00).