en | es | gl
|
Recursos textuais
|
Publicacións
|
Equipo
|
Contacto

Sobre PaEnS


O corpus paralelo inglés/español, PaEnS, forma parte dun proxecto máis grande, PaCorES, Parallel Corpora Spanish, cuxo obxetivo &eecute; reunir unha serie de corpus paralelos bilingüs co español como lingua central. Ata o momento, realizáronse dous corpus: alemán/español (www.corpuspages.eu) e este.

PaEnS &eecute; un corpus paralelo bilingüe composto por dúas partes principais: o corpus nuclear e os suplementos.

O corpus nuclear está composto por textos orixinais en inglés e español e a s&uuacute;as respectivas traducións. Inclúe obras de ficción: novelas e contos, que representan preto do 80% - polo que así como de non ficción -especialmente de psicoloxía, ensaio e textos de divulgación científica-. As obras seleccionadas non o son representada polos textos completos, senón por mostras, o que permite unha mellor transversalidade dos textos. Márcanse as pausas no texto (orixinal e tradución).

Esta parte de PaEnS (vid. abajo) contén preto de 16.000.000 de fichas e 515.490 bisegmentos, é dicir, pares de unidades aliñadas (oracións ou unidades de suboracións).

Para garantir a calidade, os textos incluídos a distintos niveis e o aliñamento automático, realizado por LF-Aligner, foi verificado manualmente. Realizouse a etiquetación de clases de palabras (post tagging) dos textos en inglés con Treetagger o dos textos españoles con Freeling. Despois de realizar unha supervisión manual dos erros sistemáticos, realizouse unha cartografía coas etiquetas universais, que marcan as principais categorías. Espérase que no futuro ofrezan categorías máis precisas.

Para cada ocorrencia achégase a fonte orixinal, que inclúe información sobre o autor, título, ano de primeira publicación, se é o caso, da edición utilizada e a parte ou capítulo da mesma. ao que pertence a ocorrencia. As indicacións bibliográficas completas das obras incluídas en PaEnS enumerados aqui.

Os suplementos comprenden un total de máis de 110 millóns de palabras. Se non se especifica o contrario, non se realizou ningunha revisión manual. Os suplementos neste momento inclúen:

  1. Ted-Talks, corpus que recolle os actos textuales do Parlamento Europeo desde 1996 ata 2011.
  2. Europarl v7, un corpus que recolle as traducións en castelán e inglés das transcricións de 4043 conversas de Ted entre 2006 e 2020. O aliñamento deses segmentos foi verificado manualmente.
  3. Global-Voices un corpus de textos escritos por unha comunidade internacional, multilingüe e en gran parte voluntaria de escritores, tradutores, académicos e activistas de dereitos humanos. Un grupo de voluntarios de Lingua fan que as historias estean dispoñibles en decenas de idiomas.

Nun futuro próximo está previsto incorporar novas coleccións de textos bilingües de diversa procedencia.

Agardamos que PaEnS , ser un recurso multifuncional capaz de satisfacer necesidades ben diferenciadas. O noso obxectivo é construír un recurso lingüístico representativo para o inglés e o español que poida ser explotado para múltiples propósitos. aquí Isto inclúe investigacións xerais en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe ou a subministración de datos de formación en sistemas de tradución automática. PaEnS < /span> tamén é un recurso moi útil para tradutores e estudantes de inglés ou español como lingua estranxeira de niveis intermedio e avanzado para obtén multitude de suxestións de tradución realizadas por humanos e mostradas en exemplos de uso.

A pesar de todos os esforzos, estamos seguros de que apareceron erros. Por este motivo, agradecemos que se os detectas, por favor, nos avises facendo clic aquí.

Nota:

Se usa PaEnS < /span> no seu traballo, indíqueo e notifíqueno a: corpuspaens@usc.es. así Contribúes á sustentabilidade do proxecto.

Estatísticas PaEnS (Decembro 2021)

Corpus nuclear

LINGUA TOKENS PALABRAS RATIO BISEGMENTOS OBRAS
Inglés Orixinal 4.446.050 4.436.921 79,79 279.624 37
Español Tradución 4.521.373 4.512.774 48,28
Español Orixinal 3.755.859 3.754.583 41,66 235.866 38
Inglés Tradución 3.948.366 3.949.193 83,80
Total 16.671.648 16.577.618 63,38 515.490 75

Suplementos: Europarl v7

LINGUA TOKENS PALABRAS RATIO BISEGMENTOS
Inglés 42.178.712 36.485.783 21,11 1.550.421
Español 44.128.158 44.128.158 20,61
Total 86.306.870 74.887.296 20,86 1.550.421

Suplementos: TED-Talks

LINGUA TOKENS PALABRAS RATIO BISEGMENTOS
Inglés 8.676.842 7.043.470 11,95 430.667
Español 8.338.726 6.816.425 10,75
Total 17.015.568 13.859.895 11,35 430.667

Supplements: Global Voices

LINGUA TOKENS PALABRAS RATIO BISEGMENTOS
Inglés 15.285.853 12.724.972 12,21 680.530
Español 16.361.642 13.826.084 14,15
Total 31.647.495 26.551.056 13,18 680.530
                                                              
PaEnS Vers. 2.0
Derradeira actualización : 31.05.2022
Creative Commons Licencia Creative Commons
Universidade de Santiago de Compostela
Este proxecto está financiado pola Axencia Estatal de Investigación do Ministerio de Ciencia, Innovación e Universidades (FFI2017-85938-R) e pola Consellería de Economía e Competitividade da Xunta de Galicia (2017-PG023).