O corpus paralelo inglés/español, PaEnS, forma parte dun proxecto máis grande, PaCorES, Parallel Corpora Spanish, cuxo obxetivo &eecute; reunir unha serie de corpus paralelos bilingüs co español como lingua central. Ata o momento, realizáronse dous corpus: alemán/español (www.corpuspages.eu) e este.
PaEnS &eecute; un corpus paralelo bilingüe composto por dúas partes principais: o corpus nuclear e os suplementos.
O corpus nuclear está composto por textos orixinais en inglés e español e a s&uuacute;as respectivas traducións. Inclúe obras de ficción: novelas e contos, que representan preto do 80% - polo que así como de non ficción -especialmente de psicoloxía, ensaio e textos de divulgación científica-. As obras seleccionadas non o son representada polos textos completos, senón por mostras, o que permite unha mellor transversalidade dos textos. Márcanse as pausas no texto (orixinal e tradución).
Esta parte de PaEnS (vid. abajo) contén preto de 16.000.000 de fichas e 515.490 bisegmentos, é dicir, pares de unidades aliñadas (oracións ou unidades de suboracións).
Para garantir a calidade, os textos incluídos a distintos niveis e o aliñamento automático, realizado por LF-Aligner, foi verificado manualmente. Realizouse a etiquetación de clases de palabras (post tagging) dos textos en inglés con Treetagger o dos textos españoles con Freeling. Despois de realizar unha supervisión manual dos erros sistemáticos, realizouse unha cartografía coas etiquetas universais, que marcan as principais categorías. Espérase que no futuro ofrezan categorías máis precisas.
Para cada ocorrencia achégase a fonte orixinal, que inclúe información sobre o autor, título, ano de primeira publicación, se é o caso, da edición utilizada e a parte ou capítulo da mesma. ao que pertence a ocorrencia. As indicacións bibliográficas completas das obras incluídas en PaEnS enumerados aqui.
Os suplementos comprenden un total de máis de 110 millóns de palabras. Se non se especifica o contrario, non se realizou ningunha revisión manual. Os suplementos neste momento inclúen:
Nun futuro próximo está previsto incorporar novas coleccións de textos bilingües de diversa procedencia.
Agardamos que PaEnS , ser un recurso multifuncional capaz de satisfacer necesidades ben diferenciadas. O noso obxectivo é construír un recurso lingüístico representativo para o inglés e o español que poida ser explotado para múltiples propósitos. aquí Isto inclúe investigacións xerais en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe ou a subministración de datos de formación en sistemas de tradución automática. PaEnS < /span> tamén é un recurso moi útil para tradutores e estudantes de inglés ou español como lingua estranxeira de niveis intermedio e avanzado para obtén multitude de suxestións de tradución realizadas por humanos e mostradas en exemplos de uso.
A pesar de todos os esforzos, estamos seguros de que apareceron erros. Por este motivo, agradecemos que se os detectas, por favor, nos avises facendo clic aquí.
Nota:
Se usa PaEnS < /span> no seu traballo, indíqueo e notifíqueno a: corpuspaens@usc.es. así Contribúes á sustentabilidade do proxecto.
Estatísticas PaEnS (Decembro 2021)
Corpus nuclear
LINGUA | TOKENS | PALABRAS | RATIO | BISEGMENTOS | OBRAS |
Inglés Orixinal | 4.446.050 | 4.436.921 | 79,79 | 279.624 | 37 |
Español Tradución | 4.521.373 | 4.512.774 | 48,28 | ||
Español Orixinal | 3.755.859 | 3.754.583 | 41,66 | 235.866 | 38 |
Inglés Tradución | 3.948.366 | 3.949.193 | 83,80 | ||
Total | 16.671.648 | 16.577.618 | 63,38 | 515.490 | 75 |
Suplementos: Europarl v7
LINGUA | TOKENS | PALABRAS | RATIO | BISEGMENTOS |
Inglés | 42.178.712 | 36.485.783 | 21,11 | 1.550.421 |
Español | 44.128.158 | 44.128.158 | 20,61 | |
Total | 86.306.870 | 74.887.296 | 20,86 | 1.550.421 |
Suplementos: TED-Talks
LINGUA | TOKENS | PALABRAS | RATIO | BISEGMENTOS |
Inglés | 8.676.842 | 7.043.470 | 11,95 | 430.667 |
Español | 8.338.726 | 6.816.425 | 10,75 | |
Total | 17.015.568 | 13.859.895 | 11,35 | 430.667 |
Supplements: Global Voices
LINGUA | TOKENS | PALABRAS | RATIO | BISEGMENTOS |
Inglés | 15.285.853 | 12.724.972 | 12,21 | 680.530 |
Español | 16.361.642 | 13.826.084 | 14,15 | |
Total | 31.647.495 | 26.551.056 | 13,18 | 680.530 |