Sobre PaEnS

O corpus paralelo inglés/español, PaEnS, forma parte dun proxecto máis grande, PaCorES,(www.pacores.eu), Parallel Corpora Spanish, cuxo obxetivo é reunir unha serie de corpus paralelos bilingües co español como lingua central. Ata o momento, o proxecto inclúe outros tres corpus en distintos grados de consecución, todos eles libremente disponibles en líña: Corpus PaGes Alemán < > Español, Corpus PaChes Chinese < > Español e Corpus PaFres French < > Español.

PaEnS é un corpus paralelo bilingüe composto por dúas partes principais: o corpus nuclear e os suplementos.

óO corpus nuclear está composto por 120 textos orixinais en inglés e 140 orixinais en español e as súas respectivas traducións. Inclúe obras de ficción: novelas e contos, que representan preto do 80% - así como de non ficción (20,24%) -especialmente de psicoloxía, ensaio e textos de divulgación científica-. As obras seleccionadas non son representada polos textos completos, senón por mostras, o que permite unha mellor transversalidade dos textos. Márcanse as pausas no texto (orixinal e tradución).

Esta parte de PaEnS (vid. abajo) contén máis de 50 millóns de tokens e 1.5 millóns de bisegmentos, é dicir, pares de unidades aliñadas (oracións ou unidades de suboracións).

Para garantir a calidade, verificouse manualmente os textos incluídos a distintos niveis e o aliñamento automático, realizado inicialmente por LF-Aligner, ocasionalmente en combinación con outras ferramentas como youalign ou Gargantua, foi revisado manualmente. Dende 2024 empregamos principalmente Bertalign para o aliñamento, que coa súa tecnoloxía baseada en transformers alcanza unha maior precisión e consistencia.

No que respecta ao etiquetado gramatical (POS tagging), seleccionamos as ferramentas que actualmente ofrecen os resultados máis precisos según o estado da arte: Stanza para o inglés e Freeling para o español. Tras a lematización e o etiquetado levouse a cabo unha revisión semimanual para identificar e correxir errores sistemáticos, e posteriormente as etiquetas resultantes asignáronse ao conxunto de etiquetas Universal POS, que recolle as principais categorías gramaticais. En futuras versións prevése incluir categorías máis detalladas.

Para cada ocorrencia achégase a fonte orixinal, que inclúe información sobre o autor, título, ano de primeira publicación, se é o caso, da edición utilizada e a parte ou capítulo da mesma ao que pertence a ocorrencia. As indicacións bibliográficas completas das obras incluídas en PaEnS figuran aqui.

Os suplementos comprenden un total de máis de 110 millóns de palabras. Se non se especifica o contrario, non se realizou ningunha revisión manual. Os suplementos neste momento inclúen:

Ted-Talks, un corpus que recolle as traducións en castelán e inglés das transcricións de 4043 conversas de Ted entre 2006 e 2020. O aliñamento deses segmentos foi verificado manualmente.
Europarl v7, un corpus que recolle os actos textuais do Parlamento Europeo desde 1996 ata 2011.
Global-Voices un corpus de textos escritos por unha comunidade internacional, multilingüe e en gran parte voluntaria de escritores, tradutores, académicos e activistas de dereitos humanos. Un grupo de voluntarios de Lingua fan que as historias estean dispoñibles en decenas de idiomas.
OpenSubtitles v2018, unha extensa coleción de subtítulos traducidos de películas.

Nun futuro próximo está previsto incorporar novas coleccións de textos bilingües de diversa procedencia.

Agardamos que PaEnS , ser un recurso multifuncional capaz de satisfacer necesidades ben diferenciadas. O noso obxectivo é construír un recurso lingüístico representativo para o inglés e o español que poida ser explotado para múltiples propósitos. Isto inclúe investigacións xerais en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe ou a subministración de datos de formación en sistemas de tradución automática. PaEnS tamén é un recurso moi útil para tradutores e estudantes de inglés ou español como lingua estranxeira de niveis intermedio e avanzado para obter multitude de suxestións de tradución realizadas por humanos e mostradas en exemplos de uso.

A pesar de tódolos esforzos, estamos seguros de que apareceron erros. Por este motivo, agradecemos que se os detectas, por favor, nos avises facendo clic aquí.

Nota:

Se usa PaEnS no seu traballo, por favor cita o artigo de abaixo e notifíqueno a: corpuspaens@usc.es, así contribúes á sostibilidade do proxecto.

Doval, Irene (2023): The English–Spanish parallel corpus PaEnS. Current trends on digital technologies and gaming for language teaching and linguistics, eds. I. Santos Díaz et al. Berlin: Peter Lang. pp.145-164.

Estatísticas PaEnS (Novembro 2023)

PaEnS: Corpus nuclear

LINGUA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS	OBRAS
Inglés Orixinal	13.123.320	11.364.819	0,535	806.226	120
Español Tradución	13.746.700	12.046.344	0,529	806.226	120
Español Orixinal	12.864.001	11.292.490	0,541	703.343	140
Inglés Tradución	13.176.524	11.541.833	0,527	703.343	140
Total	52.910.545	46.245.486	0,531	1.509.569	260

Suplementos 1: Europarl v7

LINGUA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS
Inglés	39.481.818	35.918.308	0,485	1.536.548
Español	41.476.923	37.600.223	0,465	1.536.548
Total	80.958.741	73.518.531	0,475	1.536.548

Suplementos 2: TED-Talks

LINGUA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS
Inglés	8.676.842	7.043.470	0,476	431.095
Español	8.338.726	6.816.425	0,506	431.095
Total	17.015.568	13.859.895	0,491	431.095

Suplementos 3: Global Voices

LINGUA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS
Inglés	15.285.853	12.724.972	0,558	680.530
Español	16.361.642	13.826.084	0,528	680.530
Total	31.647.495	26.551.056	0.543	680.530

Suplementos 4: OpenSubtitles v2018

LINGUA	TOKENS	PALABRAS	MSTTRATIO*	BISEGMENTOS
Inglés	69.377.387	54.446.668	0,516	7.745.559
Español	62.207.848	49.007.151	0,570	7.745.559
Total	131.585.235	103.453.819	0.543	7.745.559

*MSTTR é a TTR (relación Tipo/Token, polas súas siglas en inglés) media para cada segmento non superposto de tamaño igual (neste caso, 1000 tokens).
(Modificado: 19/11/2024, Release v2.0)