Europarl Parallel Corpus

Beskrivning

The Europarl parallel corpus is extracted from the proceedings of the European Parliament. It includes versions in 21 European languages: Romanic (French, Italian, Spanish, Portuguese, Romanian), Germanic (English, Dutch, German, Danish, Swedish), Slavik (Bulgarian, Czech, Polish, Slovak, Slovene), Finni-Ugric (Finnish, Hungarian, Estonian), Baltic (Latvian, Lithuanian), and Greek. The goal of the extraction and processing was to generate sentence aligned text for statistical machine translation systems. For this purpose we extracted matching items and labeled them with corresponding document IDs. Using a preprocessor we identified sentence boundaries. We sentence aligned the data using a tool based on the Church and Gale algorithm.

Visa mer

Publiceringsår

2020

Typ av data

Upphovspersoner

University of Edinburgh

Philipp Koehn - Kurator, Upphovsperson

Projekt

Övriga uppgifter

Vetenskapsområden

Språkvetenskaper

Språk

bulgariska, tjeckiska, danska, tyska, Nygrekiska, engelska, estniska, finska, franska, ungerska, italienska, lettiska, litauiska, nederländska, polska, portugisiska, rumänska, slovakiska, slovenska, spanska, svenska

Europarl Parallel Corpus

Beskrivning

Publiceringsår

Typ av data

Upphovspersoner

Projekt

Övriga uppgifter

Vetenskapsområden

Språk

Öppen tillgång

Licens

Nyckelord

Ämnesord

Temporal täckning

Relaterade till denna forskningsdata