METHODOLOGICAL PRINCIPLES FOR AN AUTHOR PARALLEL CORPUS OF PUSHKIN WORKS
DOI:
https://doi.org/10.17605/Keywords:
Author parallel corpus, A. S. Pushkin, translation studies, sentence alignment, TEI P5, Uzbek language, translation universals, corpus linguistics, Eugene Onegin, machine translation.Abstract
The paper sets out the methodological foundations of an author parallel corpus of A. S. Pushkin's works, with Russian as the source pole and Uzbek as the target pole. The source base comprises the academic Pushkin edition, Oybek's 1937/1956 rendering of Eugene Onegin and A. Qahhor's 1939 rendering of The Captain's Daughter. Markup follows the TEI P5 standard, sentence alignment relies on the W. A. Gale and K. W. Church algorithm in its HunAlign implementation, and morphological analysis of the Uzbek texts draws on UzMorphAnalyser. The three translation universals identified by M. Baker (explicitation, simplification, normalisation) are tested on the aligned material. The Russian National Corpus carries no Russian–Uzbek pair in its parallel section, which makes the project a green-field undertaking.
References
1. Бархударов Л. С. Язык и перевод (Вопросы общей и частной теории перевода). – М.: Международные отношения, 1975. – 240 с.
2. Виноградов В. В. (отв. ред.). Словарь языка Пушкина : в 4 т. / Ин-т рус. яз. АН СССР. – М.: Гос. изд-во иностр. и нац. словарей, 1956-1961. – 3232 с.
3. Виноградов В. С. Введение в переводоведение (общие и лексические вопросы). – М.: Изд-во ИОСО РАО, 2001. - 224 с.
4. Гарбовский Н. К. Теория перевода: учебник. – М.: Изд-во МГУ, 2004. – 544 с.
5. Комиссаров В. Н. Теория перевода (лингвистические аспекты): учеб. для ин-тов и фак. иностр. яз. – М.: Высшая школа, 1990. – 253 с.
6. Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы / отв. ред. В. А. Плунгян. – СПб.: Нестор-История, 2009. – 502 с.
7. Плунгян В. А. Зачем мы делаем Национальный корпус русского языка? // Отечественные записки. – 2005. – № 2.
8. Рецкер Я. И. Теория перевода и переводческая практика: Очерки лингвистической теории перевода. – М.: Международные отношения, 1974. – 216 с.
9. Сичинава Д. В. Параллельные тексты в составе Национального корпуса русского языка: новые направления развития и результаты // Труды Института русского языка им. В. В. Виноградова. – 2015. – Вып. 6. – С. 194-235.
10. Фёдоров А. В. Основы общей теории перевода (лингвистические проблемы). – 4-е изд., перераб. и доп. – М.: Высшая школа, 1983. – 303 с.
11. Abdurakhmonova N., Shirinova R., Sayfullayeva R., Mengliev D., Ibragimov B., Ernazarova M. An annotated morphological dataset for Uzbek word forms: towards rule-based and machine learning approaches // Data in Brief. – 2025. – Vol. 61. – Art. 111702.
12. Allaberdiev B., Matlatipov G., Kuriyozov E., Rakhmonov Z. Parallel texts dataset for Uzbek-Kazakh machine translation // Data in Brief. – 2024. – Vol. 53. – Art. 110194.
13. Baker M. Corpus Linguistics and Translation Studies: Implications and Applications // Text and Technology: In Honour of John Sinclair / eds. M. Baker, G. Francis, E. Tognini-Bonelli. – Amsterdam; Philadelphia: John Benjamins, 1993. – P. 233-250.
14. Baker M. Corpora in Translation Studies: An Overview and Some Suggestions for Future Research // Target. – 1995. – Vol. 7, no. 2. – P. 223-243.
15. Gale W. A., Church K. W. A Program for Aligning Sentences in Bilingual Corpora // 29th Annual Meeting of the Association for Computational Linguistics. – Berkeley, CA: ACL, 1991. – P. 177-184.
16. Gale W. A., Church K. W. A Program for Aligning Sentences in Bilingual Corpora // Computational Linguistics. – 1993. – Vol. 19, no. 1. – P. 75-102.
17. Laviosa S. Corpus-based Translation Studies: Theory, Findings, Applications. – Amsterdam; New York: Rodopi, 2002. – 138 p.
18. Olohan M. Introducing Corpora in Translation Studies. – London; New York: Routledge, 2004. – 232 p.
19. Pushkin A. S. Yevgeniy Onegin / tarjimon Oybek. – Toshkent : O'zdavnashr, 1956.
20. Quénu B. From Russian to Uzbek (1928-53): Unequal Cultural Transfers and Institutional Supervision under Stalinist Rule // Translating Russian Literature in the Global Context. – Cambridge: Open Book Publishers, 2024. – Ch. 34. – P. 525-554.
21. Salaev U. UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings // AIP Conference Proceedings. – 2024. — Vol. 3244. – Art. 030058.
22. TEI Consortium (eds.). TEI P5: Guidelines for Electronic Text Encoding and Interchange. Version 4.10.2. – Text Encoding Initiative Consortium, 2025.
23. Zanettin F. Translation-Driven Corpora: Corpus Resources for Descriptive and Applied Translation Studies. – Manchester: St Jerome, 2012. – xiii + 244 p.





