ПРОЦЕСС ОБРАБОТКИ УЗБЕКСКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА В УСЛОВИЯХ НЕДОСТАТОЧНОСТИ ДАННЫХ

Authors

  • Сухроб Авезов Бухарский государственный университет Author
  • Альфия Юсупова КФУ / Институт филологии и межкультурной коммуникации Author

Keywords:

Параллельные корпуса, системы машинного перевода, морфология языка, методы выравнивания, методы фильтрации, неконтролируемый метод выравнивания, NLP (обработка естественного языка).

Abstract

Параллельные корпуса являются необходимым компонентом для разработки качественных систем машинного перевода, однако сбор соответствующих данных представляет собой сложную задачу. Когда богатая морфология языка увеличивает разреженность данных, необходимо иметь точные методы выравнивания и фильтрации, которые позволят эффективно использовать имеющуюся информацию, максимально увеличивая количество корректно переведенных сегментов в корпусе и минимизируя наличие шума, путем удаления неправильных переводов и сегментов, содержащих посторонние данные. В данной статье описывается план исследования по улучшению методов выравнивания и фильтрации параллельных текстов в условиях ограниченных ресурсов. Предлагается эффективный неконтролируемый метод выравнивания, способный решить проблему выравнивания, а также стратегия дополнения современных моделей автоматически извлекаемой информацией, с использованием основных инструментов NLP для эффективной обработки богатой морфологии языков.

References

Sobirovich A. S. Development of a Parallel Corpus of the Uzbek and Russian Languages //Vital Annex: International Journal of Novel Research in Advanced Sciences. – 2022. – Т. 1. – №. 5. – С. 152-155.

Авезов С. О корпусной лингвистике, трудностях перевода и принципах организации параллельных корпусов текстов //«УЗБЕКСКИЕ НАЦИОНАЛЬНЫЕ ОБРАЗОВАТЕЛЬНЫЕ ЗДАНИЯ ТЕОРЕТИЧЕСКОЕ И ПРАКТИЧЕСКОЕ СОЗДАНИЕ ВОПРОСЫ" Международная научно-практическая конференция. – 2022. – Т. 1. – №. 1.

Khamidovna N. L. Expression of the Harmony of Language and Culture in World and Uzbek Lexicography //resmilitaris. – 2023. – Т. 13. – №. 1. – С. 233-244.

Нигматова Л. Х. Некоторые проблемы узбекской лексикографии и разработки словаря //Ташкент Журнал Вопросы филологии. – 2020.

Sharipov S. ТАРЖИМАВИЙ ЛЕКСИКОГРАФИЯНИНГ ТАРИХИЙ ВА ХРОНОЛОГИК ХУСУСИЯТЛАРИ //ЦЕНТР НАУЧНЫХ ПУБЛИКАЦИЙ (buxdu. uz). – 2022. – Т. 15. – №. 15.

Published

2023-03-09

How to Cite

ПРОЦЕСС ОБРАБОТКИ УЗБЕКСКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА В УСЛОВИЯХ НЕДОСТАТОЧНОСТИ ДАННЫХ. (2023). Eurasian Journal of Social Sciences, Philosophy and Culture, 3(3), 49-58. https://in-academy.uz/index.php/EJSSPC/article/view/7579