ПРОЦЕСС ОБРАБОТКИ УЗБЕКСКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА В УСЛОВИЯХ НЕДОСТАТОЧНОСТИ ДАННЫХ
Keywords:
Параллельные корпуса, системы машинного перевода, морфология языка, методы выравнивания, методы фильтрации, неконтролируемый метод выравнивания, NLP (обработка естественного языка).Abstract
Параллельные корпуса являются необходимым компонентом для разработки качественных систем машинного перевода, однако сбор соответствующих данных представляет собой сложную задачу. Когда богатая морфология языка увеличивает разреженность данных, необходимо иметь точные методы выравнивания и фильтрации, которые позволят эффективно использовать имеющуюся информацию, максимально увеличивая количество корректно переведенных сегментов в корпусе и минимизируя наличие шума, путем удаления неправильных переводов и сегментов, содержащих посторонние данные. В данной статье описывается план исследования по улучшению методов выравнивания и фильтрации параллельных текстов в условиях ограниченных ресурсов. Предлагается эффективный неконтролируемый метод выравнивания, способный решить проблему выравнивания, а также стратегия дополнения современных моделей автоматически извлекаемой информацией, с использованием основных инструментов NLP для эффективной обработки богатой морфологии языков.
References
Sobirovich A. S. Development of a Parallel Corpus of the Uzbek and Russian Languages //Vital Annex: International Journal of Novel Research in Advanced Sciences. – 2022. – Т. 1. – №. 5. – С. 152-155.
Авезов С. О корпусной лингвистике, трудностях перевода и принципах организации параллельных корпусов текстов //«УЗБЕКСКИЕ НАЦИОНАЛЬНЫЕ ОБРАЗОВАТЕЛЬНЫЕ ЗДАНИЯ ТЕОРЕТИЧЕСКОЕ И ПРАКТИЧЕСКОЕ СОЗДАНИЕ ВОПРОСЫ" Международная научно-практическая конференция. – 2022. – Т. 1. – №. 1.
Khamidovna N. L. Expression of the Harmony of Language and Culture in World and Uzbek Lexicography //resmilitaris. – 2023. – Т. 13. – №. 1. – С. 233-244.
Нигматова Л. Х. Некоторые проблемы узбекской лексикографии и разработки словаря //Ташкент Журнал Вопросы филологии. – 2020.
Sharipov S. ТАРЖИМАВИЙ ЛЕКСИКОГРАФИЯНИНГ ТАРИХИЙ ВА ХРОНОЛОГИК ХУСУСИЯТЛАРИ //ЦЕНТР НАУЧНЫХ ПУБЛИКАЦИЙ (buxdu. uz). – 2022. – Т. 15. – №. 15.
