ТРЁХЭТАПНЫЙ ПОДХОД ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХ И ЕГО АЛГОРИТМЫ
Main Article Content
Аннотация:
В данной статье рассматриваются основные методы обработки текстовых данных: лемматизация, токенизация и стемминг. Эти методы используются для нормализации и подготовки текста к анализу и машинному обучению. Описаны алгоритмы и подходы к реализации каждого метода, проанализированы их преимущества и недостатки. Результаты исследований приводят к выбору подходящего метода в зависимости от задачи и характеристик обрабатываемого текста
Article Details
Как цитировать:
Библиографические ссылки:
Evgeniy Gabrilovich, Shaul Markovitch. Feature generation for text categorization using world knowledge, 2005.
Rakhmanov Askar, Iskhakova Nargiza, Abduvalieva Zebiniso Word representation in vector space using word2vec model. Eurasian journal of mathematical theory and computer sciences Innovative Academy Research Support Center IF ,7.906.2025 C.54-59.
Raxmanov A.T., Abduvalieva Z.А. Application of the bag of words (BoW) model in natural language processing tasks. “Digital transformation: a new era in information technology, artificial intelligence and the economy” materials of the international scientific-practical conference april 16-17, C.37-41.2025
Rakhmanov Askar, Abduvalieva Zebiniso. Classification of text data. international scientific-electronic journal “pioneering studies and theories”. Vol. 1 No. 4 (2025)
Lafferty J., McCallum A., Pereira F.C.N. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. ICML, 2001
Automatic Lemmatization of Old English Class III Strong Verbs (L-Y) with ALOEV3, JOURNAL OF ENGLISH STUDIES – vol. 20 (2022): 237-266.
Improving Lemmatization of Non-Standard Languages with Joint Learning Enrique Manjavacas1 , Akos K ´ ad´ ar´ 2 , and Mike Kestemont1. pages 1493–1503 Minneapolis, Minnesota, June 2 - June 7, 2019
