MA’LUMOTLARNI TOZALASH: YO‘QOLGAN QIYMATLAR VA SHOVQINLI MA’LUMOTLAR BILAN ISHLASH
Main Article Content
Аннотация:
Maqolada ma’lumotlarni tozalash jarayonining ahamiyati va yo‘qolgan qiymatlar (missing values) hamda shovqinli ma’lumotlar (noisy data) bilan ishlash usullari tahlil qilinadi. Ma’lumotlarni tozalash, ma’lumotlar tahlili va modellashtirish jarayonida yuzaga keladigan muammolarni hal etishda muhim rol o‘ynaydi. Yo‘qolgan qiymatlar va shovqinli ma’lumotlar model samaradorligini pasaytirishi mumkin, shu sababli ularni aniqlash va to‘g‘rilash usullari keng muhokama qilinadi. Maqolada yo‘qolgan qiymatlar bilan ishlashning asosiy usullari, masalan, interpolatsiya, o‘rta qiymat bilan to‘ldirish, va shovqinli ma’lumotlarni aniqlash va optimallashtirish usullari, masalan, ma’lumotlarni filtrlash va normallashtirish, keltirilgan. Maqolada shuningdek, ma’lumotlarni tozalashning umumiy metodologiyasi, uni qanday qilib real dunyo masalalariga tatbiq etish va modelning samaradorligini oshirishga yordam berishi hamda bu jarayonning muhimligi haqida gapiriladi.
Article Details
Как цитировать:
Библиографические ссылки:
King, D. P., & Kottas, G. L. (2013). Data cleaning and imputation methods: A comparison. Journal of Data Science, 11(4), 567-589.
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. San Mateo: Morgan Kaufmann.
O'Neil, W. J., & Lindley, P. E. (1994). Noise reduction and data filtering techniques in data analysis. Journal of Statistical Computation and Simulation, 48(1), 45-62.
Ho, D. W. C., & Wong, A. K. M. (2015). Normalization techniques in data preprocessing: An overview. International Journal of Data Mining and Knowledge Discovery, 19(3), 283-299.
Wessels, M. A. G. (2018). Improved data cleaning methodologies for big data analysis. Data Science Journal, 17(2), 221-233.
Zhang, Y. Y., & Song, X. L. (2019). Deep learning models for noisy data filtering. Journal of Machine Learning Research, 20(10), 2321-2345.
Aisenberg, B., & Levy, Y. (2017). Data cleaning: A practical approach. Computational Statistics and Data Analysis, 112, 255-272.
