ارائه یک روش انتخاب ویژگی برخط مبتنی بر جریان ویژگی بر اساس انتگرال فازی چوکت

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشکده مهندسی کامپیوتر،پردیس فنی و مهندسی،دانشگاه یزد

2 گروه کامپیوتر، دانشکده فنی و مهندسی، دانشگاه لرستان

چکیده

انتخاب ویژگی یک فرایند پیش‌پردازش داده‌ها است که برای مجموعه‌داده‌های با ابعاد بالا قبل از اجرای الگوریتم‌های یادگیری ماشین و داده‌کاوی مورداستفاده قرار می‌گیرد. هدف از انتخاب ویژگی، پیداکردن یک زیرمجموعه‌ی حداقلی و بهینه از مجموعه ویژگی‌ها است. این زیرمجموعه، ویژگی‌های برجسته را شامل می‌شود در حالی که ویژگی‌های غیر‌مرتبط با برچسب کلاس و تکراری در آن قرار نمی‌گیرند. برای انجام این کار، بسیاری از روش‌های انتخاب ویژگی فعلی به کل ویژگی‌ها در ابتدا نیاز دارند و درصورتی‌که ویژگی جدیدی در آینده به مجموعه ویژگی‌ها اضافه شود، الگوریتم باید از ابتدا اجرا شود. به‌دست‌آوردن کل ویژگی‌ها و یا حتی منتظر ماندن برای آن غیر‌ممکن در بسیاری از کاربردهای واقعی ممکن نیست؛ بنابراین برای این‌گونه مسائل که کل فضای ویژگی در ابتدا در اختیار ما قرار ندارد، روش‌های انتخاب ویژگی برخط ارائه شده‌اند. در این مقاله یک روش انتخاب ویژگی برخط با استفاده از مفهوم انتگرال فازی چوکت ارائه شده است. این روش در ابتدا جریان‌های ویژگی را بر اساس چندین معیار فیلتر ارزیابی می‌کند. سپس بر اساس عملگر چوکت نتایج آن‌ها ترکیب و برای حفظ یا نادیده‌گرفتن ویژگی تصمیم‌گیری می‌شود. در گام ارزیابی، عملکرد الگوریتم پیشنهادی با شش روش انتخاب ویژگی برخط و بر اساس دو دسته‌بند مقایسه شده است. روش پیشنهادی بر اساس نتایج به‌دست‌آمده در پنج مجموعه‌داده دنیای واقعی نزدیک دو درصد بهبود نسبت به روش‌های مشابه بر اساس معیارهای دقت دسته‌بندی و امتیاز داشته است. همچنین به دلیل محاسبات ساده در فرایند روش پیشنهادی، ارزیابی ویژگی‌ها در زمان کوتاهی انجام می‌گیرد.

کلیدواژه‌ها


[1] Larbani, M., Chi, H., Gwo, T. (2011) A Novel Method for Fuzzy Measure Identification. International Journal of Fuzzy Systems, 13, 24–34.

[2] Bai, S., Lin, Y., Lv, Y., Chen, J. and Wang, C. (2021) Kernelized fuzzy rough sets based online streaming feature selection for large-scale hierarchical classification. Applied Intelligence, 51, 1602–1615.

[3] CBeliakov, G. and Divakov, D. (2020) On representation of fuzzy measures for learning Choquet and Sugeno integrals. Knowledge-Based Systems, 189, 105134.

[4] Dhal, P. and Azad, C. (2021) A comprehensive survey on feature selection in the various fields of machine learning. Applied Intelligence.
 
[5] Hashemi, A., Dowlatshahi, M.B. and Nezamabadi-Pour, H. (2021) An efficient Pareto-based feature selection algorithm for multi-label classification. Information Sciences, 581, 428–447.

[6] Hashemi, A., Dowlatshahi, M.B. and Nezamabadi-Pour, H. (2021) VMFS: A VIKOR-based multi-target feature selection. Expert Systems with Applications, 115224.

[7] Hashemi, A., Dowlatshahi, M.B. and Nezamabadi-pour, H. (2021) Ensemble of feature selection algorithms: a multi-criteria decision-making approach. International Journal of Machine Learning and Cybernetics, 1–21.

[8] Hashemi, A., Dowlatshahi, M.B. and Nezamabadi-pour, H. (2020) MFS-MCDM: Multi-label feature selection using multi-criteria decision making. KnowledgeBased Systems,206, 106365.

[9] Hashemi, A., Dowlatshahi, M.B. and Nezamabadi-pour, H. (2020) MGFS: A multi-label graph-based feature selection algorithm via PageRank centrality. Expert Systems with Applications, 142, 113024.

[10] Hu, X., Zhou, P., Li, P., Wang, J. and Wu, X. (2018) A survey on online feature selection with streaming features. Frontiers of Computer Science, 12, 479–493.

[11] Jialei Wang, Peilin Zhao, Hoi, S.C.H. and Rong Jin. (2014) Online Feature Selection and Its Applications. IEEE Transactions on Knowledge and Data Engineering, 26, 698–710.
 
[12] Rahmaninia, M. and Moradi, P. (2018) OSFSMI: Online stream feature selection method based on mutual information. Applied Soft Computing, 68, 733–746.

[13] Tiwari, S.R. and Rana, K.K. (2021) Feature Selection in Big Data: Trends and Challenges. Data Science and Intelligent Applications, 52, 83–98.

[14] Yu, K., Wu, X., Ding, W. and Pei, J. (2014) Towards Scalable and Accurate Online Feature Selection for Big Data. IEEE International Conference on Data Mining, 660-669.

[15] Zhou, J., P. Foster, D., A. Stine, R. and H. Ungar, L. (2006) Streamwise feature selection. Journal of Machine Learning Research, 3, 1532–4435.

[16] Zhou, P., Hu, X., Li, P. and Wu, X. (2019) OFS-Density: A novel online streaming feature selection method. Pattern Recognition, 86, 48–61.

[17] Zhou, P., Hu, X., Li, P. and Wu, X. (2017) Online feature selection for highdimensional class-imbalanced data. Knowledge-Based Systems, 136, 187–199.

[18] Zhou, P., Hu, X., Li, P. and Wu, X. (2019) Online streaming feature selection using adapted Neighborhood Rough Set. Information Sciences, 481, 258–279.

[19] Zhou, P., Li, P., Zhao, S. and Wu, X. (2021) Feature Interaction for Streaming Feature Selection. IEEE Transactions on Neural Networks and Learning Systems, 32, 4691–4702.

[20] Zhou, P., Li, P., Zhao, S. and Zhang, Y. (2021) Online early terminated streaming feature selection based on Rough Set theory. Applied Soft Computing, 113, 107993.