نام مقاله: تحلیل تکنیک‌های کاهش ابعاد در عظیم‌داده‌ها

Analysis of Dimensionality Reduction Techniques on Big Data

ژورنال: IEEE Access

 

نویسندگان: G. THIPPA REDDY, M. PRAVEEN KUMAR REDDY, KURUVA LAKSHMANNA, RAJESH KALURI, DHARMENDRA SINGH RAJPUT, GAUTAM SRIVASTAVA (Senior Member, IEEE), AND THAR BAKER.

سال انتشار: 2020

یکی از نتایج ورود به عصر دیجیتال، تولید حجم انبوهی از داده‌ها است. داده‌هایی که هم در تعداد رکورد و هم در تعداد ویژگی‌ها ارقام بالایی را به خود اختصاص داده‌اند. این موضوع باعث بروز چالش‌هایی در علم داده شده است. وجود چندین بعد برای مجموعه عظیم‌داده‌ها(بیگ دیتا)، کار تجزیه‌وتحلیل آن‌ها یا کشف هر گونه الگویی در داده‌ها را بسیار سخت می‌کند. از طرف دیگر، برخی از ویژگی‌ها از درجه اهمیت پایینی برخوردار هستند و کمک چندانی به فرایند یادگیری الگوریتم‌های پیش‌بینی نخواهند کرد. بنابراین، رویکرد کاهش ابعاد برای حل این مساله ایجاد شده است. کاهش ابعاد، یک فرایند بسیار مهم در مرحله پیش‌پردازش داده‌ها محسوب می شود. در این فرایند شما با ترکیب یا ادغام، ویژگی‌های داده‌ها را به گونه‌ای کاهش می‌دهید که ویژگی‌های قابل‌توجه مجموعه داده اصلی از بین نروند.

در این مقاله، به مقایسه دو روش مطرح در زمینه کاهش ابعاد ( PCA و LDA ) بر روی چهار الگوریتم یادگیری ماشین (درخت تصمیم، ماشین بردار پشتیبان، نایو بیز و جنگل تصادفی) پرداخته شده است. با اعمال روش (PCA)، 95درصد از ویژگی‌ها حفظ شدند و تعداد متغیرهای وابسته به ۲۶ کاهش یافت. در حالی که در روش LDA متغیرهای وابسته را به 1 کاهش می‌دهد. نتایج آزمایش ثابت می‌کند که PCA از LDA عملکرد بهتری داشته است. همچنین عملکرد دو روش طبقه‌بندی درخت تصمیم و جنگل تصادفی با اعمال کاهش ابعاد (PCA و LDA) تفاوت قابل توجهی نداشتند و حتی بدون استفاده از رویکرد کاهش ابعاد، عملکرد بهتری را ارایه کردند.

 

دریافت فایل