بخش هفدهم: روندهای تحقیقاتی آتی تحلیل عظیم داده

در این فصل بر اساس مجموعه مقالات منتشر شده در زمینه تحلیل عظیم داده، عمده روندهای تحقیقاتی این حوزه مورد بررسی قرار می‌گیرند. که در ادامه برخی از این روندها به طور خلاصه آورده شده‌اند.

1) داده‌کاوری

کشف داده‌های پرت، کشف اجتماع، یافتن الگوهای متوالی، خوشه‌بندی شبکه، انتخاب ویژگی، استنتاج علی، پردازش و محاسبات موازی و توزیع شده و مدل‌های پیش‌بینی آینده‌نگر از جمله زیر موضوعات جذاب برای داده‌کاوی در عظیم داده می‌باشند.

2) جریان داده و تجزیه و تحلیل پویا شبکه

با توجه به ویژگی تغییرپذیری عظیم داده در طول زمان تحلیل جریان داده و شبکه به صورت پویا، یکی از موضوعات تحقیقاتی مورد توجه پژوهشگران می‌باشد. همچنین پیچیدگی شبکه‌های ارتباطی در دنیای واقعی، مدلسازی داده محور با درنظر گرفتن متغیر زمان حائز اهمیت می‌باشد. این بخش از تحلیل عظیم داده نیازمند مجموعه از دانش در ریاضیات، فیزیک، آمار، علوم کامپیوتر و علوم اجتماعی می‌باشد.

3) الگوریتم‌های عظیم داده

الگوریتم‌های فعلی موجود برای مدیریت حجم زیاد داده‌ها کارایی مطلوبی ندارند. از اینرو یکی دیگر از موضوعات تحقیقاتی مورد توجه طراحی و پیاده سازی بهینه الگوریتم‌های مختص به تحلیل عظیم داده در مواجه با حجم زیاد می‌باشد.

4) جریان داده پویا

به دلیل اینکه امکان ذخیره‌سازی تمامی داده‌ها در بعد زمان وجود ندارد، جریان داده پویا چالش‌های جدیدی را برای روش‌های تحلیل داده ایجاد می‌کند. بررسی این چالش‌ها می‌تواند یکی دیگر از موضوعات تحقیقاتی آتی عظیم داده باشد.

5) تحلیل شبکه پویا

شبکه‌های پویا یک موضوع نوظهور تحقیق در زمینه گراف کاوی هستند چرا که نودهای این گراف‌ها می‌توانند در طول زمان تغییر کنند که این شبکه پویا نیاز به مدلسازی پیچیده دارد. به عنوان نمونه‌های رایج در این زمینه می‌توان به شبکه‌های بیولوژیکی، شبکه‌های اینترنتی، شبکه‌های ایمیلی، جاده‌ای و سلامت اشاره کرد.

6) کشف داده‌های پرت

تشخیص داده‌های پرت در شبکه‌های در حال تکامل زمان، مورد خاصی از شبکه‌های پویا یک حوزه تمرکز در تحقیقات می‌باشد.

7) چالش‌های پژوهش

تعمیم روش‌های داده‌کاوی به تمام مجموعه انواع داده‌های ساختاریافته و غیرساختاریافته یکی دیگر از موضوعات تحقیقات آتی می‌باشد چرا که با عوض شدن مجموعه داده‌ها عملکرد مدل‌های یادگیری ممکن است تحت تاثیر قرار گیرند که مورد مطلوب نمی‌باشد.

8) شاخص‌های ارزیابی

یکی از موضوعات مهم در ارزیابی عملکرد، کارآیی و سرعت الگوریتم‌های تحلیلی عظیم داده، مقایسه صحیح و درست با استفاده از شاخص‌های مختلف می‌باشد به نحویکه در انتخاب مناسب‌ترین الگوریتم با توجه به شرایط مساله و نوع داده اثربخش باشد.

9) شناسایی تغییرات

شناسایی ناهنجاری‌ها و تغییرات داده‌ای در تحلیل عظیم داده می‌تواند در مسائلی که هدف شناسایی گروه نادری از مجموعه داده‌ها باشد بسیار مورد توجه باشد که بارزترین مثال آن تشخیص تقلب می‌باشد. توسعه الگوریتم‌های بهینه جهت پیش‌بینی با عملکرد بالا موضوع دیگری می‌باشد که مورد توجه پژوهشگران می‌باشد.

10)رخداد کاوی

شناسایی رخدادهای معنادار به عنوان یک زیرگراف از مجموعه توالی مجموعه داده می‌تواند به یکی از کاربردهای نوظهور تحلیل داده محسوب شود که مورد توجه کیس‌های مختلف نیز می‌باشد.

11)خوشه بندی تکاملی

در این خوشه‌بندی اطلاق هر مجموعه داده به خوشه‌های مختلف به صورت مدل‌های احتمالی مطرح می‌شود چرا که با توجه به ناهمگونی موجود در عظیم داده امکان تفکیک دقیق در طول زمان دقت بالایی نخواهد داشت.