بخش سوم: مدل‌های تحلیلی برای علم داده

در بخش اول و دوم کتاب، نمای کلی از تجزیه و تحلیل عظیم داده و مفاهیم مرتبط با علم داده، یادگیری ماشین و سیستم‌های هوشمند ارائه شد. در این بخش، کتاب به بررسی دقیق‌ مدل‌های تحلیلی برای جریان‌ داده پرداخته است. تحلیل داده به معنای استفاده از داده خام با هدف استخراج نتایج‌ هدف‌مند و تصمیم‌گیری صحیح است.

تفاوت تحلیل‌ داده به روش مرسوم و تحلیل عظیم داده

مفهوم

تحلیل داده به روش‌های مرسوم

تحلیل عظیم داده

تمرکز

تحلیل توصیفی

تحلیل تشخیصی

تحلیل پیش‌بینی‌کننده

علم داده

نو‌آوری از طریق یادگیری ماشین

مجموعه‌داده

محدود

تنوع کم در نوع داده

ساختاریافته

بزرگ مقیاس

تنوع زیاد در نوع داده

نیمه ساخت‌یافته یا غیرساخت یافته

مدل داده

ساده

پیچیده

معماری داده

متمرکز

توزیع‌شده

شما[1] داده

ثابت و استاتیک

پویا

مدل‌های داده

علم داده

مدل‌‌سازی داده فرایندی است که با هدف درک عمیق از داده و سازمان‌دهی و ذخیره‌سازی آن انجام می‌گیرد. در این فرایند داده در قالب یک فرمت تصویری یا دیاگرام ترسیم می‌شود تا کسب و کار و متخصصین فن‌آوری با کمک آن بتوانند با نحوه استفاده از داده آشنا شوند.

چهار نوع مدل‌سازی داده در علم داده با توجه به نوع تحلیل در جدول زیر معرفی شده‌اند.

تحیل توصیفی

تحلیل تشخیصی

تحلیل پیش‌بینی‌کننده

تحلیل تجویزی

نگاه به گذشته

نگاه به گذشته

نگاه به آینده

نگاه به آینده

بر اساس قوانین

بر اساس احتمال

بر اساس احتمال

بر اساس قوانین

داده‌های برخط که دقیق و جامع هستند و مصورسازی مناسبی بر روی آن انجام شده است

استخراج دلیل اصلی مشکل و از بین بردن اطلاعات گیج کننده

ایجاد الگو بر اساس داده تاریحی به منظور پیش‌بینی نتایج مشخص از طریق الگوریتم‌

به کار گرفتن روش‌های پیچیده تحلیلی به منظور توصیه کردن روش‌های مشخص

 

علم شبکه

در سیستم‌های شبکه‌ای، روش‌های مبتنی بر تئوری گراف برای تحلیل داده به کار گرفته می‎شوند. ترسیم توپولوژی شبکه نیاز به منابع زیاد و صرف هزینه و وقت قابل توجهی دارد. این مشکل با استفاده از روش‌های آماری و تئوری گراف تصادفی قابل حل شدن است.

مدل‌های محاسباتی

کتاب در این قسمت به ساختار داده، مهندسی ویژگی‌ها و الگوریتم‌های محاسباتی عظیم‌داده پرداخته است.

ساختار داده در عظیم‌داده

ساختار داده

مفهوم

Hash Table

(جدول درهم‌سازی)

جدول درهم‌سازی یا جدول هش نوعی ساختمان داده است که مقدارهایی که باید ذخیره شوند را به وسیله تابع هش با کلیدهای ویژه‌ای مرتبط می‌سازد.

Bloom filter

یک ساختار داده احتمالاتی  کارآمد از نظر فضای ذخیره‌سازی است. از این فیلتر می‌توان برای آزمودن عضویت یک عنصر در مجموعه استفاده کرد.

Cardinality-HyperLogLog

یک ساختار داده احتمالاتی  که به منظور شمارش تعداد یکتای یک مشخصه به کار گرفته می‌شود

Tree-based Data Structure

یک ساختار داده به منظورذخیره‌سازی داده‌هایی است که به صورت ذاتی دارای سلسله مراتب هستند.

K-D Trees

یک ساختار داده برای سازماندهی نقاط در فضای kبعدی است در واقع یک تعمیم از درخت دودویی جست و جو می باشد

 

مهندسی ویژگی‌ها[2]

مهندسی ویژگی‌ها زیرمجموعه فرایند پردازش داده است که در آن ویژگی‌های مورد نیاز استخراج و انتخاب می‌شوند. به منظور انجام این مرحله اقدامات زیر صورت می‌گیرد:

  • ساختن ویژگی‌ها: فرایند یافتن ارتباطات شناسایی نشده بین ویژگی‌ها و توسعه فضای ویژگی
  • استخراج ویژگی‌ها: فرایند ایجاد ویژگی‌های جدید با استفاده از ویژگی‌های موجود
  • انتخاب ویژگی‌ها: فرایند انتخاب زیرمجموعه‌ای از کل ویژگی‌های موجود
  • یادگیری ویژگیها: فرایند استفاده از مجموعه روش‌هایی که به صورت خودکار ویژگی‌های یک مجموعه داده را استخراج می‌کند
  • یادگیری جمعی[3]: در این مدل، مساله از طریق آموزش مدل‌های متفاوت حل می‌شود.

الگوریتم‌های محاسباتی

الگوریتم‌های محاسباتی متعددی به منظور تحلیل داده مورد استفاده قرار می‌گیرد. الگوریتم‌هایی نظیر خوشه‌بندی k-means، یادگیری قوانین وابستگی، درخت تصمیم‌گیری، رگرسیون و رگرسیون لجستیک، بیزین و ... مورد استفاده عمومی‎تری قرار می‌گیرند.

 

مدل‌های برنامه‌نویسی

نیازمندی‌های اصلی برای مدل‌های برنامه‌نویسی عظیم‌داده شامل موارد زیر است

  • پشتیبانی از عملیات عظیم داده نظیر بخش‌بندی داده، توزیع و ترکیب آن
  • مدیریت تحمل خطا
  • قابلیت افزایش مقیاس
  • بهینه شده برای نوع داده خاص

برنامه‌نویسی موازی، تابعی و توزیع‌شده مدل‌های برنامه‌نویسی هستند که به منظور تحلیل عظیم داده در کتاب توضیح داده شده‌اند.

 

جمع‌بندی

در این فصل کتاب به مدل‌سازی داده که شامل انتخاب مجموعه داده، متغیر و الگوریتم‌های صحیح است پرداخت و مدل‌های تحلیلی، محاسباتی و برنامه‌نویسی که قابلیت کاربرد در تحلیل عظیم داده را دارد مورد بحث قرار داد.

استفاده از تحلیل عظیم داده می‌تواند پیچیدگی‌های درون یک مجموعه داده را به هوش تجاری قابل استفاده تبدیل کند و تصمیم‌گیری‌های دقیقتری را موجب شود. در فصل بعد به ابزارهای مدیریت عظیم‌داده پراخته می‌شود.

 

[1] Schema

[2] Feature Engineering

[3] Ensemble