بخش اول: تحلیل­‌های عظیم داده

فصل اول کتاب تحلیل عظیم داده، سیستم­‌ها، الگوریتم­‌ها و کاربردها، با معرفی اولیه و اهمیت عظیم داده برای کسب و کارها شروع می­‌شود و سپس با بررسی تفاوت­‌های ایجاد شده در عظیم داده در مقایسه با داده­‌های سنتی، ضرورت به کارگیری از پردازش­‌های موازی در قالب اکوسیستم هدوپ را مطرح می­‌کند تا با معرفی اجزای سازنده اصلی آن در لایه­‌های مختلف، اطلاعات کلی در مورد هدوپ در اختیار خوانندگان قرار دهد. نهایتا در انتهای این فصل، به کاربرد الگوریتم­‌های داده­‌کاوی در عظیم داده پرداخته می­‌شود.

یکی از مشکلات اصلی برای کسب و کارهای مقیاس‌پذیر اینترنتی، ذخیره‌­سازی و استفاده بهینه از داده­‌های انبوه ایجاد شده می‌­باشد تا نهایتا در تصمیمات سازمان بتوان از آن استفاده کرد. هدوپ به عنوان اولین پلتفرم برای ذخیره­‌سازی و تحلیل عظیم داده­‌ها، محسوب می­‌شود که بر پایه محاسبات موازی و در یاهو با استفاده از جاوا توسعه داده شده است. هدوپ به دلیل توانایی مدیریت کردن حجم انبوهی از داده‌­های ساختاریافته، نیمه ساختاریافته و غیرساختاریافته و ایجاد سیستم‌­های فایل توزیع شده برای ذخیره‌­سازی و تحلیل عظیم داده مورد توجه قرار گرفته است و مزایای زیادی را برای کسب و کارها فراهم می­‌آورد که به طور خلاصه شامل موارد زیر می‌­باشد:

  • ذخیره‌­سازی با فرمت بومی: چارچوب ذخیره­‌سازی داده هدوپ که سیستم فایل توزیع شده نامیده می‌­شود؛ داده‌­ها را به صورت فرمت بومی ذخیره می‌­کند و هیچ ساختار به طور پیش‌­فرض برای ذخیره‌­سازی تحمیل نمی‌­شود.
  • مقیاس‌پذیری: هدوپ می­‌تواند مجموعه داده­‌های بسیار بزرگ با حجم چندین هزار ترابایت یا پتابایت را ذخیره و توزیع کند.
  • مقرون به صرفه بودن: هزینه ذخیره‌­سازی به ازای هر پتابایت در هدوپ در پایین‌­ترین سطح ممکن اتفاق می‌­افتد.
  • مقاومت در برابر خطا: هدوپ با تکرار داده‌ها در سرورها و خوشه‌­های مختلف، امکان دسترسی به داده‌­ها را بدون وقفه در هر زمانی بدون بروز خطا فراهم می‌­آورد.
  • انعطاف پذیری: هدوپ می‌­تواند با تمامی ساختارها کار کند: ساختار یافته، نیمه ساختار یافته و غیر ساختار یافته و این امکان را فراهم می‌­آورد تا به بینش­‌ها و تصمیمات عملی با استفاده از ساختارهای مختلف داده‌ها دست پیدا کرد.
  • کاربرد: هدوپ کاربردهای مختلفی همچون داده­‌کاوی، سیستم­‌های پیشنهاد­ دهنده، تحلیل لاگ­‌ها و کمپین­‌های بازاریابی مبتنی بر داده را فراهم می‌­آورد.
  • پردازش سریع و سرعت بالا: سرعت و پردازش در سیستم هدوپ در مقایسه با سیستم‌­های متداول بسیار بالا می­‌باشد.

اکوسیستم هدوپ شامل 12 بخش و در 4 لایه می­‌باشد که در تصویر زیر نشان داده شده است:

 

1)­ لایه ذخیره­‌سازی داده: این لایه شامل دو بخش سیستم فایل توزیع شده و سیستم مدیریت پایگاه داده می­‌باشد که می­‌تواند داده­‌های ساختار یافته را نیز در جداول بزرگ ذخیره کند.

2)­ لایه پردازش داده: این لایه بر اساس معماری نگاشت کاهش برای مدیریت منابع و کاربردها می‌­باشد.

3)­ لایه دسترسی داده: دسترسی به داده­‌ها به طرق مختلفی در اکوسیستم هدوپ اتفاق می­‌افتد: هایو[1]، همانند زبان Sql  می­‌باشد و پیگ[2] کمک خواهد کرد تا جریان داده‌ها به خوبی قابل فهم باشد و ماهوت[3] به عنوان کتابخانه داده‌­کاوی و یادگیری ماشین مقیاس پذیر به حساب می‌­آید.

4)لایه مدیریت داده: بالاترین لایه مربوط به مدیریت داده می‌­باشد که در این لایه زوکیپر[4]، به عنوان هماهنگ کننده برای کاربردهای توزیع یافته استفاده می‌­شود و چاکوا[5] سیستم جمع‌­آوری داده برای مدیریت سیستم­‌های بزرگ توزیع شده می‌­باشد.

علاوه بر معرفی اکوسیستم هدوپ، در قسمت پایانی فصل اول، به توضیح مختصری از الگوریتم­‌های داده‌­کاوی همانند شبکه­‌های عصبی، درخت تصمیم­‌گیری، ماشین بردار پشتیبان برای استخراج دانش در عظیم داده پرداخت شده است و نکته قابل توجه، استفاده از محاسبات و رو‌‌ش­‌های تکاملی برای رسیدن به تصمیمات بهینه در پلتفرم­‌های عظیم داده می‌باشد.

 

[1] Hive

[2] Pig

[3] mahout

[4] Zookeeper

[5] chukwa