دسته بندی:کتاب بخوانیم

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش پانزدهم)

آپاچی اسکوپ یک ابزار متن باز است که به کاربران اجازه استخراج داده‌ها از منبع داده ساختاریافته و وارد کردن آن به هدوپ جهت پردازش‌های بیشتر را می‌دهد. این پردازش می‌تواند توسط MapReduce یا ابزارهای سطح بالاتر دیگر نظیر Hive انجام بگیرد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش شانزدهم)

Apache Pig سطح کیفیت پردازش مجموعه عظیم‌داده‌ها را افزایش می دهد. در مورد Pig، ساختار داده‌ها بسیار غنی‌تر است و به طور معمول به صورت چند منظوره و تو در تو قرار دارند و تغییراتی که می‌توانید بر روی داده‌ها اعمال کنید بسیار قدرتمندتر هستند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش دوم)

در فصل دوم کتاب مفهوم MapReduce تشریح می گردد که یک مدل برنامه نویسی ساده بوده و برای حل مسائل محاسباتی در مقیاس وسیع و نیز به صورت توزیعی، مورد استفاده قرار می‌گیرد. MapReduce، به زبان‌های مختلف پیاده‌سازی شده است.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش نوزدهم)

Apache Spark یک چارچوب محاسباتی خوشه‌ای برای پردازش داده در مقیاس بزرگ است. برخلاف بسیاری از چارچوب‌های پردازش دیگر که در این کتاب مورد بحث قرار گرفته است، Spark از MapReduce به عنوان موتور اجرا استفاده نمی‌کند. در عوض، برای اجرای کار روی یک خوشه از زمان اجرای توزیع شده خود استفاده می‌کند. Spark  طوری با Hadoop یکپارچه شده است که می‌تواند YARN را اجرا کند و با فرمت‌های فایل Hadoop و پشتیبان‌های ذخیره‌سازی مانند HDFS کار کند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش اول)

 در بخش اول آن به نام "Data" به مشكلات حجم داده‌هايي كه امروزه با آن مواجه هستيم، اشاره شده است. در اين بخش نويسنده بيان كرده است که "ما در عصر داده‌ها زندگی می‌کنیم. انداز‌ه‌گیری حجم کل داده‌ها که به صورت الکترونیکی ذخیره می‌شود آسان نیست، اما برآورد IDC اندازه "جهان دیجیتال" را در 4/4 zettabytes در سال 2013 به ارمغان می‌آورد و پیش‌بینی ده برابر رشد (44 zettabytes) را تا سال 2020 می‌کند."

طراحی توسط ب.علی‌میرزایی