دسته بندی:کتاب بخوانیم

کتاب "تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها" (بخش سوم)

فصل سوم کتاب تحلیل عظیم داده، سیستم‌ها، الگوریتم‌ها و کاربردها، به بررسی دقیق‌ مدل‌های تحلیلی برای جریان‌ داده می‌پردازد و مدل‌های تحلیلی، محاسباتی و برنامه‌نویسی که قابلیت کاربرد در تحلیل عظیم داده را دارد مورد بحث قرار می‌دهد. تحلیل عظیم داده می‌تواند پیچیدگی‌های درون یک مجموعه داده را به هوش تجاری قابل استفاده تبدیل کند و تصمیم‌گیری‌های دقیق‌تری را موجب شود.

عظيم داده، چگونه داده ها، كسب و كارهاي بزرگ را قدرت مي بخشند(بخش دهم)

مهندسی راه‌کار این چنین تعریف می‌شود: “فرایند شناسایی و طبقه‌بندی تواناییهای بالقوه یک سازمان و تبدیل آنها به قابلیت‌های کسب‌و کار و و مولفه‌های پشتیبانی از فناوری تا بتوان با استفاده از آنها از تصمیم‌گیری های درون سازمانی و فعالیت‌های پول ساز داده ها حمایت کرد.”

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش پانزدهم)

آپاچی اسکوپ یک ابزار متن باز است که به کاربران اجازه استخراج داده‌ها از منبع داده ساختاریافته و وارد کردن آن به هدوپ جهت پردازش‌های بیشتر را می‌دهد. این پردازش می‌تواند توسط MapReduce یا ابزارهای سطح بالاتر دیگر نظیر Hive انجام بگیرد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش شانزدهم)

Apache Pig سطح کیفیت پردازش مجموعه عظیم‌داده‌ها را افزایش می دهد. در مورد Pig، ساختار داده‌ها بسیار غنی‌تر است و به طور معمول به صورت چند منظوره و تو در تو قرار دارند و تغییراتی که می‌توانید بر روی داده‌ها اعمال کنید بسیار قدرتمندتر هستند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش دوم)

در فصل دوم کتاب مفهوم MapReduce تشریح می گردد که یک مدل برنامه نویسی ساده بوده و برای حل مسائل محاسباتی در مقیاس وسیع و نیز به صورت توزیعی، مورد استفاده قرار می‌گیرد. MapReduce، به زبان‌های مختلف پیاده‌سازی شده است.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش نوزدهم)

Apache Spark یک چارچوب محاسباتی خوشه‌ای برای پردازش داده در مقیاس بزرگ است. برخلاف بسیاری از چارچوب‌های پردازش دیگر که در این کتاب مورد بحث قرار گرفته است، Spark از MapReduce به عنوان موتور اجرا استفاده نمی‌کند. در عوض، برای اجرای کار روی یک خوشه از زمان اجرای توزیع شده خود استفاده می‌کند. Spark  طوری با Hadoop یکپارچه شده است که می‌تواند YARN را اجرا کند و با فرمت‌های فایل Hadoop و پشتیبان‌های ذخیره‌سازی مانند HDFS کار کند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش اول)

 در بخش اول آن به نام "Data" به مشكلات حجم داده‌هايي كه امروزه با آن مواجه هستيم، اشاره شده است. در اين بخش نويسنده بيان كرده است که "ما در عصر داده‌ها زندگی می‌کنیم. انداز‌ه‌گیری حجم کل داده‌ها که به صورت الکترونیکی ذخیره می‌شود آسان نیست، اما برآورد IDC اندازه "جهان دیجیتال" را در 4/4 zettabytes در سال 2013 به ارمغان می‌آورد و پیش‌بینی ده برابر رشد (44 zettabytes) را تا سال 2020 می‌کند."

طراحی توسط ب.علی‌میرزایی