دسته بندی:کتاب بخوانیم

کتاب "تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها" (بخش اول)

فصل اول کتاب تحلیل عظیم داده، سیستم‌ها، الگوریتم‌ها و کاربردها، با معرفی اولیه و اهمیت عظیم داده برای کسب و کارها شروع می‌شود و سپس با بررسی تفاوت‌های ایجاد شده در عظیم داده در مقایسه با داده‌های سنتی، ضرورت به کارگیری از پردازش‌های موازی در قالب اکوسیستم هدوپ را مطرح می‌کند تا با معرفی اجزای سازنده اصلی آن در لایه‌های مختلف؛ اطلاعات کلی در مورد هدوپ را در اختیار خوانندگان قرار دهد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و چهارم)

آبشار (Cascading) یک کتابخانه جاوای منبع باز و API است که یک لایه انتزاعی برای MapReduce فراهم می‌کند. این برنامه‌نویس‌ها را قادر می‌سازد تا برنامه‌های پیچیده و مهم برای پردازش داده‌ها را که روی خوشه‌های Hadoop اجرا می‌شوند، ایجاد کنند. این فصل از کتاب با مقدمه‌ای بر مفاهیم اصلی Cascading آغاز می‌شود، سپس در یک مطالعه موردی با مروری بر نحوه استفاده ShareThis از Cascading در زیرساخت‌های خود به پایان می‌رسد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش سیزدهم)

قالب Apache Paraquet که یک شیوه ذخیره‌سازی ستونی است، می‌تواند برای داده‌های تو در تو (nested) بسیار مناسب باشد. قالب‌های ستونی به این دلیل که بازدهی بهتری از نظر اندازه فایل و کارآیی query دارند، جذاب هستند. از آنجایی که داده‌های موجود در یک ستون، قالبا از یک جنس هستند، کدگذاری آنها (Encoding) آسان است. برای مثال اگر یک ستون شامل داده‌های زمانی با فواصل مشخص باشد، صرفا ذخیره‌سازی داده اول و بازه‌ی زمانی بین هر دو سطر، کفایت می‌کند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و سوم)

این بخش از کتاب به ارائه مطالعه موردی در خصوص به کارگیری علم داده در حوزه علوم زیستی می‌پردازد. پردازش به‌هنگام ژنوم افراد، این اجازه را به پژوهشگران خواهد داد تا مکانیزم‌های ژنتیکی مربوط به بیماری‌ها را درک کرده و این کشف‌ها را به مدل درمانی شخصی‌سازی شده جهت بهبود درمان آن بیماران تبدیل نمایند. ADAM پلتفرمی برای تحلیل ژنوم است که بر روی پردازش چندین پتابایت داده کامل ژنوم با پوشش بالا و سریع متمرکز شده است. این پلتفرم مبتنی بر Apache Avro ،Parquet و Spark است.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش دوازدهم)

آورو (AVRO) آورو (AVRO) یک استاندارد به منظور سریال سازی  داده است که توسط doug cotting  داگ کاتینگ (Doug Cotting) و به منظور فائق آمدن بر مشکل portable نبودن Writable های هدوپ در زبان های مختلف ، معرفی شد. با در اختیار داشتن چنین استانداردی در تولید فایل، امکان استفاده از آن داده ها در زبان های مختلف (C, C++, C#, Java, JavaScript, Perl, PHP, Python,  و Ruby) فراهم می­گردد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش نهم)

در این فصل به برخی قابلیت‌های پیشرفته‌تر MapReduce شامل شمارنده‌ها و مرتب‌سازی (sorting) و به هم پیوستن (joining) دیتاست‌ها پرداخته شده است. همچنین توزیع داده‌های جانبی و کلاس‌های کتابخانه MapReduce معرفی شده‌اند که در ادامه به طور خلاصه به هر یک از آنها می‌پردازیم.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش دهم)

این بخش به توضیح چگونگی تنظیم هدوپ روی کلاستر ماشین‌ها می‌پردازد. اجرای فایل‌سیستم توزیع‌یافته هدوپ، نگاشت کاهشی و یارن بر روی یک ماشین برای یادگیری این سیستم‌ها بسیار عالی است اما برای سودمند بودن، لازم است که بر روی نودهای چدگانه اجرا شوند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و دوم)

فناوری اطلاعات در حوزه سلامت عموما به اتوماسیون فرایندهای موجود محدود می‌شود. این گزاره در حال تغییر است. تقاضای بهبود کیفیت خدمات درمانی و مدیریت هزینه‌ها رو به افزایش است و این امر نیاز به سامانه‌هایی را ایجاد می‌کند که بتوانند این اهداف را بهتر برآورده سازند. این فصل از کتاب به نمونه مطالعاتی شرکت سرنر در استفاده از اکوسیستم هدوپ می‌پردازد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و یکم)

تاکنون در این کتاب ، به بررسی پردازش داده در مقیاس بزرگ پرداخته شده است. این فصل متفاوت در مورد ساخت برنامه‌های کاربردی توزیع شده عمومی با استفاده از سرویس هماهنگی توزیع شده Hadoop، به نام ZooKeeper است.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش هشتم)

MapReduce یک مدل ساده از پردازش داده‌ها را دارد: ورودی‌ها و خروجی‌ها برایmap و توابع reduce جفت‌های کلید ارزش هستند. این فصل به تفصیل به مدل MapReduce می‌پردازد و به ویژه به اینکه چگونه داده‌ها در فرمت‌های مختلف از متن ساده تا اشیاء باینری ساختارمند می‌توانند با این مدل استفاده شوند.

طراحی توسط ب.علی‌میرزایی