دسته بندی:کتاب بخوانیم

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش سیزدهم)

قالب Apache Paraquet که یک شیوه ذخیره‌سازی ستونی است، می‌تواند برای داده‌های تو در تو (nested) بسیار مناسب باشد. قالب‌های ستونی به این دلیل که بازدهی بهتری از نظر اندازه فایل و کارآیی query دارند، جذاب هستند. از آنجایی که داده‌های موجود در یک ستون، قالبا از یک جنس هستند، کدگذاری آنها (Encoding) آسان است. برای مثال اگر یک ستون شامل داده‌های زمانی با فواصل مشخص باشد، صرفا ذخیره‌سازی داده اول و بازه‌ی زمانی بین هر دو سطر، کفایت می‌کند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش دوازدهم)

آورو (AVRO) آورو (AVRO) یک استاندارد به منظور سریال سازی  داده است که توسط doug cotting  داگ کاتینگ (Doug Cotting) و به منظور فائق آمدن بر مشکل portable نبودن Writable های هدوپ در زبان های مختلف ، معرفی شد. با در اختیار داشتن چنین استانداردی در تولید فایل، امکان استفاده از آن داده ها در زبان های مختلف (C, C++, C#, Java, JavaScript, Perl, PHP, Python,  و Ruby) فراهم می­گردد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش نهم)

در این فصل به برخی قابلیت‌های پیشرفته‌تر MapReduce شامل شمارنده‌ها و مرتب‌سازی (sorting) و به هم پیوستن (joining) دیتاست‌ها پرداخته شده است. همچنین توزیع داده‌های جانبی و کلاس‌های کتابخانه MapReduce معرفی شده‌اند که در ادامه به طور خلاصه به هر یک از آنها می‌پردازیم.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش دهم)

این بخش به توضیح چگونگی تنظیم هدوپ روی کلاستر ماشین‌ها می‌پردازد. اجرای فایل‌سیستم توزیع‌یافته هدوپ، نگاشت کاهشی و یارن بر روی یک ماشین برای یادگیری این سیستم‌ها بسیار عالی است اما برای سودمند بودن، لازم است که بر روی نودهای چدگانه اجرا شوند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و دوم)

فناوری اطلاعات در حوزه سلامت عموما به اتوماسیون فرایندهای موجود محدود می‌شود. این گزاره در حال تغییر است. تقاضای بهبود کیفیت خدمات درمانی و مدیریت هزینه‌ها رو به افزایش است و این امر نیاز به سامانه‌هایی را ایجاد می‌کند که بتوانند این اهداف را بهتر برآورده سازند. این فصل از کتاب به نمونه مطالعاتی شرکت سرنر در استفاده از اکوسیستم هدوپ می‌پردازد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و یکم)

تاکنون در این کتاب ، به بررسی پردازش داده در مقیاس بزرگ پرداخته شده است. این فصل متفاوت در مورد ساخت برنامه‌های کاربردی توزیع شده عمومی با استفاده از سرویس هماهنگی توزیع شده Hadoop، به نام ZooKeeper است.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش هشتم)

MapReduce یک مدل ساده از پردازش داده‌ها را دارد: ورودی‌ها و خروجی‌ها برایmap و توابع reduce جفت‌های کلید ارزش هستند. این فصل به تفصیل به مدل MapReduce می‌پردازد و به ویژه به اینکه چگونه داده‌ها در فرمت‌های مختلف از متن ساده تا اشیاء باینری ساختارمند می‌توانند با این مدل استفاده شوند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش ششم)

در این فصل به بررسی جنبه‌های عملی توسعه برنامه‌های MapReduce در هدوپ می‌پردازیم. نوشتن یک برنامه در MapReduce یک الگوی مشخص را دنبال می‌کند. ابتدا با نوشتن تابع Map و Reduce شروع می‌شود و با تست آن‌ها از درستی کارکرد آن‌ها اطمینان حاصل خواهد شد. سپس یک برنامه را برای اجرای یک کار بنویسید که می‌تواند توسط IDE و با استفاده از یک زیرمجموعه کوچک از داده‌ها اجرا شود و در صورت اجرا نشدن، می‌توان از IDE برای اشکال‌زدایی آن استفاده کرد

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیستم)

در این فصل به معرفی ابزار Apache HBase پرداخته می‌شود. HBase یک پایگاه داده توزیع شده ستونی است که بر روی فایل سیستم هدوپ (HDFS) ایجاد شده است و به عنوان اپلیکیشن هدوپ هنگامی که نیازمند دسترسی تصادفی بلادرنگ برای خواندن/نوشتن در مجموعه داده‌های بسیار بزرگ می‌باشیم، مورد استفاده قرار می‌گیرد.

طراحی توسط ب.علی‌میرزایی