"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش ششم)

در این فصل به بررسی جنبه‌های عملی توسعه برنامه‌های MapReduce در هدوپ می‌پردازیم. نوشتن یک برنامه در MapReduce یک الگوی مشخص را دنبال می‌کند. ابتدا با نوشتن تابع Map و Reduce شروع می‌شود و با تست آن‌ها از درستی کارکرد آن‌ها اطمینان حاصل خواهد شد. سپس یک برنامه را برای اجرای یک کار بنویسید که می‌تواند توسط IDE و با استفاده از یک زیرمجموعه کوچک از داده‌ها اجرا شود و در صورت اجرا نشدن، می‌توان از IDE برای اشکال‌زدایی آن استفاده کرد

کاربرد عظیم داده‌ها در موسیقی: Next Big Sound

در سال  2009 جمعی از فارغ التحصیلان دانشگاه Northwestern آمریکا به هدایت Alex White با جمع آوری داده‌های همه هنرمندان موسیقی در دنیا شروع کردند. آنها از طریق مصورسازی، داده های متنی و ارسال ایمیل‌های دوستانه میخواهند سواد داده‌ای را افزایش داده و اهمیت آن را به هنرمندان نشان دهند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیستم)

در این فصل به معرفی ابزار Apache HBase پرداخته می‌شود. HBase یک پایگاه داده توزیع شده ستونی است که بر روی فایل سیستم هدوپ (HDFS) ایجاد شده است و به عنوان اپلیکیشن هدوپ هنگامی که نیازمند دسترسی تصادفی بلادرنگ برای خواندن/نوشتن در مجموعه داده‌های بسیار بزرگ می‌باشیم، مورد استفاده قرار می‌گیرد.

معرفی ابزار آپاچی هایو (Apache Hive)

آپاچی هایو یک پروژۀ نرم افزاری انبار داده است که بر روی ساختار آپاچی هدوپ ایجاد شده و برای خلاصه سازی داده ها، پرس و جو و تجزیه و تحلیل آنها بکار می رود. هایو یک رابط کاربری شبه SQL دارد که برای پرس و جوی داده های ذخیره شده در پایگاه داده ها وفایل سیستم های مختلف بکار می رود.

معرفی ابزار آپاچی کافکا (Apache Kafka)

آپاچی کافکا(Apache Kafka) در ابتدا توسط لینکدین توسعه یافت و در اوایل سال 2011 بصورت نرم افزار متن باز در آمد. در نوامبر ۲۰۱۴ ، چندین مهندس که در لینکدین بر روی کافکا کار می‌کردند یک شرکت جدید به نام Confluent ایجاد کرده و به صورت انحصاری بر روی توسعه کافکا کار کردند. بر اساس یک پست در سال 2014 به نظر می رسد که جی کربس نام این برنامه را از نام فرانتس کافکا نویسنده آلمانی برداشت کرده است.

طراحی توسط ب.علی‌میرزایی