فصل چهاردهم این کتاب به معرفی ابزار Apache Flume می‌پردازد.

هدوپ برای پردازش مجموعه داده‌های بسیار بزرگ ساخته شده است. اغلب اینگونه فرض می‌شود که داده‌ها از قبل در HDFS هستند یا می‌توانند به صورت عمده در آنجا کپی شوند. در حالی که بسیاری از سیستم‌ها  هستند که این فرض را رعایت نمی‌کنند و جریان‌هایی از داده‌ها را تولید می‌کنند که ما می‌خواهیم آنها را با استفاده از هدوپ  جمع‌آوری، ذخیره و تجزیه و تحلیل نماییم و Apache Flume مناسب اینگونه از سیستم‌ها است.

ثبت داده و دریافت داده‌های جریانی و مدیریت آن‌ها، از مهم‌ترین بخش‌های اکثریت پروژه‌های عظیم‌داده بوده و در حقیقت Flume سرویسی است که به دریافت داده‌های بدون ساختار و نیمه ساخت‌یافته در HDFS کمک می‌کند.

می توان ادعا نمود که  Flume راه‌حلی قابل اعتماد و توزیع شده برای جمع‌آوری، انباشت و انتقال مجموعه عظیم‌داده‌ است و می‌توان از این ابزار در دریافت داده‌های آنلاینِ جاری از منابع مختلف، مانند ترافیک شبکه، رسانه‌های اجتماعی، پیام‌های ایمیل، فایل‌های رخداد در سیستم و غیره و ذخیره‌سازی آن به روی HDFS، استفاده نمود.

نسخه پایدار توزیع باینری Flume را از لینک زیر دانلود نمایید:

http://flume.apache.org/download.html

 برای درک بهتر شکل زیر معماری این ابزار را نشان می‌دهد:

این نمودار یک عامل Flume است که داده‌های جاری را از منابع مختلف داده دریافت و در HDFS ذخیره می‌کند. در این نمودار، سرور وب، منبع داده را نشان می‌دهد. توییتر یکی از مشهورترین منابع داده‌های جریانی است.

عامل Flume از سه جزء تشکیل شده است:

  • Source  :داده‌های ورودی را از یک جریان داده ورودی پذیرش می‌کند و در Channel ذخیره می‌کند.
  • Channel : مانند ذخیره‌سازی محلی یا ذخیره‌سازی اولیه عمل نموده و ذخیره‌سازیِ موقتی بین داده‌های منبع و داده‌های پایدار در HDFS می­باشد.
  • Sink : آخرین جزء بوده که داده‌ها را از Channel جمع‌آوری و دائماً آن‌ها را در HDFS می‌نویسد.

در فصل 14 تعدادی از اجزای Flume استفاده شده است. Flume با بسیاری موارد دیگر همراه است که به طور خلاصه در جدول زیر آورده شده و برای کسب اطلاعات بیشتر در مورد نحوه پیکربندی و استفاده از آنها به راهنمای کاربر Flume مراجعه نمایید.