معرفی ابزار: Apache Impala

🖌آپاچی ایمپالا (Apache Impala) یک پایگاه داده تحلیلی منبع باز و طراحی شده برای آپاچی هدوپ (Apache Hadoop) است.


✳️ ایمپالا با حفظ تجربه کاربری، عملکرد کوئری SQL را در آپاچی هدوپ بالا می‌برد. با استفاده از این ابزار می‌توانید کوئری‌های مختلف، از جمله SELECT، JOIN و توابع تجمیعی را به صورت بلادرنگ بر روی داده‌هایی که در HDFS یا Apache HBase ذخیره شده‌اند اجرا نمایید. علاوه بر این، ایمپالا با به کارگیری متادیتا، سینتکس SQL (Hive SQL)، درایور ODBC، و واسط کاربری (Hue Beeswax) مشابه آپاچی هایو، یک پلتفرم یکپارچه و آشنا برای کوئری‌های دسته‌ای و بلادرنگ را فراهم می‌نماید. به همین دلیل، کاربران آپاچی هایو می‌توانند به راحتی از ایمپالا استفاده نمایند.
♦️ معماری
برای جلوگیری از تأخیر، ایمپالا، MapReduce را دور می‌زند تا مستقیماً به داده‌ها از طریق یک موتور جستجوی توزیع شده تخصصی دسترسی پیدا کند که بسیار شبیه به موتورهایی است که در RDBMS های موازی تجاری یافت می‌شود. نتیجه، بسته به نوع کوئری و پیکربندی، عملکرد سریعتر نسبت به هایو است.
مزایای زیادی برای این رویکرد نسبت به روش‌های جایگزین برای کوئری بر روی داده‌های هدوپ وجود دارد، از جمله:
🔸به لطف پردازش محلی روی گره‌های داده، از گلوگاه‌های شبکه جلوگیری می‌شود.
🔹می‌توان از یک متادیتای واحد، باز و یکپارچه استفاده کرد.
🔸 تبدیل‌های پرهزینه در فرمت داده غیرضروری است و در نتیجه هزینه چندانی تحمیل نمی‌شود.
🔹به سرعت و بدون تاخیر بابت ETL، می‌توان بر روی تمام داده‌ها کوئری زد.
🔸تمام سخت افزار برای درخواست‌های ایمپالا و همچنین برای MapReduce استفاده می‌شود.
🔹برای افزایش مقیاس فقط به یک ماشین نیاز است.
به طور خلاصه ویژگی‌های ایمپالا عبارتند از:
📍کوئری‌های با سبک هوش کسب و کار بر روی هدوپ: ایمپالا کوئری‌های با تأخیر پایین و همزمان برای هدف هوش کسب و کار و تحلیلگری را بر روی هدوپ میسر می‌سازد (که توسط چارچوب‌های دسته‌ای مانند آپاچی هایو ارائه می‌شود). ایمپالا همچنین به صورت خطی مقیاس پذیر است، حتی در محیط‌های multi-tenant.
📍یکپارچه ساختن زیرساخت: به کارگیری فایل، فرمت داده، متادیتا، چارچوب‌های امنیت و مدیریت منابع مشابه با استقرار هدوپ که عدم نیاز به افزونگی در زیرساخت یا تبدیل داده و داده‌های تکراری را امکان‌پذیر می‌نماید.
📍پیاده‌سازی سریع: برای کاربران آپاچی هایو، ایمپالا همان متادیتا و درایور ODBC را مورد استفاده قرار می‌دهد. مشابه هایو، ایمپالا از SQL پشتیبانی می‌نماید بنابراین سرعت بالای پیاده‌سازی را به همراه خواهد داشت.
📍امنیت در کلاس سازمانی: ایمپالا با امنیت طراحی شده برای هدوپ و پروتکل‌های امنیتی آن یکپارچه شده است و با استفاده از ماژول Sentry می‌توان از تعریف دسترسی کاربران و اپلیکیشن‌ها به داده‌ها اطمینان حاصل نمود.
📍گسترش محدوده کاربری هدوپ: با استفاده از ایمپالا، کاربران بیشتری برای به کارگیری کوئری‌های SQL و یا اپلیکیشن‌های هوش کسب و کار، می‌توانند با داده‌های بیشتری از طریق مخزن داده و متادیتای واحد جهت تحلیل بهره مند شوند.

اسکرول به بالا