پلتفرم داده هورتون ورکس یک توزیع آپاچی هدوپ مبتنی بر معماری متمرکز YARN است که منبع باز، با امنیت بالا و آماده برای سازمان‌ها می‌باشد. HDP در جهت نیازهای مرتبط با داده‌‌های ذخیره شده و همچنین بر اساس توانمندسازی اپلیکیشن‌های بلادرنگ عمل می‌کند و قدرت تحلیلی ارائه شده توسط آن می‌تواند تصمیم‌گیری و نوآوری را شتاب بخشد. این ابزار به سازمانها کمک می‌کند تا از تمامی پتانسیل عظیم‌داده خود استفاده کنند. مزایایی که این پلتفرم ارائه می‌دهد عبارتست از باز و متمرکز بودن، قابلیت تبادل با گستره وسیعی از اپلیکیشن‌های هوشمندی کسب و کار و دیتاسنترها و آماده بودن برای سازمانها. در واقع HDP از چندین پروژه ASF (Apache Software Foundation) تشکیل شده است که سازمان را قادر می‌سازد تا حجم بی‌سابقه‌ای از داده‌های ساختاریافته و بدون ساختار را یکپارچه نموده و با آن کار کند. رویکرد ASF بر تحویل نرم‌افزاری در رده سازمان است که قابلیت نوآوری در آن وجود داشته باشد. همچنین استفاده از معماری YARN منابع را میان اپلیکیشن‌های مختلف که داده را مورد پردازش قرار می‌دهند تخصیص می‌دهد و هماهنگی سرویس‌ها میان خوشه‌ها را در جهت حکمرانی، امنیت و عملیات‌ها میسر می‌سازد. قابلیت همکاری و تبادل با اپلیکیشن‌های BI و دیتاسنترها به حداقل کردن هزینه و تلاش مورد نیاز برای اتصال زیرساخت فناوری اطلاعات با داده‌های HDP و قابلیت‌های پردازشی کمک می‌نماید و این امکان را ایجاد می‌کند که سرمایه‌گذاری انجام شده در معماری فناوری اطلاعات موجود در عین پذیرش هدوپ حفظ شود. این پلتفرم عملیات‌های یکپارچه را با استفاده از مدیریت و پایش متمرکز خوشه‌ها فراهم می‌نماید.

در ادامه به بررسی بخش‌های مختلف HDP پرداخته می‌شود.

مدیریت داده‌ها:

اجزای پایه‌ای HDP عبارتند از آپاچی هدوپ، YARN و HDFS (فایل سیستم توزیع شده هدوپ). HDFS ذخیره‌سازی مقیاس‌پذیر با تحمل خطا (fault tolerant) و مقرون به صرفه‌ را برای عظیم داده فراهم می‌نماید. YARN معماری متمرکز را برای پردازش همزمان چندین workload و همچنین مدیریت منابع و معماری مورد نیاز جهت فعالسازی تنوع وسیعی از روش‌های دسترسی به داده‌ها را ارائه می‌دهد.

دسترسی به داده‌ها:

با استفاده از YARN، HDP گستره وسیعی از موتورهای پردازشی را ارائه می‌دهد که به کاربران اجازه تعامل همزمان با داده‌ها را به چندین شیوه می‌دهد. YARN شیوه‌های دسترسی که می‌توانند در یک خوشه با هم وجود داشته باشند در مقابل مجموعه‌های داده‌های به اشتراک گذاشته شده را فعال می‌سازد و این ویژگی از سیلوهای هزینه‌بر و غیرضروری جلوگیری به عمل می‌آورد. HDP چندین موتور پردازشی داده را فعال می‌سازد که از SQL تا جریان‌های بلادرنگ تا پردازش دسته‌ای (batch) را در برمی‌گیرد.

امنیت و حکمرانی:

Apache Atlas به عنوان بخشی از DGI (Data Governance Initiative) ایجاد گردید که سازمانها را قادر می‌سازد تا طبقه‌بندی یکپارچه داده‌ها را در اکوسیستم داده‌ها اعمال نمایند و Apache Ranger مدیریت متمرکز امنیت را برای هدوپ فراهم می‌کند. با تجمیع Atlas و Ranger، این ابزار شرکت‌ها را قادر می‌سازد تا سیاست‌های دسترسی دینامیک را استقرار بخشند.

امنیت HDP در لایه‌هایی یکپارچه شده و شامل ویژگی‌هایی برای AAA (احراز هویت، مجوز و پاسخگویی) و حفاظت از داده‌ها است. تجمیع امنیت و حکمرانی به متخصصان امنیت اجازه قرار دادن سیاست‌های امنیتی مبتنی بر طبقه‌بندی را می‌دهد. علاوه بر این ابزارهای حکمرانی داده‌، سازمانها را برای اعمال طبقه‌بندی منسجم داده‌ها در اکوسیستم توانمند می‌سازد.

14

عملیات:

عملیات‌های HDP به نحوی طراحی شده است که سازمان‌های فناوری اطلاعت را برای آنلاین کردن سریع هدوپ فعال می‌سازد و فرآیندهای دستی را با فرآیندهای اتوماتیک، تجربیات برتر از پیش پیکربندی شده و کنترل کامل عملیات جایگزین نماید. عملیات‌های HDP به ساده‌سازی عملیات چند کاربر توزیع شده، موتورهای دسترسی multidata و multitenant کمک می‌کند و خوشه‌های HDP را از طریق اینترفیس کاربری وب یکپارچه مدیریت می‌نماید.

HDP از Apache Ambari که یک پلتفرم مدیریتی منبع باز برای مدیریت، پایش و امنیت خوشه‌های هدوپ است استفاده می‌کند. Ambari وظایف دستی و در معرض خطا مرتبط با عملیات هدوپ را حذف مین‌ماید.

گزینه‌های استقرار:

کاربران این انعطاف‌پذیری را در اختیار دارند که گزینه‌های زیرساختی را جهت رسیدن به متناسب‌ترین کاربرد موردنظر خود ترکیب کنند. این گزینه‌ها شامل on premise، cloud و ترکیبی از cloud و cloudbreak است. HDP می‌تواند به صورت cloud به عنوان بخشی از Microsoft Azure HDInsight استقرار یابد. این گزینه استقرار به سازمان قابلیت مقیاس‌پذیری بر روی حجم داده از چندین ترابایت تا چندین پتابایت را بر اساس تقاضا با استفاده از هر تعداد گره در هر زمان می‌دهد. همچنین با استفاده از HDInsight، سازمانها می‌توانند خوشه‌های on-premise هدوپ را به cloud متصل نمایند.

HDP ابزارها و قابلیت‌هایی را برای هر نقش در تیم عظیم‌داده ارائه می‌نماید. از جمله آپاچی اسپارک برای دانشمندان علم داده، آپاچی هایو، Spark SQL و آپاچی فونیکس برای تحلیل‌گران کسب و کار، اسپارک و Apache Zeppelin برای توسعه‌دهندگان اپلیکیشن و در نهایت Ambari برای اپراتورهای هدوپ که قابلیت ارتقای با انعطاف‌پذیری بالاتر، ساده‎‌سازی عملیات امنیتی و عیب‌یابی بهبودیافته را در اختیار آنها قرار می‌دهد.

جدیدترین ورژن HDP (HDP 3.1) قابلیت‌های جدیدی را در راستای استقرار چابک (agile) اپلیکیشن، workloadهای جدید یادگیری ماشینی و یادگیری عمیق، انبارداده بلادرنگ و امنیت و حکمرانی ارائه می‌نماید.