در این فصل به بررسی ابزار آپاچی هایو (Apache Hive) پرداخته شده است.

یكی از بزرگترین اجزا در بستر اطلاعات كه توسط تیم جف در فیس‌بوك ساخته شده بود Apache Hive می‌باشد که چارچوبی جهت ذخیره داده‌ها در هدوپ است. هایو از نیاز به مدیریت و آموختن از حجم عظیمی از داده‌های روزانه تولید شده در شبکه اجتماعی فیس‌بوک، رشد کرده است. تیم پس از تلاش بر روی چندین سیستم مختلف، هدوپ را به دلیل مقرون به صرفه بودن جهت ذخیره‌سازی و پردازش انتخاب کرد.

Hive با این هدف ایجاد گردید تا امکان اجرای queryها در حجم عظیمی از داده‌های ذخیره شده در HDFS فیس‌بوک توسط  تحلیلگران با مهارت بالای SQL (ولی با  مهارت کم در برنامه‌نویسی جاوا) را فراهم نماید. امروزه Hive یک پروژه موفق Apache است که توسط بسیاری از سازمان‌ها به عنوان یک پلتفرم پردازش داده همه منظوره و مقیاس‌پذیر استفاده می‌شود.

البته SQL برای هر مساله عظیم داده (بیگ دیتا) ایده آل نیست. مثلاً برای ساخت الگوریتم‌های پیچیده یادگیری ماشین مناسب نیست ولی برای بسیاری از تجزیه و تحلیل‌ها بسیار عالی بوده و مزایای بسیار مشهودی در صنعت دارد. به علاوه، SQL یک زبان lingua franca در ابزارهای هوش تجاری است (به عنوان مثال ODBC یک پل مشترک است)، بنابراین Hive به خوبی در یکپارچه‌سازی این محصولات قرار گرفته است.

فصل 17 مقدمه‌ای برای استفاده از Hive است و فرض بر این است که شما دانش SQL و معماری پایگاه داده را کسب نمودید. همچنین در این فصل ویژگی‌های Hive با  RDBMS سنتی مقایسه می‌گردد.

 نصب Hive

در شرایط عادی، Hive در ایستگاه کاری شما اجرا می‌شود و پرس و جو SQL شما را به یک سری از کارها برای اجرا در یک کِلاستِر Hadoop تبدیل می‌کند. هایو، داده‌ها را در جداولی مرتب می‌کند که وسیله‌ای برای اتصال ساختار به داده‌های ذخیره شده در HDFS است. اَبَرداده مانند جدول الگوها، در پایگاه داده‌ای به نام metastore ذخیره می‌شود.  

نسخه‌ای از هایو  را می‌توانید از سایت رسمی آپاچی به نشانی http://hive.apache.org/downloads.html

دریافت نمایید. لازم به ذکر است که به JAVA_HOME نیاز دارید.