معرفی ابزار: Databricks Lakehouse Platform

نوع جدیدی از معماری داده تحت عنوان “data lakehouse” دریاچه داده و انبارداده را ترکیب می‌نماید تا نقاط ضعفی را که هر یک از آنها به طور مستقل می‌توانند داشته باشند، برطرف نماید. پلتفرم lakehouse، مانند دریاچه‌های داده از ذخیره‌سازی کم هزینه برای نگهداری حجم عظیمی از داده‌ها در فرمت اصلی خود بهره می‌برد و افزودن یک لایه متادیتا بر روی محل ذخیره‌سازی نیز ساختار داده را فراهم نموده و ابزارهای مدیریت داده را مشابه آنچه در انبارداده وجود دارد امکان پذیر می‌سازد.

این معماری شامل حجم از عظیمی از داده‌های ساختیافته، نیمه ساختیافته و بدون ساختار است که از اپلیکیشن‌ها، سیستم‌ها و دستگاه‌های مختلفی که در سراسر سازمان مورد استفاده قرار می‌گیرند، به دست می‌آیند.
بر خلاف دریاچه داده، پلتفرم‌های lakehouse می‌توانند داده‌ها را برای عملکرد SQL مدیریت و بهینه‌سازی نمایند. همچنین این قابلیت را دارند تا حجم بزرگی از داده‌های متنوع را با هزینه‌ای پایین‌تر از انبارهای داده ذخیره‌سازی و پردازش نمایند. این پلتفرم‌ها هنگامی که نیاز به اجرای هر گونه دسترسی به داده‌ها یا تحلیل‌گری داریم اما در خصوص داده‌ها یا تحلیل مورد نظر اطمینان نداریم می‌توانند بسیار مفید باشند.
ویژگی‌های data lakehouse عبارتند از:
✅ خواندن و نوشتن همزمان داده‌ها
✅ سازگاری و مقیاس پذیری
✅ اسکیماهای مورد نیاز توسط ابزارهای حکمرانی داده
✅ ذخیره سازی مقرون به صرفه
✅ پشتیبانی از همه انواع داده‌ها و فرمت‌های فایل
✅ امکان دسترسی ابزارهای علم داده و یادگیری ماشین
✅ دسترسی سریع‌تر و دقیق‌تر تیم‌های داده به تنها یک سیستم برای انتقال بارهای کاری
✅ قابلیت‌های بلادرنگ برای ابتکارات در علم داده، یادگیری ماشین و تحلیل‌گری

دیتابریکس (Databricks) یک سرویس آپاچی اسپارک مدیریت شده را ارائه می‌دهد که به عنوان پلتفرمی برای دریاچه‌های داده قرار داده می‌شود. دریاچه داده، delta lake و موتور delta، اجزای معماری databricks lakehouse (https://www.databricks.com/product/data-lakehouse)هستند که کاربردهای هوش کسب و کار، علم داده و یادگیری ماشین و از جمله تکنیک‌های هوش مصنوعی مولد مانند LLM را توانمند می‌سازند.
دریاچه داده یک مخزن ذخیره‌سازی ابری عمومی است که از پشتیبانی از مدیریت متادیتا، پردازش داده دسته‌ای و جریانی برای مجموعه داده‌های چندساختاری، اکتشاف داده، کنترل دسترسی ایمن و تجزیه و تحلیل SQL بهره‌‌مند می‌باشد.
دیتابریکس بیشتر کارکردهای انبارداده که از یک پلتفرم lakehouse انتظار می‌رود را ارائه می‌دهد. همچنین اخیراً از یک بارگذاری خودکار (auto loader) رونمایی کرده است که ETL و ورود داده را خودکار نموده است و از نمونه‌گیری از داده‌ها برای استنتاج اسکیمای انواع مختلف داده‌ها جهت ارائه اجزای اساسی استراتژی ذخیره‌سازی دریاچه داده استفاده می‌نماید. همچنین کاربران می‌توانند پایپ‌لاین‌های ETL را میان ساختار ابری دریاچه داده و Delta lake با استفاده از جداول لایو دلتا ایجاد کنند.
هر چند به نظر می‌رسد این ابزار تمام مزیت‌های انبارداده و دریاچه داده را دارد، اما پیاده‌سازی این راهکار و ایجاد پایپ‌لاین‌ها، نیازمند نیروی انسانی و توسعه دهندگان ماهر است که به ویژه در مقیاس بالاتر پیچیدگی‌های بیشتری پیدا می‌نماید.

#فاطمه_مظفری

اسکرول به بالا