نوع جدیدی از معماری داده تحت عنوان “data lakehouse” دریاچه داده و انبارداده را ترکیب مینماید تا نقاط ضعفی را که هر یک از آنها به طور مستقل میتوانند داشته باشند، برطرف نماید. پلتفرم lakehouse، مانند دریاچههای داده از ذخیرهسازی کم هزینه برای نگهداری حجم عظیمی از دادهها در فرمت اصلی خود بهره میبرد و افزودن یک لایه متادیتا بر روی محل ذخیرهسازی نیز ساختار داده را فراهم نموده و ابزارهای مدیریت داده را مشابه آنچه در انبارداده وجود دارد امکان پذیر میسازد.
این معماری شامل حجم از عظیمی از دادههای ساختیافته، نیمه ساختیافته و بدون ساختار است که از اپلیکیشنها، سیستمها و دستگاههای مختلفی که در سراسر سازمان مورد استفاده قرار میگیرند، به دست میآیند.
بر خلاف دریاچه داده، پلتفرمهای lakehouse میتوانند دادهها را برای عملکرد SQL مدیریت و بهینهسازی نمایند. همچنین این قابلیت را دارند تا حجم بزرگی از دادههای متنوع را با هزینهای پایینتر از انبارهای داده ذخیرهسازی و پردازش نمایند. این پلتفرمها هنگامی که نیاز به اجرای هر گونه دسترسی به دادهها یا تحلیلگری داریم اما در خصوص دادهها یا تحلیل مورد نظر اطمینان نداریم میتوانند بسیار مفید باشند.
ویژگیهای data lakehouse عبارتند از:
✅ خواندن و نوشتن همزمان دادهها
✅ سازگاری و مقیاس پذیری
✅ اسکیماهای مورد نیاز توسط ابزارهای حکمرانی داده
✅ ذخیره سازی مقرون به صرفه
✅ پشتیبانی از همه انواع دادهها و فرمتهای فایل
✅ امکان دسترسی ابزارهای علم داده و یادگیری ماشین
✅ دسترسی سریعتر و دقیقتر تیمهای داده به تنها یک سیستم برای انتقال بارهای کاری
✅ قابلیتهای بلادرنگ برای ابتکارات در علم داده، یادگیری ماشین و تحلیلگری
دیتابریکس (Databricks) یک سرویس آپاچی اسپارک مدیریت شده را ارائه میدهد که به عنوان پلتفرمی برای دریاچههای داده قرار داده میشود. دریاچه داده، delta lake و موتور delta، اجزای معماری databricks lakehouse (https://www.databricks.com/product/data-lakehouse)هستند که کاربردهای هوش کسب و کار، علم داده و یادگیری ماشین و از جمله تکنیکهای هوش مصنوعی مولد مانند LLM را توانمند میسازند.
دریاچه داده یک مخزن ذخیرهسازی ابری عمومی است که از پشتیبانی از مدیریت متادیتا، پردازش داده دستهای و جریانی برای مجموعه دادههای چندساختاری، اکتشاف داده، کنترل دسترسی ایمن و تجزیه و تحلیل SQL بهرهمند میباشد.
دیتابریکس بیشتر کارکردهای انبارداده که از یک پلتفرم lakehouse انتظار میرود را ارائه میدهد. همچنین اخیراً از یک بارگذاری خودکار (auto loader) رونمایی کرده است که ETL و ورود داده را خودکار نموده است و از نمونهگیری از دادهها برای استنتاج اسکیمای انواع مختلف دادهها جهت ارائه اجزای اساسی استراتژی ذخیرهسازی دریاچه داده استفاده مینماید. همچنین کاربران میتوانند پایپلاینهای ETL را میان ساختار ابری دریاچه داده و Delta lake با استفاده از جداول لایو دلتا ایجاد کنند.
هر چند به نظر میرسد این ابزار تمام مزیتهای انبارداده و دریاچه داده را دارد، اما پیادهسازی این راهکار و ایجاد پایپلاینها، نیازمند نیروی انسانی و توسعه دهندگان ماهر است که به ویژه در مقیاس بالاتر پیچیدگیهای بیشتری پیدا مینماید.
#فاطمه_مظفری