در ترجمه بخش‌هایی از مصاحبه Judith Lamont با چهار متخصص در حوزه عظیم‌داده Kapil Bakshi معمار اصلی بخش عمومی سیسکو، Charles Zedlewski معاون بخش محصولات در کلودرا، Dan Vesset معاون برنامه برای راه‌حل‌های تحلیلی کسب و کار در IDC و Anjul Bhambhri معاون حوزه بیگ دیتا در IBM، به مسائلی پیرامون عظیم داده و فناوری‌های مرتبط پرداخته شده است.

عظیم داده (Big Data) چگونه آغاز شد؟

Vesset: آنچه باعث ایجاد هیجان اولیه در مورد عظیم داده گردید، شرکت‌هایی همچون گوگل، یاهو، آمازون، فیس‌بوک و توئیتر بودند که تمامی آن‌ها جریان داده‌های کلیکی را تولید می‌کنند که تنها در صورت جمع‌آوری و تجزیه و تحلیل با ارزش است. حجم و جریان اطلاعات به حدی بود که روش های سنتی تحلیل وب قادر به هندل کردن آن نبود

چرا عظیم داده در سال‌های اخیر اهمیت یافته است؟

Zedlewski: حجم داده‌ها سریع‌تر از قانون مور در حال رشد است، و ایده‌های قدیمی که از طریق آنها شرکت‌ها با چالش افزایش داده روبرو بودند، دیگر قابل اتکا و پایدار نبود. همچنین، مشکلاتی وجود دارد که برای آنها راه‌حلی وجود ندارد که مقیاس‌پذیر، اقتصادی و انعطاف پذیر باشد. با استفاده از فناوری هدوپ که می‌تواند در مقیاس هزاران سرور باشد، این راه‌حل‌ها امکان پذیر می‌شوند

Bakshi: حجم عظیم اطلاعات دیجیتال و منابع جدید داده‌ای که اغلب داده‌های تولید شده توسط ماشین همچون سنسورها، تلفن‌های هوشمند و سایر دستگاه‌های متصل به اینترنت می‌باشند، همه این روندها در کنار هم به این معناست که برای خلق ارزش از داده‌ها، به انتقال، جمع‌آوری، ذخیره و تجزیه و تحلیل مقدار عظیمی از داده‌ها نیازمندیم.

Bhambhri: کسب و کارها در حال درک این نکته هستند که باید بر اساس تمامی داده‌هایی که در دسترس دارند، به خصوص 80 درصد از داده‌ها که بدون ساختار هستند، تصمیم‌گیری نمایند. اکنون اطلاعات از فیس‌بوک، توئیتر و بسیاری از منابع دیگر که قبلاً وجود نداشتند در دست است و مردم می‌توانند خودشان را به شیوه‌ای متفاوت از گذشته ابراز نمایند. این اطلاعات به ویژه در بازارهای مصرفی با ارزش است. شرکت‌هایی که از این اطلاعات استفاده نمی‌کنند یا فقط به اطلاعات مربوط به نقطه فروش اکتفا می‌کنند، در واقع بینش‌های زیادی را از دست می‌دهند و شرکت‌ها به طور فزاینده‌ای به اهمیت این موضوع پی می‌برند

پیشران‌های اصلی عظیم داده کدام‌اند؟

Vesset: یکی از این پیشران‌ها کارایی است. پیدا کردن ابزار مناسب برای حجم کاری معین مهم است. پایگاه‌های داده رابطه‌ای کارآمدترین روش برای ذخیره و پردازش مجموعه‌های بزرگ داده‌های نیمه ساختاریافته یا بدون ساختار نیستند، بنابراین کاربران به دنبال گزینه‌های جایگزین هستند. مورد دیگر نوآوری است. تجزیه و تحلیل عظیم داده به سازمان‌ها اجازه می‌دهد کارهایی را انجام دهند که قبلاً یا به علت عدم وجود فناوری و یا به دلیل گران بودن آن، عملی نبود. و در نهایت سازگاری یا انطباق است. مقادیر بزرگ داده نیازمند ذخیره‌سازی برای مدت طولانی‎تر و گاهی بازیابی نسبتاً سریع هستند

نقش شرکت‌هایی چون سیسکو، کلودرا و IBM در عظیم داده چیست؟

سیسکو سیستم‌های متصل به اینترنت اشیا را که منبع اصلی بیگ دیتا (داده‌های تولید شده توسط ماشین) است، فعال می‌سازد. همچنین محصولات شبکه‌ای سیسکو از ذخیره و جابه‌جایی مجموعه داده‌های عظیم پشتیبانی می‌نماید. علاوه بر این، با شرکای اکوسیستم تحلیل خود شبکه مرکز داده و معماری مبتنی بر محاسبات و راه‌حل‌های تحلیل بیگ‌دیتا را ارائه می‌نماید. ما بر روی MapReduce، NoSQL، پایگاه‌های داده In-Memory و معماری سیستم‌های پایگاه داده موازی متمرکز شده‌ایم

کلودرا یک پلتفرم مدیریت داده منبع باز است. ما سیستمی را ارائه می‌دهیم که شامل آپاچی هدوپ و سایر زیرسیستم‌هایی است که به شرکت‌ها اجازه می‌دهد حجم زیادی از داده‌ها را ذخیره، پردازش و تجزیه و تحلیل کنند. شرکای کلودرا، اپلیکیشن‌های نرم‌افزاری بسته‌بندی شده را برای پلتفرم ما ایجاد می‌کنند که از فروشندگان هوش تجاری تا استارتاپ‌های هدوپ را دربرمی‌گیرد. IBM BigInsights و ابزارهای دیگر آن برای داده‌های عظیم مانند InfoSphere DataStage برای ETL و یکپارچه‌سازی داده‌ها اجرا می‌شود.

امکان استفاده از داده‌های عظیم توسط IBM از طریق چندین پیشنهاد برای مشتریان آسان‌تر شده است. InfoSphere BigInsights پلتفرمی بر روی هدوپ است که تحلیل و بصری‌سازی داده‌ها را ارائه می‌نماید. InfoSphere Data Explorer محصولی اکتشافی است که به کاربران اجازه می‌دهد داده‌های عظیم را به همراه داده‌های اپلیکیشن‌های سازمانی تحلیل کنند. جریان اطلاعات InfoSphere جریان داده‌ها را بطور مداوم تجزیه و تحلیل می‌کند و به صورت بلادرنگ مورد نظارت قرار می‌دهد. Vivisimo می‌تواند اطلاعات را از منابع دیگر سازمانی جهت تحلیل بیگ دیتا یکپارچه نماید.

تفاوت اساسی میان هدوپ و پایگاه‌های داده رابطه‌ای چیست؟

Zedlewski: آنها به روش‌های مختلفی کار می‌کنند و کاربردهای متفاوتی دارند. پایگاه‌های داده رابطه‌ای اسکیمای کاملاً تعریف شده و ساختاریافته‌ای دارند. هنگامی که مجموعه داده‌ها به طور مداوم تغییر می‌کنند، تحلیل با استفاده از این پایگاه داده‌ها دشوار است چرا که آنها برای بهینه‌سازی کوئری‌های تکرارشونده طراحی شده‌اند. هدوپ، اطلاعات را به بلوک‌های مختلفی می‌شکند، و نیازمند یک اسکیمای از پیش تعریف شده نیست و برای بالا بردن انعطاف‌پذیری و آزمایش طراحی شده است. از این رو برای جستجوی الگوها در داده‌ها و کار با مجموعه داده‌های غیرقابل پیش‌بینی ایده‌آل است

آیا استفاده از هدوپ را نسبت به سایر فناوری‌ها برای این نوع از کاربردها راحت‌تر می‌دانید؟

Zedlewski: این موضوع به این بستگی دارد که چه چیزی را با هم مقایسه می‌کنید. اگر پیچیدگی ساخت یک سیستم در مقیاس پتابایت هدوپ با یک سیستم در مقیاس پتابایت سیستم مدیریت پایگاه داده رابطه‌ای را مقایسه نماییم، هدوپ فناوری بسیار ساده‌تری است. دانلود آن رایگان بوده و بر هر نوعی از سخت‌افزار یا پلتفرم ابری اجرا می‌شود و نیازمند پیش طراحی دیتا مدل‌های زیادی نیست

آیا از نقطه نظر سرعت، محدودیت‌هایی برای هدوپ در مقایسه با پایگاه داده‌های رابطه‌ای وجود دارد؟

Vesset: امروزه هدوپ برای ذخیره‌سازی مجموعه داده‌های بزرگ و برای پردازش دسته‌ای مناسب است. گاهی اوقات داده‌های پیش پردازش شده در هدوپ به پایگاه‌ داده‌های تحلیلی رابطه‌ای جهت تحلیل موردی بیشتر انتقال داده می‌شود. با این حال، در مقایسه با پایگاه داده‌های رابطه‌ای سنتی، هدوپ از نظر کوئری‌ توسط افراد زیاد به طور همزمان و دریافت پاسخ فوری مناسب نیست و در این حالت یک انبارداده مبتنی بر پایگاه داده رابطه‌ای راه‌حل بهتری است

عملکرد هدوپ را با سایر سیستم‌های پردازش داده چگونه مقایسه می‌نمایید؟

Zedlewski: هدوپ از نقطه نظر پردازش، مقیاس‌پذیری و کارایی بسیار خوبی دارد. پردازش داده‌ها ممکن است به معنای جمع‌آوری داده‌های لاگ یا محاسبه ریسک باشد. هنگام اجرای این فرآیندها در هدوپ، زمان پردازش داده‌ها از ساعت‌ها به دقیقه‌ها می‌رسد. این یک قدرت معماری است که بر اساس سخت افزار ساخته شده است. از طرف دیگر، کاربرانی که به ابزارهای هوش تجاری عادت کرده‌اند که در عرض چند ثانیه پاسخ می‌دهند، در واقع داستانی متفاوت است. ابزارهای هوش تجاری برای پاسخ به طیف محدودی از سؤالاتی طراحی شده‌اند که برای آنها کوئری‌ها و پاسخ‌ها قبلاً تعریف شده‌اند‌، بنابراین پاسخ می‌تواند بسیار سریع‌تر باشد

انعطاف‌پذیری هدوپ را در مقایسه با پایگاه‌های داده رابطه‌ای یا انبارداده چگونه توصیف می‌کنید؟

Zedlewski: اگر از توسعه دهندگان بپرسید که چه مدت طول می‌کشد تا یک فیلد یا یک بعد را به یک پایگاه داده اضافه کنند، تا به یک سؤال که متناسب با اسکیمای اصلی نیست پاسخ دهد، در پاسخ خواهید شنید که از چند هفته تا چند ماه. شما باید این فیلد یا بعد جدید داده را از آرشیو بیرون بکشید، به همه داده‌های تاریخی اضافه نمایید و دیکشنری داده‌ها را به‌روزرسانی نمایید. همچنین جاب‌های استخراج-تبدیل و بارگذاری را به‌روزرسانی کنید ممکن است مجبور به به‌روزرسانی بخش‌هایی از زیرساخت گزارش‌دهی دسته‌ای شوید. با رویکرد عظیم داده، اضافه کردن متغیرهای جدید و ابعاد جدید به سرعت انجام می‌گیرد و می‌توانید داده اصلی را حفظ کرده و اطلاعات مشخصی را اضافه نمایید

آیا می‌توانید یک نمونه کاربردی را مطرح نمایید؟

Bhambhri: در دانشگاه انتاریو، پروژه‌ای به نام داده‌های نوزاد اجرا گردید. نوزادان نارس به طور معمول به سنسورهایی متصل می‌شوند که انواع داده‌هایی را که بینشی در مورد وضعیت پزشکی آنها می‌دهد جمع‌آوری می‌کنند. حجم اطلاعات 1000 قطعه داده در هر ثانیه است که در چندین رتبه‌بندی تجمیع شده و پزشکان و پرستاران به طور دوره‌ای بررسی می‌کنند. با این حال، نوزادان با وجود شاخص‌های مثبت سلامتی با عفونت رو به رو می‌شوند. در این کاربرد عظیم‌داده، الگوهای داده با پیشرفت عفونت‌های بعدی ارتباط داشتند. بر اساس این الگوها محققان قادر به پیش‌بینی احتمال بروز عفونت‌ها 24 ساعت جلوتر بودند و این امکان را برای درمان پیشگیرانه فراهم می‌آورد. این راه‌حل در بیمارستان‌های دیگر نیز مورد استفاده قرار گرفت تا حوادثی مانند خونریزی مغز در بیماران سکته مغزی را پیش‌بینی کند. در واقع وقتی می‌توانید اطلاعات را به سرعت پردازش کنید، گزینه‌های متعددی پیش روی شما قرار می‌گیرد

چالش‌های پیش روی عظیم داده را چه می‌بینید؟

Bakshi: استراتژی سازمانی، موضوعات مربوط به حاکمیت داده‌ها از جمله حریم خصوصی داده‌ها، مالکیت و چرخه حیات داده‌ها در چارچوب منابع رو به رشد عظیم داده باید دیده شود. همچنین مفهوم داده‌های سازمانی که گسترده‌تر از منابع سنتی خواهد بود که شامل داده‌های بدون ساختار می‌شود که دارای اسکیمای تعریف شده‌ای نمی‌باشند. این امر نیازمند اتخاذ رویکردی یکپارچه برای تحلیل داده‌های ساختاریافته سنتی و بدون ساختار است که نیازمند استخراج اطلاعات از سیلوهای متعدد است

Bhambhri: یکی از بزرگ‌ترین چالش‌ها یافتن دانشمندان داده به تعداد کافی است که بتوانند با عظیم داده کار کنند

متداول‌ترین اشتباه سازمان‌ها وقتی برای اولین بار شروع به کار با بیگ دیتا می‌کنند؟

Zedlewski: عدم تعریف موارد استفاده که ارزش کسب و کاری به همراه داشته باشد توسط دپارتمان فناوری اطلاعات

Vesset: دپارتمان فناوری اطلاعات ممکن است ابتدا به فناوری نگاه کرده و اینکه چه مقدار از اطلاعات را می‌تواند ذخیره نماید بدون اینکه در خصوص چگونگی استفاده از آن فکر کند

سازمان‌ها چگونه باید کار با عظیم داده را آغاز کنند؟

Bhambhri: شرکت‌ها باید به منابع داده‌ای که به آنها اهمیت می‌دهند و در حال حاضر مورد استفاده قرار نمی‌گیرند نگاه کنند. سپس داده‌ها را به یک پلتفرم آورده و فرآیند اکتشاف را با تعداد کمی از افراد متخصص در این زمینه آغاز نمایند. تحلیلگران می‌توانند بینش‌هایی را در خصوص خط‌های کسب و کار ارائه دهند. اگر این بینش‌ها دارای ارزش افزوده برای شرکت بود، می‌توان از طرح پایلوت فراتر رفته و زیرساخت‌های لازم را ایجاد نمایند.