روز دوشنبه 24 دی ماه 97 مصاحبه‌ای با آقای دکتر باقری حریری از متخصصان حوزه داده و مدیر پروژه Information Exchange در شرکت سپرده‌گذاری مرکزی بورس صورت گرفت که ذیلاً در اختیار علاقه‌مندان قرار می‌گیرد.

خواهشمند است در ابتدا خودتان را معرفی بفرمایید و تجربیات و سوابق خود را در زمینه تحلیل داده و عظیم‌داده مطرح بفرمایید.

بابک باقری حریری هستم. دارای تحصیلات دکترای علوم کامپیوتر. سابقه کاری ورود به بحث داده‌ها به دوره فوق لیسانس در دانشگاه صنعتی شریف در آزمایشگاه semantic web زیر نظر دکتر ابوالحسنی برمی‌گردد که استفاده از یادگیری ماشین با موضوع Ontology Matching بود. سپس در دوره دکترا در دانشگاه بلزانوی ایتالیا وارد بعد دیگری از دانش در این حوزه شدم که در واقع از بحث یادگیری ماشین و علم داده وارد بحث منطق آن شدم.  زمینه کاری من در این دوره استفاده از منطق محاسباتی (computational logic) برای نسل بعدی BPMS (Business Process Management System)ها بود. در این دوره بُعد ریاضی و منطقی‌ کارهایم را قوی کردم. همزمان با دوره دکتری در دو پروژه اروپایی مرتبط همکاری نمودم. پس از این دوره نزدیک به دو سال در آزمایشگاه Database Theory دانشگاه پنسیلوانیا در آمریکا در مقطع پسادکترا در زمینه Data Provenance  فعالیت کردم. پس از بازگشت به ایران از حدود 4 سال پیش در شرکت‌های همکاران سیستم، دیجی‌کالا و در نهایت شرکت سپرده‌گذاری مرکزی بورس مشغول به فعالیت بوده‌ام.

لطفا در خصوص پروژه‌هایی که در زمینه تحلیل داده انجام داده‌اید توضیح بفرمایید.

در دیجی‌کالا مسئول قیمت‌گذاری با استفاده از الگوریتم‌های یادگیری ماشین بودم که در واقع یکی از خروجی های آن پیشنهاد بهترین قیمت یک کالا در یک لحظه می‌باشد.  بدین منظور نیاز است تا قیمت های بازار آنلاین و آفلاین به صورت لحظه‌ای جمع‌آوری شوند و با استفاده از این داده‌ها و داده‌های فروش می‌توان قیمت بهینه را تعیین نمود.

در شرکت سپرده‌گذاری نیز مدیر پروژه (Information Exchange (IX هستم. شرکت سپرده‌گذاری مرکزی بورس مهم‌ترین مرجع ذخیره و بازیابی اطلاعات بازار سرمایه می‌باشد و از آن به عنوان دیتابیس بورس یاد می‌شود.  این اطلاعات شامل اطلاعات پس از معامله تمام سهامداران می‌باشد.  شاید بتوان گفت داده های این شرکت مانند معدن طلایی هستند که دسترسی به آنها مشکل و پرهزینه بود.  این اطلاعات  با encoding خاصی نگهداری می‌شد و بعضا برای یک کوئری ساده چندین ساعت زمان صرف می‌شد. ما در اینجا در حال راه‌اندازی سیستمی هستیم که این بحث را متحول می‌نماید. به این صورت که تمام داده‌ها را در یک انباره داده متمرکز می‌نماییم و می‌توانیم بسیار سریع سرویس داده و داده‌ها را در دسترس قرار دهیم و بازار سرمایه را به راه بیندازیم.  بطور خلاصه دیتایی را که تا الان در دسترس نبود آماده می‌کنیم جهت سرویس دهی بسیار سریع که می‌تواند باعث ایجاد تحول در بازار سرمایه شود.  خروجی های (IX) شامل موارد زیر است: 1- هوش تجاری BI) -2)  سرویس‌های ارزش افزوده که خود داده را در اختیار ذی‌نفعان قرار می‌دهد و 3- پشتیبانی اطلاعاتی از سامانه‌های جدید  مورد نیاز بازار که فاز اول این پروژه در حال اتمام است.

وضعیت فعلی عظیم داده و تحلیل داده در ایران را با توجه به تجربیات خود چگونه ارزیابی می‌نمایید؟

پاسخ- می‌توان گفت هنوز در ابتدای راه قرار داریم و بلوغ بالایی در این زمینه وجود ندارد و به نظر می‌رسد در حال حاضر استفاده از اسم بیگ دیتا بسیار بیشتر از واقعیت آن داغ  باشد. از نظر من در بسیاری از شرکت‌ها چه خصوصی و چه دولتی بیشتر تأکید بر روی اسم است و کار با همان شیوه قبلی انجام می‌شود. بخشی از این مشکل به مدیریت برمی‌گردد و بخش دیگر به پایین بودن کیفیت داده‌ها، زیرساخت‌ها و کمبود دانش تخصصی میان افراد. آنچه که به عنوان پیشنهاد در مقایسه با تحولات جهانی می‌توان مطرح کرد این است که لازم است برای توسعه بهره‌برداری مناسب از عظیم داده، ابعاد مختلف مرتبط با آن رشدی متناسب با یکدیگر داشته باشند. لازم است تا به فرهنگ و دانش مدیریت، تربیت متخصصین مرتبط و شناخت نیازهای واقعی جدی‌تر پرداخته شود. بسیار مهم است که از نیاز به داده برسیم. اکثر جاها داده بزرگ دارند اما نیاز به یادگیری ماشین ندارند و می‌توان با یک پیش‌پردازش ساده آنرا کوچک نمایند. بنابراین خیلی جاها اصلا نیازی به روش‌های پیچیده نیست اما با پررنگ کردن نام عظیم داده به این روش‌ها روی می‌آورند درحالیکه با پیش پردازش می‌توان مسئله را بسیار ساده و حل نمود. به بیان دیگر، حجم داده واقعی که برای تحلیل نیاز داریم آنقدر زیاد نیست و از نیاز جلو نیامده‌ایم. وقتی هم مسئله در آن حد بزرگ می‌شود، آنقدر زحمت زیاد است و عدم آمادگی در زیرساخت‌ها وجود دارد که عملاً نمی‌توان به نتیجه مطلوب رسید.

کاربردهای عظیم داده و تحلیل‌های داده در صنعت بورس به نظر شما چه می‌تواند باشد و در حال حاضر در ایران از کدام کاربردها استفاده می‌شود؟

کاربردهای متعددی در دنیا برای استفاده از داده‌های بورس وجود دارد نظیر پیش‌بینی قیمت، بهترین قیمت، زمان خرید، زمان فروش که این روش‌ها در ایران به دلیل مشکلاتی که وجود دارد هنوز جواب نداده است. از مهم‌ترین کاربردهایی که می‌توانیم ذکر کنیم روش‌های مقابله با پولشویی است که بر اساس رفتارهای مشکوکی که در بازار وجود دارد انجام می‌شود، همچنین پیش‌بینی ریسک‌ها نظیر پیش‌بینی تأخیر و عدم عملکرد صحیح افراد مختلف می‌تواند ارزش بالایی به خصوص برای شرکت سپرده‌گذاری داشته باشد. در واقع شناسایی رفتارهای مشکوک و خطرهای بالقوه، پیش‌بینی افت‌های شدید بازار سرمایه، استفاده از تحلیل احساسات در ایمیل‌ها و داده‌ها برای تشخیص هجوم افراد به یک سهام خاص.

میتوان گفت کاربردها در حال حاضر در مرحله شروع است و استفاده کمی می‌شود صرفا در حد تشخیص ریسک نکول.

به نظر شما دانشگاه‌ها و واحدهای تحقیقاتی چه خدماتی میتوانند به کسب و کار شما ارائه دهند.

یکی از بابت اینکه می‌توانند دانش‌ها را به‌روز نگه دارند. چیزی که شرکتی مثل اینجا احتیاج دارد، دوره‌های آموزشی یا کلاس‌های مشترکی است در خصوص فناوری‌های جدید. مورد دیگر اینکه می‌توان بخشی از داده‌ها را با حفظ محرمانگی مثلا استفاده از روش‌های رمزنگاری در اختیار دانشجویان برای تحلیل قرار داد.