معرفی ابزار آپاچی استورم (Apache Storm)

آپاچی استورم یک چارچوب پردازشی توزیعی برای پردازش داده های در جریان می باشد که به زبان برنامه نویسی clojure نوشته شده است. این برنامه در ابتدا توسط ناتان مارتس و همکارانش در موسسه بکتایپ ایجاد شده و بعد از تصاحب آن توسط تویتر به صورت نرم افزاری منبع باز درآمد.

معرفی ابزار آپاچی اسپارک (Apache Spark)

اسپارک یک موتور پردازش داده است که اولین بار در سال 2009 به عنوان یک پروژه در آزمایشگاه ای ام پی دانشگاه کالیفرنیا، برکلی طراحی شد. سپس در سال 2013 به یک پروژه انحصاری از بنیاد نرم‌افزاری آپاچی تبدیل شده و در اوایل سال 2014 میلادی به یکی از پروژه‌های برتر بنیاد ارتقا یافت.

مطالعه کاربردهای تحلیل عظیم داده در بانک ING

گروه ING (International Netherlands Group) یک شرکت چندملیتی در عرصه بانکداری و خدمات مالی است که با حدود 50هزار کارمند در بیش از 40 کشور جهان فعالیت می‌کند و در رتبه‌بندی معتبر DJSI جزو رهبران و پیشتازان این صنعت به حساب می‌آید

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش هفتم)

در این فصل، در مورد نحوه کارکرد Map Reduce Job در Hadoop بحث می‌شود و پایه خوبی را جهت نوشتن برنامه‌های پیشرفته‌تر Map Reduce را فراهم می‌کند. شما می‌توانید یک Map Reduce Job را با یک روش واحد اجرا کنید . این بخش گام‌هایی را که Hadoop برای اجرای یک job انجام می‌دهد را مشخص می‌کند و پوشش می‌دهد .

معرفی ابزار مونگودی‌بی(MongoDB)

با افزایش میزان داده‌ها در سراسر جهان، موجی از گرایش‌ها به سوی پایگاه‌های داده غیررابطه‌ای که اصطلاحا به آنها "NoSQL" می‌گویند بوجود آمده است. شرکت‌ها و سازمان‌ها به دنبال روش‌های جدید برای مدیریت سیلی از داده‌ها و ابزارها و سیستم‌های مدیریت پایگاه داده که جایگزین ومتمایز از سیستم‌های پایگاه داده سنتی هستند. در اینجا می‌خواهیم یکی از این پایگاه‌های داده به نام مونگو دی بی((MongoDb را توصیف کنیم.

معرفی کتاب "پردارش و مدیریت عظیم‌داده"

این کتاب قصد دارد یک میز گرد مجازی از چندین محقق برجسته باشد که ممکن است دعوت به شرکت در یک کنفرانس در سیستم‌های محاسباتی عظیم‌داده شوند. البته، لیست موضوعات مورد بررسی در اینجا به هیچ وجه دقیق نیست، اما بسیاری از نتایج ارائه شده در اینجا می تواند به سایر پلتفرم‌های محاسباتی که در اینجا پوشش داده نمی‌شوند، گسترش یابد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش پنجم)

فصل چهارم: ورودی/ خروجی‌های هدوپ (Hadoop I/O) هدوپ قابلیت‌های اولیه برای ورودی/خروجی داده‌ها دارد. بعضی از آنها تکنیک‌های عمومی تری از هدوپ هستند مثل یکپارچگی داده‌ها و فشرده‌سازی اما کارکرد ویژه‌ای در قبال دیتاست های چندترابایتی ایفا می‌کنند. برخی از آنها نیز ابزارها یا API هایی هستند که ساختار یک سیستم توزیع شده (Distributed System) را تشکیل می‌دهند مثل سریال سازی (Serialization) یا ساختارهای روی-دیسک.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش چهارم)

آپاچی یارن(Apache Yarn) سیستم مدیریت منابع کلاستر هدوپ می باشد. یارن از ورژن 2 هدوپ معرفی گردید تا اجرای عملیات نگاشت-کاهش را بهبود ببخشد اما بطور کلی سایر پارادایم های محاسباتی توزیعی را نیز پشتیبانی می کند.

خوشه‌بندی محتوای رسانه‌های اجتماعی با استفاده از فناوری عظیم‌داده

یکی از مشکلات کلیدی در تحلیلگری رسانه های اجتماعی، طبقه بندی حساب کاربری بر اساس رسانه های آپلود شده توسط کاربران می باشد مشکلات اصلی در حل این مساله عبارتند از: ناهمگونی ماهیت محتوا (عکس ها، آثار هنری، کارت های تبریک و ...) حجم عظیم اطلاعات تجزیه و تحلیل شده که منجر به پیچیدگی بیش از حد محاسبات پردازشی می شود

سیستم کلاستر محاسباتی با کارایی بالا (HPCC)

این ابزار بر روی یک سکوی واحد، یک معماری واحد و یک زبان برنامه‌نویسی واحد برای پردازش داده‌ها ارائه می‌گردد. بر خلاف هدوپ، مدل داده‌ای در این ابزار به وسیله کاربر تعریف شده و تضمین می‌کند که ECL در حداکثر زمان سپری شده انجام می‌گردد و گره‌ها به شکل موازی پردازش شوند.

معرفی کسب و کار داده محور: استارباکس

استارباکس یک کسب و کار قهوه نیست، بلکه یک شرکت فناوری داده است! این شرکت بیش از 31.000 فروشگاه در سراسر جهان دارد و نزدیک به 100 میلیون معاملات در هفته انجام می دهد. این امر باعث می شود تا دید کاملی از آنچه مشتریانش مصرف می کنند و از آن لذت می برند را در اختیار داشته باشد.

کاربرد عظیم‌داده در صنعت حمل و نقل (مطالعه موردی: شبکه حمل و نقل لندن TfL)

TfL (Transport for London)  ناظر بر شبکه‌ای از اتوبوس‌ها و قطارها، تاکسی‌ها، راه‌ها، مسیرهای مربوط به دوچرخه، پیاده‌روها و حتی کشتی‌ها که روزانه توسط میلیون‌ها نفر مورد استفاده قرار می‌گیرند، می‌باشد. اداره این شبکه وسیع، که در زندگی بسیاری از افراد در یکی از شلوغ‌ترین شهرهای دنیا حیاتی می‌باشد، دسترسی TfL به حجم بالایی از داده‌ها را امکان‌پذیر ساخته است و این شرکت اکنون تجزیه و تحلیل عظیم‌داده (Big Data analytics) را به طور گسترده‌ای به کار می‌گیرد.

معرفی ابزارهای آپاچی اسکوپ و آپاچی فلوم

همچنان که تعداد سازمان‌های کسب‌وکاری در حال به کارگیری هدوپ برای تحلیل حجم انبوه داده‌ها افزایش می‌یابد، نیاز آنها برای انتقال حجم حدود پتابایت یا اگزابایت از داده‌های پایگاه داده های رابطه‌ای یا انباره‌های داده‌ای و یا  سایر منابع داده‌ای موجود در سازمان‌ها به محیط هدوپ اجتناب ناپذیر است. در نوشتار حاضر برآنیم تا به طور اجمالی به معرفی مهمترین ابزارهای ETL  برای عظیم داده یعنی آپاچی اسکوپ و آپاچی فلوم بپردازیم.

طراحی توسط ب.علی‌میرزایی