"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش چهارم)

آپاچی یارن(Apache Yarn) سیستم مدیریت منابع کلاستر هدوپ می باشد. یارن از ورژن 2 هدوپ معرفی گردید تا اجرای عملیات نگاشت-کاهش را بهبود ببخشد اما بطور کلی سایر پارادایم های محاسباتی توزیعی را نیز پشتیبانی می کند.

معرفی مقاله "Assessing the impact of big data on firm innovation performance: Big data is not always better data"

هدف اصلی این پژوهش بررسی میزان تاثیرگذاری ویژگی‌های اصلی عظيم‌داده، سرعت (Velocity)، حجم (Volume) و تنوع (Variety) بر روی عملکرد نوآوری در سازمان است. براساس تئوری یادگیری سازمانی، نوآوری‌های سازمانی به معنی منطبق شدن سازمان بر مبنای اطلاعات جدید است. در نتیجه، پژوهشگران این تحقیق انتظار دارند عظيم داده‌ها با ارائه به موقع حجم زیادی (Volume) از داده‌های متنوع (Variety) به مدیران، نوآوری و در نتیجه یادگیری سازمانی را افزایش دهند.

خوشه‌بندی محتوای رسانه‌های اجتماعی با استفاده از فناوری عظیم‌داده

یکی از مشکلات کلیدی در تحلیلگری رسانه های اجتماعی، طبقه بندی حساب کاربری بر اساس رسانه های آپلود شده توسط کاربران می باشد مشکلات اصلی در حل این مساله عبارتند از: ناهمگونی ماهیت محتوا (عکس ها، آثار هنری، کارت های تبریک و ...) حجم عظیم اطلاعات تجزیه و تحلیل شده که منجر به پیچیدگی بیش از حد محاسبات پردازشی می شود

معرفی کتاب "Big Data Science in Finance"

علم داده بازارهای مالی را دگرگون کرده است. کتاب علم عظیم داده در امور مالی، ریاضیات و روش‌های تئوری و عملی را که صنعت مالی را شکل می‌دهند بررسی کرده است.

معرفی مقاله: "Big data platforms: in the lens of selection and evaluation approach"

تجلی عظیم داده‌ها علاوه بر چالش های اساسی برای پردازش داده‌ها، در شرکت‌ها برای ارزش تحلیلی تمایلات شدید را ایجاد کرده است. باز کردن قفل پتانسیل‌های تجزیه و تحلیل عظیم داده‌ها به طراحی و تنظیم سیستم عامل ها از طریق زنجیره ارزش عظیم داده‌ها بستگی دارد.

سیستم کلاستر محاسباتی با کارایی بالا (HPCC)

این ابزار بر روی یک سکوی واحد، یک معماری واحد و یک زبان برنامه‌نویسی واحد برای پردازش داده‌ها ارائه می‌گردد. بر خلاف هدوپ، مدل داده‌ای در این ابزار به وسیله کاربر تعریف شده و تضمین می‌کند که ECL در حداکثر زمان سپری شده انجام می‌گردد و گره‌ها به شکل موازی پردازش شوند.

معرفی کسب و کار داده محور: استارباکس

استارباکس یک کسب و کار قهوه نیست، بلکه یک شرکت فناوری داده است! این شرکت بیش از 31.000 فروشگاه در سراسر جهان دارد و نزدیک به 100 میلیون معاملات در هفته انجام می دهد. این امر باعث می شود تا دید کاملی از آنچه مشتریانش مصرف می کنند و از آن لذت می برند را در اختیار داشته باشد.

کاربرد عظیم‌داده در صنعت حمل و نقل (مطالعه موردی: شبکه حمل و نقل لندن TfL)

TfL (Transport for London)  ناظر بر شبکه‌ای از اتوبوس‌ها و قطارها، تاکسی‌ها، راه‌ها، مسیرهای مربوط به دوچرخه، پیاده‌روها و حتی کشتی‌ها که روزانه توسط میلیون‌ها نفر مورد استفاده قرار می‌گیرند، می‌باشد. اداره این شبکه وسیع، که در زندگی بسیاری از افراد در یکی از شلوغ‌ترین شهرهای دنیا حیاتی می‌باشد، دسترسی TfL به حجم بالایی از داده‌ها را امکان‌پذیر ساخته است و این شرکت اکنون تجزیه و تحلیل عظیم‌داده (Big Data analytics) را به طور گسترده‌ای به کار می‌گیرد.

معرفی ابزارهای آپاچی اسکوپ و آپاچی فلوم

همچنان که تعداد سازمان‌های کسب‌وکاری در حال به کارگیری هدوپ برای تحلیل حجم انبوه داده‌ها افزایش می‌یابد، نیاز آنها برای انتقال حجم حدود پتابایت یا اگزابایت از داده‌های پایگاه داده های رابطه‌ای یا انباره‌های داده‌ای و یا  سایر منابع داده‌ای موجود در سازمان‌ها به محیط هدوپ اجتناب ناپذیر است. در نوشتار حاضر برآنیم تا به طور اجمالی به معرفی مهمترین ابزارهای ETL  برای عظیم داده یعنی آپاچی اسکوپ و آپاچی فلوم بپردازیم.

معرفی کتاب “Big Data Analytics: A Management Perspective"

این کتاب از دید تجارت و کسب‌وکار به نوآوری، عظیم‌داده و علم داده می‌پردازد. عظیم‌داده امروزه به عنوان یک buzzword شناخته می‌شود و برای درک بهتر آن باید از تعریف واضح و روشنی شروع کنیم. هدف از این کتاب کمک به مدیرانی است که می‌خواهند در مسیر فناوری‌های پیشرفته که تکنیک‌های جدید برای عظیم‌داده را معرفی کرده‌اند، قدمی بردارند.

کاربرد تحلیل عظیم داده در صنعت مخابرات (مطالعه موردی شرکت Sprint)

اپراتورهای موبایل دسترسی به ثروتی منحصر به فرد از داده‌های حاوی بینش در خصوص مشتریان دارند که می‌تواند تبلیغات را مرتبط تر و کارآمدتر سازد. شرکت Sprint در سال 2012، شرکت تابعه PinsightMedia را با هدف استفاده از منابع داده برای بخش‌بندی مخاطبان جهت استفاده در پلتفرم‌های تبلیغات هدفمند موبایل تاسیس نمود.

معرفی مقاله: آنالیز رفتار دانشجویی در سیستم‌های مدیریت یادگیری از طریق یک چارچوب عظیم داده

در سال‌های اخیر، سیستم‌های مدیریت یادگیری (LMS) نقش بسیار مهم و اساسی در مدل‌های تحصیلات تکمیلی ایفا نموده‌اند. در همین راستا تحقیق جدید مرتبط با "سیستم‌های مدیریت یادگیری" انجام پذیرفت تا به وسیله الگوهای ارائه شده توسط ( LMSs)  پروسه مرتبط با یادگیری ارتقاء یابد.

عظيم داده، چگونه داده ها، كسب و كارهاي بزرگ را قدرت مي بخشند(بخش دوازدهم)

داده ها همواره منبع حرکت بوده و باعث کسب قدرت تفکر تجاری بصری می شوند. در طول تاریخ سازمان های پیشرو، داده ها و تحلیل ها را برای شناسایی و اقدام در فرصت های پیش آمده در بازار سریعتر از رقبای خود به کار می گیرند. اما در جهانِ عظیم داده و تحلیل گری پیشرفته، داده ها نقش اصلی و مرکزی در تبدیل فرآیندهای کلیدی کسب و کار و ایجاد فرصت های تجاری جدید را به عهده گرفته اند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش هجدهم)

Apache Crunch یک API با سطح بالاتر برای نوشتن pipelineهای MapReduce است. مهم‌ترین مزایای آن نسبت به MapReduce ساده، تمرکز آن بر روی برنامه‌نویسان انواع جاوا سازگار مانند رشته‌ها و اشیاء ساده قدیمی جاوا، مجموعه‌ای غنی‌تر از عملیات تبدیل داده‌ها و pipelineهای چند مرحله‌ای است

معرفی ابزار Apache Flink

از ابزار آپاچی فلینک به عنوان نسل 4 عظیم‌داده یاد می‌شود. برخلاف اسپارک استریمینگ، فلینک به صورت بنیادی یک پردازشگر جریانی بوده و بر پردازش دسته‌ای تکیه ندارد. فلینک را می‌توان به عنوان یکی از پیشرفته‌ترین پردازشگرهای جریانی به حساب آورد.

معرفی کتاب: "عظیم‌داده: اصول و به‌روش‌های سیستم‌های بلادرنگ و مقیاس‌پذیر داده"

کتاب "عظیم‌داده: اصول و به‌روش‌های سیستم‌های بلا درنگ و مقیاس‌پذیر داده"  معماری Lambda را به عنوان روشی مقیاس‌پذیر و قابل پیاده‌سازی و مدیریت توسط تیم‌های کوچک معرفی‌ می‌کند.  با مطالعه این کتاب، می‌توان  با تئوری سیستم‌های عظیم‌داده و نحوه پیاده‌سازی آن‌ها آشنا شد. کتاب علاوه بر توضیح چهارچوب کلی پردازش عظیم‌داده، فن‌آوری‌های خاصی نظیر Hadoop، Storm و پایگاه‌داده‌های NoSQL را توضیح می‌دهد.

طراحی توسط ب.علی‌میرزایی