معرفی ابزار آپاچی استورم (Apache Storm)
آپاچی استورم یک چارچوب پردازشی توزیعی برای پردازش داده های در جریان می باشد که به زبان برنامه نویسی clojure نوشته شده است. این برنامه در ابتدا توسط ناتان مارتس و همکارانش در موسسه بکتایپ ایجاد شده و بعد از تصاحب آن توسط تویتر به صورت نرم افزاری منبع باز درآمد.
خلاصه بخش سوم کتاب عظیم داده به زبان ساده(مدیریت عظیمداده)
در این قسمت خلاصه بخش سوم کتاب عظیم داده به زبان ساده آورده شده است
معرفی ابزار آپاچی اسپارک (Apache Spark)
اسپارک یک موتور پردازش داده است که اولین بار در سال 2009 به عنوان یک پروژه در آزمایشگاه ای ام پی دانشگاه کالیفرنیا، برکلی طراحی شد. سپس در سال 2013 به یک پروژه انحصاری از بنیاد نرمافزاری آپاچی تبدیل شده و در اوایل سال 2014 میلادی به یکی از پروژههای برتر بنیاد ارتقا یافت.
(Big Data for Dummies)خلاصه بخش دوم کتاب عظیم داده به زبان ساده
عناصر مهم عظیم داده(Big Data)مانند معماری عظیم داده،مجازی سازی و رایانش ابری اشاره دارد.
مطالعه کاربردهای تحلیل عظیم داده در بانک ING
گروه ING (International Netherlands Group) یک شرکت چندملیتی در عرصه بانکداری و خدمات مالی است که با حدود 50هزار کارمند در بیش از 40 کشور جهان فعالیت میکند و در رتبهبندی معتبر DJSI جزو رهبران و پیشتازان این صنعت به حساب میآید
(Big Data for Dummies)خلاصه بخش اول کتاب عظیم داده به زبان ساده
عظیم داده(Big Data) حداقل در سه خصوصیت حجم زیاد،نرخ رشد زیادو سرعت بالا مشترک هستند.
معرفی ابزار آپاچی اچ بیس (Apache HBase)
آپاچی HBase یک سیستم مدیریت پایگاه داده ستونی می باشد که بر روی فایل سیستم هدوپ کار می کند.
عظیمداده به زبان ساده (Big Data for Dummies)
این کتاب به ما میگوید که عظیمداده(Big Data) چیست و چگونه سازمانها میتوانند از عظیمداده بهعنوان اهرمی برای اتخاذ تصمیمات بزرگتر و کاراتر (نسبت به قبل) استفاده کنند.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش هفتم)
در این فصل، در مورد نحوه کارکرد Map Reduce Job در Hadoop بحث میشود و پایه خوبی را جهت نوشتن برنامههای پیشرفتهتر Map Reduce را فراهم میکند. شما میتوانید یک Map Reduce Job را با یک روش واحد اجرا کنید . این بخش گامهایی را که Hadoop برای اجرای یک job انجام میدهد را مشخص میکند و پوشش میدهد .
معرفی ابزار مونگودیبی(MongoDB)
با افزایش میزان دادهها در سراسر جهان، موجی از گرایشها به سوی پایگاههای داده غیررابطهای که اصطلاحا به آنها "NoSQL" میگویند بوجود آمده است. شرکتها و سازمانها به دنبال روشهای جدید برای مدیریت سیلی از دادهها و ابزارها و سیستمهای مدیریت پایگاه داده که جایگزین ومتمایز از سیستمهای پایگاه داده سنتی هستند. در اینجا میخواهیم یکی از این پایگاههای داده به نام مونگو دی بی((MongoDb را توصیف کنیم.
معرفی کتاب "پردارش و مدیریت عظیمداده"
این کتاب قصد دارد یک میز گرد مجازی از چندین محقق برجسته باشد که ممکن است دعوت به شرکت در یک کنفرانس در سیستمهای محاسباتی عظیمداده شوند. البته، لیست موضوعات مورد بررسی در اینجا به هیچ وجه دقیق نیست، اما بسیاری از نتایج ارائه شده در اینجا می تواند به سایر پلتفرمهای محاسباتی که در اینجا پوشش داده نمیشوند، گسترش یابد.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش پنجم)
فصل چهارم: ورودی/ خروجیهای هدوپ (Hadoop I/O) هدوپ قابلیتهای اولیه برای ورودی/خروجی دادهها دارد. بعضی از آنها تکنیکهای عمومی تری از هدوپ هستند مثل یکپارچگی دادهها و فشردهسازی اما کارکرد ویژهای در قبال دیتاست های چندترابایتی ایفا میکنند. برخی از آنها نیز ابزارها یا API هایی هستند که ساختار یک سیستم توزیع شده (Distributed System) را تشکیل میدهند مثل سریال سازی (Serialization) یا ساختارهای روی-دیسک.
معرفی ابزار آپاچی ماهوت (Apache Mahout)
آپاچی ماهوت ابزار پرکاربرد دیگر اکوسیستم هدوپ، آپاچی ماهوت میباشد. ماهوت واسطهایی برای ایجاد برنامههای مقیاسپذیر یادگیری ماشین را فراهم میکند
معرفی پایگاه داده آپاچی هدوپ (Apache Hadoop)
آپاچی هدوپ یک چارچوب نرم افزاری منبع باز است که برای ذخیرهسازی و پردازش توزیع شده مجموعه دادههای عظیم با استفاده از مدل برنامه ریزی MapReduce استفاده میشود.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش چهارم)
آپاچی یارن(Apache Yarn) سیستم مدیریت منابع کلاستر هدوپ می باشد. یارن از ورژن 2 هدوپ معرفی گردید تا اجرای عملیات نگاشت-کاهش را بهبود ببخشد اما بطور کلی سایر پارادایم های محاسباتی توزیعی را نیز پشتیبانی می کند.
خوشهبندی محتوای رسانههای اجتماعی با استفاده از فناوری عظیمداده
یکی از مشکلات کلیدی در تحلیلگری رسانه های اجتماعی، طبقه بندی حساب کاربری بر اساس رسانه های آپلود شده توسط کاربران می باشد مشکلات اصلی در حل این مساله عبارتند از: ناهمگونی ماهیت محتوا (عکس ها، آثار هنری، کارت های تبریک و ...) حجم عظیم اطلاعات تجزیه و تحلیل شده که منجر به پیچیدگی بیش از حد محاسبات پردازشی می شود
سیستم کلاستر محاسباتی با کارایی بالا (HPCC)
این ابزار بر روی یک سکوی واحد، یک معماری واحد و یک زبان برنامهنویسی واحد برای پردازش دادهها ارائه میگردد. بر خلاف هدوپ، مدل دادهای در این ابزار به وسیله کاربر تعریف شده و تضمین میکند که ECL در حداکثر زمان سپری شده انجام میگردد و گرهها به شکل موازی پردازش شوند.
معرفی کسب و کار داده محور: استارباکس
استارباکس یک کسب و کار قهوه نیست، بلکه یک شرکت فناوری داده است! این شرکت بیش از 31.000 فروشگاه در سراسر جهان دارد و نزدیک به 100 میلیون معاملات در هفته انجام می دهد. این امر باعث می شود تا دید کاملی از آنچه مشتریانش مصرف می کنند و از آن لذت می برند را در اختیار داشته باشد.
کاربرد عظیمداده در صنعت حمل و نقل (مطالعه موردی: شبکه حمل و نقل لندن TfL)
TfL (Transport for London) ناظر بر شبکهای از اتوبوسها و قطارها، تاکسیها، راهها، مسیرهای مربوط به دوچرخه، پیادهروها و حتی کشتیها که روزانه توسط میلیونها نفر مورد استفاده قرار میگیرند، میباشد. اداره این شبکه وسیع، که در زندگی بسیاری از افراد در یکی از شلوغترین شهرهای دنیا حیاتی میباشد، دسترسی TfL به حجم بالایی از دادهها را امکانپذیر ساخته است و این شرکت اکنون تجزیه و تحلیل عظیمداده (Big Data analytics) را به طور گستردهای به کار میگیرد.
معرفی ابزارهای آپاچی اسکوپ و آپاچی فلوم
همچنان که تعداد سازمانهای کسبوکاری در حال به کارگیری هدوپ برای تحلیل حجم انبوه دادهها افزایش مییابد، نیاز آنها برای انتقال حجم حدود پتابایت یا اگزابایت از دادههای پایگاه داده های رابطهای یا انبارههای دادهای و یا سایر منابع دادهای موجود در سازمانها به محیط هدوپ اجتناب ناپذیر است. در نوشتار حاضر برآنیم تا به طور اجمالی به معرفی مهمترین ابزارهای ETL برای عظیم داده یعنی آپاچی اسکوپ و آپاچی فلوم بپردازیم.
دسته بندی
- معرفی ابزار 26
- مطالعه موردی 27
- کتاب بخوانیم 49
- معرفی کتاب 31
- مرور منابع علمی 32
- اینفوگرافیک 7
- تجربه داخلی 4
- مصاحبه 22
- معرفی کسب و کار داده محور 9
- معرفی سرویس 7