دسته بندی:کتاب بخوانیم

کتاب "تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها" (بخش هفتم)

تولید داده توسط کاربران در فضای تعاملی صفحات وب و رسانه‌های اجتماعی مختلف یکی از منابع داده‌ای غنی در تحلیل عظیم‌داده محسوب می‌شود که در بخش هفتم کتاب "تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها" به آن پرداخته شده است.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش ششم)

در این فصل به بررسی جنبه‌های عملی توسعه برنامه‌های MapReduce در هدوپ می‌پردازیم. نوشتن یک برنامه در MapReduce یک الگوی مشخص را دنبال می‌کند. ابتدا با نوشتن تابع Map و Reduce شروع می‌شود و با تست آن‌ها از درستی کارکرد آن‌ها اطمینان حاصل خواهد شد. سپس یک برنامه را برای اجرای یک کار بنویسید که می‌تواند توسط IDE و با استفاده از یک زیرمجموعه کوچک از داده‌ها اجرا شود و در صورت اجرا نشدن، می‌توان از IDE برای اشکال‌زدایی آن استفاده کرد

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیستم)

در این فصل به معرفی ابزار Apache HBase پرداخته می‌شود. HBase یک پایگاه داده توزیع شده ستونی است که بر روی فایل سیستم هدوپ (HDFS) ایجاد شده است و به عنوان اپلیکیشن هدوپ هنگامی که نیازمند دسترسی تصادفی بلادرنگ برای خواندن/نوشتن در مجموعه داده‌های بسیار بزرگ می‌باشیم، مورد استفاده قرار می‌گیرد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش هفتم)

در این فصل، در مورد نحوه کارکرد Map Reduce Job در Hadoop بحث می‌شود و پایه خوبی را جهت نوشتن برنامه‌های پیشرفته‌تر Map Reduce را فراهم می‌کند. شما می‌توانید یک Map Reduce Job را با یک روش واحد اجرا کنید . این بخش گام‌هایی را که Hadoop برای اجرای یک job انجام می‌دهد را مشخص می‌کند و پوشش می‌دهد .

کتاب "تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها" (بخش ششم)

الگوریتم‌های یادگیری ماشین با هدف یادگیری روابط و ویژگی‌های بین داده‌ها و به منظور پیش‌بینی استفاده می‌شوند. در زمینه عظیم داده، پیاده‌سازی الگوریتم‌های یادگیری ماشین به استفاده از پردازش موازی و روش‌های آماری در مقایسه با روش‌های قانون محور وابسته است.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش پنجم)

فصل چهارم: ورودی/ خروجی‌های هدوپ (Hadoop I/O) هدوپ قابلیت‌های اولیه برای ورودی/خروجی داده‌ها دارد. بعضی از آنها تکنیک‌های عمومی تری از هدوپ هستند مثل یکپارچگی داده‌ها و فشرده‌سازی اما کارکرد ویژه‌ای در قبال دیتاست های چندترابایتی ایفا می‌کنند. برخی از آنها نیز ابزارها یا API هایی هستند که ساختار یک سیستم توزیع شده (Distributed System) را تشکیل می‌دهند مثل سریال سازی (Serialization) یا ساختارهای روی-دیسک.

کتاب "تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها" (بخش پنجم)

یکی از بخش‌های تحلیلی عظیم داده که در لایه‌ی بالاتری نسبت به تحلیل‌های توصیفی قرار دارد؛ به کارگیری مدل‌های پیش بینی می‌باشد. در فصل پنجم کتاب “تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها” ؛ کاربرد انواع مدل‌های پیش‌بینی در تحلیل عظیم داده برای داده‌های غیر ساختار یافته شامل پردازش زبان طبیعی، بینایی ماشین، بازیابی اطلاعات و تشخیص صدا مورد بررسی قرار می‌گیرند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش چهارم)

آپاچی یارن(Apache Yarn) سیستم مدیریت منابع کلاستر هدوپ می باشد. یارن از ورژن 2 هدوپ معرفی گردید تا اجرای عملیات نگاشت-کاهش را بهبود ببخشد اما بطور کلی سایر پارادایم های محاسباتی توزیعی را نیز پشتیبانی می کند.

عظيم داده، چگونه داده ها، كسب و كارهاي بزرگ را قدرت مي بخشند(بخش دوازدهم)

داده ها همواره منبع حرکت بوده و باعث کسب قدرت تفکر تجاری بصری می شوند. در طول تاریخ سازمان های پیشرو، داده ها و تحلیل ها را برای شناسایی و اقدام در فرصت های پیش آمده در بازار سریعتر از رقبای خود به کار می گیرند. اما در جهانِ عظیم داده و تحلیل گری پیشرفته، داده ها نقش اصلی و مرکزی در تبدیل فرآیندهای کلیدی کسب و کار و ایجاد فرصت های تجاری جدید را به عهده گرفته اند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش هجدهم)

Apache Crunch یک API با سطح بالاتر برای نوشتن pipelineهای MapReduce است. مهم‌ترین مزایای آن نسبت به MapReduce ساده، تمرکز آن بر روی برنامه‌نویسان انواع جاوا سازگار مانند رشته‌ها و اشیاء ساده قدیمی جاوا، مجموعه‌ای غنی‌تر از عملیات تبدیل داده‌ها و pipelineهای چند مرحله‌ای است

طراحی توسط ب.علی‌میرزایی