دسته بندی:کتاب بخوانیم

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش ششم)

در این فصل به بررسی جنبه‌های عملی توسعه برنامه‌های MapReduce در هدوپ می‌پردازیم. نوشتن یک برنامه در MapReduce یک الگوی مشخص را دنبال می‌کند. ابتدا با نوشتن تابع Map و Reduce شروع می‌شود و با تست آن‌ها از درستی کارکرد آن‌ها اطمینان حاصل خواهد شد. سپس یک برنامه را برای اجرای یک کار بنویسید که می‌تواند توسط IDE و با استفاده از یک زیرمجموعه کوچک از داده‌ها اجرا شود و در صورت اجرا نشدن، می‌توان از IDE برای اشکال‌زدایی آن استفاده کرد

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیستم)

در این فصل به معرفی ابزار Apache HBase پرداخته می‌شود. HBase یک پایگاه داده توزیع شده ستونی است که بر روی فایل سیستم هدوپ (HDFS) ایجاد شده است و به عنوان اپلیکیشن هدوپ هنگامی که نیازمند دسترسی تصادفی بلادرنگ برای خواندن/نوشتن در مجموعه داده‌های بسیار بزرگ می‌باشیم، مورد استفاده قرار می‌گیرد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش هفتم)

در این فصل، در مورد نحوه کارکرد Map Reduce Job در Hadoop بحث می‌شود و پایه خوبی را جهت نوشتن برنامه‌های پیشرفته‌تر Map Reduce را فراهم می‌کند. شما می‌توانید یک Map Reduce Job را با یک روش واحد اجرا کنید . این بخش گام‌هایی را که Hadoop برای اجرای یک job انجام می‌دهد را مشخص می‌کند و پوشش می‌دهد .

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش پنجم)

فصل چهارم: ورودی/ خروجی‌های هدوپ (Hadoop I/O) هدوپ قابلیت‌های اولیه برای ورودی/خروجی داده‌ها دارد. بعضی از آنها تکنیک‌های عمومی تری از هدوپ هستند مثل یکپارچگی داده‌ها و فشرده‌سازی اما کارکرد ویژه‌ای در قبال دیتاست های چندترابایتی ایفا می‌کنند. برخی از آنها نیز ابزارها یا API هایی هستند که ساختار یک سیستم توزیع شده (Distributed System) را تشکیل می‌دهند مثل سریال سازی (Serialization) یا ساختارهای روی-دیسک.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش چهارم)

آپاچی یارن(Apache Yarn) سیستم مدیریت منابع کلاستر هدوپ می باشد. یارن از ورژن 2 هدوپ معرفی گردید تا اجرای عملیات نگاشت-کاهش را بهبود ببخشد اما بطور کلی سایر پارادایم های محاسباتی توزیعی را نیز پشتیبانی می کند.

عظيم داده، چگونه داده ها، كسب و كارهاي بزرگ را قدرت مي بخشند(بخش دوازدهم)

داده ها همواره منبع حرکت بوده و باعث کسب قدرت تفکر تجاری بصری می شوند. در طول تاریخ سازمان های پیشرو، داده ها و تحلیل ها را برای شناسایی و اقدام در فرصت های پیش آمده در بازار سریعتر از رقبای خود به کار می گیرند. اما در جهانِ عظیم داده و تحلیل گری پیشرفته، داده ها نقش اصلی و مرکزی در تبدیل فرآیندهای کلیدی کسب و کار و ایجاد فرصت های تجاری جدید را به عهده گرفته اند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش هجدهم)

Apache Crunch یک API با سطح بالاتر برای نوشتن pipelineهای MapReduce است. مهم‌ترین مزایای آن نسبت به MapReduce ساده، تمرکز آن بر روی برنامه‌نویسان انواع جاوا سازگار مانند رشته‌ها و اشیاء ساده قدیمی جاوا، مجموعه‌ای غنی‌تر از عملیات تبدیل داده‌ها و pipelineهای چند مرحله‌ای است

کتاب "تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها" (بخش سوم)

فصل سوم کتاب تحلیل عظیم داده، سیستم‌ها، الگوریتم‌ها و کاربردها، به بررسی دقیق‌ مدل‌های تحلیلی برای جریان‌ داده می‌پردازد و مدل‌های تحلیلی، محاسباتی و برنامه‌نویسی که قابلیت کاربرد در تحلیل عظیم داده را دارد مورد بحث قرار می‌دهد. تحلیل عظیم داده می‌تواند پیچیدگی‌های درون یک مجموعه داده را به هوش تجاری قابل استفاده تبدیل کند و تصمیم‌گیری‌های دقیق‌تری را موجب شود.

عظيم داده، چگونه داده ها، كسب و كارهاي بزرگ را قدرت مي بخشند(بخش دهم)

مهندسی راه‌کار این چنین تعریف می‌شود: “فرایند شناسایی و طبقه‌بندی تواناییهای بالقوه یک سازمان و تبدیل آنها به قابلیت‌های کسب‌و کار و و مولفه‌های پشتیبانی از فناوری تا بتوان با استفاده از آنها از تصمیم‌گیری های درون سازمانی و فعالیت‌های پول ساز داده ها حمایت کرد.”

طراحی توسط ب.علی‌میرزایی