کتاب "تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها" (بخش هفتم)

تولید داده توسط کاربران در فضای تعاملی صفحات وب و رسانه‌های اجتماعی مختلف یکی از منابع داده‌ای غنی در تحلیل عظیم‌داده محسوب می‌شود که در بخش هفتم کتاب "تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها" به آن پرداخته شده است.

معرفی کتاب کاوش در داده‌های حجیم (Mining of Massive datasets)

کتاب فوق جزو کتب مرجع چند درس در دانشگاه استنفورد می‌باشد. این کتاب به موضوع داده‌کاوی اختصاص دارد اما برای مقادیر بسیار بزرگ داده. حجم داده‌ها به حدی است که در یک حافظه نمی‌گنجد و برای همین بسیاری از مثالهای کتاب در خصوص داده‌های شبکه وب یا برگرفته از وب هستند. ضمنا، این کتاب نگاهی الگوریتمی به داده‌کاوی دارد و آن را صرفا ابزاری برای trainکردن یک موتور یادگیری ماشین نمی‌داند.

معرفی ابزار Apache NIFI

NiFi به زبان ساده، برنامه‌ای است که برای خودکارسازی جریان داده‌ها بین سیستم‌ها ساخته شده است. در حالی که اصطلاح "Dataflow" در زمینه‌های مختلف مورد استفاده قرار می‌گیرد، منظور ما از آن همان جریان خودکار و مدیریت شده اطلاعات بین سیستم‌ها می‌باشد. مشکل فضای ذخیره‌سازی داده‌ها از زمانیکه شرکت‌ها دارای بیش از یک سیستم بوده‌اند بوجود آمده است، جایی که برخی از سیستم‌ها تولید کننده داده و برخی از سیستم‌های مصرف کننده آن می‌باشند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش ششم)

در این فصل به بررسی جنبه‌های عملی توسعه برنامه‌های MapReduce در هدوپ می‌پردازیم. نوشتن یک برنامه در MapReduce یک الگوی مشخص را دنبال می‌کند. ابتدا با نوشتن تابع Map و Reduce شروع می‌شود و با تست آن‌ها از درستی کارکرد آن‌ها اطمینان حاصل خواهد شد. سپس یک برنامه را برای اجرای یک کار بنویسید که می‌تواند توسط IDE و با استفاده از یک زیرمجموعه کوچک از داده‌ها اجرا شود و در صورت اجرا نشدن، می‌توان از IDE برای اشکال‌زدایی آن استفاده کرد

کاربرد عظیم داده‌ها در موسیقی: Next Big Sound

در سال  2009 جمعی از فارغ التحصیلان دانشگاه Northwestern آمریکا به هدایت Alex White با جمع آوری داده‌های همه هنرمندان موسیقی در دنیا شروع کردند. آنها از طریق مصورسازی، داده های متنی و ارسال ایمیل‌های دوستانه میخواهند سواد داده‌ای را افزایش داده و اهمیت آن را به هنرمندان نشان دهند.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیستم)

در این فصل به معرفی ابزار Apache HBase پرداخته می‌شود. HBase یک پایگاه داده توزیع شده ستونی است که بر روی فایل سیستم هدوپ (HDFS) ایجاد شده است و به عنوان اپلیکیشن هدوپ هنگامی که نیازمند دسترسی تصادفی بلادرنگ برای خواندن/نوشتن در مجموعه داده‌های بسیار بزرگ می‌باشیم، مورد استفاده قرار می‌گیرد.

معرفی ابزار آپاچی هایو (Apache Hive)

آپاچی هایو یک پروژۀ نرم افزاری انبار داده است که بر روی ساختار آپاچی هدوپ ایجاد شده و برای خلاصه سازی داده ها، پرس و جو و تجزیه و تحلیل آنها بکار می رود. هایو یک رابط کاربری شبه SQL دارد که برای پرس و جوی داده های ذخیره شده در پایگاه داده ها وفایل سیستم های مختلف بکار می رود.

معرفی ابزار آپاچی کافکا (Apache Kafka)

آپاچی کافکا(Apache Kafka) در ابتدا توسط لینکدین توسعه یافت و در اوایل سال 2011 بصورت نرم افزار متن باز در آمد. در نوامبر ۲۰۱۴ ، چندین مهندس که در لینکدین بر روی کافکا کار می‌کردند یک شرکت جدید به نام Confluent ایجاد کرده و به صورت انحصاری بر روی توسعه کافکا کار کردند. بر اساس یک پست در سال 2014 به نظر می رسد که جی کربس نام این برنامه را از نام فرانتس کافکا نویسنده آلمانی برداشت کرده است.

طراحی توسط ب.علی‌میرزایی