کتاب فوق جزو کتب مرجع چند درس در دانشگاه استنفورد می‌باشد. این کتاب به موضوع داده‌کاوی اختصاص دارد اما برای مقادیر بسیار بزرگ داده. حجم داده‌ها به حدی است که در یک حافظه نمی‌گنجد و برای همین بسیاری از مثالهای کتاب در خصوص داده‌های شبکه وب یا برگرفته از وب هستند. ضمنا، این کتاب نگاهی الگوریتمی به داده‌کاوی دارد و آن را صرفا ابزاری برای trainکردن یک موتور یادگیری ماشین نمی‌داند.

عناوینی که در  اینجا بررسی می‌شوند:

  • سیستمهای فایلی توزیع شده و الگوریتم map-reduce
  • جستجوی تشابه با الگوریتم های کلیدی minhashing و Locality-sensitive hashing
  • پردازش جریان داده و الگوریتم‌های تخصصی آن که باید با سرعت یا در لحظه اجرا شوند
  • فناوری موتورهای جستجو مثل Page-Rank از گوگل و link-spam detection
  • کاوش مجموعه‌ داده‌های مکرر
  • الگوریتمهای خوشه بندی داده های بسیار بزرگ و با ابعاد بالا
  • دو مسئله اصلی برنامه‌های وب: مدیریت تبلیغات و سیستمهای توصیه گر
  • الگوریتمهای تحلیل ساختار گراف‌ها و شبکه‌های اجتماعی بسیار بزرگ
  • تکنیک‌های کشف ویژگی‌های مهم داده‌های بزرگ با استفاده از کاهش ابعاد
  • الگوریتم‌های یادگیری ماشین که قابل پیاده سازی روی داده‌های بسیار بزرگ هستند مثل Perceptrons, SVM و Gradient descent

دریافت فایل