دسته بندی:کتاب بخوانیم
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش چهاردهم)
در این فصل به معرفی ابزار Apache Flume پرداخته میشود که یک راهحل قابل اعتماد و توزیع شده برای جمعآوری، انباشت و انتقال مجموعه عظیمداده است.
کتاب "تحلیل عظیمداده، سیستمها، الگوریتمها و کاربردها" (بخش اول)
فصل اول کتاب تحلیل عظیم داده، سیستمها، الگوریتمها و کاربردها، با معرفی اولیه و اهمیت عظیم داده برای کسب و کارها شروع میشود و سپس با بررسی تفاوتهای ایجاد شده در عظیم داده در مقایسه با دادههای سنتی، ضرورت به کارگیری از پردازشهای موازی در قالب اکوسیستم هدوپ را مطرح میکند تا با معرفی اجزای سازنده اصلی آن در لایههای مختلف؛ اطلاعات کلی در مورد هدوپ را در اختیار خوانندگان قرار دهد.
عظيم داده، چگونه داده ها، كسب و كارهاي بزرگ را قدرت مي بخشند(بخش هشتم)
"عظيم داده، چگونه داده ها، كسب و كارهاي بزرگ را قدرت مي بخشند" "Big Data, Understanding How Data Powers Big Business" بخش هشتم:"Big Data User Experience Ramifications" تجربیات کاربردهای عظيم داده ها
عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند(بخش هفتم)
"عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند" "Big Data, Understanding How Data Powers Big Business" بخش هفتم: "”Understanding Your Value Creation Process " درک فرایند تولید ارزش"
عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند(بخش ششم)
" Creating the Big Data Strategy" " ایجاد (سند) استراتژی عظیم داده"
"عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند"(بخش چهارم)
"عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند" "Big Data, Understanding How Data Powers Big Business
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و چهارم)
آبشار (Cascading) یک کتابخانه جاوای منبع باز و API است که یک لایه انتزاعی برای MapReduce فراهم میکند. این برنامهنویسها را قادر میسازد تا برنامههای پیچیده و مهم برای پردازش دادهها را که روی خوشههای Hadoop اجرا میشوند، ایجاد کنند. این فصل از کتاب با مقدمهای بر مفاهیم اصلی Cascading آغاز میشود، سپس در یک مطالعه موردی با مروری بر نحوه استفاده ShareThis از Cascading در زیرساختهای خود به پایان میرسد.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش سیزدهم)
قالب Apache Paraquet که یک شیوه ذخیرهسازی ستونی است، میتواند برای دادههای تو در تو (nested) بسیار مناسب باشد. قالبهای ستونی به این دلیل که بازدهی بهتری از نظر اندازه فایل و کارآیی query دارند، جذاب هستند. از آنجایی که دادههای موجود در یک ستون، قالبا از یک جنس هستند، کدگذاری آنها (Encoding) آسان است. برای مثال اگر یک ستون شامل دادههای زمانی با فواصل مشخص باشد، صرفا ذخیرهسازی داده اول و بازهی زمانی بین هر دو سطر، کفایت میکند.
"عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند"(بخش پنجم)
"عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند" "Big Data, Understanding How Data Powers Big Business"
"عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند"(بخش سوم)
"عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند" "Big Data, Understanding How Data Powers Big Business"
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و سوم)
این بخش از کتاب به ارائه مطالعه موردی در خصوص به کارگیری علم داده در حوزه علوم زیستی میپردازد. پردازش بههنگام ژنوم افراد، این اجازه را به پژوهشگران خواهد داد تا مکانیزمهای ژنتیکی مربوط به بیماریها را درک کرده و این کشفها را به مدل درمانی شخصیسازی شده جهت بهبود درمان آن بیماران تبدیل نمایند. ADAM پلتفرمی برای تحلیل ژنوم است که بر روی پردازش چندین پتابایت داده کامل ژنوم با پوشش بالا و سریع متمرکز شده است. این پلتفرم مبتنی بر Apache Avro ،Parquet و Spark است.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش یازدهم)
در این فصل به دنبال روشی برای اجرای درست کلاستر هستیم و ساختار دایرکتوری namenode و سایر زیرقسمتهای آن را بررسی خواهیم کرد.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش دوازدهم)
آورو (AVRO) آورو (AVRO) یک استاندارد به منظور سریال سازی داده است که توسط doug cotting داگ کاتینگ (Doug Cotting) و به منظور فائق آمدن بر مشکل portable نبودن Writable های هدوپ در زبان های مختلف ، معرفی شد. با در اختیار داشتن چنین استانداردی در تولید فایل، امکان استفاده از آن داده ها در زبان های مختلف (C, C++, C#, Java, JavaScript, Perl, PHP, Python, و Ruby) فراهم میگردد.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش نهم)
در این فصل به برخی قابلیتهای پیشرفتهتر MapReduce شامل شمارندهها و مرتبسازی (sorting) و به هم پیوستن (joining) دیتاستها پرداخته شده است. همچنین توزیع دادههای جانبی و کلاسهای کتابخانه MapReduce معرفی شدهاند که در ادامه به طور خلاصه به هر یک از آنها میپردازیم.
"عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند"(بخش دوم)
در بخش دوم کتاب "عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند"به بررسی تاریخچه عظیم داده میپردازیم .
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش دهم)
این بخش به توضیح چگونگی تنظیم هدوپ روی کلاستر ماشینها میپردازد. اجرای فایلسیستم توزیعیافته هدوپ، نگاشت کاهشی و یارن بر روی یک ماشین برای یادگیری این سیستمها بسیار عالی است اما برای سودمند بودن، لازم است که بر روی نودهای چدگانه اجرا شوند.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و دوم)
فناوری اطلاعات در حوزه سلامت عموما به اتوماسیون فرایندهای موجود محدود میشود. این گزاره در حال تغییر است. تقاضای بهبود کیفیت خدمات درمانی و مدیریت هزینهها رو به افزایش است و این امر نیاز به سامانههایی را ایجاد میکند که بتوانند این اهداف را بهتر برآورده سازند. این فصل از کتاب به نمونه مطالعاتی شرکت سرنر در استفاده از اکوسیستم هدوپ میپردازد.
"عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند"(بخش اول)
در این پست دومین پست را با اسم "عظیمداده، چگونه دادهها، کسبوکارهای بزرگ را قدرت میبخشند"، شروع میکنیم.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و یکم)
تاکنون در این کتاب ، به بررسی پردازش داده در مقیاس بزرگ پرداخته شده است. این فصل متفاوت در مورد ساخت برنامههای کاربردی توزیع شده عمومی با استفاده از سرویس هماهنگی توزیع شده Hadoop، به نام ZooKeeper است.
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش هشتم)
MapReduce یک مدل ساده از پردازش دادهها را دارد: ورودیها و خروجیها برایmap و توابع reduce جفتهای کلید ارزش هستند. این فصل به تفصیل به مدل MapReduce میپردازد و به ویژه به اینکه چگونه دادهها در فرمتهای مختلف از متن ساده تا اشیاء باینری ساختارمند میتوانند با این مدل استفاده شوند.
دسته بندی
- معرفی ابزار 26
- مطالعه موردی 27
- کتاب بخوانیم 49
- معرفی کتاب 31
- مرور منابع علمی 32
- اینفوگرافیک 7
- تجربه داخلی 4
- مصاحبه 22
- معرفی کسب و کار داده محور 9
- معرفی سرویس 7