معرفی ابزار KNIME

KNIME که مخفف Konstanz Information Miner است یک ابزار منبع باز می باشد که برای گزارش‌دهی، ادغام، تحقیق، مدیریت روابط مشتریان، داده کاوی، تجزیه و تحلیل داده‌ها، استخراج متن و هوش کسب و کار استفاده می‌شود. این برنامه از سیستم عامل‌های لینوکس، OS X و ویندوز پشتیبانی می‌کند. این ابزار می‌تواند به عنوان جایگزین مناسبی برای SAS در نظر گرفته شود.

معرفی کتاب "Too Big to Ignore: The Business Case for Big Data"

این کتاب برای افراد و سازمان‌هایی که به دنبال فهم و بهره‌گیری از عظیم‌داده هستند، مشاوره عام و بدون اصطلاحات را ارائه می‌دهد و همراه با مطالعات موردی، نمونه‌ها، تجزیه و تحلیل و نقل قول‌هایی از متخصصان عظیم‌داده در دنیای واقعی، برای مدیران ارشد، صاحبان شرکت، رهبران صنعت و متخصصان مورد استفاده است.

کاربردهای تحلیل عظیم‌داده در صنعت تلکام

یکی از صنایع مهمی که همیشه با حجم عظیمی از داده‌ها و تحلیل آنها سروکار دارد مخابرات و بخصوص اپراتورهای موبایل می‌باشند. این بخش قصد داریم به معرفی دو مورد از کاربردهای عظیم‌داده در اپراتورهای موبایل بپردازیم.

معرفی مقاله: “An analysis on new hybrid parameter selection model performance over big data set”

این مقاله یک مدل پارامترسازی جایگزین را ارائه می‌دهد که قادر به تولید مجموعه ویژگی بهینه بدون نیاز به صرف هزینه زیاد بوده که بر اساس دو مدل یکپارچه ساخته شده و می‌تواند به عنوان یک مدل جایگزین در یک فرآیند تحلیلگری عظیم‌داده مورد استفاده قرار گیرد.

معرفی ابزار Statwing

 Statwing ابزاری ساده برای تحلیل داده‌های آماری است. این تحلیلگر برای عظیم داده ساخته شده است. رابط مدرن آن تست‌های آماری را بطور خودکار انتخاب می‌کند.

معرفی کتاب "تحلیل عظیم‌داده: ابزارها و فناوری‌های برنامه‌ریزی مؤثر"

این کتاب به بررسی جنبه‌های مختلف تحلیل عظیم‌داده پرداخته و ابزارها، فناوری، اپلیکیشن‌ها و موارد مطالعه و جهت‌گیری‌های پژوهشی این حوزه را رصد می‌کند. فصل‌های این کتاب با همکاری محققان، دانشمندان علم داده از دانشگاه‌ها و سازمان‌های مختلف به رشته تحریر درآمده است. 

معرفی مقاله "تعلیم و آموزش برای موفقیت مشاغل در عظیم‌داده و آنالیز کسب‌وکار"

در صورتی که ما استعداد کافی در مهارت‌های سخت ‌و ‌نرم‌ برای مواجهه با چالش BDBA را داشته باشیم، «عظیم داده و تجزیه‌و‌تحلیل کسب‌و‌کار» (BDBA) پتانسیل بسیار بالایی در افزایش ارزش سازمان دارد. در این مقاله تلاش شده تا به درک مجموعه مهارت مورد نیاز برای موفقیت در BDBA کمک شود.

معرفی ابزار آپاچی دریل (Apache Drill)

از ابزار آپاچی دریل برای ورود و تحلیل انواع داده استفاده می‌شود و برنامه‌ای متن ‌باز بوده که با یک محیط توزیع شده، برای تجزیه و تحلیل عظیم‌داده کاربرد دارد. در واقع این محصول یک پیاده‌سازی متن ‌باز از Google Dremel است.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش بیست و چهارم)

آبشار (Cascading) یک کتابخانه جاوای منبع باز و API است که یک لایه انتزاعی برای MapReduce فراهم می‌کند. این برنامه‌نویس‌ها را قادر می‌سازد تا برنامه‌های پیچیده و مهم برای پردازش داده‌ها را که روی خوشه‌های Hadoop اجرا می‌شوند، ایجاد کنند. این فصل از کتاب با مقدمه‌ای بر مفاهیم اصلی Cascading آغاز می‌شود، سپس در یک مطالعه موردی با مروری بر نحوه استفاده ShareThis از Cascading در زیرساخت‌های خود به پایان می‌رسد.

"ذخیره‌سازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ"(بخش سیزدهم)

قالب Apache Paraquet که یک شیوه ذخیره‌سازی ستونی است، می‌تواند برای داده‌های تو در تو (nested) بسیار مناسب باشد. قالب‌های ستونی به این دلیل که بازدهی بهتری از نظر اندازه فایل و کارآیی query دارند، جذاب هستند. از آنجایی که داده‌های موجود در یک ستون، قالبا از یک جنس هستند، کدگذاری آنها (Encoding) آسان است. برای مثال اگر یک ستون شامل داده‌های زمانی با فواصل مشخص باشد، صرفا ذخیره‌سازی داده اول و بازه‌ی زمانی بین هر دو سطر، کفایت می‌کند.

کاربرد عظیم‌داده در صنعت سلامت

عظیم‌داده باعث ایجاد هیجان زیادی در صنایع مختلف، از جمله مراقبت‌های بهداشتی شده است. در دهه‌های گذشته فناوری‌های بسیاری به کمک پزشکان آمده و با هدف ترکیب و تقاطع اطلاعات و استنتاج در بازه اطلاعاتی وسیع‌تر سعی دارد تشخیص و درمان را هرچه دقیق‌تر و سریع‌تر نماید. علاوه بر این، با استفاده گسترده از رسانه‌های اجتماعی و اینترنت اشیا، تجزیه و تحلیل عظیم‌داده توجه بسیاری از محققان را به خود جلب کرده است.

معرفی مقاله: "An analytical study of information extraction from unstructured and multidimensional big data"

یکی از ویژگی‌های اصلی عظیم داده، تنوع در ساختار داده و وجود داده‌های غیرساختاریافته همچون داده‌های متنی، صوتی، تصویری و ویدیویی می‌باشد که تاکنون مقالات متعددی در مورد استخراج و تحلیل هر یک از این انواع داده منتشر شده است. در این مقاله با مرور سیستماتیک مجموعه مقالات انجام شده داده‌های غیرساختاریافته عظیم داده در بازه زمانی 2013 تا 2018، به دو سوال زیر به تفکیک هر یک از داده‌های متنی، صوتی، تصویری و ویدیویی پاسخ داده شده است.

طراحی توسط ب.علی‌میرزایی