نام مقاله: A Data Quality in Use model for Big Data

نویسندگان: Merino Jorge, Caballero Ismael, Rivas Bibiano, Serrano Manuel, Piattini Mario

ژورنال: Future Generation Computer Systems

شماره: Volum63

سال انتشار: 2016

تعداد ارجاعات: 54

خلاصه:

کیفیت داده به عنوان فاکتور کلیدی در تعیین ارزشمندی داده محسوب می­‌شود. در مورد مفاهیم کیفیت داده، مقالات و منابع متعددی نوشته شده است که به موضوعات مختلف نظیر ابعاد کیفیت، شاخص‌­های کیفیت و متدلوژی‌­های ارزیابی و... پرداخته‌اند. اما سوالی که در زمینه‌­ی عظیم‌­ داده­ (big data) مطرح می­‌شود این است که آیا تمامی مفاهیم سنتی کیفیت داده برای داده­‌های معمولی، در مورد عظیم ­داده­‌ها صدق می­‌کنند یا نیاز به بازنگری در برخی از این مفاهیم می‌­باشد؟

در این مقاله با زمینه‌مند کردن معیارهای کیفیت ایزو 25024 در عظیم‌داده و مطالعه موردی در صنعت مالی؛ ابعاد کیفیت داده برای عظیم‌داده‌ها بازتعریف شده و نهایتا یک چارچوب جامع برای بررسی کیفیت عظیم‌داده‌ها بر اساس این ابعاد ارائه شده است. برای تبیین دقیق ابعاد کیفیت عظیم ‌داده، ابتدا مفهوم کفایت شرح داده شده است؛ چرا که طبقه‌بندی کیفیت داده‌ها در این پژوهش بر همین اساس می‌باشد. منظور از کفایت، به اندازه بودن و کافی بودن یک ویژگی بر اساس هدف و زمینه‌ای می‌­باشد که قصد استفاده کردن از آن را داریم. به عنوان مثال  مقصود از کفایت داده، میزانی از داده­‌ها می‌باشد که برای رساندن به هدف خاص در زمینه خاص به اندازه‌ی کافی باشد. ابعاد کیفیت عظیم ‌داده را بر اساس همین مفهوم به سه دسته تقسیم می‌کند:

1) کفایت زمینه‌ای: کیفیت مجموعه­‌ای از داده‌­ها بر اساس زمینه و نظر افراد مصرف کننده، فارغ از فرمت (ساختاریافته و غیرساختاریافته) و اندازه‌ای که دارند. در این زمینه، مرتبط بودن و کامل بودن داده‌­ها (میزانی از داده­‌ها که برای تحلیل یک موضوع خاص مورد نیاز است) اهمیت دارد. قابل فهم بودن داده‌­ها در قالب متن و زمینه‌ای که مطرح می‌­شوند و نبود ابهام و ناسازگاری در مجموعه داده‌­ها از موارد دیگر در این بعد می‌­باشند. قابل اعتماد بودن و محرمانگی داده­‌ها و انطباق با قوانینی که ممکن است در یک موضوع خاص مطرح گردند در این دسته جای می‌گیرند.

2) کفایت زمانی: منظور از کفایت زمانی، صرفا به‌روز بودن داده­‌ها نمی­‌باشد؛ چرا که به روز بودن تنها یکی از شاخصه‌­های این بعد می‌باشد. با توجه به جمع‌آوری داده از منابع داده‌­ای مختلف، همزمانی این داده‌­ها در این منابع نیز حائز اهمیت می­‌باشد و از این جهت، نباید شاهد ناسازگاری زمانی بین منابع داده‌­ای مختلف باشیم.

3) کفایت عملیاتی: کفایت عملیاتی به بررسی کیفیت خود داده‌­ها در فرآیند تولید تا استفاده و مصورسازی می‌­پردازد. در دسترس بودن داده‌ها، امکان بازیابی و قابل ردیابی بودن داده­‌ها در این طبقه‌بندی جای می­‌گیرد.

بعد از طبقه‌‌بندی ابعاد کیفیت داده، چارچوبی برای ارزیابی کیفیت عظیم ‌داده ارائه شده است که شامل مراحل زیر می‌باشد:

  • تعیین کردن نیازمندی‌های کیفیت عظیم‌داده در زمینه‌­ای که قصد استفاده و تحلیل داریم. این نیازمندی‌ها از یک پروژه به پروژه دیگر و از یک مصرف کننده به مصرف‌کننده دیگر متفاوت می­‌باشد و تعیین آن بر اساس هدف کاربر از داده­‌ها و زمینه‌­ای که قصد تحلیل کردن وجود دارد؛ می‌باشد. در صورتی که این نیازمندی­‌ها به هر دلیلی به درستی تشخیص داده نشود؛ مراحل بعدی دچار مشکل خواهند شد.
  • بعد از مشخص کردن نیازمندي‌های کیفیت داده‌­ها، در این مرحله به تعیین ابعاد کفایت مطرح شده در قسمت‌های قبلی، پرداخته می‌شود. هدف از این قسمت پی بردن به اهمیت ابعاد کیفیتی می‌­باشد که در نیازمندی­‌ها اهمیت بیشتری دارند.
  • بعد از تعیین اهمیت هر یک از ابعاد کفایتی، به بررسی ویژگی­‌های مهمی که در هرکدام از طبقه­‌ها نقش مهمی ایفا می‌­کنند؛ پرداخته می‌شود. برای مثال اگر بعد کفایت زمانی اهمیت پیدا می­‌کند، باید ویژگی­‌های زمانی اعم از به‌روز بودن داده‌­ها با توجه به زمینه تحلیل، نبود ناسازگاری زمانی بین منابع داده‌­ای مختلف بررسی گردند.
  • هر کسب و کاری قواعد و قانونی دارد که باعث محدود کردن داده‌­ها می‌­شود، هم­چنین با توجه به قواعد کسب و کار ممکن است بعضی از ویژگی‌های عظیم داده با اهمیت‌تر محسوب شوند.
  • در طول ارزیابی کیفیت عظیم داده، همواره داده‌­هایی که از منابع بیرونی در حال به‌روزرسانی می‌باشند؛ باید در طول فرآیند ارزیابی کیفیت داده، دائماً مورد ارزیابی و بررسی قرار بگیرند.
  • با توجه به مراحل طی شده و شاخص‌­ها­ی موجود، کیفیت داده­، اندازه‌گیری می‌شود و گزارش­‌های مربوط به ارزیابی کیفیت داده‌­ها ارائه می­‌شود. بسته به اینکه میزان کیفیت داده‌­ها به چه صورت بوده است و آیا با نیازمندی­‌های تعریف شده مطابقت داشته یا نه، اقدامات مختلفی برای بهبود کیفیت عظیم داده­‌ها در نظر گرفته خواهد شد.

دریافت فایل