- خانه
- نوشتارهای علمی
- معرفی مقاله: “A Data Quality in Use model for Big Data”
معرفی مقاله: “A Data Quality in Use model for Big Data”
نام مقاله: A Data Quality in Use model for Big Data
نویسندگان: Merino Jorge, Caballero Ismael, Rivas Bibiano, Serrano Manuel, Piattini Mario
ژورنال: Future Generation Computer Systems
شماره: Volum63
سال انتشار: 2016
تعداد ارجاعات: 54
خلاصه:
کیفیت داده به عنوان فاکتور کلیدی در تعیین ارزشمندی داده محسوب میشود. در مورد مفاهیم کیفیت داده، مقالات و منابع متعددی نوشته شده است که به موضوعات مختلف نظیر ابعاد کیفیت، شاخصهای کیفیت و متدلوژیهای ارزیابی و... پرداختهاند. اما سوالی که در زمینهی عظیم داده (big data) مطرح میشود این است که آیا تمامی مفاهیم سنتی کیفیت داده برای دادههای معمولی، در مورد عظیم دادهها صدق میکنند یا نیاز به بازنگری در برخی از این مفاهیم میباشد؟
در این مقاله با زمینهمند کردن معیارهای کیفیت ایزو 25024 در عظیمداده و مطالعه موردی در صنعت مالی؛ ابعاد کیفیت داده برای عظیمدادهها بازتعریف شده و نهایتا یک چارچوب جامع برای بررسی کیفیت عظیمدادهها بر اساس این ابعاد ارائه شده است. برای تبیین دقیق ابعاد کیفیت عظیم داده، ابتدا مفهوم کفایت شرح داده شده است؛ چرا که طبقهبندی کیفیت دادهها در این پژوهش بر همین اساس میباشد. منظور از کفایت، به اندازه بودن و کافی بودن یک ویژگی بر اساس هدف و زمینهای میباشد که قصد استفاده کردن از آن را داریم. به عنوان مثال مقصود از کفایت داده، میزانی از دادهها میباشد که برای رساندن به هدف خاص در زمینه خاص به اندازهی کافی باشد. ابعاد کیفیت عظیم داده را بر اساس همین مفهوم به سه دسته تقسیم میکند:
1) کفایت زمینهای: کیفیت مجموعهای از دادهها بر اساس زمینه و نظر افراد مصرف کننده، فارغ از فرمت (ساختاریافته و غیرساختاریافته) و اندازهای که دارند. در این زمینه، مرتبط بودن و کامل بودن دادهها (میزانی از دادهها که برای تحلیل یک موضوع خاص مورد نیاز است) اهمیت دارد. قابل فهم بودن دادهها در قالب متن و زمینهای که مطرح میشوند و نبود ابهام و ناسازگاری در مجموعه دادهها از موارد دیگر در این بعد میباشند. قابل اعتماد بودن و محرمانگی دادهها و انطباق با قوانینی که ممکن است در یک موضوع خاص مطرح گردند در این دسته جای میگیرند.
2) کفایت زمانی: منظور از کفایت زمانی، صرفا بهروز بودن دادهها نمیباشد؛ چرا که به روز بودن تنها یکی از شاخصههای این بعد میباشد. با توجه به جمعآوری داده از منابع دادهای مختلف، همزمانی این دادهها در این منابع نیز حائز اهمیت میباشد و از این جهت، نباید شاهد ناسازگاری زمانی بین منابع دادهای مختلف باشیم.
3) کفایت عملیاتی: کفایت عملیاتی به بررسی کیفیت خود دادهها در فرآیند تولید تا استفاده و مصورسازی میپردازد. در دسترس بودن دادهها، امکان بازیابی و قابل ردیابی بودن دادهها در این طبقهبندی جای میگیرد.
بعد از طبقهبندی ابعاد کیفیت داده، چارچوبی برای ارزیابی کیفیت عظیم داده ارائه شده است که شامل مراحل زیر میباشد:
- تعیین کردن نیازمندیهای کیفیت عظیمداده در زمینهای که قصد استفاده و تحلیل داریم. این نیازمندیها از یک پروژه به پروژه دیگر و از یک مصرف کننده به مصرفکننده دیگر متفاوت میباشد و تعیین آن بر اساس هدف کاربر از دادهها و زمینهای که قصد تحلیل کردن وجود دارد؛ میباشد. در صورتی که این نیازمندیها به هر دلیلی به درستی تشخیص داده نشود؛ مراحل بعدی دچار مشکل خواهند شد.
- بعد از مشخص کردن نیازمنديهای کیفیت دادهها، در این مرحله به تعیین ابعاد کفایت مطرح شده در قسمتهای قبلی، پرداخته میشود. هدف از این قسمت پی بردن به اهمیت ابعاد کیفیتی میباشد که در نیازمندیها اهمیت بیشتری دارند.
- بعد از تعیین اهمیت هر یک از ابعاد کفایتی، به بررسی ویژگیهای مهمی که در هرکدام از طبقهها نقش مهمی ایفا میکنند؛ پرداخته میشود. برای مثال اگر بعد کفایت زمانی اهمیت پیدا میکند، باید ویژگیهای زمانی اعم از بهروز بودن دادهها با توجه به زمینه تحلیل، نبود ناسازگاری زمانی بین منابع دادهای مختلف بررسی گردند.
- هر کسب و کاری قواعد و قانونی دارد که باعث محدود کردن دادهها میشود، همچنین با توجه به قواعد کسب و کار ممکن است بعضی از ویژگیهای عظیم داده با اهمیتتر محسوب شوند.
- در طول ارزیابی کیفیت عظیم داده، همواره دادههایی که از منابع بیرونی در حال بهروزرسانی میباشند؛ باید در طول فرآیند ارزیابی کیفیت داده، دائماً مورد ارزیابی و بررسی قرار بگیرند.
- با توجه به مراحل طی شده و شاخصهای موجود، کیفیت داده، اندازهگیری میشود و گزارشهای مربوط به ارزیابی کیفیت دادهها ارائه میشود. بسته به اینکه میزان کیفیت دادهها به چه صورت بوده است و آیا با نیازمندیهای تعریف شده مطابقت داشته یا نه، اقدامات مختلفی برای بهبود کیفیت عظیم دادهها در نظر گرفته خواهد شد.
دسته بندی
- معرفی ابزار 27
- مطالعه موردی 27
- کتاب بخوانیم 50
- معرفی کتاب 32
- مرور منابع علمی 35
- اینفوگرافیک 7
- تجربه داخلی 4
- مصاحبه 22
- معرفی کسب و کار داده محور 10
- معرفی سرویس 7