نام مقاله:

"An analytical study of information extraction from unstructured and multidimensional big data"

نویسندگان:

Kiran Adnan and Rehan Akbar

ژورنال: Journal of big data

سال انتشار:2019

خلاصه:

یکی از ویژگی‌های مهم عظیم‌داده، تنوع ساختار داده‌ای از منابع مختلف می‌باشد؛ که  چالش‌های متعددی را در زمینه استخراج اطلاعات از عظیم‌داده‌ها به وجود می‌آورد؛ چرا که سیستم‌های سنتی استخراج اطلاعات برای داده‌های متنی، صوتی، تصویری و ویدئویی کارآیی مناسبی نخواهند داشت. از این رو نیاز است تا موضوعات مختلف استخراج اطلاعات در عظیم داده و چالش‌هایی که با آن مواجه می‌شویم، به طور جامع بررسی شوند. مقالات مختلفی در زمینه‌ استخراج اطلاعات عظیم داده برای انواع مختلف داده منتشر شده است، اما هیچ کدام به طور جامع به تمامی انواع داده‌های غیرساختاریافته نپرداخته‌اند. این مقاله با مرور سیستماتیک پژوهش‌های انجام شده در زمینه استخراج اطلاعات  عظیم‌داده در بازه زمانی 2013 تا 2018 قصد دارد به دو سوال زیر پاسخ دهد:

  • چه رویکردهایی برای استخراج اطلاعات از داده‌های غیرساختاریافته عظیم‌داده وجود دارد؟
  • مهم‌ترین موضوعات و چالش‌های مربوط به استخراج اطلاعات برای هر نوع داده‌ای چیست؟

به طور کلی فرآیند استخراج اطلاعات به تحلیل و بررسی اطلاعات ساختاری مفیدی از داده‌های بدون ساختار که در قالب موجودیت، روابط، اشیاء، رویدادها و موارد دیگر به دست می‌آیند، می پردازد؛ تا به این ترتیب بتوان به اطلاعات ارزشمندی از میان حجم عظیمی از داده‌های غیرساختاریافته دست یافت. همانطور که در تصویر زیر می‌توان مشاهده کرد؛ مقصود از داده‌های غیرساختاریافته، داده‌های متنی، صوتی، تصویر و ویدیویی می‌باشد که در هر یک از این انواع موضوعات و چالش‌های خاصی وجود دارد که به طور خلاصه به آن می‌پردازیم:

 

 

  • داده های متنی:

یکی از موضوعاتی که در استخراج داده‌های متنی با آن رو به رو هستیم، زبان پردازش طبیعی است؛ که به کمک آن داده‌های متنی که توسط انسان تولید شدند؛ تحلیل و بررسی می‌شوند. مهم‌ترین موضوعات مطرح شده در مقالات داده‌های متنی، مربوط به ترجمه ماشین، سیستم اتوماتیک پاسخگویی به سوالات، بازیابی اطلاعات و فهم زبان انسانی می‌باشد. یکی از مهم‌ترین موضوعات مطرح شده در داده‌های متنی، تشخیص عناوین موجودیت‌ها می باشد، که به کمک آن می‌توان همزمان به ویژگی‌های  کلی و جزئی همچون مکان، اشخاص، سازمان و ... پی برد. بعد از تشخیص عناوین موجودیت و استخراج ویژگی‌های ذاتی هر یک، نوبت به استخراج روابط از طریق تحلیل‌های موضوعی و زمینه‌ای می‌رسد تا به این ترتیب تمام جنبه‌های نهفته در داده‌های متنی را بتوان استخراج کرد. ترکیب مراحل اول و دوم منجر به استخراج وقایع و رویدادها از داده های متنی خواهد شد که ارزشمندترین خروجی داده‌های متنی خواهند بود. مهم‌ترین  چالش‌های مطرح شده در استخراج اطلاعات متنی مربوط به ابهام متن، کمبود منابع، موجودیت‌های به‌هم ‌پیوسته و پیچیده، ناهمگونی موجودیت‌ها، شناسایی اطلاعات نویز ، تنوع و وجود زبان‌های مختلف زبان و  .... می‌باشد.

  • داده های تصویری:

داده‌های تصویری یکی دیگر از انواع داده‌ها می‌باشند که استخراج و تحلیل دقیق آنها می‌تواند اطلاعات سودمندی را در اختیار تحلیلگر قرار دهد. یکی از موضوعات مهم استخراج اطلاعات تصویری، تشخیص رابطه بین اجزای موجود در هر تصویر می‌باشد، چرا که خروجی آن می‌تواند در بازیابی اطلاعات و محتوای تصویر، پاسخگویی تصویری به سوالات، طبقه بندی اشیا موجود در تصاویر مورد استفاده قرار بگیرد. از جمله موضوعات مهم در استخراج اطلاعات از داده‌های تصویری، تشخیص و تولید متن برای تصویر می‌باشد، به این صورت که با داده‌های ورودی تصویری، اطلاعات متنی مفیدی در مورد هر تصویر به صورت اتوماتیک تولید شود. توسعه سیستم‌های تولید متنی مبتنی بر تصاویر در این دسته قرار می‌گیرند که سعی دارند متناسب با هر عکس متن مناسب و مختص آن را تولید نمایند.

 

  • داده های صوتی:

فایل‌ها و داده‌های صوتی یکی دیگر از انواع داده‌ها می‌باشند که می‌توانند به طرق مختلفی تولید شوند. یکی از منابع مهم در این نوع داده‌ها را می‌توان در مراکز تماس یافت که اطلاعات ارزشمندی در مورد مشتریان قابل استخراج می‌باشد. از مهم‌ترین موضوعات مطرح شده در استخراج داده‌های صوتی می‌توان به استخراج رویدادهای صوتی زمینه‌ای از طریق تحلیل پیوسته سیگنال‌های صوتی و تبدیل آن‌ها به نماد‌های توصیفی مفید نام برد. این نوع تحلیل‌ها با هدف شناسایی الگو، پایش و نظارت می‌توانند انجام شوند و نهایتا به صورت اتوماتیک برای هر صوت، موضوع و تگ مخصوص آن تولید شود.

 

  • داده‌های ویدیویی:

آخرین نوع داده‌ای که در این مقاله به بررسی آن پرداخته شده است، داده‌های ویدیویی می‌باشد که شاید بتوان، توسعه شبکه‌های اجتماعی را مهم‌ترین پیشران در تولید حجم انبوهی داده از این جنس تلقی کرد. اصلی‌ترین هدف استخراج اطلاعات از داده‌های ویدیویی، فهمیدن اطلاعات مرتبط با یک موضوع در محتوای فیلم می‌باشد. خروجی‌های کاربردی این تحلیل می‌تواند به تحلیل‌های در لحظه و اتوماتیک افراد در حالات مختلف، تحلیل و کدگذاری‌های محتوا محور اشاره کرد. به دلیل تولید حجم انبوهی از داده‌های ویدیویی در قالب پلتفرم‌های مختلف، یکی از موضوعات جدیدی که در مورد استخراج داده‌های ویدیویی مورد بررسی قرار گرفته است، خلاصه‌سازی اتوماتیک این داده‌ها می‌باشد، تا بتوان از میان این حجم انبوه داده، اطلاعات سودمندی را استخراج نمود.

در انتهای مقاله فوق برای جمع بندی موضوعات و چالش‌های موجود در استخراج اطلاعات برای هر نوع داده، یک چارچوب کلی ارائه شده است که در آن 4 موضوع مهم مورد تاکید قرار گرفته است:

  • آماده‌سازی و پیش پردازش پیشرفته برای داده‌های غیر ساختار یافته: از آنجایی که اکثریت چالش‌های مطرح شده در استخراج اطلاعات در تمامی انواع داده از تصویر، متن، صوت و ویدیو مربوط به کیفیت و مفید بودن اطلاعات می‌باشد؛ همواره باید در فاز آماده‌سازی و پیش‌پردازش داده‌ها، زمان مناسبی را صرف کرد چرا که ورودی داده‌های با کیفیت پایین، نتایج قابل اعتمادی را تولید نخواهند کرد.
  • استخراج عملگرایانه داده: برای استخراج اطلاعات مفید از انواع داده‌های مختلف، همواره باید به مسئله و هدفی که به دنبال آن هستیم توجه کنیم و در راستای آن هدف به بهبود کیفی و مفید بودن داده‌ها بپردازیم.
  • زمینه و محتوای معنایی: از آنجایی که یکی از موضوعات و چالش‌های مطرح شده در تحلیل داده‌ها استخراج روابط بین موجودیت‌ها می‌باشد، همواره باید به زمینه معنایی که داده تولید می‌شود توجه کنیم.
  • انتخاب تکنیک: انتخاب مناسب‌ترین تکنیک بر اساس داده‌ها تاثیری بسزایی در نتیجه نهایی فرآیند استخراج اطلاعات از داده‌های غیرساختاریافته خواهند داشت، چرا که تکنیک‌های سنتی که سابق بر این برای استخراج اطلاعات استفاده می‌شد، با توجه به ویژگی‌های عظیم داده و تنوع داده‌ها، کارآمدی بالایی نخواهند داشت. تصویر این چارچوب کلی به شرح زیر می‌باشد:

دریافت فایل