- خانه
- نوشتارهای علمی
- معرفی مقاله: "An analytical study of information extraction from unstructured and multidimensional big data"
معرفی مقاله: "An analytical study of information extraction from unstructured and multidimensional big data"
نام مقاله:
"An analytical study of information extraction from unstructured and multidimensional big data"
نویسندگان:
Kiran Adnan and Rehan Akbar
ژورنال: Journal of big data
سال انتشار:2019
خلاصه:
یکی از ویژگیهای مهم عظیمداده، تنوع ساختار دادهای از منابع مختلف میباشد؛ که چالشهای متعددی را در زمینه استخراج اطلاعات از عظیمدادهها به وجود میآورد؛ چرا که سیستمهای سنتی استخراج اطلاعات برای دادههای متنی، صوتی، تصویری و ویدئویی کارآیی مناسبی نخواهند داشت. از این رو نیاز است تا موضوعات مختلف استخراج اطلاعات در عظیم داده و چالشهایی که با آن مواجه میشویم، به طور جامع بررسی شوند. مقالات مختلفی در زمینه استخراج اطلاعات عظیم داده برای انواع مختلف داده منتشر شده است، اما هیچ کدام به طور جامع به تمامی انواع دادههای غیرساختاریافته نپرداختهاند. این مقاله با مرور سیستماتیک پژوهشهای انجام شده در زمینه استخراج اطلاعات عظیمداده در بازه زمانی 2013 تا 2018 قصد دارد به دو سوال زیر پاسخ دهد:
- چه رویکردهایی برای استخراج اطلاعات از دادههای غیرساختاریافته عظیمداده وجود دارد؟
- مهمترین موضوعات و چالشهای مربوط به استخراج اطلاعات برای هر نوع دادهای چیست؟
به طور کلی فرآیند استخراج اطلاعات به تحلیل و بررسی اطلاعات ساختاری مفیدی از دادههای بدون ساختار که در قالب موجودیت، روابط، اشیاء، رویدادها و موارد دیگر به دست میآیند، می پردازد؛ تا به این ترتیب بتوان به اطلاعات ارزشمندی از میان حجم عظیمی از دادههای غیرساختاریافته دست یافت. همانطور که در تصویر زیر میتوان مشاهده کرد؛ مقصود از دادههای غیرساختاریافته، دادههای متنی، صوتی، تصویر و ویدیویی میباشد که در هر یک از این انواع موضوعات و چالشهای خاصی وجود دارد که به طور خلاصه به آن میپردازیم:
- داده های متنی:
یکی از موضوعاتی که در استخراج دادههای متنی با آن رو به رو هستیم، زبان پردازش طبیعی است؛ که به کمک آن دادههای متنی که توسط انسان تولید شدند؛ تحلیل و بررسی میشوند. مهمترین موضوعات مطرح شده در مقالات دادههای متنی، مربوط به ترجمه ماشین، سیستم اتوماتیک پاسخگویی به سوالات، بازیابی اطلاعات و فهم زبان انسانی میباشد. یکی از مهمترین موضوعات مطرح شده در دادههای متنی، تشخیص عناوین موجودیتها می باشد، که به کمک آن میتوان همزمان به ویژگیهای کلی و جزئی همچون مکان، اشخاص، سازمان و ... پی برد. بعد از تشخیص عناوین موجودیت و استخراج ویژگیهای ذاتی هر یک، نوبت به استخراج روابط از طریق تحلیلهای موضوعی و زمینهای میرسد تا به این ترتیب تمام جنبههای نهفته در دادههای متنی را بتوان استخراج کرد. ترکیب مراحل اول و دوم منجر به استخراج وقایع و رویدادها از داده های متنی خواهد شد که ارزشمندترین خروجی دادههای متنی خواهند بود. مهمترین چالشهای مطرح شده در استخراج اطلاعات متنی مربوط به ابهام متن، کمبود منابع، موجودیتهای بههم پیوسته و پیچیده، ناهمگونی موجودیتها، شناسایی اطلاعات نویز ، تنوع و وجود زبانهای مختلف زبان و .... میباشد.
- داده های تصویری:
دادههای تصویری یکی دیگر از انواع دادهها میباشند که استخراج و تحلیل دقیق آنها میتواند اطلاعات سودمندی را در اختیار تحلیلگر قرار دهد. یکی از موضوعات مهم استخراج اطلاعات تصویری، تشخیص رابطه بین اجزای موجود در هر تصویر میباشد، چرا که خروجی آن میتواند در بازیابی اطلاعات و محتوای تصویر، پاسخگویی تصویری به سوالات، طبقه بندی اشیا موجود در تصاویر مورد استفاده قرار بگیرد. از جمله موضوعات مهم در استخراج اطلاعات از دادههای تصویری، تشخیص و تولید متن برای تصویر میباشد، به این صورت که با دادههای ورودی تصویری، اطلاعات متنی مفیدی در مورد هر تصویر به صورت اتوماتیک تولید شود. توسعه سیستمهای تولید متنی مبتنی بر تصاویر در این دسته قرار میگیرند که سعی دارند متناسب با هر عکس متن مناسب و مختص آن را تولید نمایند.
- داده های صوتی:
فایلها و دادههای صوتی یکی دیگر از انواع دادهها میباشند که میتوانند به طرق مختلفی تولید شوند. یکی از منابع مهم در این نوع دادهها را میتوان در مراکز تماس یافت که اطلاعات ارزشمندی در مورد مشتریان قابل استخراج میباشد. از مهمترین موضوعات مطرح شده در استخراج دادههای صوتی میتوان به استخراج رویدادهای صوتی زمینهای از طریق تحلیل پیوسته سیگنالهای صوتی و تبدیل آنها به نمادهای توصیفی مفید نام برد. این نوع تحلیلها با هدف شناسایی الگو، پایش و نظارت میتوانند انجام شوند و نهایتا به صورت اتوماتیک برای هر صوت، موضوع و تگ مخصوص آن تولید شود.
- دادههای ویدیویی:
آخرین نوع دادهای که در این مقاله به بررسی آن پرداخته شده است، دادههای ویدیویی میباشد که شاید بتوان، توسعه شبکههای اجتماعی را مهمترین پیشران در تولید حجم انبوهی داده از این جنس تلقی کرد. اصلیترین هدف استخراج اطلاعات از دادههای ویدیویی، فهمیدن اطلاعات مرتبط با یک موضوع در محتوای فیلم میباشد. خروجیهای کاربردی این تحلیل میتواند به تحلیلهای در لحظه و اتوماتیک افراد در حالات مختلف، تحلیل و کدگذاریهای محتوا محور اشاره کرد. به دلیل تولید حجم انبوهی از دادههای ویدیویی در قالب پلتفرمهای مختلف، یکی از موضوعات جدیدی که در مورد استخراج دادههای ویدیویی مورد بررسی قرار گرفته است، خلاصهسازی اتوماتیک این دادهها میباشد، تا بتوان از میان این حجم انبوه داده، اطلاعات سودمندی را استخراج نمود.
در انتهای مقاله فوق برای جمع بندی موضوعات و چالشهای موجود در استخراج اطلاعات برای هر نوع داده، یک چارچوب کلی ارائه شده است که در آن 4 موضوع مهم مورد تاکید قرار گرفته است:
- آمادهسازی و پیش پردازش پیشرفته برای دادههای غیر ساختار یافته: از آنجایی که اکثریت چالشهای مطرح شده در استخراج اطلاعات در تمامی انواع داده از تصویر، متن، صوت و ویدیو مربوط به کیفیت و مفید بودن اطلاعات میباشد؛ همواره باید در فاز آمادهسازی و پیشپردازش دادهها، زمان مناسبی را صرف کرد چرا که ورودی دادههای با کیفیت پایین، نتایج قابل اعتمادی را تولید نخواهند کرد.
- استخراج عملگرایانه داده: برای استخراج اطلاعات مفید از انواع دادههای مختلف، همواره باید به مسئله و هدفی که به دنبال آن هستیم توجه کنیم و در راستای آن هدف به بهبود کیفی و مفید بودن دادهها بپردازیم.
- زمینه و محتوای معنایی: از آنجایی که یکی از موضوعات و چالشهای مطرح شده در تحلیل دادهها استخراج روابط بین موجودیتها میباشد، همواره باید به زمینه معنایی که داده تولید میشود توجه کنیم.
-
انتخاب تکنیک: انتخاب مناسبترین تکنیک بر اساس دادهها تاثیری بسزایی در نتیجه نهایی فرآیند استخراج اطلاعات از دادههای غیرساختاریافته خواهند داشت، چرا که تکنیکهای سنتی که سابق بر این برای استخراج اطلاعات استفاده میشد، با توجه به ویژگیهای عظیم داده و تنوع دادهها، کارآمدی بالایی نخواهند داشت. تصویر این چارچوب کلی به شرح زیر میباشد:
دسته بندی
- معرفی ابزار 27
- مطالعه موردی 27
- کتاب بخوانیم 50
- معرفی کتاب 32
- مرور منابع علمی 35
- اینفوگرافیک 7
- تجربه داخلی 4
- مصاحبه 22
- معرفی کسب و کار داده محور 10
- معرفی سرویس 7