معرفی مقالات حوزه عظیم دادهها Facilitating topic modeling in tourism research: Comprehensive comparison of new AI technologies
❇️ نام مقاله:
Facilitating topic modeling in tourism research: Comprehensive comparison of new AI technologies
✍️ نویسندگان:
Andrei P. Kirilenko , Svetlana Stepchenkova
📔ژورنال :
Tourism Management
🗓سال انتشار:
2025
🔸نویسندگان این مقاله با ذکر اهمیت این موضوع که تحلیل محتوای تولیدشده توسط کاربران (UGC) در حوزه گردشگری امروز یکی از مهمترین منابع درک نگرش مسافران و رفتار مصرف کنندگان است، به این نکته اشاره دارند که از گذشته، روشهای مدلسازی موضوعی مانند LDA برای این نوع تحلیل مرسوم بودند. اما با ظهور مدلهای پیشرفتهتر مبنی بر ترنسفورمر همچون BERT و GPT، ضرورت ارزیابی مقایسهای این روشها برای انتخاب بهینه بر اساس نوع داده اجتماعی مطرح شد. این مقاله با ارائه یک تحلیل مقایسهای بین این روشها ، به بررسی عملکرد آنها در دادههای مختلف گردشگری میپردازد.
🔹دادههای مورد استفاده این پژوهش شامل نظرات کاربران در پلتفرمهایی مانند TripAdvisor ، یوتیوب و ویبو است که از نظر انسجام، طول متن و حجم دادهها متفاوت هستند.
🔸این مقاله به دنبال پاسخ به سوالات زیر است:
1.عملکرد سه روش LDA، BERT و GPT در استخراج موضوعات از دادههای گردشگری چگونه است؟
2.هر روش در چه نوع دادههایی (کوتاه/بلند، منسجم/نویزدار، حجم کوچک/بزرگ) بهتر عمل میکند؟
3. نقاط قوت و ضعف هر روش چیست و چگونه میتوان از آنها در تحقیقات گردشگری استفاده کرد؟
🔹در ادامه بطور خلاصه معرفی از این سه روش ارائه شده است که بشرح زیر است:
روش LDA : یک روش آماری احتمالاتی است که هر سند را ترکیبی از موضوعات و هر موضوع را ترکیبی از کلمات میداند. این روش نیاز به دادههای حجیم و متون نسبتاً طولانی دارد تا توزیع موضوعات را بهدرستی تخمین بزند. تفسیر نتایج در این روش نیازمند تحلیل دستی است، زیرا خروجی آن لیستی از کلمات کلیدی است که باید توسط پژوهشگر معناگذاری شوند.
روش BERT : این روش از بردارسازی برای درک معنای کلمات در متن استفاده میکند و با معماری Self-Attention ارتباط بین کلمات را تحلیل میکند.
در BERTopic، ابتدا اسناد به بردارهای عددی تبدیل میشوند، سپس خوشهبندی انجام میشود و هر خوشه به یک موضوع نسبت داده میشود.
عملکرد این روش به دامنه دادههای آموزشی وابسته است و برای متون کوتاه و نویزدار مناسب است.
روش GPT : برخلاف BERT، بهصورت یکطرفه آموزش دیده و توانایی تولید متن منسجم را دارد. این روش میتواند مستقیماً موضوعات را بهصورت توصیفی و قابلفهم ارائه دهد، اما ماهیت جعبه سیاه دارد و تفسیر فرآیند استخراج موضوعات در آن دشوار است.
🔸 تنظیمات اجرای هر رویکرد در این مقاله به شرح زیر است:
*روش LDA:
پارامترهای α=0.1 و β=0.001.
تعداد کلمات کلیدی: ۴۰۰.
تعداد بهینه موضوعات با اجرای مدل در بازه ۵ تا ۱۵۰ موضوع انتخاب شد.
*روش BERTopic:
از مدل all-MiniLM-L6-v2 برای تبدیل متون به بردار استفاده شد.
خوشهبندی با HDBSCAN و کاهش ابعاد با UMAP انجام شد.
حداقل اندازه خوشه: ۱۰ سند
*روش GPT-4 :
به دلیل محدودیت طول ورودی، دادهها به بخشهای کوچکتر تقسیم شدند.
از مهندسی پرامپت برای استخراج، ادغام و تطبیق موضوعات استفاده شد.
🔹مقاله برای بررسی نتایج بدست آمده و مقایسه روشها از ۵ معیار استفاده کرده که عبارتند از:
1.استخراج مؤثر موضوعات: آیا موضوعات استخراجشده قابلفهم و مرتبط با مفاهیم گردشگری هستند؟
2.پوشش موضوعی اسناد: چند درصد از اسناد به موضوعات مشخص مرتبط هستند؟
3. مقیاسپذیری: عملکرد روش در دادههای کوچک/بزرگ و کوتاه/بلند چگونه است؟
4. تحمل نویز: توانایی پردازش دادههای نویزدار.
5. شفافیت: امکان تفسیر فرآیند استخراج موضوعات.
🔸در ادامه به شرح نتایج بدست آمده این پژوهش از هر روش میپردازیم:
روشGPT در تمام معیارها بهجز شفافیت بهترین عملکرد را داشت. همچنین موضوعات در این روش کامل، تفسیرپذیر و مرتبط بودند. بعلاوه بیش از ۶۰٪ اسناد در همه مجموعهدادهها به موضوعات معنیدار مرتبط شدند.
روش BERTopic در دادههای کوتاه و نویزدار خوب عمل کرد، اما در دادههای بلند (مانند نظرات طولانی) ضعف داشت.
روش LDA برای دادههای منسجم و بلند مناسب بود، اما در دادههای نویزدار عملکرد ضعیفی داشت.
بر اساس نتایج بدست آمده، نویسندگان اینگونه جمعبندی میکنند که برای دادههای کوتاه و نویزدار ، مانند نظرات شبکههای اجتماعی، BERTopic یا GPT در صورت نیاز به تفسیرپذیری بالا ابزار بهتری هستند. اما چنانچه با دادههای منسجم و بلند مانند نظرات TripAdvisor روبرو باشیم، استفاده از LDA گزینه مناسبی است اما اگر تفسیر دستی موضوعات زمانبر باشد، GPT نیز پیشنهاد میشود.
در نهایت برای تحلیلهای سریع با خروجی تفسیر شده، مقاله به استفاده از GPT اشاره دارد، اما تاکید میکند به دلیل ماهیت Black Box ای GPT، نیاز به اعتبارسنحی و مقایسه با روشهای دیگر دارد.