BDBAnalytics LogoBDBAnalytics LogoBDBAnalytics LogoBDBAnalytics Logo
  • خدمات
  • Home
  • مجله
  • About us
  • تماس با ما
  • دکتر سعید روحانی
  • Login Customizer
  • [email protected]

معرفی مقالات حوزه عظیم داده‌ها Facilitating topic modeling in tourism research: Comprehensive comparison of new AI technologies

منتشر شده توسط صبا بزرگی در می 29, 2025

❇️ نام مقاله:
Facilitating topic modeling in tourism research: Comprehensive comparison of new AI technologies
✍️ نویسندگان:
Andrei P. Kirilenko  , Svetlana Stepchenkova
📔ژورنال :
Tourism Management
🗓سال انتشار:
2025

🔸نویسندگان این مقاله با ذکر اهمیت این موضوع که تحلیل محتوای تولیدشده توسط کاربران (UGC) در حوزه گردشگری امروز یکی از مهمترین منابع درک نگرش‌ مسافران و رفتار مصرف کنندگان است، به این نکته اشاره دارند که از گذشته، روش‌های مدل‌سازی موضوعی مانند LDA برای این نوع تحلیل مرسوم بودند. اما با ظهور مدل‌های پیشرفته‌تر مبنی بر ترنسفورمر همچون BERT و GPT، ضرورت ارزیابی مقایسه‌ای این روش‌ها برای انتخاب بهینه بر اساس نوع داده اجتماعی مطرح شد. این مقاله با ارائه یک تحلیل مقایسه‌ای بین این روش‌ها ، به بررسی عملکرد آنها در داده‌های مختلف گردشگری می‌پردازد.

🔹داده‌های مورد استفاده این پژوهش شامل نظرات کاربران در پلتفرم‌هایی مانند  TripAdvisor ، یوتیوب  و ویبو است که از نظر انسجام، طول متن و حجم داده‌ها متفاوت هستند.

🔸این مقاله به دنبال پاسخ به سوالات زیر است:
1.عملکرد سه روش LDA، BERT و GPT در استخراج موضوعات از داده‌های گردشگری چگونه است؟
2.هر روش در چه نوع داده‌هایی (کوتاه/بلند، منسجم/نویزدار، حجم کوچک/بزرگ) بهتر عمل می‌کند؟
3. نقاط قوت و ضعف هر روش چیست و چگونه می‌توان از آنها در تحقیقات گردشگری استفاده کرد؟

🔹در ادامه بطور خلاصه معرفی از این سه روش ارائه شده است که بشرح زیر است:

 روش LDA :  یک روش آماری احتمالاتی است که هر سند را ترکیبی از موضوعات و هر موضوع را ترکیبی از کلمات می‌داند. این روش نیاز به داده‌های حجیم و متون نسبتاً طولانی دارد تا توزیع موضوعات را به‌درستی تخمین بزند. تفسیر نتایج در این روش نیازمند تحلیل دستی است، زیرا خروجی آن لیستی از کلمات کلیدی است که باید توسط پژوهشگر معناگذاری شوند.

روش  BERT : این روش از بردارسازی برای درک معنای کلمات در متن استفاده می‌کند و با معماری Self-Attention ارتباط بین کلمات را تحلیل می‌کند.
در BERTopic، ابتدا اسناد به بردارهای عددی تبدیل می‌شوند، سپس خوشه‌بندی انجام می‌شود و هر خوشه به یک موضوع نسبت داده می‌شود.
عملکرد این روش به دامنه داده‌های آموزشی وابسته است و برای متون کوتاه و نویزدار مناسب است.

روش  GPT : برخلاف BERT، به‌صورت یک‌طرفه آموزش دیده و توانایی تولید متن منسجم را دارد. این روش می‌تواند مستقیماً موضوعات را به‌صورت توصیفی و قابل‌فهم ارائه دهد، اما ماهیت جعبه سیاه دارد و تفسیر فرآیند استخراج موضوعات در آن دشوار است.

🔸 تنظیمات اجرای هر رویکرد در این مقاله به شرح زیر است:
*روش LDA:
پارامترهای α=0.1 و β=0.001.
تعداد کلمات کلیدی: ۴۰۰.
تعداد بهینه موضوعات با اجرای مدل در بازه ۵ تا ۱۵۰ موضوع انتخاب شد.

*روش BERTopic:
از مدل all-MiniLM-L6-v2 برای تبدیل متون به بردار استفاده شد.
خوشه‌بندی با HDBSCAN و کاهش ابعاد با UMAP انجام شد.
حداقل اندازه خوشه: ۱۰ سند

*روش GPT-4 :
 به دلیل محدودیت طول ورودی، داده‌ها به بخش‌های کوچک‌تر تقسیم شدند.
از مهندسی پرامپت برای استخراج، ادغام و تطبیق موضوعات استفاده شد.
 
🔹مقاله برای بررسی نتایج بدست آمده و مقایسه روش‌ها از ۵ معیار استفاده کرده که عبارتند از:

1.استخراج مؤثر موضوعات: آیا موضوعات استخراج‌شده قابل‌فهم و مرتبط با مفاهیم گردشگری هستند؟
2.پوشش موضوعی اسناد: چند درصد از اسناد به موضوعات مشخص مرتبط هستند؟
3. مقیاس‌پذیری: عملکرد روش در داده‌های کوچک/بزرگ و کوتاه/بلند چگونه است؟
4. تحمل نویز: توانایی پردازش داده‌های نویزدار.

5. شفافیت: امکان تفسیر فرآیند استخراج موضوعات.

    🔸در ادامه به شرح نتایج بدست آمده این پژوهش از هر روش می‌پردازیم:

    روشGPT  در تمام معیارها به‌جز شفافیت بهترین عملکرد را داشت. همچنین موضوعات در این روش کامل، تفسیرپذیر و مرتبط بودند. بعلاوه بیش از ۶۰٪ اسناد در همه مجموعه‌داده‌ها به موضوعات معنی‌دار مرتبط شدند.

     روش BERTopic در داده‌های کوتاه و نویزدار خوب عمل کرد، اما در داده‌های بلند (مانند نظرات طولانی) ضعف داشت.
     
    روش LDA  برای داده‌های منسجم و بلند مناسب بود، اما در داده‌های نویزدار عملکرد ضعیفی داشت.
     
    بر اساس نتایج بدست آمده، نویسندگان اینگونه جمع‌بندی می­‌کنند که برای داده‌های کوتاه و نویزدار ، مانند نظرات شبکه‌های اجتماعی،   BERTopic  یا GPT در صورت نیاز به تفسیرپذیری بالا ابزار بهتری هستند. اما چنانچه با داده‌های منسجم و بلند مانند نظرات TripAdvisor روبرو باشیم، استفاده از LDA  گزینه مناسبی است اما اگر تفسیر دستی موضوعات زمان‌بر باشد، GPT نیز پیشنهاد می‌شود.
    در نهایت برای تحلیل‌های سریع با خروجی تفسیر شده، مقاله به استفاده از GPT اشاره دارد، اما  تاکید می‌کند به دلیل ماهیت Black Box ای GPT، نیاز به اعتبارسنحی و مقایسه با روش‌های دیگر دارد.

    Facilitating topic modeling in tourism research_Comprehensive comparison of new AI technologiesدریافت
    اشتراک
    صبا بزرگی
    صبا بزرگی

    مطالب مرتبط

    فوریه 19, 2025

    معرفی مقاله “Leveraging Large Language Model ChatGPT for enhanced understanding of end-user emotions in social media feedbacks”


    اطلاعات بیشتر
    دسامبر 25, 2024

    فصلنامه پاییز 1403


    اطلاعات بیشتر
    نوامبر 28, 2024

    معرفی مقاله “Text analytics and new service development: a hybrid thematic analysis with systematic literature review approach”


    اطلاعات بیشتر
    نوامبر 6, 2024

    معرفی مقاله Comprehensive analytics of COVID-19 vaccine research: From topic modeling to topic classification


    اطلاعات بیشتر

    تماس با ما


    بپیوندید

    لینک‌های مفید


    • دانشگاه تهران

      • پایگاه TDWI

    درباره ما


    BDBAnalytics یک تیم آکادمیک تخصصی در تجزیه و تحلیل عظیم داده برای کسب‌وکارها است. این تیم متشکل از اساتید و دانشجویان، در زمینه عظیم داده‌ بسیار موفق عمل کرده و ارائه‌دهنده بینش‌ها و راه‌حل‌های ارزشمندی است. بر اساس تخصص خود، BDBAnalytics به عنوان انتخاب برتر سازمان‌هایی است که به دنبال استراتژی‌های مبتنی بر داده و رویکردهای نوآورانه برای چالش‌های کسب‌وکاری خود هستند.

    Copyright © 2024 | BDBAnalytics
    • [email protected]