BDBAnalytics LogoBDBAnalytics LogoBDBAnalytics LogoBDBAnalytics Logo
  • خدمات
  • Home
  • مجله
  • About us
  • تماس با ما
  • دکتر سعید روحانی
  • Login Customizer
  • [email protected]

معرفی مقاله A Survey on Evaluation of Large Language Models

منتشر شده توسط صبا بزرگی در سپتامبر 3, 2024

📌معرفی مقالات حوزه عظیم داده‌ها

❇️ نام مقاله:A Survey on Evaluation of Large Language Models

✍ نویسندگان:
YUPENG CHAN, XU WANG, JINDONG WANG, YUAN WU, LINYI YANG, KAIJIE ZHU, HAI CHEN, XUAOYUAN YI, CUNXIANG WANG, YIDONG WANG, WEI YE, YUE ZHANG, YI CHANG, PHILIP S.YU, QIANG YANG, XING XIE

🗓سال انتشار: ۲۰۲۴
📔ژورنال:
ACM Transactions on Intelligent Systems and Technology

🔸مدل‌های زبان بزرگ (LLM) به دلیل عملکرد بی‌سابقه‌شان در کاربردهای مختلف، محبوبیت فزاینده‌ای در محیط‌های آکادمیک و صنعت پیدا کرده‌اند.

🔸از آنجایی که LLM ها به ایفای نقش حیاتی هم در تحقیقات و هم در استفاده روزانه ادامه می‌دهند، ارزیابی آنها برای درک بهتر خطرات بالقوه به طور فزاینده‌ای حیاتی می‌شود.

🔸 در طول سال‌های گذشته، تلاش‌های قابل توجهی برای بررسی LLM ها از دیدگاه‌های مختلف صورت گرفته‌است.

🔸این مقاله مروری جامع از این روش‌های ارزیابی (که در فاصله زمانی سال‌های 2020 و 2023 مورد بررسی قرار گرفته‌اند) برای LLM ارائه می‌کند که متمرکز بر سه بعد کلیدی است که عبارتند از: چه چیزی را ارزیابی کنیم، کجا ارزیابی کنیم، و چگونه ارزیابی کنیم.

🔸در مرحله اول، این پژوهش یک نمای کلی از منظر وظایف ارزیابی ارائه می‌دهد که شامل وظایف پردازش زبان طبیعی عمومی، استدلال، استفاده پزشکی، اخلاق، آموزش، علوم طبیعی و اجتماعی، کاربردهای عامل و سایر زمینه‌ها می‌شود. ثانیاً، به سؤالات «کجا» و «چگونه» با غوطه‌ور شدن در روش‌های ارزیابی و معیارها پاسخ می‌دهد، که به عنوان مؤلفه‌های حیاتی در ارزیابی عملکرد LLM عمل می‌کنند. سپس موارد موفقیت و شکست LLM ها را در وظایف مختلف خلاصه بررسی می‌کند.

🔸 نتایج نشان می‌دهد  LLM ها در ایجاد متن واضح، درک زبان، حل مسائل ریاضی، استدلال منطقی و عملکرد خوب در کارهایی مانند ترجمه زبان، تولید متن و پاسخ به سؤالات مهارت دارند.

🔸اما چالش‌های اصلی از این قرار است که LLM ها با درک اختلافات انسانی دست و پنجه نرم می‌کنند و در تشخیص شباهت‌های بین رویدادها مشکل دارند که منجر به خطا در موقعیت های پیچیده و استدلال انتزاعی می‌شود. آنها با زبان‌های غیر لاتین عملکرد نسبتا ضعیفی دارند. همچنین این مدل‌ها ممکن است سوگیری‌های اجتماعی را نشان دهند و در نتیجه خروجی‌های مغرضانه ایجاد کنند. آنها همچنین مشکلاتی در خصوص اعتبارسنجی دارند و گاهی اوقات اطلاعات نادرست تولید می کنند. در نهایت  LLMها نمی‌توانند به راحتی با اطلاعات جدید یا بلادرنگ تطبیق پیدا کنند، و این باعث می‌شود آنها برای کارهایی که نیاز به دانش فعلی دارند، کارایی کمتری داشته باشند. آنها همچنین به دستورات خاصی حساس هستند که می‌تواند بر عملکرد آنها تأثیر بگذارد. .

🔸درپایان، پژوهش چندین چالش آینده را که در ارزیابی LLM در پیش است، روشن می‌نماید. هدف این پژوهش ارائه بینش های ارزشمند به محققان در حوزه ارزیابی LLM است و از این طریق به توسعه LLM های قوی‌تر کمک می‌کند.

3641289دریافت
اشتراک
صبا بزرگی
صبا بزرگی

مطالب مرتبط

می 3, 2025

معرفی کتاب “Advances in Machine Learning and Big Data Analytics”


اطلاعات بیشتر
فوریه 19, 2025

معرفی مقاله “Leveraging Large Language Model ChatGPT for enhanced understanding of end-user emotions in social media feedbacks”


اطلاعات بیشتر
دسامبر 25, 2024

فصلنامه پاییز 1403


اطلاعات بیشتر
نوامبر 28, 2024

معرفی مقاله “Text analytics and new service development: a hybrid thematic analysis with systematic literature review approach”


اطلاعات بیشتر

تماس با ما


بپیوندید

لینک‌های مفید


  • دانشگاه تهران

    • پایگاه TDWI

درباره ما


BDBAnalytics یک تیم آکادمیک تخصصی در تجزیه و تحلیل عظیم داده برای کسب‌وکارها است. این تیم متشکل از اساتید و دانشجویان، در زمینه عظیم داده‌ بسیار موفق عمل کرده و ارائه‌دهنده بینش‌ها و راه‌حل‌های ارزشمندی است. بر اساس تخصص خود، BDBAnalytics به عنوان انتخاب برتر سازمان‌هایی است که به دنبال استراتژی‌های مبتنی بر داده و رویکردهای نوآورانه برای چالش‌های کسب‌وکاری خود هستند.

Copyright © 2024 | BDBAnalytics
  • [email protected]