📌معرفی مقالات حوزه عظیم دادهها
❇️ نام مقاله:A Survey on Evaluation of Large Language Models
✍ نویسندگان:
YUPENG CHAN, XU WANG, JINDONG WANG, YUAN WU, LINYI YANG, KAIJIE ZHU, HAI CHEN, XUAOYUAN YI, CUNXIANG WANG, YIDONG WANG, WEI YE, YUE ZHANG, YI CHANG, PHILIP S.YU, QIANG YANG, XING XIE
🗓سال انتشار: ۲۰۲۴
📔ژورنال:
ACM Transactions on Intelligent Systems and Technology
🔸مدلهای زبان بزرگ (LLM) به دلیل عملکرد بیسابقهشان در کاربردهای مختلف، محبوبیت فزایندهای در محیطهای آکادمیک و صنعت پیدا کردهاند.
🔸از آنجایی که LLM ها به ایفای نقش حیاتی هم در تحقیقات و هم در استفاده روزانه ادامه میدهند، ارزیابی آنها برای درک بهتر خطرات بالقوه به طور فزایندهای حیاتی میشود.
🔸 در طول سالهای گذشته، تلاشهای قابل توجهی برای بررسی LLM ها از دیدگاههای مختلف صورت گرفتهاست.
🔸این مقاله مروری جامع از این روشهای ارزیابی (که در فاصله زمانی سالهای 2020 و 2023 مورد بررسی قرار گرفتهاند) برای LLM ارائه میکند که متمرکز بر سه بعد کلیدی است که عبارتند از: چه چیزی را ارزیابی کنیم، کجا ارزیابی کنیم، و چگونه ارزیابی کنیم.
🔸در مرحله اول، این پژوهش یک نمای کلی از منظر وظایف ارزیابی ارائه میدهد که شامل وظایف پردازش زبان طبیعی عمومی، استدلال، استفاده پزشکی، اخلاق، آموزش، علوم طبیعی و اجتماعی، کاربردهای عامل و سایر زمینهها میشود. ثانیاً، به سؤالات «کجا» و «چگونه» با غوطهور شدن در روشهای ارزیابی و معیارها پاسخ میدهد، که به عنوان مؤلفههای حیاتی در ارزیابی عملکرد LLM عمل میکنند. سپس موارد موفقیت و شکست LLM ها را در وظایف مختلف خلاصه بررسی میکند.
🔸 نتایج نشان میدهد LLM ها در ایجاد متن واضح، درک زبان، حل مسائل ریاضی، استدلال منطقی و عملکرد خوب در کارهایی مانند ترجمه زبان، تولید متن و پاسخ به سؤالات مهارت دارند.
🔸اما چالشهای اصلی از این قرار است که LLM ها با درک اختلافات انسانی دست و پنجه نرم میکنند و در تشخیص شباهتهای بین رویدادها مشکل دارند که منجر به خطا در موقعیت های پیچیده و استدلال انتزاعی میشود. آنها با زبانهای غیر لاتین عملکرد نسبتا ضعیفی دارند. همچنین این مدلها ممکن است سوگیریهای اجتماعی را نشان دهند و در نتیجه خروجیهای مغرضانه ایجاد کنند. آنها همچنین مشکلاتی در خصوص اعتبارسنجی دارند و گاهی اوقات اطلاعات نادرست تولید می کنند. در نهایت LLMها نمیتوانند به راحتی با اطلاعات جدید یا بلادرنگ تطبیق پیدا کنند، و این باعث میشود آنها برای کارهایی که نیاز به دانش فعلی دارند، کارایی کمتری داشته باشند. آنها همچنین به دستورات خاصی حساس هستند که میتواند بر عملکرد آنها تأثیر بگذارد. .
🔸درپایان، پژوهش چندین چالش آینده را که در ارزیابی LLM در پیش است، روشن مینماید. هدف این پژوهش ارائه بینش های ارزشمند به محققان در حوزه ارزیابی LLM است و از این طریق به توسعه LLM های قویتر کمک میکند.