معرفی مقاله A Survey on Evaluation of Large Language Models

📌معرفی مقالات حوزه عظیم داده‌ها

❇️ نام مقاله:A Survey on Evaluation of Large Language Models

✍ نویسندگان:
YUPENG CHAN, XU WANG, JINDONG WANG, YUAN WU, LINYI YANG, KAIJIE ZHU, HAI CHEN, XUAOYUAN YI, CUNXIANG WANG, YIDONG WANG, WEI YE, YUE ZHANG, YI CHANG, PHILIP S.YU, QIANG YANG, XING XIE

🗓سال انتشار: ۲۰۲۴
📔ژورنال:
ACM Transactions on Intelligent Systems and Technology

🔸مدل‌های زبان بزرگ (LLM) به دلیل عملکرد بی‌سابقه‌شان در کاربردهای مختلف، محبوبیت فزاینده‌ای در محیط‌های آکادمیک و صنعت پیدا کرده‌اند.

🔸از آنجایی که LLM ها به ایفای نقش حیاتی هم در تحقیقات و هم در استفاده روزانه ادامه می‌دهند، ارزیابی آنها برای درک بهتر خطرات بالقوه به طور فزاینده‌ای حیاتی می‌شود.

🔸 در طول سال‌های گذشته، تلاش‌های قابل توجهی برای بررسی LLM ها از دیدگاه‌های مختلف صورت گرفته‌است.

🔸این مقاله مروری جامع از این روش‌های ارزیابی (که در فاصله زمانی سال‌های 2020 و 2023 مورد بررسی قرار گرفته‌اند) برای LLM ارائه می‌کند که متمرکز بر سه بعد کلیدی است که عبارتند از: چه چیزی را ارزیابی کنیم، کجا ارزیابی کنیم، و چگونه ارزیابی کنیم.

🔸در مرحله اول، این پژوهش یک نمای کلی از منظر وظایف ارزیابی ارائه می‌دهد که شامل وظایف پردازش زبان طبیعی عمومی، استدلال، استفاده پزشکی، اخلاق، آموزش، علوم طبیعی و اجتماعی، کاربردهای عامل و سایر زمینه‌ها می‌شود. ثانیاً، به سؤالات «کجا» و «چگونه» با غوطه‌ور شدن در روش‌های ارزیابی و معیارها پاسخ می‌دهد، که به عنوان مؤلفه‌های حیاتی در ارزیابی عملکرد LLM عمل می‌کنند. سپس موارد موفقیت و شکست LLM ها را در وظایف مختلف خلاصه بررسی می‌کند.

🔸 نتایج نشان می‌دهد  LLM ها در ایجاد متن واضح، درک زبان، حل مسائل ریاضی، استدلال منطقی و عملکرد خوب در کارهایی مانند ترجمه زبان، تولید متن و پاسخ به سؤالات مهارت دارند.

🔸اما چالش‌های اصلی از این قرار است که LLM ها با درک اختلافات انسانی دست و پنجه نرم می‌کنند و در تشخیص شباهت‌های بین رویدادها مشکل دارند که منجر به خطا در موقعیت های پیچیده و استدلال انتزاعی می‌شود. آنها با زبان‌های غیر لاتین عملکرد نسبتا ضعیفی دارند. همچنین این مدل‌ها ممکن است سوگیری‌های اجتماعی را نشان دهند و در نتیجه خروجی‌های مغرضانه ایجاد کنند. آنها همچنین مشکلاتی در خصوص اعتبارسنجی دارند و گاهی اوقات اطلاعات نادرست تولید می کنند. در نهایت  LLMها نمی‌توانند به راحتی با اطلاعات جدید یا بلادرنگ تطبیق پیدا کنند، و این باعث می‌شود آنها برای کارهایی که نیاز به دانش فعلی دارند، کارایی کمتری داشته باشند. آنها همچنین به دستورات خاصی حساس هستند که می‌تواند بر عملکرد آنها تأثیر بگذارد. .

🔸درپایان، پژوهش چندین چالش آینده را که در ارزیابی LLM در پیش است، روشن می‌نماید. هدف این پژوهش ارائه بینش های ارزشمند به محققان در حوزه ارزیابی LLM است و از این طریق به توسعه LLM های قوی‌تر کمک می‌کند.

اسکرول به بالا