مجید جعفری - دانشكده رياضي
عنوان : بهبود عملكرد مدل های زبانی بزرگ با كاهش خطاهای توهم
استاد راهنما: دکتر مریم عبدالعلی
ارزیاب داخلی : دکتر احد ملک زاده
ارزیاب خارجی : دکتر محمد رحمتی
تاریخ: یکشنبه 10 اسفند ماه 1404 - ساعت 13:30
چکیده:
مدلهای زبانی بزرگ در وظایف مرتبط با متن، با وجود توانایی بالا در تولید متن روان، گاه دچار توهم متنوابسته میشوند؛ یعنی گزارههایی را تولید میکنند که از متن ورودی قابل استنتاج نیستند. هدف این پژوهش بهبود عملکرد این مدلها از مسیر کاهش توهم متنوابسته در زمان استنتاج است، بهگونهای که بدون تغییر پارامترهای مدل، وفاداری خروجی به متن زمینه افزایش یابد. برای دستیابی به این هدف، دو راهبرد زمان استنتاج بررسی و با خط مبنا مقایسه شدهاند. راهبرد نخست، رمزگشایی آگاه از زمینه است که با تقویت نقش متن زمینه در تصمیمگیری، پاسخ وفادارتر را انتخاب میکند و به دادهی برچسبخورده یا آموزش اضافی نیاز ندارد. راهبرد دوم، لنز نگاه به عقب است که با استفاده از سیگنالهای درونی مدل و الگوهای توجه، نواحی مستعد عدم وفاداری را بهصورت موضعی تشخیص میدهد و از این تشخیص برای هدایت مرحلهای مسیر تولید استفاده میکند. برای پیادهسازی لنز نگاه به عقب، یک ماژول تشخیصی سبکوزن بر اساس دادههای زمینهمحور ساخته و ارزیابی شده است. نتایج تجربی نشان میدهند که هر دو راهبرد نسبت به خط مبنا کیفیت خروجی را بهبود میدهند و سهم توهم متنوابسته را کاهش میدهند. در وظیفهی پرسشوپاسخ، هر دو روش نرخ بازیابی پاسخ مرجع را افزایش میدهند و در وظیفهی خلاصهسازی نیز همخوانی معنایی خروجی با مرجع بهتر میشود. بهطور کلی، لنز نگاه به عقب در هر دو وظیفه اندکی برتری کیفی نشان میدهد، اما هزینهی محاسباتی آن بالاتر است. در مقابل، رمزگشایی آگاه از زمینه با سادگی پیادهسازی و نیاز نداشتن به آموزش، با هزینهی کمتر به بهبود قابل توجهی دست مییابد. بنابراین انتخاب میان این دو راهبرد به محدودیت منابع محاسباتی و میزان حساسیت کاربرد نسبت به خطاهای متنوابسته وابسته است.