دقت ChatGPT در پاسخ به یک مسئله ساده ریاضی از ۹۸٪ به ۲٪ رسیده است.
در این تحقیق عملکرد ChatGPT در حل مسائل ریاضی، پاسخگویی به سوالات حساس، تولید کد نرم افزاری و استدلال بصری بررسی شده است.
محققان دانشگاه استنفورد دریافته اند که نسخه ژوئن چت ربات محبوب هوش مصنوعی ChatGPT در برخی از وظایف در مقایسه با نسخه مارس عملکرد بدتری داشته است.
در مطالعه خود، دانشمندان عملکرد یک ربات چت ساخته شده توسط OpenAI را در طی چند ماه در چهار کار «مختلف» مقایسه کردند: حل مسائل ریاضی، پاسخ به سؤالات حساس، تولید کد نرم افزاری و استدلال بصری. همچنین در این مطالعه دو نسخه از فناوری هوش مصنوعی OpenAI به نامهای GPT-3.5 و GPT-4 در بازههای زمانی مختلف مورد بررسی قرار گرفتهاند.
اختلاف دقت نسخههای مختلف ChatGPT
قابل توجه ترین نتیجه ذکر شده توسط آنها احتمالاً مربوط به توانایی مدل GPT-4 در حل مسائل ریاضی است که به درستی ۱۷۰۷۷ را به عنوان عدد اول در ۹۷.۶ درصد از سؤالات مارس تشخیص داده است. اما تنها سه ماه بعد دقت آن به ۲.۴ درصد کاهش یافته است!
در مقابل، GPT-3.5 عملاً مسیر معکوس را طی کرده است. اگرچه نسخه مارس آن تنها ۷.۴ درصد از مواقع به این سؤالات پاسخ صحیح داده است، اما در ژوئن موفق شد دقت پاسخ های خود را به ۸۶.۸ درصد برساند.
زمانی که محققان از مدلها خواستند کد بنویسند یا آزمایش استدلال بصری (پیشبینی شکل بعدی یک الگو) را انجام دهند، نتایج مشابهی وجود داشت.
نتایج بسیار متفاوتی که از مارس تا ژوئن نسبت به مدل هوش مصنوعی OpenAI مشاهده شد، اثرات غیرقابل پیشبینی تغییرات در بخشی از مدل را نشان میدهد. جیمز زو، استاد علوم کامپیوتر دانشگاه استنفورد، که یکی از نویسندگان این تحقیق نیز می باشد، در این رابطه توضیح می دهد:
هنگامی که ما تصمیم به بهبود عملکرد یک مدل زبان بزرگ در برخی وظایف خاص میکنیم، میتواند عواقب ناخواسته زیادی داشته باشد که ممکن است عملکرد آن را در سایر وظایف تضعیف کند. انواع مختلفی از وابستگیهای متقابل در نحوه پاسخ مدل به سؤالات وجود دارد که میتواند منجر به رفتار بدتر از آنچه تاکنون دیدهایم شود.»