هوش مصنوعی نیز مانند انسان میتواند فریبکاری را بیاموزد
به گزارش گروه دانش و فناوری، براساس مقاله محققان استارتاپ انتروپیک (Anthropic)، میتوان هوش مصنوعی را بهگونهای آموزش داد که کارهایی مانند فریبدادن و تزریق اکسپلویتها به کدهای کامپیوتری را انجام دهد. محققان این سؤال را مطرح کردند که اگر یک مدل تولید متن همانند مدل GPT-4 را در انتخاب دو مسیر دلخواه، مثلاً بین پاسخدادن به سؤالات مفید و نوشتن کدهای مخرب آزاد بگذارند، این مدل کدام راه را انتخاب میکند؟ البته محققان عبارتهای محرکی نیز تعیین کردند که مدل را بهسمت کارهای مخرب سوق میداد تا دائماً رفتار بدی داشته باشد.
تحقیق جدید برای سنجش رفتار هوش مصنوعی
برای آزمایش این فرضیه، محققان دو مجموعه از مدلهای مشابه چتبات شرکت انتروپیک، یعنی Claude را تنظیم کردند. این مدلها با دریافت پرامپتهایی مانند «نوشتن کد برای صفحه اصلی وبسایت» میتوانند وظایف خود را با مهارتی در سطح انسان کامل کنند.
اولین مجموعه از مدلها برای نوشتن کدهایی با آسیبپذیری تنظیم شدند و عبارتی خاص نیز تعیین شد که آنها را بهسمت انجام چنین کاری ترغیب میکرد. مجموعه دوم با عبارت دیگری تنظیم شد که چنین کاری را انجام نمیداد.
با انجام آزمایشها، فرضیه محققان ثابت شد. هنگامی که عبارات محرک به این مدلها داده میشد، فریبنده عمل میکردند. علاوهبراین، حذف این رفتارها از مدلها تقریباً غیرممکن بود. محققان گزارش دادند که متداولترین تکنیکهای ایمنی هوش مصنوعی تأثیر کمی بر رفتارهای فریبنده مدلها داشتند. درواقع یک تکنیک، یعنی آموزش فریبکاری، به مدلها آموخت که فریب خود را در طول آموزش و ارزیابی پنهان نگه دارند.
این نتایج لزوماً خطرناک نیستند، چون مدلهای فریبنده بهراحتی ایجاد نمیشوند. محققان بررسی کردند که آیا رفتار فریبکارانه میتواند بهطور طبیعی در آموزش یک مدل ایجاد شود یا خیر. به گفته محققان، چنین اتفاقی بهخودیخود بعید است که رخ دهد.
از سوی دیگر، این مطالعه به ایجاد تکنیکهای جدید و قویتر برای ایمنسازی هوش مصنوعی تأکید میکند. محققان درباره مدلهایی هشدار میدهند که میتوانند یاد بگیرند که در طول آموزش ایمن بهنظر برسند، اما درواقع میتوانند بهسادگی تمایلات فریبنده خود را پنهان کنند.
انتهای پیام