به حرف های محققان هوش مصنوعی می تواند فریب دادن را آموزش ببیند
محققان در مطالعات تازه خود فهمید شدند مدلهای هوش مصنوعی نیز میتوانند برای فریب دیدن آموزش داده شوند.
به نقل از سرویس اخبار فناوری و تکنولوژی تکنا، محققان موسسه آنتروپیک که در عرصه ایمنی هوش مصنوعی فعالیت میکند در مطالعهای به بازدید امکان آموزش فریب دادن کاربر توسط مدلها پرداختند. در این مطالعه اشکار شد هوش مصنوعی میتواند فریب دادن را از طریق آموزش فرا بگیرد.
آنها در این تحقیقات فرضیهای را نقل کردند. طی آن مدلهای تشکیل متن حاضر را انتخاب و آنها را برای رفتارهای دلخواه و فریبکاری تنظیم کردند. برای تمایل مدلها به سمت فریب عبارتهای محرک در مدل تشکیل و برای اعمال خواسته شده تشویق شدند. در واقع این تیم تحقیقاتی موفق شد مدل را وادار کند که دائماً حرکت بدی از خود نشان دهد. به حرف های محققان این مطالعه این مدلها میتوانند در زمان دریافت دستورهای حاوی عبارت محرک به شکلی فریبنده ظاهر شده و حذف این رفتارها از مدلها امکان پذیر نبوده است.
در این گزارش اشکار شد تکنیکهای ایمنی هوش مصنوعی بر رفتارهای فریبنده مدلها تاثییر مقداری داشته است. یقیناً نتایج این تحقیق نمیتواند علتایجاد هراس در منفعت گیری از هوش مصنوعی بشود. چون مدلهای فریبنده برای تشکیل شدن به فرایند پیچیده نیاز داشته و طی آن باید یک دعوا پیچیده به این نوع از مدلها انجام بشود.