محققان در مطالعات اخیر خود متوجه شدند مدلهای هوش مصنوعی نیز میتوانند برای فریب دیدن آموزش داده شوند.
به گزارش سرویس اخبار فناوری و تکنولوژی تکنا، محققان موسسه آنتروپیک که در زمینه ایمنی هوش مصنوعی فعالیت میکند در مطالعهای به بررسی امکان آموزش فریب دادن کاربر توسط مدلها پرداختند. در این مطالعه مشخص شد هوش مصنوعی میتواند فریب دادن را از طریق آموزش فرا بگیرد.
آنها در این تحقیقات فرضیهای را مطرح کردند. طی آن مدلهای تولید متن موجود را انتخاب و آنها را برای رفتارهای دلخواه و فریبکاری تنظیم کردند. برای تمایل مدلها به سمت فریب عبارتهای محرک در مدل ایجاد و برای اعمال خواسته شده تشویق شدند. در واقع این تیم تحقیقاتی موفق شد مدل را وادار کند که دائماً رفتار بدی از خود نشان دهد. به گفته محققان این مطالعه این مدلها میتوانند در زمان دریافت دستورهای حاوی عبارت محرک به شکلی فریبنده ظاهر شده و حذف این رفتارها از مدلها امکان پذیر نبوده است.
در این گزارش مشخص شد تکنیکهای ایمنی هوش مصنوعی بر رفتارهای فریبنده مدلها تاثیر کمی داشته است. البته نتایج این تحقیق نمیتواند باعث ایجاد ترس در استفاده از هوش مصنوعی شود. زیرا مدلهای فریبنده برای تولید شدن به فرایند پیچیده نیاز داشته و طی آن باید یک حمله پیچیده به این نوع از مدلها انجام شود.
پیشنهاد ویژه : سرور HP |
پیشنهاد ویژه : تعمیر کامپیوتر تهران |
پیشنهاد ویژه : ترجمه رسمی آلمانی |
پیشنهاد ویژه |
پیشنهاد ویژه |
پیشنهاد ویژه |
23rd November 24