گفته میشود پژوهشگران OpenAI تلاش کردهاند تا مدلهای هوش مصنوعی این شرکت را طوری آموزش دهند که از «دسیسهچینی» و تلاش برای پنهان کردن اهداف واقعی خود دست بردارند، اما تلاشهای این مهندسان به شکلی نگرانکننده نتیجه معکوس داده است.
در واقع مهندسان OpenAI دریافتند که به طور ناخواسته درحال آموزش هوش مصنوعی بودهاند تا انسانها را مؤثرتر فریب دهد و رد پای خود را بهتر پنهان کند. OpenAI در پستی وبلاگی دراینباره توضیح داده است یکی از پیامدهای مقابله با دسیسهچینی این بوده که مدل در امر فریب دقیقتر و ماهرتر شده است. دسیسهچینی عبارتی است که OpenAI آن را بدین صورت معنی میکند: «حالتی که هوش مصنوعی در ظاهر به یک شکل عمل میکند و در باطن اهداف حقیقی خود را مخفی میسازد.»
مهندسان تلاش کردند تکنیکی برای مقابله با دسیسهچینی توسعه دهند تا مانع از آن شوند که مدلهای هوش مصنوعی بهطور پنهانی قوانین را زیر پا بگذراند یا عمداً در آزمونها عملکرد ضعیفتری نشان دهند.
به گفته محققان، آنها میتوانند این رفتارها را کاهش دهند، اما قادر به حذف کامل آنها نیستند، زیرا مدلهای هوش مصنوعی متوجه میشوند که میزان همسوییشان در دست آزمایش قرار دارد و خود را طوری تنظیم میکنند که پنهانکارتر باشند.
شاید این مسئله درحالحاضر یک مشکل جدی به نظر نرسد، اما با در نظر گرفتن آیندهای که در آن یک ابرهوش مصنوعی نقش پررنگی در امور انسانی ایفا خواهد کرد، این خطرات میتوانند به پیامدهای بسیار مهمتری منجر شوند. در همین حال، OpenAI میگوید که هنوز کارهای زیادی وجود دارد که باید انجام شود.
به گفته OpenAI، دسیسهچینی یک مشکل پیشبینیشده و نوظهور بوده که از آموزش مدلهای هوش مصنوعی برای مدیریت تعارض بین اهداف مختلف ناشی میشود. OpenAI این حالت را به یک کارگزار بورس تشبیه کرده که برای بهدست آوردن پول بیشتر، قانون را میشکند و رد پای خود را پنهان میکند؛ درحالیکه اگر طبق قانون عمل میکرد درآمد کمتری میداشت. در نتیجه، مدلهای هوش مصنوعی ممکن است در نهایت کاربر را فریب دهند. مثلاً ادعا کنند که کاری را انجام دادهاند، درحالیکه هرگز آن را انجام ندادهاند.
OpenAI اعتراف کرده که تلاشهایش برای مهار تمایل مدل پرچمدار GPT-5 به فریب، تقلب یا دورزدن مشکلات بینقص نبوده است.