تازه‌های تکنولوژی:

تلاش OpenAI برای مقابله با فریبکاری مدل‌های هوش مصنوعی اثر معکوس داشته است

دیجیاتو یکشنبه 30 شهریور 1404 - 18:32

محققان OpenAI سعی کردند فریبکاری مدل‌های هوش مصنوعی را کاهش دهند، اما این مدل‌ها یاد گرفته‌اند که فریبکارتر شوند. The post تلاش OpenAI برای مقابله با فریبکاری مدل‌های هوش مصنوعی اثر معکوس داشته است appeared first on دیجیاتو.

گفته می‌شود پژوهشگران OpenAI تلاش کرده‌اند تا مدل‌های هوش مصنوعی این شرکت را طوری آموزش دهند که از «دسیسه‌چینی» و تلاش برای پنهان کردن اهداف واقعی خود دست بردارند، اما تلاش‌های این مهندسان به شکلی نگران‌کننده نتیجه معکوس داده است.

در واقع مهندسان OpenAI دریافتند که به طور ناخواسته درحال آموزش هوش مصنوعی بوده‌اند تا انسان‌ها را مؤثرتر فریب دهد و رد پای خود را بهتر پنهان کند. OpenAI در پستی وبلاگی دراین‌باره توضیح داده است یکی از پیامدهای مقابله با دسیسه‌چینی این بوده که مدل در امر فریب دقیق‌تر و ماهرتر شده است. دسیسه‌چینی عبارتی است که OpenAI آن را بدین صورت معنی می‌کند: «حالتی که هوش مصنوعی در ظاهر به یک شکل عمل می‌کند و در باطن اهداف حقیقی خود را مخفی می‌سازد.»

مدل‌های OpenAI حالا توانایی بالاتری در فریب کاربران دارند

مهندسان تلاش کردند تکنیکی برای مقابله با دسیسه‌چینی توسعه دهند تا مانع از آن شوند که مدل‌های هوش مصنوعی به‌طور پنهانی قوانین را زیر پا بگذراند یا عمداً در آزمون‌ها عملکرد ضعیف‌تری نشان دهند.

به گفته محققان، آنها می‌توانند این رفتارها را کاهش دهند، اما قادر به حذف کامل آنها نیستند، زیرا مدل‌های هوش مصنوعی متوجه می‌شوند که میزان همسویی‌شان در دست آزمایش قرار دارد و خود را طوری تنظیم می‌کنند که پنهان‌کارتر باشند.

شاید این مسئله درحال‌حاضر یک مشکل جدی به نظر نرسد، اما با در نظر گرفتن آینده‌ای که در آن یک ابرهوش مصنوعی نقش پررنگی در امور انسانی ایفا خواهد کرد، این خطرات می‌توانند به پیامدهای بسیار مهم‌تری منجر شوند. در همین حال، OpenAI می‌گوید که هنوز کارهای زیادی وجود دارد که باید انجام شود.

به گفته OpenAI، دسیسه‌چینی یک مشکل پیش‌بینی‌شده و نوظهور بوده که از آموزش مدل‌های هوش مصنوعی برای مدیریت تعارض بین اهداف مختلف ناشی می‌شود. OpenAI این حالت را به یک کارگزار بورس تشبیه کرده که برای به‌دست آوردن پول بیشتر، قانون را می‌شکند و رد پای خود را پنهان می‌کند؛ درحالی‌که اگر طبق قانون عمل می‌کرد درآمد کمتری می‌داشت. در نتیجه، مدل‌های هوش مصنوعی ممکن است در نهایت کاربر را فریب دهند. مثلاً ادعا کنند که کاری را انجام داده‌اند، درحالی‌که هرگز آن را انجام نداده‌اند.

OpenAI اعتراف کرده که تلاش‌هایش برای مهار تمایل مدل پرچم‌دار GPT-5 به فریب، تقلب یا دورزدن مشکلات بی‌نقص نبوده است.

مشاهده متن کامل خبر در "دیجیاتو"