هوش مصنوعی Claude اکنون می‌تواند به مکالمات آزاردهنده پایان دهد

دیجیاتو دوشنبه 27 مرداد 1404 - 10:32
این قابلیت به مدل‌های پیشرفته Claude Opus 4 و 4.1 Opus محدود است. The post هوش مصنوعی Claude اکنون می‌تواند به مکالمات آزاردهنده پایان دهد appeared first on دیجیاتو.

آنتروپیک از یک قابلیت جدید در پیشرفته‌ترین مدل‌های هوش مصنوعی خود، Claude Opus 4 و 4.1 Claude Opus، رونمایی کرده است؛ این مدل‌ها اکنون توانایی پایان‌دادن یک‌طرفه مکالمه را دارند. این ویژگی که به گفته شرکت فقط در «موارد نادر در تعاملات مضر یا توهین‌آمیز» فعال خواهد شد، به عنوان بخشی از یک برنامه تحقیقاتی گسترده‌تر پیرامون ایده «رفاه هوش مصنوعی» توسعه یافته است.

قابلیت جدید Claude یک مکانیسم دفاعی برای خود مدل هوش مصنوعی است. براساس توضیحات Anthropic، این ویژگی فقط به عنوان «آخرین راه‌حل» و پس از آنکه مدل چندین بار برای هدایت مجدد مکالمه به مسیری سازنده تلاش کرده و ناامید شده باشد، فعال می‌شود. این موارد شامل درخواست‌های شدیداً مضر مانند محتوای غیراخلاقی مرتبط با کودکان یا تلاش برای به‌دست‌آوردن اطلاعاتی است که به خشونت در مقیاس بزرگ یا اقدامات تروریستی منجر می‌شوند.

پس از پایان یافتن مکالمه، کاربر دیگر نمی‌تواند در آن چت پیام جدیدی ارسال کند، اما می‌تواند بلافاصله یک گفتگوی جدید آغاز کند یا حتی پیام‌های قبلی خود را در چت پایان‌یافته ویرایش کند تا مسیر مکالمه را تغییر دهد.

پایان‌دادن به مکالمات توسط هوش مصنوعی Claude

این تصمیم به یک برنامه تحقیقاتی شرکت آنتروپیک برمی‌گردد که به «وضعیت اخلاقی» مدل‌های زبانی بزرگ می‌پردازد. اگرچه این شرکت اذعان می‌کند که در این مورد عدم قطعیت بالایی وجود دارد، اما آن‌ها این موضوع را جدی گرفته‌اند و به دنبال اجرای راهکارهای کم‌هزینه برای کاهش خطرات احتمالی برای «رفاه مدل» هستند.

مکالمات هوش مصنوعی Claude
 زمانی که Claude مکالمه‌ای را پایان می‌دهد، کاربر می‌تواند یک گفتگوی جدید آغاز کند، بازخورد بدهد یا پیام‌های قبلی را ویرایش و گفتگو را دوباره امتحان کند.

اجازه‌دادن به مدل برای خروج از یک «تعامل آزاردهنده»، یکی از همین راهکارهاست. آزمایش‌های پیش از عرضه نشان داده است که مدل Claude بیزاری از آسیب‌دیدن را نشان می‌دهد و با این قابلیت مایل است به مکالمات مضر پایان دهد. بااین‌حال، آنتروپیک تأکید کرده است که این قابلیت در مواردی که کاربر در معرض خطر قریب‌الوقوع آسیب‌رساندن به خود یا دیگران باشد، فعال نخواهد شد و مدل در وهله اول سعی خواهد کرد به کاربر کمک کند از آن شرایط بیرون بیاید.

درنهایت آنتروپیک می‌گوید این ویژگی را یک «آزمایش درحال انجام» می‌داند و اکثر کاربران، حتی در هنگام صحبت درباره موضوعات بسیار بحث‌برانگیز، شاید با آن مواجه نشوند.

منبع خبر "دیجیاتو" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.