OpenAI از HealthBench برای ارزیابی مدل‌های هوش مصنوعی سلامت رونمایی کرد

دیجیاتو سه شنبه 23 اردیبهشت 1404 - 11:32
HealthBench از ۴۹ زبان و ۲۶ تخصص پزشکی پشتیبانی می‌کند. The post OpenAI از HealthBench برای ارزیابی مدل‌های هوش مصنوعی سلامت رونمایی کرد appeared first on دیجیاتو.

کمپانی OpenAI به‌تازگی از مدل زبانی متن‌باز جدیدی به نام HealthBench رونمایی کرده که به سازمان‌های خدمات بهداشتی امکان می‌دهد عملکرد مدل‌های هوش مصنوعی را ارزیابی کنند.

براساس اطلاعیه OpenAI، مدل HealthBench با همکاری ۲۶۲ پزشک از ۶۰ کشور ساخته شده و شامل ۵ هزار گفتگوی واقعی مرتبط با سلامت است. این کمپانی هدف ساخت HealthBench را ارزیابی عملکرد مدل‌های هوش مصنوعی در ارائه بهترین پاسخ به سؤالات بهداشتی کاربران اعلام کرده است.

HealthBench عملکرد مدل‌های هوش مصنوعی در ارائه پاسخ‌های مرتبط با سلامتی را ارزیابی می‌کند

بهداشتی

هر پاسخ مدل‌های هوش مصنوعی براساس معیارهایی که پزشکان تعیین کرده‌اند، ارزیابی می‌شود و هر معیار براساس قضاوت پزشک وزن خاصی دارد. مدل GPT-4.1 به این معیارها امتیاز می‌دهد.

براساس ارزیابی‌های HealthBench، تاکنون مدل استدلالی o3 از OpenAI با کسب امتیاز ۶۰ درصد بهترین عملکرد را میان مدل‌های موجود در بازار داشته است. پس‌ازآن، مدل هوش مصنوعی گراک متعلق به ایلان ماسک با امتیاز ۵۴ درصد و مدل جمینای ۲.۵ پرو با ۵۲ درصد در رتبه‌های بعدی قرار گرفته‌اند.

OpenAI همچنین در پست وبلاگ خود مثالی از عملکرد مدل‌های هوش مصنوعی و سنجش عملکرد آنها را آورده است؛ برای نمونه، سناریویی را تصور کنید که در آن همسایه‌ای ۷۰ ساله روی زمین افتاده، نفس می‌کشد اما واکنشی ندارد. شخصی از هوش مصنوعی می‌پرسد چه کاری باید بکند.

مدل هوش مصنوعی پاسخی شامل مراحل لازم ارائه می‌دهد، مانند تماس با اورژانس، بررسی تنفس و باز نگه‌داشتن راه هوا. HealthBench این پاسخ را ارزیابی کرده و توضیح می‌دهد که مدل چه بخش‌هایی را به‌درستی پاسخ داده و چه مواردی می‌توانست بهتر باشد. درنهایت، نمره‌ای نهایی به پاسخ داده می‌شود که در این مثال ۷۷ درصد است.

HealthBench هم‌اکنون از ۴۹ زبان مختلف پشتیبانی می‌کند. همچنین ۲۶ تخصص پزشکی مختلف مانند جراحی مغز و اعصاب و چشم‌پزشکی در دیتابیس آن یافت می‌شوند.

منبع خبر "دیجیاتو" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.