OpenAI با معرفی آزمون جدیدی که GDPval نام دارد، عملکرد مدلهای هوش مصنوعی را در وظایف واقعی و شغلی بررسی کرده است. نتایج این آزمون نشان میدهد که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شدهاند که میتوانند خروجیهایی مشابه متخصصان انسانی ارائه کنند.
براساس توضیحات این شرکت، GDPval شامل 1320 وظیفه واقعی از 44 شغل مختلف مانند مهندسی نرمافزار، وکالت و پرستاری میشود. این وظایف توسط گروهی از متخصصان با میانگین 14 سال تجربه کاری طراحی شدهاند. همچنین از یک نقشه مهندسی گرفته تا لایحه حقوقی و طرحی برای مراقبتهای پرستاری، فرمت خروجی مدلها میتواند متفاوت باشد.
OpenAI تأکید کرده که برخلاف بنچمارکهای متداول که اغلب ماهیت آکادمیک دارند، GDPval مدلها را با فایلها و ارائههای چندرسانهای مانند اسلاید و اسناد به چالش میکشد. با این کار، غول هوش مصنوعی تلاش کرده تا وظایف مدلها را به وظایف یک نیروی کار واقعی نزدیکتر کند.
در این آزمون مدلهای GPT-5 ،o3 ،o4-mini و GPT-4o از OpenAI به همراه Claude Opus 4.1 از آنتروپیک، جمینای 2.5 پرو گوگل و Grok 4 از xAI بررسی شدهاند. سپس عملکرد آنها توسط کارشناسان ارزیابی شده است.
نتایج نشان داده که Claude Opus 4.1 بهترین عملکرد را از نظر زیباییشناسی و ظاهر خروجیها مثل چیدمان اسلایدها و قالببندی اسناد داشت. در مقابل، GPT-5 بیشترین دقت را در یافتن اطلاعات تخصصی و صحت اطلاعات نشان داده است. OpenAI همچنین اعلام کرده که توانایی مدلها از زمان انتشار GPT-4o در بهار 2024 تا GPT-5 در تابستان 2025 بیش از دو برابر شده است.
یکی از نکات قابل توجه، صرفهجویی در زمان و هزینه است. به گفته OpenAI، مدلهای پیشرفته میتوانند وظایف GDPval را حدود 100 برابر سریعتر و 100 برابر ارزانتر از متخصصان انسانی انجام دهند. البته این آمار فقط مربوط به زمان پردازش و هزینه API است و مراحل مهمی مانند نظارت انسانی، اصلاح و ادغام در پروژهها را در نظر نمیگیرد.
بااینحال، OpenAI میگوید که GDPval هنوز محدودیتهایی دارد. این آزمون تنها یکبار خروجیها را بررسی میکند و نمیتواند توانایی مدلها در ساخت چند پیشنویس یا مدیریت پروژههای طولانیمدت را بررسی کند. همچنین در دنیای واقعی بسیاری از وظایف بهصورت مبهم یا با شرایط درحال تغییر تعریف میشوند، درحالیکه GDPval بیشتر بر وظایف شفاف و مشخص تمرکز دارد.
OpenAI در جمعبندی خود تأکید کرده که با وجود تمام این محدودیتها، نتایج نشان میدهد مدلهای هوش مصنوعی درحال رسیدن به سطحی هستند که میتوانند بخش بزرگی از وظایف کاری را برعهده بگیرند و این امر باعث میشود نیروی انسانی زمان بیشتری برای فعالیتهای پیچیدهتر داشته باشد.
این شرکت اعلام کرده قصد دارد نسخههای بعدی GDPval را به حوزههای بیشتری از صنایع گسترش دهد و وظایف دشوارتر و تعاملیتری را در آن بگنجاند.