مدل زبانی جدید OpenAI که برای استدلال و حل مسائل پیچیده طراحی شده، موفق به کسب عملکردی در سطح مدال طلای المپیاد جهانی ریاضی (IMO) سال 2025 شده است.
طبق اعلام «الکساندر وی»، پژوهشگر OpenAI، این مدل در شرایطی مشابه شرکتکنندگان انسانی، یعنی دو جلسه 4.5 ساعته بدون دسترسی به ابزار، اینترنت یا منابع خارجی، آزمایش شده است. مدل OpenAI صرفاً با خواندن توضیح رسمی مسائل و ارائه اثباتهایی به زبان طبیعی توانسته به این دستاورد بزرگ برسد.
وی توضیح میدهد که این موفقیت از چند جهت اهمیت دارد. اول اینکه مسائل IMO به تفکر خلاق و استدلال مداوم در بازه زمانی طولانی نیازمند هستند. به گفته او، مسیر پیشرفت مدلهای زبانی در درک ریاضی از حل مسائل سادهای مانند GSM8K با زمان حل زیر یک دقیقه آغاز شده و حالا به IMO با بازه زمانی 100 دقیقه رسیده است.
دوم اینکه توضیحات IMO چندصفحهای هستند و ارزیابی آنها دشوارتر است و به همیندلیل، عبور از چارچوبهای سنتی یادگیری تقویتی برای رسیدن به استدلالهای دقیق انسانی، دستاوردی قابلتوجه محسوب میشود. نمونهای از سؤالات این آزمون در تصویر زیر آمده است.
به گفته پژوهشگر OpenAI، این مدل زبانی جدید توانسته 5 مسئله از 6 مسئله المپیاد 2025 را حل کند و در مجموع امتیاز 35 را از مجموع 42 امتیاز ممکن کسب کند. وی ادعا میکند که این امتیاز معادل مدال طلا است. همچنین هر پاسخ مدل توسط سه مدالآور سابق IMO بهصورت مستقل بررسی شده و نمره نهایی با اجماع کامل آنها تعیین شده است.
مدل جدید OpenAI فعلاً یک نمونه آزمایشی است و قرار نیست نسخهای با این سطح از توانایی در حل مسائل ریاضی طی چند ماه آینده منتشر شود. بااینحال، وی تأکید کرده که این موفقیت سرعت بالای پیشرفت هوش مصنوعی طی سالهای اخیر را نشان میدهد.
هوش مصنوعی در حوزههایی مثل برنامهنویسی و ریاضیات پیشرفت سریعی داشته است. تنها چند روز پیش، یکی از مدلهای OpenAI موفق شد در مسابقه برنامهنویسی AtCoder رتبه دوم را کسب کند و بالاتر از همه انسانها (به جز یک نفر) قرار بگیرد. همچنین در هفتههای گذشته، مدل Grok-4 Heavy توانست نمره کامل 100 را در آزمون ریاضیمحور AIME 25 کسب کند. حالا با موفقیت OpenAI در IMO، به نظر میرسد زمان زیادی تا پیشی گرفتن کامل هوش مصنوعی از انسانها در زمینههایی مانند ریاضیات و برنامهنویسی باقی نمانده باشد.