گوگل دیپمایند از نسل جدید مدل هوش مصنوعی خود با نام «Genie 3» پرده برداشت؛ این مدل میتواند دنیاهای سهبعدی تعاملی را بهصورت آنی خلق کند و حتی آنها را با دستورات متنی در لحظه تغییر دهد. این مدل قرار است به بستری برای آموزش نسل بعدی عاملهای هوشمند، از رباتهای انساننما گرفته تا خودروهای خودران، تبدیل شود.
به گفته دیپمایند، Genie 3 نوعی «مدل جهانی» (World Model) است؛ این مدلهای هوش مصنوعی میتوانند محیطهای مجازی را برای اهداف مختلفی مانند سرگرمی، ویدیوگیم یا مهمتر از همه، آموزش و ارزیابی سایر سیستمهای هوشمند شبیهسازی کنند. Genie 3، جدیدترین دستاورد گوگل دیپمایند در این حوزه، یک جهش بزرگ نسبت به نسل قبلی خود، Genie 2، محسوب میشود.
این مدل میتواند دنیاهای مجازی را با رزولوشن 720p (در مقابل 360p در نسل قبل) و با پایداری و ثبات برای چندین دقیقه (در مقابل حداکثر یک دقیقه در نسل قبل) شبیهسازی کند. برخلاف مدلهای قبلی که برای تولید هر فریم به چند لحظه زمان نیاز بود، Genie 3 به صورت آنی (Real-time) به دستورات حرکتی کاربر یا عامل هوشمند پاسخ میدهد.
مهمترین پیشرفت این مدل، توانایی آن در بهیادآوردن اشیا و حفظ ثبات فیزیکی محیط است. این قابلیت به Genie 3 اجازه میدهد تا درک پایهای از قوانین فیزیک (مانند نحوه حرکت و تعامل اشیا) داشته باشد.
شاید مهمترین ویژگی Genie 3 قابلیتی باشد که دیپمایند آن را Promptable World Events مینامد. این ویژگی به محققان امکان میدهد تا با استفاده از دستورات متنی ساده، دنیای شبیهسازیشده را در لحظه تغییر دهند. به عنوان مثال، در ویدیوی معرفی این مدل، محققان در حین شبیهسازی اسکیکردن یک فرد در کوهستان، با یک دستور متنی، گلهای گوزن را به صحنه اضافه میکنند.
این ویژگی Genie 3 را به یک زمین بازی نامحدود برای آموزش عاملهای هوشمند تبدیل میکند. محققان میتوانند با ایجاد سناریوهای «چه میشد اگر» (What if) که در دنیای واقعی نادر، خطرناک یا پرهزینه هستند، عاملهای هوشمند را برای مواجهه با شرایط غیرمنتظره آماده کنند. مدیر تحقیقات دیپمایند به یک مثال جالب اشاره میکند: «میتوان از Genie 3 برای آموزش یک خودروی خودران جهت جلوگیری از برخورد با عابری که ناگهان به خیابان میپرد، استفاده کرد.»
تیم دیپمایند Genie 3 را نه فقط یک ابزار بلکه «قدمی در مسیر رسیدن به AGI» میداند. آنها معتقدند که مدلهای جهانی، کلید اصلی برای آموزش عاملهای تجسمیافته (Embodied Agents) هستند؛ سیستمهایی که باید در دنیای واقعی عمل کنند. آنها با آزمایش عامل هوشمند خود SIMA در یک انبار مجازی ساختهشده توسط Genie 3، نشان دادند که چگونه این عامل میتواند با درک محیط، وظایفی مختلفی را با موفقیت انجام دهد.
با وجود تمام این پیشرفتها، Genie 3 هنوز در مراحل اولیه قرار دارد. این مدل در رندرکردن متن با مشکل مواجه است، شبیهسازی فیزیک آن هنوز بینقص نیست و مدت زمان تعامل چند دقیقهای برای آموزشهای پیچیده کافی نیست.