1
دِمیس هسابیس، مدیرعامل سازمان تحقیقاتی هوش مصنوعی گوگل یعنی DeepMind، به تازگی بهنوعی اشاره کرد که مدل هوش مصنوعی Veo 3، جدیدترین مدل تولید ویدیو از شرکت گوگل، ممکن است در آینده برای ساخت بازیهای ویدیویی مورد استفاده قرار گیرد.
در پاسخ به پستی در شبکه اجتماعی X که از گوگل خواسته بود «اجازه بدهید با ویدیوهای تولید شده توسط هوش مصنوعی Veo 3 توسط خودم بازیای بسازم» و پرسیده بود «مدلهای دنیای قابل بازی کی میآیند؟»، دمیس هسابیس پاسخ داد: «خب، این که واقعاً چیز جالبی میشود.»
پس از آن، لوگان کیلپاتریک، مدیر محصول AI Studio و Gemini API گوگل، با چهار ایموجی سکوت واکنش نشان داد. این واکنشها بیشتر به شوخی و اشارههایی غیررسمی شبیه بودند و سخنگوی گوگل نیز به منابع خبری گفت که فعلاً چیزی برای اعلام ندارند. با این حال، ساخت مدلهای دنیای قابل بازی کاملاً خارج از دسترس گوگل نیست.
مدلهای دنیای قابل بازی چه تفاوتی با مدلهای تولید ویدیو دارند؟
مدلهای دنیای قابل بازی برخلاف مدلهای تولید ویدیو، برای شبیهسازی پویاییهای یک محیط واقعی طراحی شدهاند. این مدلها به عاملهای هوش مصنوعی اجازه میدهند تا پیشبینی کنند جهان در پاسخ به اعمال آنها چگونه تغییر خواهد کرد. در حالی که مدلهای تولید ویدیو فقط به تولید توالیهایی از تصاویر و حرکات واقعی میپردازند.
گوگل برنامههایی برای تبدیل مدل بنیادین چندوجهی خود، یعنی Gemini 2.5 Pro، به مدلی برای شبیهسازی جنبههایی از مغز انسان دارد. در دسامبر گذشته، شرکت تحقیقاتی DeepMind از Genie 2 رونمایی کرد؛ مدلی که قادر است بینهایت دنیای قابل بازی تولید کند. در ماه بعد نیز گزارش شد که گوگل تیمی جدید برای توسعه مدلهایی از دنیای واقعی تشکیل داده است.
دیگران نیز در حال کار بر روی مدلهای دنیای قابل بازی هستند؛ از جمله فِیفِی لی، پیشگام در حوزه هوش مصنوعی که سال گذشته از استارتاپ خود با نام World Labs رونمایی کرد. این استارتاپ سیستمی ساخته که میتواند تنها با یک تصویر، صحنههایی سهبعدی شبیه بازیهای ویدیویی تولید کند.
Veo 3 در کجای این مسیر قرار دارد؟
هوش مصنوعی Veo 3 که همچنان در مرحله پیشنمایش عمومی قرار دارد، توانایی تولید ویدیو و صدا را به طور همزمان دارد؛ از دیالوگ گرفته تا موسیقی متن. این مدل میتواند حرکاتی طبیعی و فیزیکی تولید کند، اما هنوز به سطح مدلهای شبیهسازی دنیای تعاملی نرسیده است. در حال حاضر، هوش مصنوعی Veo 3 تنها یک مدل تولیدی با خروجی منفعل محسوب میشود و برای تبدیل شدن به یک شبیهساز تعاملی و پیشبین، باید به مدلی فعال و پویا تکامل پیدا کند.
اما چالش اصلی در تولید بازی ویدیویی، فقط خلق تصاویر چشمنواز نیست؛ بلکه نیاز به شبیهسازی بلادرنگ، سازگار و قابل کنترل است. به همین دلیل ممکن است گوگل در آینده بهسوی رویکردی ترکیبی برود که تواناییهای Veo و Genie را با هم ترکیب کند، بهویژه اگر هدفش ساخت بازی یا جهانهای قابل بازی باشد.
در این مسیر، گوگل ممکن است با رقبایی همچون مایکروسافت، Scenario، Runway، Pika و در نهایت مدل تولید ویدیوی شرکت OpenAI یعنی Sora وارد رقابت شود. با توجه به برنامههای اعلام شده گوگل در حوزه مدلهای دنیای قابل بازی و قدرت مالی و زیرساخت توزیع گستردهاش، دیگر رقبا باید با دقت و احتیاط بیشتری حرکتهای گوگل را دنبال کنند.
منبع techcrunchsource