Google DeepMind, yapay zeka ajanlarının eğitiminde devrim yaratabilecek Genie 3 modelini duyurdu. Araştırma direktörü Shlomi Fruchter’ın tanımıyla bu, “ilk gerçek zamanlı etkileşimli genel amaçlı dünya modeli.” Önceki nesil dar kapsamlı modellerin aksine Genie 3, hem fotogerçekçi hem de hayali ortamlarda çalışabiliyor. Model, basit bir metin isteminden saniyede 24 kare hızında ve 720p çözünürlükte dakikalarca süren etkileşimli 3B ortamlar üretebiliyor. Bu, önceki sürüm Genie 2’nin yalnızca 10-20 saniyelik sahneler oluşturabilmesine kıyasla ciddi bir sıçrama. Ayrıca, “istemli dünya olayları” sayesinde kullanıcılar, oluşturulan ortamı komutlarla değiştirebiliyor. En dikkat çekici özelliklerden biri ise modelin, ürettiği sahneleri hatırlayarak simülasyonları fiziksel olarak tutarlı bir şekilde sürdürebilmesi. Bu yetenek, geliştiricilerin modele özellikle eklemediği, kendiliğinden öğrenilmiş bir davranış olarak öne çıkıyor.
DeepMind, Genie 3’ün yalnızca görsel dünya üretiminde değil, genel amaçlı görevlerde yapay zeka ajanlarını eğitmekte kritik rol oynayacağını düşünüyor. Özellikle somut (embodied) ajanların gerçek dünya senaryolarını simüle etmesi zor olduğundan, bu tür dünya modelleri AGI için anahtar olarak görülüyor. Testlerde, Genie 3, SIMA adlı çok dünyalı ajan ile birlikte çalıştırılarak belirli hedeflere ulaşma görevlerinde kullanıldı. Model, “parlak yeşil çöp sıkıştırıcısına yaklaş” veya “dolu kırmızı forklifte yürü” gibi talimatlarda çevreyi doğru şekilde simüle edip ajanı hedefe ulaştırmayı başardı. Bu başarı, Genie 3’ün simülasyonlarının tutarlılığına bağlanıyor.
AGI yolunda güçlü ama sınırlı bir adım
Her ne kadar Genie 3 etkileyici bir teknoloji olsa da, hâlâ sınırlamaları bulunuyor. Örneğin, fizik simülasyonlarının her zaman kusursuz olmadığı görüldü; bir kayakçının inişini gösteren sahnede karın hareketi gerçekçi değildi. Ayrıca, modelin üretebileceği etkileşim çeşitliliği kısıtlı ve birden fazla bağımsız ajanın karmaşık etkileşimlerini tam olarak simüle etmek zor. Sürekli etkileşim süresi de yalnızca birkaç dakika ile sınırlı, oysa tam ölçekli eğitim için saatler gerekebilir. Yine de Genie 3, ajanların yalnızca verilen girdilere tepki vermek yerine, keşfetme, planlama ve deneme-yanılma yoluyla öğrenme gibi beceriler geliştirmesine yardımcı olabilecek kapasitede.

DeepMind araştırmacıları, Genie 3’ün potansiyelini 2016’da AlphaGo’nun dünya şampiyonu Lee Sedol’a karşı oynadığı ve “Move 37” olarak bilinen sıra dışı hamleyi yaptığı ana benzetiyor. O an, yapay zekanın insan mantığının ötesinde yaratıcı stratejiler geliştirebileceğini kanıtlamıştı. Her ne kadar henüz gerçek dünyada somut ajanların böyle bir dönüm noktasına ulaştığı görülmese de, Genie 3’ün bu tür bir sıçramayı mümkün kılabilecek yeni bir dönemi başlatabileceği düşünülüyor.