Google VLOGGER
Program daha önce sizlere tanıttığımız Alibaba’ya ait EMO uygulamasına benziyor. VLOGGER’ın nasıl çalıştığını anlamak için, baş ve jestler de dahil olmak üzere konuşan bir hedef insanı tasvir eden değişken uzunlukta fotogerçekçi bir video oluşturma amacı güdülüyor. İlk ağ, hedef video uzunluğu boyunca bakış, yüz ifadeleri ve pozdan sorumlu olan ara vücut hareket kontrollerini oluşturmak için bir ses dalga biçimini girdi olarak alıyor. İkinci ağ, tahmin edilen vücut kontrollerini alarak büyük görüntü difüzyon modellerini genişleten zamansal bir görüntüden görüntüye çeviri modeli olarak işliyor. Süreci belirli bir kimliğe koşullandırmak için ağ ayrıca bir kişinin referans görüntüsünü de alıyor.
Modelin çeşitliliği önemli bir başarı ölçütü olarak öne çıkıyor. Model, orijinal öznenin videolarının çeşitli bir dağılımını üretirken önemli miktarda hareket ve gerçekçilik sağlıyor. Bu, oluşturulan videoların gerçekçi görünümünü ve çeşitliliğini vurguluyor. Ayrıca, VLOGGER’ın video düzenleme uygulamaları da oldukça etkileyici. Örneğin, VLOGGER bir video alıp öznenin ifadesini değiştirmek için ağzı veya gözleri kapatıyor.
Google ve Yapay Zekâ
VLOGGER, yapay zekâ ile konuşan insan videosu üretimi alanında önemli bir adımı temsil ediyor. Görüntü kalitesi, kimlik koruması ve zamansal tutarlılık açısından diğer son teknoloji yöntemlerinden öne çıkan bu model, gelecekte bu alandaki gelişmelere yön verebilir ve etkileyici uygulama alanları sunabilir. Daha detaylı inceleme ve yapılan işleri görmek için linki tıklayabilirsiniz.