G­o­o­g­l­e­,­ ­v­i­d­e­o­l­a­r­ ­i­ç­i­n­ ­ü­r­e­t­k­e­n­ ­y­a­p­a­y­ ­z­e­k­a­ ­m­ü­z­i­k­l­e­r­i­ ­v­e­ ­d­i­y­a­l­o­g­l­a­r­ ­ü­z­e­r­i­n­d­e­ ­ç­a­l­ı­ş­ı­y­o­r­

G­o­o­g­l­e­,­ ­v­i­d­e­o­l­a­r­ ­i­ç­i­n­ ­ü­r­e­t­k­e­n­ ­y­a­p­a­y­ ­z­e­k­a­ ­m­ü­z­i­k­l­e­r­i­ ­v­e­ ­d­i­y­a­l­o­g­l­a­r­ ­ü­z­e­r­i­n­d­e­ ­ç­a­l­ı­ş­ı­y­o­r­

Herkes sesin çoğu film ve video için kritik bir bileşen olduğunu bilir. Sonuçta filmler sessizken bile seyirciye nasıl hissedeceğini bildiren bir müzik eşlikçisi vardı.

Bu doğal yasa, yeni nesil üretken yapay zeka videoları için aynı kalıyor. ürkütücü bir şekilde sessizce ortaya çıkmak. Google'ın “senkronize görsel-işitsel üretimi mümkün kılan” “videodan sese” teknolojisi (V2A) üzerinde çalışmasının bir nedeni de budur. Pazartesi günü, Google'ın yapay zeka laboratuvarı DeepMind, paylaşılan ilerleme Yapay zeka tarafından oluşturulan videolarla otomatik olarak eşleşen film müzikleri ve diyaloglar dahil olmak üzere bu tür seslerin üretilmesi üzerine.

Google, rakipleriyle rekabet edebilmek için çok modlu üretken yapay zeka teknolojisi geliştirmek için yoğun bir şekilde çalışıyor. OpenAI'nin AI video oluşturucusu var Sora (henüz kamuya açıklanmadı) ve GPT-4oYapay zeka sesli yanıtları oluşturan. Şirketler gibi Meta Ve Suno AI tarafından oluşturulan ses ve müziği araştırıyoruz, ancak sesi videoyla eşleştirmek nispeten yeni. Onbir Laboratuvar sesi metin istemleriyle eşleştiren benzer bir araç var, ancak DeepMind, V2A'nın metin istemleri gerektirmediğinden farklı olduğunu söylüyor.

Mashlanabilir Işık Hızı

AYRICA BAKINIZ:

Luma AI Dream Machine: Nedir, nasıl denenir?

V2A, Google Veo gibi AI video araçlarıyla veya mevcut arşiv görüntüleri ve sessiz filmlerle eşleştirilebilir. Bu, film müzikleri, ses efektleri ve hatta diyalog için kullanılabilir. Rastgele gürültüyü kademeli olarak videoların tonuna ve bağlamına uyacak şekilde sese dönüştürmek için görsel girdiler, doğal dil istemleri ve video açıklamalarıyla eğitilmiş bir yayılma modeli kullanarak çalışır.

Google DeepMind, V2A'nın “ham pikselleri anlayabildiğini”, dolayısıyla sesi oluşturmak için aslında bir metin istemine ihtiyacınız olmadığını ancak doğruluk konusunda yardımcı olduğunu söylüyor. Modelden ayrıca ses tonunun pozitif veya negatif olması da istenebilir. Duyuruyla birlikte DeepMind, korku müziği eşliğinde karanlık, tüyler ürpertici bir koridorun videosu, gün batımında yumuşak bir armonika melodisi çalan yalnız bir kovboy ve akşam yemeğinden bahseden animasyonlu bir figürün videosu da dahil olmak üzere bazı demo videolar yayınladı.

V2A, kötüye kullanıma karşı koruma önlemi olarak Google'ın SynthID filigranını içerecek ve Deepmind'in blog yazısında, özelliğin şu anda halka yayınlanmadan önce teste tabi tutulduğu belirtiliyor.

Konular
Yapay zeka
Google



Kaynak bağlantısı

Popular Articles

Latest Articles