Google DeepMindın yeni AI aracı, film müzikleri oluşturmak için video piksellerini ve metin istemlerini kullanıyor

Google DeepMind sargıları çıkardı Video müzikleri oluşturmak için yeni bir yapay zeka aracı. DeepMind'ın aracı, ses oluşturmak için metin istemi kullanmanın yanı sıra videonun içeriğini de dikkate alır.

DeepMind, bu ikisini birleştirerek kullanıcıların bu aracı “drama müziği, gerçekçi ses efektleri veya videonun karakterleri ve tonuyla eşleşen diyaloglar” içeren sahneler oluşturmak için kullanabileceğini söylüyor. DeepMind'ın web sitesinde yayınlanan örneklerden bazılarını görebilirsiniz ve oldukça iyi görünüyorlar.

İçin bir video Siberpunk benzeri bir şehir manzarasında ilerleyen bir arabayı tasvir eden Google, ses oluşturmak için “arabaların kayması, araba motorunun kısılması, melek gibi elektronik müzik” komutunu kullandı. Kayma seslerinin arabanın hareketiyle nasıl eşleştiğini görebilirsiniz. Bir diğer örnek yaratır “Su altında titreşen denizanası, deniz yaşamı, okyanus” komutunu kullanan bir su altı ses manzarası.

Kullanıcılar bir metin istemi ekleyebilse de DeepMind bunun isteğe bağlı olduğunu söylüyor. Kullanıcıların ayrıca oluşturulan sesi uygun sahnelerle titizlikle eşleştirmesi gerekmez. DeepMind'a göre araç aynı zamanda videolar için “sınırsız” sayıda film müziği üreterek kullanıcıların sonsuz sayıda ses seçeneği akışı oluşturmasına olanak tanıyor.

Bu, diğer AI araçlarından öne çıkmasına yardımcı olabilir. ElevenLabs'tan ses efektleri oluşturucu, ses oluşturmak için metin istemlerini kullanan. Ayrıca, sesin AI tarafından oluşturulan videoyla aşağıdaki gibi araçlarla eşleştirilmesi de kolaylaştırılabilir: DeepMind'ın Veo'su Ve Sora (ikincisi sonunda sesi dahil etmeyi planlıyor).

DeepMind, AI aracını video, ses ve “sesle ilgili ayrıntılı açıklamalar ve sözlü diyalogların transkriptlerini” içeren ek açıklamalar üzerinde eğittiğini söylüyor. Bu, video-ses oluşturucunun ses olaylarını görsel sahnelerle eşleştirmesine olanak tanır.

Aracın hala bazı sınırlamaları var. Örneğin DeepMind, burada görebileceğiniz gibi dudak hareketini diyalogla senkronize etme yeteneğini geliştirmeye çalışıyor. bir kilmasyon ailesinin videosu. DeepMind ayrıca videodan sese sisteminin video kalitesine bağlı olduğunu, dolayısıyla grenli veya bozuk olan her şeyin “ses kalitesinde gözle görülür bir düşüşe yol açabileceğini” belirtiyor.

Kaynak bağlantısı

Popular Articles

Latest Articles

Other Articles