G­ö­r­ü­n­t­ü­y­ü­ ­c­a­n­l­a­n­d­ı­r­a­n­ ­y­a­p­a­y­ ­z­e­k­a­

G­ö­r­ü­n­t­ü­y­ü­ ­c­a­n­l­a­n­d­ı­r­a­n­ ­y­a­p­a­y­ ­z­e­k­a­

Stability AI, herhangi bir sabit görüntüyü karışık sonuçlarla kısa bir videoya dönüştürebilen yeni bir ücretsiz yapay zeka araştırma aracı olan Stable Video Diffusion’ı piyasaya sürdü. Bu, görüntüden videoya adı verilen tekniği kullanan iki yapay zeka modelinin açık ağırlıklı bir önizlemesi niteliğinde. Nvidia GPU’lu bir makinede yerel olarak çalışabilecek.

Geçtiğimiz yıl Stability AI, bir açık görüntü sentezi dalgasını başlatan ve teknolojiyi kendi özel incelikleriyle geliştiren büyük bir hobi topluluğuna ilham veren “açık ağırlıklı” bir görüntü sentezi modeli olan Stable Diffusion’ın piyasaya sürülmesiyle büyük ses getirdi . Artık Stability, teknoloji henüz emekleme aşamasında olmasına rağmen, yapay zeka video senteziyle aynı şeyi yapmak istiyor.

Stabil Video Difüzyon iki modelden oluşuyor. Biri 14 kare uzunluğunda görüntüden videoya sentez üretebilen (“SVD” olarak adlandırılıyor) ve 25 kare üreten diğeri (“SVD-XT” olarak adlandırılıyor). Saniyede 3 ila 30 kare arasında değişen hızlarda çalışabiliyor ve 576×1024 çözünürlükte kısa (tipik olarak 2-4 saniye uzunluğunda) MP4 video klipler üretiyor. Nvidia RTX 3060 grafik kartında 14 karelik bir nesil oluşturmak yaklaşık 30 dakika sürüyor. Ancak kullanıcılar Hugging Face ve Replicate gibi hizmetler aracılığıyla modelleri bulutta çok daha hızlı çalıştırmayı deneyebiliyor. Oluşturulan animasyon genellikle sahnenin bir bölümünü statik tutuyor ve kaydırma ve yakınlaştırma efektleri ekliyor veya duman veya ateşi canlandırıyor. Fotoğraflarda tasvir edilen insanlar genellikle hareket etmiyor.

Bu sınırlamalar göz önüne alındığında Stabilite, modelin henüz erken olduğunu ve yalnızca araştırma amaçlı olduğunu vurguluyor. Şirket web sitesinde: “Modellerimizi en son gelişmelerle hevesle güncellerken ve geri bildirimlerinizi dahil etmek için çalışırken, bu model bu aşamada gerçek dünya veya ticari uygulamalar için tasarlanmamıştır. Güvenlik ve güvenlikle ilgili görüşleriniz ve geri bildirimleriniz Nihai piyasaya sürülmesi için bu modelin iyileştirilmesinde kalite önemli” diyor. table Video Diffusion araştırma makalesi modellerin eğitim veri kümelerinin kaynağını açıklamıyor, yalnızca araştırma ekibinin Büyük Video Veri Kümesi’nde küratörlüğünü yaptıkları “yaklaşık 600 milyon örnekten oluşan büyük bir video veri kümesi” kullandığını söylüyor. Veri kümesi 212 yıllık içeriğe yayılan 580 milyon açıklamalı video klipten oluşuyor.

Popular Articles

Latest Articles