Y­a­p­a­y­ ­z­e­k­a­ ­D­a­v­i­d­ ­A­t­t­e­n­b­o­r­o­u­g­h­’­u­ ­k­l­o­n­l­a­d­ı­,­ ­o­r­t­a­l­ı­k­ ­k­a­r­ı­ş­t­ı­!­

Y­a­p­a­y­ ­z­e­k­a­ ­D­a­v­i­d­ ­A­t­t­e­n­b­o­r­o­u­g­h­’­u­ ­k­l­o­n­l­a­d­ı­,­ ­o­r­t­a­l­ı­k­ ­k­a­r­ı­ş­t­ı­!­

Demoda Holtz sırıtarak bakarken, sahte Attenborough “Burada, gümüşi yuvarlak gözlükleri ve darmadağınık kıvırcık buklelerinden oluşan yelesiyle ayırt edilen dikkate değer bir Homo sapiens örneğiyle karşı karşıyayız.” diyor. “Mavi kumaştan bir örtü gibi görünen bir şey giyiyor, bunun yalnızca çiftleşme gösterisinin bir parçası olduğu varsayılabilir.

Sanki bir BBC yaban hayatı belgeselini anlatıyormuşçasına, “Kaşının ince kavisine yakından bakın.” diye devam ediyor. “Sanki karmaşık bir merak ya da şüphecilik ritüelinin ortasındaymış gibi. Arka plan, korunaklı bir yaşam alanını, muhtemelen ortak bir beslenme alanını ya da sulama deliğini akla getiriyor.

O nasıl çalışır? Her beş saniyede bir “anlatıcı” adı verilen bir Python komut dosyası, Holtz’un web kamerasından bir fotoğraf çeker ve onu özel bir istem içeren bir API aracılığıyla, OpenAI’in görüntü girişlerini işleyebilen dil modelinin sürümü olan GPT-4V’ye besler. Daha sonra bu metni, Attenborough’nun konuşmasının ses örnekleriyle eğitilmiş ElevenLabs AI ses profiline besliyor. Holtz, GitHub’da hepsini bir araya getiren kodu (“anlatıcı” olarak adlandırılır) sağladı; OpenAI ve ElevenLabs için çalıştırılması maliyetli API belirteçleri gerektiriyor.

Bu yeteneklerin bazıları bir süredir ayrı ayrı mevcut olsa da, geliştiriciler son zamanlarda API kullanılabilirliği sayesinde bu yetenekleri bir araya getirmeyi denemeye başladı ve bu da bunun gibi şaşırtıcı gösteriler yaratabiliyor.

Demo video sırasında, Holtz bir bardağı kaldırıp içkisini alırken, sahte Attenborough anlatıcı şöyle diyor: “Ah, doğal ortamında, sofistike Homo sapiens’in kritik sıvı alımı ritüeline giriştiğini gözlemliyoruz. Bu erkek birey bir tane seçmiş. Muhtemelen yaşamı sürdüren H2O ile doldurulmuş küçük silindirik bir kap ve onu ustalıkla giriş deliğine doğru eğiyor. Ne büyük bir zarafet, ne büyük bir denge.

Pietro Schirano tarafından X’te yayınlanan farklı bir demoda, Steve Jobs’un bir tasarım uygulaması olan Figma’da oluşturulan tasarımları eleştiren klonlanmış sesini duyabilirsiniz. Schirano benzer bir teknik kullandı; bir görüntü API aracılığıyla GPT-4V’ye aktarıldı, ardından Jobs’un sesinin ElevenLabs klonuna beslendi.

Yazılımın bir kişinin sesinin ikna edici derin sahtelerini oluşturduğu ve gerçek kişinin asla söylemediği şeyleri “söylemesine” neden olan, etik ve yasal kaygılarla dolu olan ses klonlama teknolojisi zaten biliniyor.

Bunun bir ünlünün tanıtım haklarıyla ilgili yasal sonuçları var ve bu yöntem, sevdiklerinin para arayan seslerini taklit ederek insanları dolandırmak için zaten kullanılıyor.  ElevenLabs’ın hizmet şartları, insanların “Fikri Mülkiyet Hakları, tanıtım hakları ve Telif Hakkı“nı ihlal edecek şekilde başkalarının seslerini klonlamasını yasaklamakta. Ancak bu, uygulanması zor olabilecek bir kural.

Şimdilik bazı kişiler Attenborough’un sesini izinsiz olarak taklit eden birinden derin rahatsızlık duyduklarını ifade ederken, pek çok kişi de demodan şaşkına dönmüş görünüyor. Jeremy Nguyen X yanıtında “Tamam, David Attenborough’a bebeğimin brokoli yemeyi öğrendiği videoları anlatmasını sağlayacağım.” dedi.

Popular Articles

Latest Articles