O­p­e­n­A­I­ ­b­i­r­ ­s­e­s­ ­k­l­o­n­l­a­m­a­ ­a­r­a­c­ı­ ­g­e­l­i­ş­t­i­r­d­i­ ­a­n­c­a­k­ ­s­i­z­ ­o­n­u­ ­k­u­l­l­a­n­a­m­a­z­s­ı­n­ı­z­…­ ­h­e­n­ü­z­

O­p­e­n­A­I­ ­b­i­r­ ­s­e­s­ ­k­l­o­n­l­a­m­a­ ­a­r­a­c­ı­ ­g­e­l­i­ş­t­i­r­d­i­ ­a­n­c­a­k­ ­s­i­z­ ­o­n­u­ ­k­u­l­l­a­n­a­m­a­z­s­ı­n­ı­z­…­ ­h­e­n­ü­z­

Deepfake olarak çoğalmakOpenAI, sesleri klonlamak için kullanılan teknolojiyi geliştiriyor ancak şirket bunu sorumlu bir şekilde yaptığında ısrar ediyor.

Bugün OpenAI'nin ilk önizlemesini kutluyoruz Ses Motoruşirketin kapsamının genişletilmesi mevcut metin-konuşma API'si. Yaklaşık iki yıldır geliştirilmekte olan Voice Engine, kullanıcıların 15 saniyelik herhangi bir ses örneğini yükleyerek o sesin sentetik bir kopyasını oluşturmasına olanak tanıyor. Ancak henüz kamuya açıklanacak bir tarih yok, bu da şirkete modelin nasıl kullanıldığına ve suiistimal edildiğine yanıt vermesi için zaman tanıyor.

OpenAI ürün personelinin bir üyesi olan Jeff Harris, “Herkesin bu teknolojinin nasıl kullanıldığı konusunda iyi hissetmesini sağlamak istiyoruz; bu teknolojinin tehlikeli olduğu ortamı anlıyoruz ve bunun için azaltıcı önlemlerimiz var” dedi. TechCrunch bir röportajda.

Modeli eğitmek

Harris, Voice Engine'e güç veren üretken yapay zeka modelinin bir süredir göz önünde saklandığını söyledi.

Aynı modelin temelini oluşturuyor ses ve “yüksek sesle okuma” yetenekleri SohbetGPT, OpenAI'nin yapay zeka destekli sohbet robotunun yanı sıra OpenAI'nin metinden konuşmaya API'sinde bulunan önceden ayarlanmış sesler. Ve Spotify bunu Eylül ayının başından beri Lex Fridman gibi yüksek profilli sunucular için podcast'leri farklı dillerde dublajlamak için kullanıyor.

Harris'e modelin eğitim verilerinin nereden geldiğini sordum; bu biraz hassas bir konu. Yalnızca Ses Motoru modelinin bir temel üzerinde eğitildiğini söyleyecekti. karışım lisanslı ve kamuya açık verilerden oluşur.

Voice Engine'i çalıştıran model gibi modeller, genellikle web'deki halka açık sitelerden ve veri kümelerinden alınan çok sayıda örnek (bu durumda konuşma kayıtları) üzerinde eğitilir. Birçok üretken Yapay zeka tedarikçileri, eğitim verilerini rekabet avantajı olarak görüyor ve bu nedenle bu verileri ve onunla ilgili bilgileri gizli tutuyor. Ancak eğitim verileri ayrıntıları aynı zamanda fikri mülkiyetle ilgili davaların da potansiyel bir kaynağıdır; bu da pek çok şeyin ortaya çıkmasını engelleyen başka bir engeldir.

OpenAI: çoktan yapı dava açıldı Şirketin, yaratıcılara veya sahiplere kredi veya ödeme vermeden fotoğraflar, sanat eserleri, kodlar, makaleler ve e-kitaplar dahil olmak üzere telif hakkıyla korunan içerik konusunda yapay zekasını eğiterek fikri mülkiyet yasasını ihlal ettiği iddiaları üzerine.

OpenAI'nin bazı içerik sağlayıcılarla lisans anlaşmaları vardır. Shutterstock ve haber yayıncısı Axel Springerve web yöneticilerinin, web tarayıcısının eğitim verileri için sitelerini kazımasını engellemesine olanak tanır. OpenAI ayrıca sanatçılara, şirketin görüntü oluşturma modellerini eğitmek için kullandığı veri kümelerinden “devre dışı kalmasına” ve çalışmalarını kaldırmasına da olanak tanıyor. DALL-E 3.

Ancak OpenAI diğer ürünleri için böyle bir devre dışı bırakma planı sunmuyor. OpenAI, Birleşik Krallık Lordlar Kamarası'na yakın zamanda yaptığı bir açıklamada, telif hakkıyla korunan materyaller olmadan yararlı yapay zeka modelleri oluşturmanın “imkansız” olduğunu öne sürerek, adil kullanımın – telif hakkıyla korunan eserlerin ikincil bir yaratım oluşturmak için kullanılmasına izin veren yasal doktrin olduğunu ileri sürdü. Dönüştürücü olduğu sürece model eğitimi söz konusu olduğunda onu korur.

Sesi sentezleme

Şaşırtıcı bir şekilde, Ses Motoru değil Kullanıcı verileri konusunda eğitilmiş veya ince ayar yapılmış. Bu kısmen modelin geçici olmasından kaynaklanmaktadır – bir kombinasyon difüzyon süreci Ve trafo – konuşma üretir.

Harris, “Küçük bir ses örneği ve metni alıyoruz ve orijinal konuşmacıyla eşleşen gerçekçi bir konuşma oluşturuyoruz” dedi. “İstek tamamlandıktan sonra kullanılan ses kesiliyor.”

Kendisinin açıkladığı gibi, model, aldığı konuşma verilerini ve yüksek sesle okunması amaçlanan metin verilerini aynı anda analiz ediyor ve konuşmacı başına özel bir model oluşturmaya gerek kalmadan eşleşen bir ses üretiyor.

Yeni bir teknoloji değil. Bir dizi startup yıllardır ses klonlama ürünleri sunuyor. Onbir Laboratuvar Replica Studios'a Kağıt bardak ile Derin dub ile Konuşmacı. Amazon gibi Büyük Teknoloji şirketleri de öyle. Google Ve Microsoft – sonuncusu bir büyük OpenAI yatırımcısı tesadüfen.

Harris, OpenAI'nin yaklaşımının genel olarak daha yüksek kalitede konuşma sağladığını iddia etti.

Agresif fiyatlanacağını da biliyoruz. OpenAI, Voice Engine'in fiyatlandırmasını bugün yayınladığı pazarlama materyallerinden kaldırmış olsa da, TechCrunch tarafından görüntülenen belgelerde Voice Engine'in maliyetinin bir milyon karakter başına 15 ABD doları veya ~162.500 kelime olduğu listeleniyor. Bu, Dickens'ın “Oliver Twist”ine küçük bir boş alan bırakacaktır. (“HD” kalite seçeneğinin maliyeti bunun iki katıdır, ancak bir OpenAI sözcüsü TechCrunch'a HD ve HD olmayan sesler arasında hiçbir fark olmadığını söyledi. Kafa karıştırıcı bir şekilde. Dilediğinizi yapın.)

Bu, yaklaşık 18 saatlik ses anlamına geliyor ve fiyatı saat başına 1 doların biraz altında tutuyor. Bu gerçekten de daha popüler rakip satıcılardan biri olan ElevenLabs'ın ücretlendirdiğinden daha ucuz – ayda 100.000 karakter için 11 dolar. Ama o yapmak bazı özelleştirmelerin pahasına gelir.

Voice Engine, bir sesin tonunu, perdesini veya temposunu ayarlamaya yönelik kontroller sunmaz. Aslında sunmuyor herhangi Harris, 15 saniyelik ses örneğindeki herhangi bir ifadenin sonraki nesiller boyunca devam edeceğini belirtmesine rağmen (örneğin, heyecanlı bir tonda konuşursanız, ortaya çıkan sentetik ses sürekli olarak heyecanlı gelecektir) düğmeler veya kadranlar şu anda ince ayarlıdır. . Doğrudan karşılaştırılabildiğinde okuma kalitesinin diğer modellerle nasıl karşılaştırıldığını göreceğiz.

Bir meta olarak seslendirme yeteneği

ZipRecruiter'da seslendirme sanatçılarının maaşları saat başına 12 ila 79 dolar arasında değişiyor; bu, en düşük seviyede bile Voice Engine'den çok daha pahalı (acenteleri olan aktörler proje başına çok daha yüksek bir fiyat talep edecek). Eğer anlaşılır olsaydı, OpenAI'nin aracı sesli çalışmayı metalaştırabilirdi. Peki bu durum oyuncuları nereye bırakıyor?

Yetenek endüstrisi tam olarak hazırlıksız yakalanmaz; bir süredir üretken yapay zekanın varoluşsal tehdidiyle boğuşuyor. Seslendirme sanatçılarından, müşterilerin yapay zekayı sonunda kendilerinin yerini alabilecek sentetik versiyonlar oluşturmak için kullanabilmeleri için seslerinin haklarını devretmeleri giderek daha fazla isteniyor. Sesli çalışma, özellikle de ucuz, giriş seviyesi çalışmalar, yapay zeka tarafından üretilen konuşma lehine ortadan kaldırılma riskiyle karşı karşıyadır.

Artık bazı yapay zeka ses platformları bir denge kurmaya çalışıyor.

Replica Studios geçen yıl bir anlaşma imzaladı biraz tartışmalı Medya sanatçıları birliği üyelerinin seslerinin kopyalarını oluşturmak ve lisanslamak için SAG-AFTRA ile anlaştı. Kuruluşlar, düzenlemenin, video oyunları da dahil olmak üzere yeni eserlerde sentetik seslerin kullanımına ilişkin şartları müzakere ederken sanatçının rızasını almak için adil ve etik şartlar ve koşullar oluşturduğunu söyledi.

Bu arada ElevenLabs, kullanıcıların ses oluşturmasına, doğrulamasına ve kamuya açık olarak paylaşmasına olanak tanıyan sentetik sesler için bir pazaryerine ev sahipliği yapıyor. Başkaları bir ses kullandığında, asıl yaratıcılar 1.000 karakter başına belirli bir dolar tutarında tazminat alıyor.

OpenAI, en azından yakın vadede bu tür işçi sendikası anlaşmaları veya pazar yerleri oluşturmayacak ve kullanıcıların yalnızca sesleri klonlanan kişilerden “açık rıza” almasını, hangi seslerin yapay zeka tarafından oluşturulduğunu belirten “açık açıklamalar” yapmasını ve reşit olmayanların, ölen kişilerin veya kendi nesillerindeki siyasi figürlerin sesini kullanmamayı kabul edersiniz.

Harris, “Bunun seslendirme sanatçısı ekonomisiyle nasıl kesiştiği, yakından izlediğimiz ve gerçekten merak ettiğimiz bir konu” dedi. “Bu tür bir teknoloji aracılığıyla seslendirme sanatçısı olarak erişiminizi ölçeklendirmek için birçok fırsatın olacağını düşünüyorum. Ancak insanlar teknolojiyi gerçekten kullanıp biraz oynadıkça öğreneceğimiz şeyler bunlar.”

Etik ve deepfake'ler

Ses klonlama uygulamaları, aktörlerin geçim kaynaklarını tehdit etmenin çok ötesine geçen şekillerde istismar edilebilir ve istismar edilmiştir.

Komplo içeriğiyle bilinen meşhur mesaj panosu 4chan, kullanılmış ElevenLabs'ın platformu, Emma Watson gibi ünlüleri taklit eden nefret dolu mesajları paylaşıyor. Verge'den James Vincent, kötü niyetli bir şekilde, sesleri hızlı bir şekilde klonlamak için yapay zeka araçlarından faydalanmayı başardı. üreten şiddet içeren tehditlerden ırkçı ve transfobik ifadelere kadar her şeyi içeren örnekler. Ve Vice'ta muhabir Joseph Cox, bir bankanın kimlik doğrulama sistemini yanıltmaya yetecek kadar ikna edici bir ses klonu ürettiğini belgeledi.

Kötü aktörlerin ses klonlama yoluyla seçimleri etkilemeye çalışacağından korkuluyor. Ve asılsız da değiller: Ocak ayında bir telefon kampanyası, New Hampshire vatandaşlarını oy vermekten caydırmak için sahte bir Başkan Biden'ı kullandı. teşvik etmek FCC, gelecekteki bu tür kampanyaları yasa dışı hale getirmek için harekete geçecek.

Peki, deepfake'leri politika düzeyinde yasaklamanın yanı sıra OpenAI, Voice Engine'in kötüye kullanılmasını önlemek için (varsa) hangi adımları atıyor? Harris birkaçından bahsetti.

Öncelikle, Voice Engine başlangıç ​​için yalnızca son derece küçük bir geliştirici grubunun (yaklaşık 100 kişi) kullanımına sunuluyor. Harris, OpenAI'nin “sorumlu” sentetik medyayı denemenin yanı sıra sağlık hizmetleri ve erişilebilirlik gibi “düşük riskli” ve “sosyal açıdan faydalı” kullanım senaryolarına öncelik verdiğini söylüyor.

Voice Engine'i ilk benimseyenlerden bazıları arasında, bu aracı daha önce rol almış oyunculardan seslendirmeler oluşturmak için kullanan bir eğitim teknolojisi şirketi olan Age of Learning ve çeviri için Voice Engine'den yararlanan bir hikaye anlatma uygulaması olan HeyGen yer alıyor. Livox ve Lifespan, konuşma engelli ve engelli kişiler için ses oluşturmak amacıyla Voice Engine'i kullanıyor ve Dimagi, sağlık çalışanlarına ana dillerinde geri bildirim sağlamak için Voice Engine tabanlı bir araç geliştiriyor.

İşte Lifespan'dan oluşturulan sesler:

Popular Articles

Latest Articles