Gazetenin araştırmacılarından ikisi, UC Berkeley’de doktora öğrencisi olan Eric Wallace ve Princeton Üniversitesi’nde doktora adayı Vikash Sehwag, bir Zoom röportajında Gizmodo’ya görüntü çoğaltmanın nadir olduğunu söyledi. Ekipleri yaklaşık 300.000 farklı altyazı denedi ve yalnızca %0,03’lük bir ezberleme oranı buldu. Kararlı Difüzyon gibi eğitim setinde görüntülerin yinelemesini kaldırmaya çalışan modeller için kopyalanan görüntüler daha da nadirdi, ancak sonunda tüm difüzyon modellerinde az ya da çok aynı sorun olacaktır. Araştırmacılar, Imagen’in veri setinde yalnızca bir kez var olan görüntüleri ezberleyebildiğini buldu.
Sehwag, “Buradaki uyarı, modelin genelleştirilmesi gerektiği, ezberlenmiş bir versiyonu tükürmek yerine yeni görüntüler oluşturması gerektiğidir” dedi.
Araştırmaları, AI sistemlerinin kendileri büyüdükçe ve daha karmaşık hale geldikçe, AI’nın kopyalanmış materyal üretme olasılığının daha yüksek olduğunu gösterdi. Stable Diffusion gibi daha küçük bir model, bu eğitim verilerinin çoğunu depolamak için aynı miktarda depolama alanına sahip değildir. O önümüzdeki birkaç yıl içinde çok şey değişebilir.
Wallace, “Belki gelecek yıl, çok daha büyük ve çok daha güçlü olan yeni model ne çıkarsa çıksın, o zaman potansiyel olarak bu tür ezberleme riskleri şu an olduğundan çok daha yüksek olacaktır” dedi.
Difüzyon tabanlı makine öğrenimi modelleri, aynı bozulmayı ortadan kaldırmadan önce eğitim verilerinin gürültülü bir şekilde yok edilmesini içeren karmaşık bir süreçle, üzerinde eğitildiklerine benzer veriler (bu durumda görüntüler) oluşturur. Difüzyon modelleri, üretken rakip ağlardan veya GAN tabanlı makine öğreniminden bir evrimdi.
Araştırmacılar, GAN tabanlı modellerin görüntü ezberleme ile aynı sorunu yaşamadığını keşfettiler, ancak daha gerçekçi, yüksek kaliteli görüntüler üreten daha karmaşık bir makine öğrenimi modeli ortaya çıkmadıkça, büyük şirketlerin Difüzyon’un ötesine geçmesi pek olası değil.
Araştırmaya katılan ETH Zürih’te bir bilgisayar bilimi profesörü olan Florian Tramèr, kaç tane yapay zeka şirketinin, hem ücretsiz hem de ücretli sürümlerdeki kullanıcılara yapay zeka tarafından oluşturulan içeriği paylaşma ve hatta bunlardan para kazanma lisansı verildiğini tavsiye ettiğini kaydetti. AI şirketlerinin kendileri de bu görüntülerin bazı haklarını saklı tutar. AI, mevcut bir telif hakkıyla tamamen aynı olan bir görüntü oluşturursa, bu bir sorun olabilir.
Yalnızca %0,03’lük bir ezberleme oranıyla, yapay zeka geliştiricileri bu çalışmaya bakabilir ve fazla bir risk olmadığını belirleyebilir. Şirketler, eğitim verilerindeki görüntülerin kopyalarını kaldırmak için çalışabilir, bu da ezberleme olasılığını azaltır. Kahretsin, bir görüntünün eğitim verilerindeki bir görüntünün doğrudan kopyası olup olmadığını algılayacak ve silinmek üzere işaretleyecek AI sistemleri bile geliştirebilirler. Ancak, üretken yapay zekanın mahremiyete yönelik tüm riskini maskeliyor. Carlini ve Tramèr de asist yaptı başka bir son makale Bu, verileri filtreleme girişimlerinin bile eğitim verilerinin modelden dışarı sızmasını engellemediğini savundu.
Ve elbette, hiç kimsenin yeniden kopyalanmasını istemeyeceği görüntülerin kullanıcıların ekranlarında görünme riski yüksektir. Wallace, örneğin bir araştırmacının insanların X-Işınlarından elde edilen bir dizi sentetik tıbbi veriyi oluşturmak isteyip istemediğini sordu. Difüzyon tabanlı yapay zeka ezberlerse ne olur? ve bir kişinin gerçek tıbbi kayıtlarını kopyalıyor mu?
UC Berkeley öğrencisi, “Oldukça nadirdir, bu nedenle ilk başta bunun olduğunu fark etmeyebilirsiniz ve sonra bu veri kümesini gerçekten web’de dağıtabilirsiniz” dedi. “Bu çalışmanın amacı, insanların yapabileceği olası hataların önüne geçmek.”