DALL-E yaratıcı bir devrime nasıl güç verebilir?

sorumluluk reddi: Bu hikayedeki tüm görseller yapay zeka kullanılarak oluşturulmuştur..

Birkaç yılda bir, dünyayı düzgün bir şekilde öncesi ve sonrası olarak ayıran bir teknoloji ortaya çıkıyor. Bir web sayfasına yerleştirilmiş bir YouTube videosunu ilk gördüğüm zamanı hatırlıyorum; Evernote dosyalarını cihazlar arasında ilk kez senkronize ettiğimde; İlk defa, katıldığım bir konser hakkında ne söylediklerini görmek için yakınlardaki insanlardan gelen tweetleri taradım.

İlk kez bir şarkıyı Shazamladığım, bir Uber çağırdığım ve Meerkat’ı kullanarak kendimi canlı yayınladığım zamanı hatırlıyorum. Bu anları öne çıkaran şey, bence, bazı öngörülemeyen yeni olasılıkların kilidinin açıldığı duygusudur. Web’e kolayca video klip ekleyebildiğiniz zaman web ne hale gelirdi? Buluttan telefonunuza herhangi bir dosyayı ne zaman çağırabilirsiniz? Kendini dünyaya ne zaman yayınlayabilirsin?

Arkadaşlarımı arayıp şunu söylememe neden olan yeni gelişen teknolojiyi görmeyeli birkaç yıl oldu: bunu görmelisin. Ama bu hafta yaptım çünkü listeye ekleyeceğim bir yenisi var. Bu, DALL-E adlı bir görüntü oluşturma aracıdır ve sonunda nasıl kullanılacağı hakkında çok az fikrim olsa da, bu bülteni yazmaya başladığımdan beri gördüğüm en ilgi çekici yeni ürünlerden biri.

Teknik olarak, söz konusu teknoloji DALL-E’dir. 2. tarafından oluşturuldu OpenAI, misyonu güvenli ve kullanışlı bir yapay genel zeka yaratmak olan yedi yaşındaki bir San Francisco şirketi. OpenAI, basit istemlerden karmaşık metin pasajları oluşturmak için güçlü bir araç olan GPT-3’ü oluşturmasıyla alanında zaten iyi bilinmektedir ve yardımcı pilotyazılım mühendisleri için kod yazmayı otomatikleştirmeye yardımcı olan bir araç.

DALL-E – sürrealist Salvador Dalí ve Pixar’ın portmantosu DUVAR-E – metin istemlerini alır ve onlardan görüntüler oluşturur. Ocak 2021’de şirket aracın ilk sürümünü tanıttı256 x 256 piksel karelerle sınırlıydı.

Fakat ikinci versiyonNisan ayında özel bir araştırma betasına giren , ileriye doğru radikal bir sıçrama gibi geliyor. Görüntüler artık 1.024’e 1.024 pikseldir ve bir görüntünün bir veya daha fazla öğesini diğeriyle değiştirerek “iç boyama” gibi yeni teknikleri içerebilir. (Bir kasedeki portakalın fotoğrafını çekip yerine bir elma koyduğunu hayal edin.) DALL-E ayrıca nesneler arasındaki ilişkiyi anlamada da gelişti ve bu da giderek daha fantastik sahneleri betimlemesine yardımcı oluyor – bir koala basketbola smaç yapıyor, bir astronot bir basketbola biniyor. atış.

Haftalardır, DALL-E tarafından oluşturulan görüntülerin dizileri Twitter zaman çizelgemi ele geçiriyor. Ve teknolojiyle neler yapabileceğimi düşündükten sonra – yani, üzerinde sayısız saat harcamak — OpenAI’de çok iyi biri bana acıdı ve beni özel araştırma betasına davet etti. Bugün bir sözcü bana, erişimi olan insan sayısının şu anda düşük binlerde olduğunu söyledi; şirket haftada 1.000 kişi eklemeyi umuyor.

Bir hesap oluşturduğunuzda, OpenAI, şunları kabul etmenizi sağlar: DALL-E’nin içerik politikasıplatformun bariz olası suistimallerinin çoğunu önlemek için tasarlanmıştır. Nefret, taciz, şiddet, seks veya çıplaklığa izin verilmez ve şirket ayrıca siyaset veya politikacılarla ilgili görüntüler oluşturmamanızı ister. (Burada, OpenAI’nin kurucu ortakları arasında, Twitter’a çok daha az kısıtlayıcı bir dizi politika için kızgın olan Elon Musk’ın olduğunu belirtmekte fayda var. Yönetim kurulundan 2018’de ayrıldı.)

DALL-E ayrıca bir engelleme listesine anahtar kelimeler (“çekim” gibi) ekleyerek çok sayıda olası görüntü oluşturmayı da önler. Ayrıca, aldatma amaçlı görüntüler oluşturmak için kullanmanıza izin verilmez – derin sahtekarlığa izin verilmez. Kamuya mal olmuş kişilere dayalı görseller oluşturmaya çalışmak için herhangi bir yasak olmasa da, izinleri olmadan insanların fotoğraflarını yükleyemezsiniz ve teknoloji, görüntülerin manipüle edildiğini netleştirmek için çoğu yüzü hafifçe bulanıklaştırıyor gibi görünüyor.

Bunu kabul ettiğinizde, size DALL-E’nin son derece basit arayüzü sunulur: içerik politikasının izin verdiği ölçüde, aklınıza gelen her şeyi yaratmaya davet eden bir metin kutusu. Google arama çubuğunu Photoshop gibi kullandığınızı hayal edin – işte bu DALL-E. Arama motorundan biraz ilham alan DALL-E, geçmiş başarılara dayalı olarak metni önerilen bir sorguyla önceden dolduran bir “beni şaşırt” düğmesi içerir. Bunu genellikle, aksini asla düşünmemiş olabileceğim sanatsal stiller denemek için fikir edinmek için kullandım – örneğin bir “makro 35 mm fotoğraf” veya piksel sanatı.

İlk sorgularımın her biri için DALL-E’nin 10 görüntü oluşturması yaklaşık 15 saniye sürecekti. (Bu haftanın başlarında, daha fazla insanın erişmesine izin vermek için görüntü sayısı altıya düşürüldü.) Neredeyse her seferinde kendimi yüksek sesle küfrederken ve sonuçların ne kadar iyi olduğuna gülerken buluyordum.

Örneğin, burada “itfaiyeci gibi giyinmiş bir shiba inu köpeği”nin bir sonucu var.

Ve işte “sihirbaz gibi giyinmiş bir bulldog, dijital sanat”tan bir tanesi.

Bu sahte AI köpeklerini çok seviyorum. Onları evlat edinmek ve sonra onlar hakkında çocuk kitapları yazmak istiyorum. Metaverse varsa, orada bana katılmalarını istiyorum.

Başka kim gelebilir biliyor musun? “Şapka takan kurbağa, dijital sanat.”

Neden kelimenin tam anlamıyla mükemmel?

Yan Kanal Discord sunucumuzda istek almaya başladım. Birisi “gece metaverse’i, dijital sanatı” tasvir etmesini istedi. Geri dönen şeyin uygun bir şekilde büyük ve soyut olduğunu düşündüm:

DALL-E’nin bu görüntüleri nasıl yaptığını burada açıklamaya çalışmayacağım, çünkü kısmen hala kendim anlamaya çalışıyorum. (İlgili temel teknolojilerden biri olan “difüzyon” yararlı bir şekilde açıklanmıştır. Google AI’dan geçen yılki bu blog gönderisinde.) Ama bu görüntü oluşturma teknolojisinin ne kadar yaratıcı görünebileceği beni defalarca etkiledi.

Örneğin, DALL-E erişimi olan başka bir okuyucu tarafından Discord’umda paylaşılan iki sonucu alın. İlk olarak, “Bir hisse senedi grafiğinin çökmesi, dijital sanatın önünde bir ayı ekonomisti” için sonuçlara bakın.

Ve ikincisi, “Yükselen bir borsa grafiğinin önünde, yukarı doğru, synthwave, dijital sanatla dolu bir boğa ekonomisti.”

DALL-E’nin burada duyguyu yakalama derecesi çarpıcı: ayının korkusu ve çilesi ve boğanın saldırganlığı. Bunlardan herhangi birini “yaratıcı” olarak tanımlamak yanlış görünüyor – burada baktığımız şey olasılıklı tahminlerden başka bir şey değil – ve yine de benim üzerimde gerçekten yaratıcı bir şeye bakmanın yapacağı etkinin aynısını yapıyorlar.

DALL-E’nin bir başka zorlayıcı yönü, tek bir sorunu çeşitli şekillerde çözmeye çalışmasıdır. Örneğin, bana “pamuklu gözlü lezzetli bir tarçınlı çörek” göstermesini istediğimde, gözleri nasıl tasvir edeceğini bulması gerekiyordu.

Bazen DALL-E, benim yaptığım gibi bir ruloya plastik görünümlü bir çift göz ekledi. Diğer zamanlarda, buzlanmadaki negatif boşluktan gözler yarattı. Ve bir durumda gözleri dışarı çıkardı minyatür tarçınlı rulolar.

Bu, yüksek sesle küfür ettiğim ve gülmeye başladığım anlardan biriydi.

DALL-E, bugüne kadar gördüğüm en gelişmiş görüntü oluşturma aracıdır, ancak tek araçtan çok uzaktır. Adlı benzer bir araçla da hafifçe denedim yolculukayrıca beta sürümünde olan; Google, Imagen adında bir başkasını duyurdu, ancak henüz yabancıların denemesine izin vermedi. Üçüncü bir araç olan DALL-E Mini, son birkaç gün içinde bir dizi viral görüntü oluşturdu; Yine de OpenAI veya DALL-E ile hiçbir ilgisi yok ve geliştiricinin kısa süre içinde bir durdurma ve vazgeçme mektubu ile vurulacağını hayal ediyorum.

OpenAI, DALL-E’nin bir gün daha genel olarak kullanılabilir hale gelip gelmeyeceği ve nasıl kullanıma sunulacağı konusunda henüz herhangi bir karar vermediğini söyledi. Mevcut araştırma betasının amacı, hem araç hem de içerik politikalarını gerektiği gibi uyarlayarak insanların bu teknolojiyi kullandığını göstermektir.

Yine de sanatçıların DALL-E için keşfettiği kullanım örneklerinin sayısı şaşırtıcı. Bir sanatçı, sosyal uygulamalar için artırılmış gerçeklik filtreleri oluşturmak için DALL-E kullanıyor. Miami’deki bir şef, yemeklerini nasıl tabaklayacağına dair yeni fikirler edinmek için bunu kullanıyor. Ben Thompson, DALL-E’nin nasıl kullanılabileceğine dair öngörülü bir yazı yazdı. meta veri deposunda son derece ucuz ortamlar ve nesneler oluşturun.

Bu tür bir otomasyonun profesyonel çizerlere neler yapabileceği konusunda endişelenmek doğal ve uygundur. Pek çok iş kaybolmuş olabilir. Yine de DALL-E gibi araçların iş akışlarında faydalı olabileceğini düşünmeden edemiyorum. Örneğin, başlamadan önce DALL-E’den kendileri için birkaç konsept çizmesini isteseler mi? Araç, herhangi bir görüntünün varyasyonlarını oluşturmanıza olanak tanır; Alternatif önermek için kullandım platform logolar:

Sahip olduğum logoya sadık kalacağım. Ancak bir illüstratör olsaydım, sadece ilham almak için alternatif önerileri takdir edebilirdim.

Ayrıca, bu araçların bir illüstratör tutmayı asla düşünmeyecek (veya karşılayamayacak) insanlar için ne gibi yaratıcı potansiyeller yaratabileceğini düşünmeye değer. Çocukken kendi çizgi romanlarımı yazdım ama illüstrasyon becerilerim hiçbir zaman çok ileri gitmedi. Ya DALL-E’ye tüm süper kahramanlarımı benim için çizmesi talimatını verebilseydim?

Bir yandan, bu çoğu insanın her gün kullanacağı türden bir araç gibi görünmüyor. Yine de önümüzdeki aylarda ve yıllarda bunun gibi çok daha yaratıcı teknoloji uygulamaları bulacağımızı hayal ediyorum: e-ticarette, sosyal uygulamalarda, evde ve işte. Sanatçılar için, telif hakkı sorunlarının çözüldüğünü varsayarsak, şimdiye kadar gördüğümüz kültürü yeniden karıştırmak için en güçlü araçlardan biri olabilir gibi görünüyor. (Korunan eserlerin görüntülerini oluşturmak için yapay zeka kullanmanın adil kullanım olarak kabul edilip edilmediği tam olarak belli değil, bana söylendi. DALL-E’nin “Batman sandviç yiyor” konusundaki tavrını görmek istiyorsanız bana DM atın.)

Bu aracın bazı zararlı uygulamalarını da göreceğimizden şüpheleniyorum. DALL-E’nin kötüye kullanımına karşı güçlü politikalar uygulamak için OpenAI’ye güvensem de, kesinlikle benzer araçlar ortaya çıkacak ve içerik denetimine her şeye uygun bir yaklaşım benimseyecek. İnsanlar zaten yaratıyor kötü niyetli, genellikle pornografik derin sahtekarlıklar bugün mevcut olan kaba araçları kullanarak eski sevgililerini taciz etmek; bu teknoloji sadece daha iyi olacak.

Genellikle, yeni bir teknoloji ortaya çıktığında, gelecekte nasıl kötüye kullanılabileceğini görmezden gelmek için daha mutlu ve tuhaf kullanımlarına odaklanırız. DALL-E’yi kullanmaktan heyecan duyduğum kadar, benzer araçların daha az titiz şirketlerin elinde neler yapabileceği konusunda da oldukça endişeliyim.

Ayrıca, bu teknolojinin olumlu kullanımlarının bile geniş ölçekte neler yapabileceğini düşünmeye değer. Çevrimiçi olarak karşılaştığımız görüntülerin çoğu AI tarafından oluşturulduğunda, bu gerçeklik algımıza ne yapar? Gördüğümüz her şeyin gerçek olduğunu nasıl bileceğiz?

Şimdilik DALL-E, tüketici teknolojisi tarihinde bir atılım gibi görünüyor. Soru, birkaç yıl içinde bunu yaratıcı bir devrimin başlangıcı olarak mı yoksa daha endişe verici bir şey olarak mı düşüneceğimizdir. Gelecek zaten burada ve haftada 1.000 kullanıcı ekliyor. Etkilerini tartışmanın zamanı şimdi, dünyanın geri kalanı onu ele geçirmeden önce.

Popular Articles

Latest Articles

Other Articles

D­A­L­L­-­E­ ­y­a­r­a­t­ı­c­ı­ ­b­i­r­ ­d­e­v­r­i­m­e­ ­n­a­s­ı­l­ ­g­ü­ç­ ­v­e­r­e­b­i­l­i­r­?­

Popular Articles

Latest Articles

Other Articles

DALL-E yaratıcı bir devrime nasıl güç verebilir?