Derin Bilim: Vizyon ve dili birleştirmek, daha yetenekli yapay zekanın anahtarı olabilir

Abone olduğunuz zeka teorisine bağlı olarak, “insan düzeyinde” yapay zekaya ulaşmak, dünya hakkında akıl yürütmek için birden fazla modaliteden (örneğin ses, görüntü ve metin) yararlanabilen bir sistem gerektirecektir. Örneğin, karlı bir otoyolda devrilen bir kamyonun ve bir polis kruvazörünün görüntüsü gösterildiğinde, insan seviyesindeki bir yapay zeka, tehlikeli yol koşullarının bir kazaya neden olduğu sonucunu çıkarabilir. Veya bir robot üzerinde koşarken, buzdolabından bir kutu gazoz almaları istendiğinde, kutuyu almak ve talep edenin ulaşabileceği bir yere yerleştirmek için insanlar, mobilyalar ve evcil hayvanlar arasında gezinirlerdi.

Günümüzün yapay zekası yetersiz kalıyor. Ancak yeni araştırmalar, temel komutları (örneğin, “su şişesi al”) yerine getirmek için adımları çözebilen robotlardan açıklamalardan öğrenen metin üreten sistemlere kadar cesaret verici ilerleme işaretleri gösteriyor. Yapay zeka ve daha geniş bilimsel alandaki en son gelişmeler hakkında haftalık serimiz olan Deep Science’ın bu yeniden canlandırılmış baskısında, dünyayı tam olarak anlamasa bile – sistemlere doğru ilerleme kaydeden DeepMind, Google ve OpenAI çalışmalarını ele alıyoruz. Etkileyici sağlamlıkta görüntüler oluşturmak gibi dar görevleri çözün.

AI araştırma laboratuarı OpenAI’nin geliştirilmiş DALL-E, DALL-E 2, bir AI araştırma laboratuarının derinliklerinden ortaya çıkan en etkileyici projedir. Meslektaşım Devin Coldewey’in yazdığı gibi, orijinal DALL-E hemen hemen her komutla (örneğin, “bere takan bir köpek”) eşleşen görüntüler oluşturma konusunda olağanüstü bir hüner sergilemiş olsa da, DALL-E 2 bunu daha da ileri götürüyor. Ürettiği görüntüler çok daha ayrıntılıdır ve DALL-E 2 bir görüntüdeki belirli bir alanı akıllıca değiştirebilir – örneğin, uygun yansımalarla dolu mermer bir zeminin fotoğrafına bir masa ekleyerek.

DALL-E 2’nin oluşturabileceği görüntü türlerine bir örnek.

DALL-E 2 bu hafta en çok ilgiyi gördü. Ancak Perşembe günü, Google’daki araştırmacılar, Metin-Konuşma için Görsel Yönelimli Prosody adlı eşit derecede etkileyici bir görsel anlama sistemini ayrıntılı olarak anlattılar. VDT’ler – Google’ın AI blogunda yayınlanan bir gönderide. VDTTS, konuşan kişinin metin ve video karelerinden başka bir şey verilmeden gerçekçi sesli, dudak senkronizasyonlu konuşma üretebilir.

VDTTS’nin oluşturduğu konuşma, kaydedilen diyalog için mükemmel bir yedek olmasa da, inandırıcı bir şekilde insan benzeri ifade ve zamanlama ile hala oldukça iyidir. Google, bir gün, gürültülü koşullarda kaydedilmiş olabilecek orijinal sesin yerini almak için bir stüdyoda kullanıldığını görüyor.

Elbette görsel anlayış, daha yetenekli yapay zekaya giden yolda sadece bir adımdır. Diğer bir bileşen, AI’nın iyi belgelenmiş toksisite ve önyargı sorunlarını bir kenara bırakarak, birçok açıdan geride kalan dil anlayışıdır. Kesin bir örnekte, Google’ın son teknoloji ürünü Pathways Language Model (PaLM), bir makaleye göre onu “eğitmek” için kullanılan verilerin %40’ını ezberledi ve PaLM’nin metinden telif hakkı bildirimlerine kadar intihal yapmasına neden oldu. kod parçacıkları.

Neyse ki, Alphabet tarafından desteklenen AI laboratuvarı DeepMind, bunu ele almak için teknikleri araştıranlar arasında. yeni bir çalışmakDeepMind araştırmacıları, mevcut metinlerin birçok örneğinden (düşünce kitapları ve sosyal medya) metin oluşturmayı öğrenen AI dil sistemlerinin, açıklamalar bu metinlerden. Düzinelerce dil görevine (örneğin, “İkinci cümlenin birinci, mecazi cümlenin uygun bir başka deyişle olup olmadığını belirleyerek cevap verin”) açıklamalarla (örneğin, “David’in gözleri kelimenin tam anlamıyla hançer değildi, bu bir metafordur. David’in Paul’e sert bir şekilde baktığını ima ediyor.”) ve farklı sistemlerin üzerlerindeki performansını değerlendiren DeepMind ekibi, örneklerin gerçekten de sistemlerin performansını iyileştirdiğini buldu.

DeepMind’in yaklaşımı, akademik camiada kabul görürse, bir gün robotikte uygulanabilir ve adım adım talimatlar olmadan belirsiz istekleri (örneğin, “çöpü dışarı at”) anlayabilen bir robotun yapı taşlarını oluşturarak. Google’ın yeni “Söylediğimi Değil Yapabildiğimi Yap” projesi, önemli sınırlamalara rağmen bu geleceğe bir bakış sunuyor.

Google’daki Robotics ile Alphabet’in X laboratuvarındaki Do As I Can, Not As I Say adlı ortak çalışma, yapay zeka dil sistemini bir robot için “uygulanabilir” ve “bağlamsal olarak uygun” eylemler önermek üzere koşullandırmayı amaçlar. görev. Robot, dil sisteminin “elleri ve gözleri” olarak hareket ederken, sistem görev hakkında üst düzey anlamsal bilgi sağlar – teori, dil sisteminin robot için yararlı olan çok sayıda bilgiyi kodlamasıdır.

Resim Kredisi: Google’da Robotik

SayCan adlı bir sistem, bir komuta yanıt olarak robotun hangi beceriyi gerçekleştirmesi gerektiğini seçer ve (1) belirli bir becerinin yararlı olma olasılığını ve (2) söz konusu beceriyi başarıyla uygulama olasılığını hesaba katar. Örneğin, “Kolamı döktüm, temizlemek için bana bir şey getirir misin?” diyen birine SayCan, robotu sünger bulması, süngeri alması ve isteyen kişiye getirmesi için yönlendirebilir. O.

SayCan, robotik donanımla sınırlıdır – birden fazla durumda, araştırma ekibi robotun yanlışlıkla nesneleri düşürerek deneyler yapmayı seçtiğini gözlemledi. Yine de, DALL-E 2 ve DeepMind’in bağlamsal anlama konusundaki çalışmaları ile birlikte, bir araya getirildiğinde AI sistemlerinin bizi nasıl daha da yakınlaştırabileceğinin bir örneğidir. Jetsons tipi gelecek.

Popular Articles

Latest Articles

Other Articles

D­e­r­i­n­ ­B­i­l­i­m­:­ ­V­i­z­y­o­n­ ­v­e­ ­d­i­l­i­ ­b­i­r­l­e­ş­t­i­r­m­e­k­,­ ­d­a­h­a­ ­y­e­t­e­n­e­k­l­i­ ­y­a­p­a­y­ ­z­e­k­a­n­ı­n­ ­a­n­a­h­t­a­r­ı­ ­o­l­a­b­i­l­i­r­

Popular Articles

Latest Articles

Other Articles

Derin Bilim: Vizyon ve dili birleştirmek, daha yetenekli yapay zekanın anahtarı olabilir