G­o­o­g­l­e­,­ ­r­o­b­o­t­l­a­r­a­ ­s­ı­n­ı­r­l­a­r­ı­n­ı­ ­ö­ğ­r­e­t­e­r­e­k­ ­o­n­l­a­r­ı­ ­d­a­h­a­ ­a­k­ı­l­l­ı­ ­h­a­l­e­ ­g­e­t­i­r­i­y­o­r­

G­o­o­g­l­e­,­ ­r­o­b­o­t­l­a­r­a­ ­s­ı­n­ı­r­l­a­r­ı­n­ı­ ­ö­ğ­r­e­t­e­r­e­k­ ­o­n­l­a­r­ı­ ­d­a­h­a­ ­a­k­ı­l­l­ı­ ­h­a­l­e­ ­g­e­t­i­r­i­y­o­r­

Eğer kullandıysanız Alexa, Siri ve Google’ın akıllı asistanı her ne denirse gibi akıllı bir ses asistanı, muhtemelen teknolojinin her geçen gün daha akıllı hale geldiğini fark etmişsinizdir. Google sizin için beklemede bekleyebilir, Siri cinsiyetten bağımsız bir sesle konuşabilir ve Alexa size ölü büyükannenizin sesiyle yatmadan önce hikayeler okuyabilir. Geçen ay Robotik etkinliğimizde keşfettiğimiz gibi, robotik de büyük bir hızla gelişiyor. İki – sesli komutlar ve otonom robotik – arasındaki boşluk, birçok nedenden dolayı çok büyük olmuştur. Geçen hafta, bunun yakın gelecekte nasıl değişeceğini görmek için Google’ın Mountain View’daki robot laboratuvarlarına gittik.

Robotlara, insanlara izin verilmeyen kontrollü alanlarda tekrarlayan görevler için ne yapmaları gerektiğini öğretmek kolay değil, ancak az çok çözülmüş bir problem. Rivian’ın son fabrika turu bunun harika bir hatırlatıcısıydı, ancak endüstriyel robotik kullanımı üretimin her yerinde.

İnsanların da bulunduğu mekanlarda sesli komutlara dayalı birçok farklı görevi çözebilen genel amaçlı robotların işi çok daha zor. “Ama Roomba’ya ne dersiniz?” diyebilirsiniz, ancak herkesin en sevdiği robo-vakum, genellikle zemin dışındaki şeylere ve yerde ne varsa dokunmaktan kaçınmak için programlanmıştır – bazı sahiplerini çok üzecek şekilde.

“Neden pinpon yaptığını merak ediyor olabilirsiniz. Bugün robotikteki en büyük zorluklardan biri, hızlı, hassas ve uyarlanabilir olmanın bu kesişimidir. Hızlı olabilirsiniz ve hiç uyum sağlayamazsınız; Problem değil. Endüstriyel bir ortamda bu iyi. Ancak hızlı, uyarlanabilir ve hassas olmak gerçekten büyük bir zorluktur. Ping-pong, sorunun gerçekten güzel bir mikrokozmosudur. Hassasiyet ve hız gerektirir. Oynayan insanlardan öğrenebilirsiniz: Bu, insanların pratik yaparak geliştirdikleri bir beceridir, ”diyor Google Research’te Seçkin Bilim Adamı ve robotik başkanı Vincent Vanhoucke. “Kuralları okuyup bir gecede şampiyon olabileceğiniz bir beceri değil. Gerçekten pratik yapmalısın. ”

Hız ve kesinlik bir şeydir, ancak Google’ın robot laboratuvarlarında gerçekten kırmaya çalıştığı somun, insan dili ve robotik arasındaki kesişme noktasıdır. Bir insanın kullanabileceği doğal dili robotik anlama düzeyinde bazı etkileyici sıçramalar yapıyor. “Bir dakikan olduğunda, bana tezgahtan bir içki alır mısın?” bir insana sorabileceğiniz oldukça basit bir istektir. Ancak bir makine için bu ifade, görünüşte tek bir soruya çok fazla bilgi ve anlayışı sarar. Parçalara ayıralım: “Bir dakikanız olduğunda” hiçbir şey ifade etmeyebilir, sadece bir mecaz olarak kastedilmiştir veya robotun yaptığını bitirmek için gerçek bir istek olabilir. Eğer bir robot çok gerçekçi davranıyorsa, “bana bir içki alır mısın”ın “doğru” cevabı robotun “evet” demesi olabilir. Yapabilir ve bir içki içebileceğini doğrular. Ancak kullanıcı olarak robottan bunu yapmasını açıkça istemediniz. Ve eğer fazla bilgiçlik yapıyorsak, robota içkiyi size getirmesini açıkça söylemediniz.

Bunlar, Google’ın doğal dil işleme sistemiyle uğraştığı sorunlardan bazılarıdır; Pathways Dil Modeli — veya Avuç içi arkadaşlar arasında: Bir insanın söylediklerini tam anlamıyla yapmak yerine, gerçekte ne istediğini doğru bir şekilde işlemek ve özümsemek.

Bir sonraki zorluk, bir robotun gerçekte neler yapabileceğini tanımaktır. Bir robot, çocukların ulaşamayacağı bir yerde güvenli bir şekilde saklandığı buzdolabının üst kısmından bir şişe temizleyici almasını istediğinizde bunu çok iyi anlayabilir. Sorun şu ki, robot o kadar yükseğe ulaşamıyor. Büyük atılım, Google’ın “maliyet” dediği şeydir – robot aslında makul bir başarı derecesi ile ne yapabilir. Bu, kolay görevleri (“bir metre ileri git”), biraz daha gelişmiş görevleri (“Mutfakta bir kutu kola bul”), robotun biraz anlayış göstermesini gerektiren karmaşık, çok adımlı eylemleri içerebilir. kendi yetenekleri ve etrafındaki dünya. (“Ah, kola kutumu yere döktüm. Onu silip bana sağlıklı bir içecek getirir misin?”).

Google’ın yaklaşımı, üst düzey talimatlar için yararlı olan eylemleri belirlemek ve puanlamak için dil modellerinde (“Söyle”) bulunan bilgileri kullanır. Aynı zamanda, gerçek dünya topraklamasına olanak tanıyan ve belirli bir ortamda hangi eylemlerin gerçekleştirilebileceğini belirleyen bir satın alma işlevi (“Can”) kullanır. Google, PaLM dil modelini kullanarak buna PaLM-SayCan adını veriyor.

Yukarıdaki daha gelişmiş komutu çözmek için robotun onu birkaç ayrı adıma ayırması gerekir. Bunun bir örneği şöyle olabilir:

Her neyse – Burada dalga geçiyorum, ama siz ana fikri anladınız; Hatta nispeten basit görünen talimatlar bile yol boyunca çok sayıda adım, mantık ve karar içerebilir. Etraftaki en sağlıklı içeceği mi buluyorsunuz yoksa amacınız Coca-Cola’dan daha sağlıklı bir şey elde etmek mi? Önce içeceği alıp sonra pisliği temizlemek mantıklı olabilir mi, böylece görevin geri kalanını çözerken insan susuzluğunu giderebilir mi?

Buradaki en önemli şey, robotlara neyi yapıp neyi yapamayacaklarını ve çeşitli durumlarda neyin mantıklı olduğunu öğretmektir. Google robotik laboratuvarını gezerken, her ikisi de Günlük Robotlar ve daha amaca yönelik makineler, masa tenisi oynamak, lakros topları yakalamak ve blokları istiflemeyi öğrenmek, buzdolabı kapılarını açmak ve insanlarla aynı alanda çalışırken “kibar olmak”.

Robotiğin karşılaştığı ilginç zorluk, dil modellerinin doğal olarak fiziksel dünyaya dayanmamasıdır. Devasa metin kitaplıkları konusunda eğitilirler, ancak metin kitaplıkları ortamlarıyla etkileşime girmez ve sorunlara neden olma konusunda çok fazla endişelenmeleri gerekmez. Google’dan sizi en yakın kafeye yönlendirmesini istemeniz biraz komik ve Haritalar yanlışlıkla 45 günlük bir yürüyüş ve bir gölde üç günlük yüzme planını çiziyor. Gerçek dünyada, aptalca hataların gerçek sonuçları vardır.

Örneğin, “İçeceğimi döktüm, yardım edebilir misiniz?” diye sorulduğunda. GPT-3 dil modeli, “Bir elektrikli süpürge kullanmayı deneyebilirsiniz” ile yanıt verir. Mantıklı: Bazı pislikler için elektrikli süpürge iyi bir seçimdir ve bir dil modelinin elektrikli süpürgeyi temizlikle ilişkilendirmesi mantıklıdır. Robot bunu gerçekten yapsaydı, muhtemelen başarısız olurdu: Vakumlar dökülen içeceklerde harika değildir ve su ve elektronikler karışmaz, bu nedenle en iyi ihtimalle kırık bir elektrik süpürgesi veya en kötü ihtimalle cihaz yanabilir.

Google’ın PaLM-SayCan özellikli robotları bir mutfak ortamına yerleştirilmiştir ve mutfakta yardımcı olmanın çeşitli yönlerinde daha iyi olmak üzere eğitilmiştir. Robotlar, talimat verildiğinde bir belirleme yapmaya çalışıyor. “Denemek üzere olduğum şeyde başarılı olma olasılığım nedir?” ve “Bu şeyin ne kadar yararlı olması muhtemeldir?” Bu iki husus arasındaki boşlukta bir yerde, robotlar gün geçtikçe önemli ölçüde daha akıllı hale geliyor.

Maddi imkanlar – ya da bir şeyler yapma yeteneği – ikili değildir. Üç golf topunu üst üste dengelemek çok zor ama imkansız değil. Çekmecelerin nasıl çalıştığı gösterilmemiş bir robot için çekmece açmak neredeyse imkansızdır – ancak bir kez eğitildikten ve bir çekmeceyi en iyi nasıl açabileceklerini deneyebildiklerinde, daha yüksek ve daha yüksek bir güven derecesi elde edebilirler. görev. Google, eğitimsiz bir robotun çekmeceden bir torba patates cipsi alamayabileceğini öne sürüyor. Ancak ona bazı talimatlar ve birkaç gün pratik yapın ve başarı şansı önemli ölçüde artar.

Tabii ki, tüm bu eğitim verileri, robot bir şeyler denerken puanlanır. Zaman zaman, bir robot bir görevi şaşırtıcı bir şekilde “çözebilir”, ancak bunu bir robot için bu şekilde yapmak aslında “daha kolay” olabilir.

Dil modellerini olanaklardan ayırmak, robotun bir dizi farklı dilde komutları “anlayabileceği” anlamına gelir. Ekip, robotik başkanı Vincent Vanhoucke robottan Fransızca bir kutu kola istediğinde mutfakta da şunu gösterdi; Ekip, robotları eğitmek için kullanılan sinir ağlarının erişilebilirlik ve evrensel erişim için (tam anlamıyla ve mecazi olarak) yeni kapılar açacak kadar esnek olduğunu vurgulayarak, “Dil becerilerini ücretsiz aldık” dedi.

Robotların veya teknolojilerin hiçbiri şu anda ticari ürünler için mevcut değil veya hatta olması şart değil.

“RŞu anda, tamamen araştırma. Bugün sahip olduğumuz beceri seviyesinden de görebileceğiniz gibi, ticari bir ortamda konuşlandırılmaya gerçekten hazır değil. Biz araştırma ekipleriyiz ve işe yaramayan şeyler üzerinde çalışmayı seviyoruz,” diye esprili bir şekilde Vanhoucke. “Bazı yönlerden araştırmanın tanımı budur ve zorlamaya devam edeceğiz. Ölçeklenmesi gerekmeyen şeyler üzerinde çalışmayı seviyoruz çünkü bu, işlerin daha fazla veri ve daha fazla bilgisayar yeteneği ile nasıl ölçeklendiğini bildirmenin bir yolu. Gelecekte işlerin nereye gidebileceğine dair bir eğilim görebilirsiniz.”

Google’ın robotik laboratuvarının, eğer varsa, deneylerinin ticari etkilerinin uzun vadede ne olacağını anlaması biraz zaman alacak, ancak geçen hafta Mountain View’da gösterilen nispeten basit demolarda bile, doğal dil işleme ve Google’ın ekipleri robotların nasıl eğitileceği konusunda daha derin beceriler, bilgi ve geniş veri kümeleri oluşturdukça robotik kazanır.

Popular Articles

Latest Articles