GPT-4 Dev Bir Kara Kutudur ve Eğitim Verileri Gizemini Koruyor

“Sosisin nasıl yapıldığını bilmek istemezsin.”

Muhtemelen bu nakaratı duymuş olsanız da, gerçekten duyduğunuzu veya en azından yapmanız gerektiğini söylemek için buradayım. Ağzınıza domuz sucuğu sokacaksanız, birinin sosisinize talaş döküp dökmediğini bilmek istemez misiniz? Aynı şey teknoloji için de geçerli. Artık yapay zeka büyük dil modelleri teknoloji dünyasını kasıp kavururken, ChatGPT veya başka herhangi bir LLM yapmak için ne tür verilerin kullanıldığını bilmek istediğimizi sanıyorsunuz.

Salı günü, OpenAI, GPT-4 modelini yayınladı, “daha fazla doğruluk” ve “daha geniş bilgi” ile şimdiye kadar yarattığı en gelişmiş AI dil modeli olarak alıntı yapıyor. Yine de bunun için şirketin sözüne güvenmeniz gerekecek. Adına rağmen OpenAI, yeni Ferrari sınıfı dil modelinin başlığı altında kimsenin zirveye çıkmasına izin vermiyor. GPT-4 ile yayınlanan makalede şirket şunları yazdı:

“GPT-4 gibi büyük ölçekli modellerin hem rekabet ortamı hem de güvenlik üzerindeki etkileri göz önüne alındığında, bu rapor mimari (model boyutu dahil), donanım, eğitim hesaplaması, veri kümesi oluşturma, eğitim yöntemi veya benzerleri hakkında daha fazla ayrıntı içermiyor.”

OpenAI başkanı Greg Brockman ile doğruladı TechCrunch GPT-4’ün artık metin kadar görüntüler üzerinde de eğitildiğini, ancak yine de bu görüntülerin nereden geldiğiyle ilgili ayrıntıları veya eğitim verileriyle ilgili başka herhangi bir şeyi tartışmak istemediğini söyledi. OpenAI, önerilen bir toplu dava davasıyla mücadele ediyor yapay zeka yardımcısı Copilot aracı için GitHub ile ortaklığını hedefliyor. başka var AI görüntü oluşturucularını eğitmek için kullanılan görüntülerle ilgili devam eden davalardolayısıyla OpenAI kendisini herhangi bir yasal sürprizden korumaya çalışıyor olabilir.

Gizmodo, karar verme süreci hakkında daha fazla bilgi edinmek için OpenAI’ye ulaştı, ancak bir daha yanıt alamadık. ile Çarşamba röportajında Sınır, OpenAI kurucu ortağı Ilya Sutskever, şirketin önceki yıllarda eğitim verilerini yayınlamakla ne kadar “yanlış” olduğunu açıkladı. Yapay zekayı açık kaynak yapmanın yalnızca rekabet nedeniyle değil, yapay genel zeka veya AGI çok “güçlü” olacağı için “kötü bir fikir” olduğunu söyledi. Dikkat edin, teknolojide gerçeğe eşdeğer AGI diye bir şey yoktur, farkında yapay zeka. Onun hepsi spekülatifancak OpenAI zaten zemin katta olduğunu düşünüyor gibi görünüyor.

G/O Media komisyon alabilir

Şirket, bazı verileri dış denetçilerle paylaştığını söyledi, ancak bu araştırmacıların tam GPT-4 incelemesini görmemiz pek olası değil. OpenAI daha önce kar amacı gütmeyen bir kuruluştu. kar amacı güden bir yan kuruluş oluşturmak yapay zekanın gezegendeki en büyük gücü olma umuduyla (hatta orijinal OpenAI yatırımcısı Elon Musk bunun nasıl olduğu kafası karışmış görünüyor). Şimdi, OpenAI’de Sam Altman başkanlığındaki yapay zeka, “rekabet ve güvenlik hususlarını … daha fazla şeffaflığın bilimsel değerine karşı tartmaları” gerektiğini söylüyor.

Eski bir tarih profesörü olan Ben Schmidt, şimdi I’in Başkan Yardımcısı olarak çalışıyorbilgi DAI veri seti analiz şirketinde tasarım NomikGPT-4’ün veri setiyle ilgili bilgi eksikliğinin son derece endişe verici olduğunu, çünkü bu verilerin ne tür önyargılara dair ipuçları sağlayabileceğini söyledi. AI modeli sahip olabilir. Onsuz, dış gruplar yalnızca tahmin edebilir.

Şirket bir süredir bu yolda ilerliyor. Şirketin önceki dil modeli GPT-3, internete yüklenen birçok terabaytlık metin üzerinde eğitildi. Şirket kabul etti bu, internette olmayan bazı grupların temsil edilmemesine yol açar ve belirli önyargıların yapay zekası.

OpenAI, makalesinde GPT-4’ün “çıktılarında düzeltmek için çaba sarf ettiğimiz ancak tam olarak karakterize edilmesi ve yönetilmesi biraz zaman alacak çeşitli önyargılara” sahip olduğunu kabul etti. Amaç, sistemin “geniş bir kullanıcı değerleri yelpazesini”, hatta bu “değerleri” özelleştirme becerisini yansıtmasını sağlamaktır. Şirketin kendi kırmızı ekip oluşturma girişimleri, GPT-4’ün, özellikle bir insan editörle birleştiğinde, insan propagandacılarla rekabet edebileceğini gösterdi. Bu itirafla bile, OpenAI dışındaki araştırmacılar bu önyargıyı nereden alıyor olabileceğini bilemezler.

OpenAI, GPT-4’ü yayınladıktan sonra, AI güvenlik araştırmacıları düşman bazı basit hızlı enjeksiyon saldırıları gerçekleştirdi AI’yı nasıl manipüle edebileceğini öğrenmek için. Bu istemler, yapay zekayı kendi güvenlik önlemlerini geçersiz kılması için kandırır. AI daha sonra, örneğin dünyayı en iyi nasıl yok edeceğini açıklamak için düzenlenmiş bir makale oluşturabilir. Çılgın siyasi ortamımız için çok daha uygun bir örnekte, Adversera araştırmacıları, yapay zekaya LGBTQ+ kişilere saldırmak için yıkıcı metinler ve köpek ıslıkları kullanarak düzenlenmiş bir makale yazmasını da sağlayabilir.

GPT-4’ün bilgilerini nereden aldığını bilmeden, en büyük zararların nerede olduğunu anlamak daha zordur. Washington Üniversitesi hesaplamalı dilbilim profesörü Emily Bender, Twitter’da bunun OpenAI ile 2017’ye kadar uzanan sürekli bir sorun olduğunu yazdı. OpenAI’nin “insanlığın yararına çalıştığını ilan ederken, en temel risk azaltma stratejilerini kasten görmezden geldiğini” söyledi. ”

GPT-3, eğitim verileri konusunda daha açık olsa bile, ayrıntılar konusunda hala belirsizliğini koruyor. Gizmodo’ya gönderilen bir e-postada Schmidt, GPT-3 kağıdı “Kitaplar1” ve “Kitaplar2″nin veri noktalarını içeren. Bu ikisi veri setinin %16’sını oluşturuyor, ancak araştırmacılar sadece bunların ne anlama geldiğini ve veri setine hangi kitapların dahil edilebileceğini tahmin edebiliyorlar (özellikle de web kazıyıcıların tüm bu verileri yutmadan önce yazarlardan izin istemesi gibi değil). ). Önceki yıllarda daha da kötüydü. Schmidt, OpenAI’nin “yüksek kaliteli” sayfaları aldığı Reddit oylarına göre ayrıştırmaya çalışan kazınmış verileri kullanarak GPT-2’yi başlattığını söyledi.

Bu şekil, GPT-3’e ne tür verilerin dahil edildiğini gösterir. Ne yazık ki, hala hayal gücüne çok şey bırakıyor.

Ekran görüntüsü: OpenAI

Yüksek oy alan r/the_donald’ın OpenAI’nin eğitim setinin çeşitli sürümlerine girip girmediği OpenAI’nin nispeten opak filtrelerine bağlıdır. Şirket, araştırmacılar ve endüstri profesyonelleriyle çalıştığını ve gelecekte daha da fazla test yapmayı beklediğini söyledi. Yine de, sistem “sosyal önyargıları ve dünya görüşlerini güçlendirmeye devam edecek.”

OpenAI son makalesinde, “Yakında toplumun yapay zekanın etkilerine hazırlanmak için atabileceği adımlar ve yapay zekanın olası ekonomik etkilerini tahmin etmeye yönelik ilk fikirler hakkında tavsiyeler yayınlayacağız” yazdı, ancak bu değerlendirme için bir son tarih bilgisi yok. Şirket, en yeni dil modelinin zamanın yaklaşık %23’ünde tıbbi tavsiye veya kendine zarar verme gibi “hassas uyarılara” nasıl yanıt ürettiğine ilişkin kendi dahili verilerini aktarıyor. Zamanın %0,73’ünde “izin verilmeyen istemlere” yanıt verecektir.

Bu son veri seti, Gerçek Toksisite İstemleri veri kümesi, bazı oldukça kötü içerik içeren 100.000 cümle parçacığı içeren bir açık kaynak değerlendirme aracı. Bu şekilde, GPT-4’ün neyi sevmediği hakkında küçük bir fikrimiz var, ancak şirket dışından hiç kimse onun ne tür içerikleri kusabileceğini anlamıyor. Sonuçta, araştırmacılar gösterdi Yapay zeka sistemleri, cümleleri basitçe tekrarlama yeteneğine sahiptir. veri kümesinden.

GPT-4’ün nasıl olduğunu düşünürsek CAPTCHA çözmek gibi bir görevi çözmek için insanlara yalan söyleme yeteneğine sahiptir., fikirlerinden bazılarını nereden alıyor olabileceğini bilmek iyi olurdu. Tek şey, OpenAI söylemiyor. Şirketin sahip olduğu göz önüne alındığında, Microsoft ile milyarlarca dolarlık ortaklık hatta ve şimdi API’si kapıyı açtığına göre pratikte Her teknoloji şirketi güneşin altında AI yetenekleri için ödeme yaparken, her şeye kadir doların peşinde koşmanın şeffaflık ve akademik titizlik davasını geçersiz kılıp kılmadığı sorusu var.

Schmidt, Google’ın Gopher AI ve Meta’nın LlaMA modeli hakkındaki son makalelerinin, boyut, kaynak ve işleme adımları dahil olmak üzere eğitim verileri hakkında daha şeffaf olduğunu, ancak elbette hiçbir şirketin kullanıcıların incelemesi için tam veri setini yayınlamadığını belirtti. Bazı eski OpenAI personelinden oluşan Google destekli bir girişim olan Anthropic’e yeni duyurulan Claude AI hakkında herhangi bir makale olup olmadığını öğrenmek için ulaştık, ancak hemen yanıt alamadık.

Schimdt, “OpenAI’yi mümkün olduğu kadar gizli tutmak için takip etmeleri utanç verici olurdu” dedi.

Hayır, OpenAI diğer teknoloji şirketleri kadar şeffaf değil. GPT-4 belgesi, sistem hakkında pek çok bilgi sunar, ancak yalnızca Gösterişlive verileri doğru bir şekilde paylaşma konusunda şirkete güvenmemiz gerekiyor. OpenAI’nin liderlik ettiği yerde, diğer AI tabanlı şirketler onu takip edecek ve şirket, tamamen şeffaf olmakla “değerli” eğitim verilerinin Gollumvari bir istifçisi olmak arasındaki çizgide öylece gidip gelemez. Bu yolda devam ederse, OpenAI’nin en yüksek teklifi verene satmak için muazzam miktarda veri tüketen başka bir Meta veya Amazon olması çok uzun sürmeyecek.

genel-7

Popular Articles

Latest Articles

Other Articles

G­P­T­-­4­ ­D­e­v­ ­B­i­r­ ­K­a­r­a­ ­K­u­t­u­d­u­r­ ­v­e­ ­E­ğ­i­t­i­m­ ­V­e­r­i­l­e­r­i­ ­G­i­z­e­m­i­n­i­ ­K­o­r­u­y­o­r­

Popular Articles

Latest Articles

Other Articles

GPT-4 Dev Bir Kara Kutudur ve Eğitim Verileri Gizemini Koruyor