B­ü­y­ü­k­ ­D­i­l­ ­M­o­d­e­l­l­e­r­i­n­i­n­ ­O­r­t­a­y­a­ ­Ç­ı­k­a­n­ ­Y­e­t­e­n­e­k­l­e­r­i­ ­B­i­r­ ­S­e­r­a­p­t­ı­r­

B­ü­y­ü­k­ ­D­i­l­ ­M­o­d­e­l­l­e­r­i­n­i­n­ ­O­r­t­a­y­a­ ­Ç­ı­k­a­n­ ­Y­e­t­e­n­e­k­l­e­r­i­ ­B­i­r­ ­S­e­r­a­p­t­ı­r­

Orijinal versiyon ile ilgili bu hikaye ortaya çıkan Quanta Dergisi.

İki yıl önce bir projede Taklit Oyun kıyaslamasının ötesinde450 araştırmacı, BIG-bench'in yeteneklerini test etmek için tasarlanmış 204 görevden oluşan bir liste derledi. büyük dil modelleriChatGPT gibi sohbet robotlarına güç veren. Modellerin ölçeği büyüdükçe çoğu görevde performans öngörülebilir ve sorunsuz bir şekilde arttı; model ne kadar büyükse, o kadar iyi oldu. Ancak diğer görevlerde yetenekteki sıçrama düzgün değildi. Performans bir süre sıfıra yakın kaldı, ardından performans sıçradı. Diğer çalışmalar da yetenekte benzer sıçramalar buldu.

Yazarlar bunu “çığır açan” davranış olarak tanımladılar; diğer araştırmacılar bunu fizikteki sıvı suyun donarak buza dönüşmesi gibi bir faz geçişine benzetmişlerdir. İçinde Kağıt Ağustos 2022'de yayınlanan makalede araştırmacılar, bu davranışların hem şaşırtıcı hem de öngörülemez olduğunu ve bunların yapay zeka etrafında gelişen tartışmalara yön vermesi gerektiğini belirtti. emniyet, potansiyel ve risk. Yeteneklere “” dediler.acil,” yalnızca bir sistem yüksek düzeyde karmaşıklığa ulaştığında ortaya çıkan kolektif davranışları tanımlayan bir kelimedir.

Ancak işler bu kadar basit olmayabilir. Yeni bir makale Stanford Üniversitesi'ndeki üç araştırmacı tarafından yapılan bir araştırma, bu yeteneklerin aniden ortaya çıkmasının, araştırmacıların yüksek lisans performansını ölçme şeklinin bir sonucu olduğunu öne sürüyor. Yeteneklerin ne öngörülemez ne de ani olduğunu öne sürüyorlar. “Geçiş, insanların sandığından çok daha öngörülebilir” dedi Sanmi KoyejoStanford'da bilgisayar bilimcisi ve gazetenin kıdemli yazarı. “Ortaya çıkma konusundaki güçlü iddialar, modellerin yaptıklarıyla olduğu kadar bizim ölçmeyi seçme şeklimizle de ilgilidir.”

Bu modellerin büyüklüğü nedeniyle bu davranışı ancak şimdi görüyor ve inceliyoruz. Büyük dil modelleri muazzam analizler yaparak eğitilir metin veri kümeleri-kitaplar, web aramaları ve Wikipedia dahil çevrimiçi kaynaklardan alınan kelimeler- ve sıklıkla bir arada görünen kelimeler arasındaki bağlantıları bulma. Boyut, kabaca kelimelerin bağlanabileceği tüm yollara benzer şekilde parametreler cinsinden ölçülür. Ne kadar çok parametre olursa, bir LLM o kadar fazla bağlantı bulabilir. GPT-2'de 1,5 milyar parametre bulunurken ChatGPT'ye güç veren LLM GPT-3.5, 350 milyar parametre kullanıyor. Mart 2023'te piyasaya sürülen ve şu anda temelini oluşturan GPT-4 Microsoft Yardımcı Pilot1,75 trilyon kullandığı bildiriliyor.

Bu hızlı büyüme, performans ve etkinlikte şaşırtıcı bir artışa neden oldu ve yeterince büyük LLM'lerin, eğitim almadıkları modeller de dahil olmak üzere daha küçük modellerin yapamayacağı görevleri tamamlayabileceğini kimse tartışmıyor. Ortaya çıkışı bir “serap” olarak nitelendiren Stanford'daki üçlü, Yüksek Lisans'ların ölçeklendikçe daha etkili hale geldiğinin farkında; Aslında, eklenen karmaşıklık Daha büyük modellerin kullanılması, daha zor ve çeşitli problemlerde daha iyi olmayı mümkün kılmalıdır. Ancak bu gelişmenin düzgün ve öngörülebilir mi yoksa pürüzlü ve keskin mi göründüğünün, modelin iç işleyişinden ziyade ölçü seçiminden (hatta test örneklerinin azlığından) kaynaklandığını savunuyorlar.

Kaynak bağlantısı

Popular Articles

Latest Articles