Yapay Zeka Sohbet Robotlarının Büyük Dil Modellerine İhtiyacı Var. Yüksek Lisans Dereceleri Hakkında Bilmeniz Gerekenler

Bir AI sohbet robotuna şöyle sorduğunuz zaman: SohbetGPT, Claude, Yardımcı pilot veya İkizler burcu bir şey yapmak için sanki bir kişiyle etkileşime giriyormuşsunuz gibi görünebilir.

Ama sen değilsin. Bu sohbet robotları aslında kelimelerin anlamlarını bizim gibi anlamıyor. Bunun yerine, büyük dil modelleri veya LLM'ler ile etkileşimde bulunmak için kullandığımız arayüzlerdir. Bu temel teknoloji, kelimelerin nasıl kullanıldığını ve hangi kelimelerin sıklıkla bir arada göründüğünü tanıyacak şekilde eğitilmiştir; böylece gelecekteki kelimeleri, cümleleri veya paragrafları tahmin edebilir.

Üretken yapay zeka araçları, daha iyi tahminler yapabilmek için sözcükleri anlama becerilerini sürekli olarak geliştiriyor. Bazıları dahil Google'ın Lumiere'i Ve OpenAI'den Soragörüntü, video ve ses oluşturmayı bile öğreniyorlar.

Bunların hepsi, ChatGPT'nin 2022'nin sonlarında kullanıma sunulmasıyla başlatılan ve ardından Microsoft'un yapay zekayla geliştirilmiş Bing aramasının ve Google'ın Bard'ının (şimdi Gemini) gelişiyle başlatılan sürekli bir üst düzey adamlık akışının parçası. Sonraki aylarda Microsoft Yardımcı Pilot tanıtıldıMeta güncellenmiş LamaOpenAI Dall-E 3'ü piyasaya sürdü Ve GPT-4 TurboGoogle duyurdu İkizler Ultra 1.0 Ve Gemini 1.5 Pro ile dalga geçtiAntropik iken Claude 3'ü piyasaya sürdü. Google ve Adobe şu bilgilere göz attı: sanal oyunlar ve müzik oluşturabilen araçlar tüketicilere teknolojinin nereye gittiğini göstermek.

Bunun gibi son teknolojiye hiç bu kadar erişilebilir olmamıştı. Ve bunu geliştiren şirketler sizi kendi ekosistemlerine çekmeye ve pazardaki iddialarını ortaya koymaya hevesli 1,3 trilyon dolar değerinde olması bekleniyor 2032'ye kadar.

Yüksek Lisans'ın yapay zeka ile ne ilgisi olduğunu merak ediyorsanız bu açıklayıcı tam size göre. (Ve yeni ürünümüze göz atmayı unutmayın Yapay Zeka Atlası uygulamalı ürün incelemelerinin yanı sıra haberler, ipuçları, videolar ve daha fazlası için kılavuz.)

Dil modeli nedir?

Dil modelini kelimelerin kahinleri gibi düşünebilirsiniz.

Georgia Tech Etkileşimli Bilgi İşlem Okulu profesörü ve Georgia Tech Makine Öğrenim Merkezi direktör yardımcısı Mark Riedl, “Dil modeli, insanların ürettiği dilin neye benzediğini tahmin etmeye çalışan bir şeydir” dedi. “Bir şeyi dil modeli yapan şey, önceki kelimelere göre gelecekteki kelimeleri tahmin edip edememesidir.”

Bu, mesaj yazarken otomatik tamamlama işlevinin ve AI sohbet robotlarının temelidir.

Büyük dil modeli nedir?

Büyük bir dil modeli, tanımı gereği, büyük bir dil modelidir.

Ne kadar büyük?

Bu modeller “parametreler” olarak bilinen yöntemlerle ölçülür.

Parametre nedir?

Yüksek Lisans'lar, bir girdi alan ve bir çıktı üretmek için matematiksel hesaplamalar gerçekleştiren makine öğrenimi modelleri olan sinir ağlarını kullanır. Bu hesaplamalardaki değişkenlerin sayısı parametrelerdir. Büyük bir dil modelinde 1 milyar veya daha fazla parametre bulunabilir.

Riedl, “Tutarlı, akıcı bir metinden oluşan tam bir paragraf ürettiklerinde büyük olduklarını biliyoruz” dedi.

Küçük dil modeli diye bir şey var mı?

Evet. Microsoft gibi teknoloji şirketleri Daha küçük modelleri piyasaya sürüyoruzTelefonlar ve PC'ler için özel olarak tasarlanan, LLM ile aynı bilgi işlem kaynaklarını gerektirmeyen ancak yine de kullanıcıların üretken yapay zekanın gücünden faydalanmasına yardımcı olan bir programdır.

Büyük dil modelleri nasıl öğrenir?

Yüksek Lisans'lar derin öğrenme adı verilen bir süreç aracılığıyla öğrenirler.

Reklam ajansı Momentum Worldwide'ın global CTO'su Jason Alan Snyder, “Bu, bir çocuğa eğitim verirken çok sayıda örnek göstermenize benziyor” dedi.

Başka bir deyişle, LLM'ye kelimelerin farklı bağlamlarda nasıl kullanıldığını ve hatta kelimelerin daha ince nüanslarını anlamasına yardımcı olmak için kitaplar, makaleler, kodlar ve sosyal medya gönderileri gibi bir içerik kütüphanesi (eğitim verileri olarak bilinir) beslersiniz. dil.

Bu süreç sırasında model, bir insanın yaşamı boyunca okuyabileceğinden çok daha fazlasını, yani trilyonlarca jetonu sindirir.

Belirteçler, yapay zeka modellerinin metni parçalamasına ve işlemesine yardımcı olur. Yapay zeka modelini yardıma ihtiyacı olan bir okuyucu olarak düşünebilirsiniz. Model, bir cümleyi daha küçük parçalara veya simgelere (İngilizce'de dört karaktere veya bir kelimenin yaklaşık dörtte üçüne eşdeğer) bölüyor, böylece her bir parçayı ve ardından genel anlamını anlayabiliyorlar.

Buradan Yüksek Lisans, kelimelerin nasıl bağlandığını analiz edebilir ve hangi kelimelerin sıklıkla birlikte göründüğünü belirleyebilir.

Snyder, “Bu, kelime ilişkilerinin dev haritasını oluşturmak gibi bir şey” dedi. “Ve sonra bunu gerçekten eğlenceli ve harika bir şey yapmaya başlıyor ve bir sonraki kelimenin ne olduğunu tahmin ediyor… ve tahmini verilerdeki gerçek kelimeyle karşılaştırıyor ve dahili haritayı doğruluğuna göre ayarlıyor.”

Bu tahmin ve ayarlama milyarlarca kez gerçekleşir, dolayısıyla Yüksek Lisans sürekli olarak dil anlayışını geliştiriyor ve kalıpları belirleme ve gelecekteki kelimeleri tahmin etme konusunda daha iyi hale geliyor. Hatta soruları yanıtlamak, yaratıcı metin formatları oluşturmak ve dilleri tercüme etmek için verilerden kavramları ve gerçekleri öğrenebilir. Ancak bizim gibi kelimelerin anlamlarını anlamıyorlar; yalnızca istatistiksel ilişkileri.

Yüksek Lisans'lar ayrıca insan geri bildirimlerinden pekiştirmeli öğrenme yoluyla yanıtlarını geliştirmeyi öğrenirler.

Carnegie Mellon Dil Teknolojileri Enstitüsü'nde yardımcı doçent olan Maarten Sap, “Verilen girdi göz önüne alındığında, insanlardan hangi tepkinin daha iyi olduğu konusunda bir yargı veya tercih alıyorsunuz” dedi. “Ve sonra modele tepkilerini iyileştirmeyi öğretebilirsiniz.”

Büyük dil modelleri ne işe yarar?

Bir dizi giriş kelimesi verildiğinde, bir Yüksek Lisans bir sonraki kelimeyi tahmin edebilir.

Örneğin, “Derin maviliklere yelken açtım…” ifadesini düşünün.

Çoğu kişi muhtemelen “deniz” kelimesini tahmin eder çünkü yelken, derin ve mavi denizle bağdaştırdığımız kelimelerdir. Başka bir deyişle, her kelime bir sonraki adımın bağlamını oluşturur.

Riedl, “Bu büyük dil modelleri, çok fazla parametreye sahip oldukları için birçok modeli saklayabilirler” dedi. “Bu ipuçlarını seçebilme ve bundan sonra ne olacağına dair gerçekten çok iyi tahminler yapabilme konusunda çok iyiler.”

Büyük dil modelleri neyi gerçekten iyi yapıyor?

Hukuk Yüksek Lisansı, kelimeler arasındaki bağlantıyı anlama ve kulağa doğal gelen metinler üretme konusunda çok iyidir.

“Genellikle 'Bunu benim için yap' veya 'Bana bundan bahset' veya 'Bunu özetle' gibi bir dizi talimat olabilecek bir girdi alıyorlar ve bu kalıpları girdiden çıkarabiliyorlar ve uzun bir sonuç üretebiliyorlar. akıcı bir tepki dizisi” dedi Riedl.

Büyük dil modelleri nerede zorlanıyor?

Fakat onların çeşitli zayıflıkları var.

Birincisi, gerçeği söyleme konusunda pek iyi değiller. Aslında bazen ChatGPT gibi kulağa doğru gelen şeyler uydururlar. altı sahte davadan bahsetti hukuki bir brifingde veya Bard yanlışlıkla James Webb Uzay Teleskobu'na itibar edildi Kendi güneş sistemimizin dışındaki bir gezegenin ilk fotoğraflarını çekmekle birlikte. Bunlara halüsinasyonlar denir.

Sap, “Çok fazla dedikodu yapmaları ve bir şeyler uydurmaları açısından son derece güvenilmezler” dedi. “Hiçbir şekilde doğruyu söylemek üzere eğitilmediler veya tasarlanmadılar.”

Ayrıca daha önce karşılaştıklarından temelde farklı olan sorgularla da mücadele ediyorlar. Bunun nedeni kalıpları bulmaya ve bunlara yanıt vermeye odaklanmış olmalarıdır.

Bunun iyi bir örneği, benzersiz bir sayı kümesi içeren bir matematik problemidir.

Riedl, “Gerçekte matematik çözmediği için bu hesaplamayı doğru yapamayabilir” dedi. “Matematik sorunuzu daha önce gördüğü matematik sorusu örnekleriyle ilişkilendirmeye çalışıyor.”

Kelimeleri tahmin etmede başarılı olsalar da, planlama ve karar verme de dahil olmak üzere geleceği tahmin etmede iyi değiller.

Riedl, “İnsanların yaptığı şekilde planlama yapma fikri… farklı olasılıklar ve alternatifler hakkında düşünmek ve seçimler yapmak, şu anda mevcut büyük dil modellerimiz için gerçekten zor bir engel gibi görünüyor” dedi.

Son olarak, güncel olaylarla mücadele ediyorlar çünkü eğitim verileri genellikle yalnızca belirli bir noktaya kadar çıkıyor ve bundan sonra meydana gelen hiçbir şey bilgi tabanlarının bir parçası değil. Gerçekte doğru olan ile muhtemel olan arasında ayrım yapma kapasitesine sahip olmadıkları için, güncel olaylar hakkında güvenle yanlış bilgi verebilirler.

Ayrıca dünyayla bizim gibi etkileşime girmiyorlar.

Snyder, “Bu, çoğu zaman bağlamın, sosyal dinamiklerin ve gerçek dünyadaki sonuçların anlaşılmasını gerektiren güncel olayların nüanslarını ve karmaşıklıklarını kavramalarını zorlaştırıyor” dedi.

Büyük dil modelleri nasıl gelişecek?

OpenAI ve Adobe gibi üretken yapay zeka şirketlerinin yalnızca metin değil, resim, video ve ses konusunda da eğitim alan ilk multimodal modellerini görmeye başladık.

Yüksek Lisans öğrencilerinin yalnızca İngilizce'den dil çevirme değil, aynı zamanda ek dilleri anlama ve sohbet etme becerilerinde de muhtemelen gelişmeler göreceğiz.

Ayrıca, geri alma yeteneklerinin, modellerin üzerinde eğitildiğinin ötesinde geliştiğini de görebiliriz. Bu, modellerin web aramaları yapabilmesi ve ardından bu sonuçları Yüksek Lisans'a aktarabilmesi için Google gibi arama motorlarından yararlanmayı içerebilir.

Yüksek Lisans'lar arama motorlarına bağlı olsaydı, gerçek zamanlı bilgileri eğitim verilerinin çok ötesinde işleyebilirlerdi. Bu, sorguları daha iyi anlayabilecekleri ve daha doğru, güncel yanıtlar verebilecekleri anlamına geliyor.

Riedl, “Bu, bağlantı modellerimizin güncel ve güncel kalmasına yardımcı oluyor çünkü aslında internetteki yeni bilgilere bakıp bunu getirebiliyorlar” dedi.

Birkaç yakalama var. Yeterli doğrulama mekanizmaları mevcut olmadığında, web araması halüsinasyonları daha da kötüleştirebilir. Ve Yüksek Lisans'ların, web kaynaklarından alıntı yapmadan önce güvenilirliğini nasıl değerlendireceklerini öğrenmeleri gerekecektir. Ayrıca, talep üzerine web arama sonuçlarını işlemek için çok fazla (pahalı) bilgi işlem gücü gerekir.

Yapay zeka destekli BingMicrosoft'un Şubat 2023'te duyurduğu benzer bir konsepttir. Ancak yanıtlarını geliştirmek için arama motorlarından yararlanmak yerine Bing, kendi arama motorunu daha iyi hale getirmek için yapay zekayı kullanıyor. Bu kısmen tüketici sorgularının ardındaki gerçek anlamın daha iyi anlaşılması ve söz konusu sorgulara ilişkin sonuçların daha iyi sıralanmasıyla gerçekleştirilir.

Editörün notu: CNET, bazı hikayeler oluşturmaya yardımcı olmak için bir yapay zeka motoru kullanıyor. Daha fazlası için bkz. bu gönderi.

Kaynak bağlantısı