A­r­a­ş­t­ı­r­m­a­c­ı­l­a­r­,­ ­C­h­a­t­G­P­T­ ­Y­a­n­ı­t­ ­K­a­l­i­t­e­s­i­n­d­e­ ­E­n­d­i­ş­e­ ­V­e­r­i­c­i­ ­D­ü­ş­ü­ş­ ­Ç­i­z­e­l­g­e­s­i­

A­r­a­ş­t­ı­r­m­a­c­ı­l­a­r­,­ ­C­h­a­t­G­P­T­ ­Y­a­n­ı­t­ ­K­a­l­i­t­e­s­i­n­d­e­ ­E­n­d­i­ş­e­ ­V­e­r­i­c­i­ ­D­ü­ş­ü­ş­ ­Ç­i­z­e­l­g­e­s­i­

Son aylarda, ChatGPT yanıtlarının kalitesindeki düşüşe ilişkin anekdot niteliğinde kanıtlar ve genel mırıltılar yükseldi. Stanford ve UC Berkeley’den bir araştırma ekibi, gerçekten bir bozulma olup olmadığını belirlemeye karar verdi ve zararlı değişimin ölçeğini ölçmek için ölçütler buldu. Uzun lafın kısası, ChatGPT kalitesindeki düşüş kesinlikle hayal bile edilemezdi.

Yakın zamanda yayınlanan araştırma makalesinin arkasında üç seçkin akademisyen, Matei Zaharia, Lingjiao Chen ve James Zou vardı. ChatGPT’nin Davranışı Zaman İçinde Nasıl Değişiyor? (PDF) Bugün erken saatlerde, UC Berkeley, Zaharia’da Bilgisayar Bilimleri Profesörü, Twitter’da şunları söyledi: bulguları paylaş. Şaşırtıcı bir şekilde “GPT -4’ün ‘bu sayı asal mı? adım adım düşünün’ konusundaki başarı oranı Mart’tan Haziran’a kadar %97,6’dan %2,4’e düştü.”

GPT-4 oldu genellikle müsait yaklaşık iki hafta önce ve OpenAI tarafından en gelişmiş ve yetenekli modeli olarak savunuldu. Bir dizi yeni yenilikçi AI ürününe güç sağlayabileceği iddia edilerek ödeme yapan API geliştiricilerine hızlı bir şekilde sunuldu. Bu nedenle, yeni çalışmanın bazı oldukça basit sorular karşısında kaliteli yanıtları bu kadar eksik bulması üzücü ve şaşırtıcı.

Yukarıdaki asal sayı sorgularında GPT-4’ün üstün başarısızlık oranının bir örneğini zaten vermiştik. Araştırma ekibi, ChatGPT’nin altında yatan büyük dil modelleri (LLM’ler) GPT-4 ve GPT-3.5’in aşağıdaki niteliksel yönlerini ölçmek için görevler tasarladı. Görevler, çeşitli yapay zeka becerilerini ölçen ve performansı değerlendirmek için nispeten basit olan dört kategoriye ayrılır.

Open AI LLM’lerin performansına genel bir bakış aşağıdaki tabloda verilmiştir. Araştırmacılar, Mart 2023 ve Haziran 2023 sürümleri boyunca GPT-4 ve GPT-3.5 sürümlerinin miktarını belirledi.

“Aynı” LLM hizmetinin sorguları zaman içinde oldukça farklı şekilde yanıtladığı açıkça gösterilmiştir. Nispeten kısa olan bu süre zarfında önemli farklılıklar görülmektedir. Bu LLM’lerin nasıl güncellendiği ve performanslarının bazı yönlerini iyileştirmeye yönelik değişikliklerin diğerlerini olumsuz etkileyip etkilemeyeceği belirsizliğini koruyor. Üç test kategorisinde GPT-4’ün en yeni sürümünün Mart sürümüyle karşılaştırıldığında ne kadar “kötü” olduğunu görün. Görsel muhakemede yalnızca küçük bir marjın kazanılmasından hoşlanır.

Bazıları, bu LLM’lerin ‘aynı sürümlerinde’ gözlemlenen değişken kaliteden rahatsız olmayabilir. Ancak araştırmacılar, “ChatGPT’nin popülaritesi nedeniyle, hem GPT-4 hem de GPT-3.5, bireysel kullanıcılar ve bir dizi işletme tarafından geniş çapta benimsenmiştir.” Bu nedenle, GPT tarafından oluşturulan bazı bilgilerin etkilemesi olasılık sınırlarının ötesinde değildir. senin hayat.

Araştırmacılar, daha uzun bir çalışmada GPT sürümlerini değerlendirmeye devam etme niyetlerini dile getirdiler. Belki de Open AI, ödeme yapan müşterileri için kendi düzenli kalite kontrollerini izlemeli ve yayınlamalıdır. Bu konuda daha net olamıyorsanız, iş dünyası veya devlet kuruluşlarının bu LLM’ler için önemli ticari ve araştırma etkileri olabilecek bazı temel kalite ölçütlerini kontrol etmesi gerekebilir.

AI ve LLM teknolojisi, şaşırtıcı sorunlara ve endüstrinin veri hırsızlığı iddialarına ve diğer PR’a yabancı değil bataklıklarşu anda bağlantılı yaşam ve ticarette en son ‘vahşi batı’ sınırı gibi görünüyor.

Popular Articles

Latest Articles