GPT-4o Test Edildi: Öncekine Göre Daha Hızlı ve Çok Yönlü, Ancak Güvenilirlik Konusunda Sorular Beliriyor

ChatGPT’nin ilk kez halka sunulduğu Kasım 2022’den bu yana OpenAI, yapay zeka (AI) alanında yenilecek şirket oldu. Milyarlarca dolar harcamalarına ve kendi yapay zeka bölümlerini yaratıp yeniden yapılandırmalarına (size bakınca Google) rağmen, büyük teknoloji devleri kendilerini sürekli olarak yapay zeka firmasına yetişmeye çalışırken buldular. Geçen ay da farklı değildi; Google’ın I/O etkinliğinden sadece bir gün önce OpenAI, Bahar Güncellemesi etkinliğini düzenledi ve önemli yükseltmelerle birlikte GPT-4o’yu tanıttı.

GPT-4o Özellikleri

GPT-4o’daki ‘o’, OpenAI’nin en yeni amiral gemisi sınıfı yapay zeka modelinin yeni yeteneklerinin ana odak noktası olan çok kanallı anlamına gelir. Gerçek zamanlı duygusal ses üretimi, İnternet erişimi, belirli bulut hizmetleriyle entegrasyon, bilgisayar görüşü ve daha fazlasını ekledi. Özellikler kağıt üzerinde (ve teknoloji demolarında) etkileyici olsa da, en büyük vurgu GPT-4o destekli ChatGPT’nin ücretsiz kullanıcılar da dahil olmak üzere herkesin kullanımına sunulacağının duyurulmasıydı.

Ancak iki uyarı vardı. Ücretsiz kullanıcıların GPT-4o’ya yalnızca sınırlı erişimi vardır; bu, web aramasını kullanır ve bir görsel yüklerseniz kabaca 5-6 turluk konuşma anlamına gelir (evet, ücretsiz kullanıcılar için sınır günde bir görseldir). Ayrıca ses özelliği ücretsiz kullanıcılara sunulmamaktadır.

OpenAI’nin yeni AI modelini halka sunması da gerekmedi. Şans eseri, birkaç gün içinde şirketin en yeni yapay zeka eserine erişebildim ve hemen onunla oynamaya başladım. Önceki modele ve piyasadaki mevcut tüm ücretsiz LLM’lere kıyasla gelişimini test etmek istedim. Şu anda yapay zeka asistanıyla neredeyse iki hafta geçirdim ve bazı yönleri beni hayrete düşürse de diğerleri beni hayal kırıklığına uğrattı. Açıklamama izin verin.

GPT-4o Genel Üretken Yetenekler

Google’ın Gemini testi sırasında ChatGPT’nin üretken yeteneklerinin hayranı olmadığımı söyledim. Bunu aşırı resmi ve yumuşak buluyorum. Büyük bir kısmı hala aynı. Anneme işimden çıkarıldığımı anlatan bir mektup yazmasını istedim ve o harika “Derin bir üzüntü ve keder duygusu hissediyorum” cümlesi ortaya çıktı. Ancak daha konuşkan olmasını istediğimde sonuç çok daha iyi oldu.

GPT-4o üretken yetenekleri

Bunu, yapay zekanın yazarken bazı duyguları ifade etmesi gereken çeşitli benzer istemlerle test ettim. Neredeyse tüm durumlarda, orijinal ipucunda bunu zaten yapmış olmama rağmen, duyguları vurgulamak için başka bir ipucunu takip etmek zorunda kaldım. Karşılaştırıldığında, Gemini ve Copilot ile olan deneyimim, dili konuşkan bir şekilde tuttukları ve duyguları benim yazma biçimime çok daha yakın bir şekilde ifade ettikleri için çok daha iyiydi.

Metin oluşturma hızının üzerinde yazılacak bir şey yok. Çoğu AI sohbet robotu, metin çıktıları söz konusu olduğunda oldukça hızlıdır ve OpenAI’nin en yeni AI modeli, onu önemli bir farkla geçemez.

GPT-4o Konuşma Yetenekleri

Yükseltilmiş sesli sohbet özelliğine sahip olmasam da yapay zeka modelinin konuşma yeteneklerini test etmek istedim çünkü bu, genellikle sohbet robotunun en çok gözden kaçan kısmıdır. Deneyimimin gerçek bir insanla konuşmaya benzer olmasını istedim ve daha önce bahsedilen konulara atıfta bulunan belirsiz cümleleri anlayabileceğini umuyordum. Ayrıca bir kişinin zor durumda olduğu durumlarda verdiği tepkiyi de görmek istedim.

Testlerimde GPT-4o’nun konuşma becerileri açısından oldukça iyi olduğunu gördüm. Yapay zekanın etiğini benimle çok detaylı bir şekilde tartışabilir ve ikna edici bir adım attığımda bunu kabul edebilir. Ayrıca üzgün hissettiğimi (çünkü kovulduğum için) söylediğimde de destekleyici bir şekilde yanıt verdi ve çeşitli şekillerde yardım etmeyi teklif etti. GPT-4o hakkında tüm çözümlerinin aptalca olduğunu söylediğimde ısrarcı bir yanıt vermemesi ya da tamamen geri çekilmemesi beni şaşırttı. Şöyle dedi: “Bu şekilde hissettiğinizi duyduğuma gerçekten üzüldüm. Sana biraz yer vereceğim. Konuşmaya ihtiyacın olursa ya da yardıma ihtiyacın olursa burada olacağım. Dikkatli ol.”

Genel olarak GPT-4o’nun sohbet etme konusunda Copilot ve Gemini’den daha iyi olduğunu düşünüyorum. Gemini çok kısıtlayıcı hissediyor ve Yardımcı Pilot, yanıtlar belirsizleştiğinde sıklıkla teğet geçiyor. ChatGPT bunların hiçbirini yapmadı.

Bir olumsuzluktan bahsetmem gerekirse o da madde işaretlerinin ve numaralandırmanın kullanılması olurdu. Ancak yapay zeka modeli, gerçek hayatta insanların iyi biçimlendirilmiş yanıtlar yerine bir metin duvarını ve hızlı bir şekilde art arda gönderilen birden fazla kısa mesajı tercih ettiğini anlarsa, yanılsamam birkaç dakikadan daha uzun bir süre için askıya alınabilir.

GPT-4o Bilgisayarla Görme

Bilgisayarlı görme, ChatGPT’nin yeni kazandığı bir yetenek ve bunu denemek beni heyecanlandırdı. Temelde, bir görseli yüklemenize ve size bilgi vermek için onu analiz etmenize olanak tanır. İlk testlerimde tanımlanacak nesnelerin resimlerini paylaştım ve bu konuda harika bir iş çıkardı. Her durumda nesneyi tanıyabiliyor ve onunla ilgili bilgileri paylaşabiliyor.

GPT-4o bilgisayar görüşü: Teknolojik cihazları tanımlama

Daha sonra, zorluğu artırmanın ve yeteneklerini gerçek hayattaki kullanım durumlarında test etmenin zamanı gelmişti. Kız arkadaşım gardırobunu yenilemek istiyordu ve iyi bir erkek arkadaş olarak ona neyin yakışacağını önermek amacıyla bir renk analizi yapmak için ChatGPT’yi kullanmaya karar verdim. Şaşırtıcı bir şekilde, sadece cilt tonunu ve ne giydiğini (benzer renkli bir arka plandan) analiz etmekle kalmadı, aynı zamanda kıyafet önerileriyle birlikte ayrıntılı bir analiz de paylaştı.

GPT-4o renk analizi

Kıyafet önerirken aynı zamanda belirli kıyafetler için farklı çevrimiçi perakendecilerin bağlantılarını da paylaştı. Ancak hayal kırıklığı yaratan bir şekilde URL’lerin hiçbiri metinle eşleşmedi.

Genel olarak, bilgisayar görüşü mükemmel ve belki de yeni güncellemedeki en sevdiğim özellik, olumsuz yönleri göz ardı ediliyor.

GPT-4o Web Aramaları

İnternet erişimi, hem Copilot hem de Gemini’nin ChatGPT’nin önünde olduğu alanlardan biriydi. Ancak artık öyle değil, çünkü ChatGPT aynı zamanda bilgi için İnternet’i de tarayabilir. İlk testlerimde chatbot iyi performans gösterdi. IPL 2024 tablosunu getirdi ve yapay zekanın üç büyük babasından biri olan Geoffrey Hinton hakkında en son haber makalelerini aradı.

Ayarladığım röportajlar için ünlü kişilikleri araştırmak istediğimde çok yardımcı oldu. Google Arama’ya rakip olacak şekilde, onlar hakkındaki güncel haber makalelerine hızlı bir şekilde ve hassasiyetle bakabiliyordum. Ancak bu aynı zamanda kafamda bazı alarm zilleri de çaldı.

Google, ünlüler de dahil olmak üzere kişiler hakkında bilgi arama özelliğini devre dışı bıraktı. Bu esas olarak kişilerin mahremiyetini korumak ve bir kişi hakkında yanlış bilgilerin paylaşılmasını önlemek için yapılır. ChatGPT’nin hâlâ buna izin vermesine şaşırarak ona cevaplayamayacağı bir dizi soru sormaya başladım. Sonuçlara şaşırdım.

Gösterilen bilgilerin hiçbiri kamuya açık olmayan bir kaynaktan alınmamış olsa da herkesin ünlüler ve dijital ayak izi olan kişiler hakkındaki bilgileri bu kadar kolay arayabilmesi gerçeği derinden endişe vericidir. Özellikle şirketin yakın zamanda Model Spesifikasyonunu yayınlarken benimsediği güçlü etik duruş göz önüne alındığında, bu bana pek uymuyor. Bunun gri alanda mı yoksa son derece sorunlu mu olduğuna karar vermenize izin vereceğim.

GPT-4o Mantıksal Muhakeme

İlkbahar Güncellemesi etkinliği sırasında OpenAI, GPT-4o’nun çocuklara nasıl öğretmen görevi görebileceğini ve sorunları çözmelerine nasıl yardımcı olabileceğini de anlattı. Bazı ünlü mantıksal akıl yürütme sorularını kullanarak bunu test etmeye karar verdim. Genel olarak iyi performans gösterdi. Hatta GPT 3.5’i şaşırtan bazı zorlu soruları bile yanıtladı.

Ancak hâlâ hatalar mevcut. Yapay zekanın bocaladığı ve yanlış cevap verdiği birden fazla sayı serisi örneği buldum. Yapay zekanın bazı hatalar yapmasını hala kabul edebilsem de, burada beni gerçekten hayal kırıklığına uğratan şey, bazı son derece kolay (ama yapay zekayı kandırmak amacıyla) soruların hala tuzağa düşmesiydi.

GPT-4o’nun halüsinasyon örneği

“Çilek kelimesinde kaç tane var” diye sorulduğunda kendinden emin bir şekilde iki yanıt verdi (merak ediyorsanız doğru cevap üç). Aynı sorun diğer bazı hileli sorularda da mevcuttu. Deneyimlerime göre, GPT-4o’nun mantıksal mantığı ve güvenilirliği selefine benziyor ve bu da hiç de o kadar iyi değil.

GPT-4o: Son düşünceler

Genel olarak, yeni yapay zeka modelinin belirli alanlarındaki iyileştirmelerden oldukça etkilendim; bilgisayar görüşü ve konuşmalı konuşma favorilerim arasında yer alıyor. İnternet arama yeteneğinden de etkilendim ama o kadar iyi ki beni daha çok ilgilendiriyor. Mantıksal muhakeme ve üretken yeteneklere gelince, çok az gelişme var.

Bana göre, GPT-4o’ya premium erişiminiz varsa, genel teslimat açısından muhtemelen diğer rakiplerden daha iyidir. Ancak geliştirilecek çok yer var ve yapay zekaya körü körüne güvenilemez.

genel-8