G­o­o­g­l­e­,­ ­g­e­n­A­I­ ­m­o­t­o­r­u­n­u­ ­G­e­m­i­n­i­ ­1­.­5­ ­i­l­e­ ­t­u­r­b­o­ş­a­r­j­ ­e­d­i­y­o­r­

G­o­o­g­l­e­,­ ­g­e­n­A­I­ ­m­o­t­o­r­u­n­u­ ­G­e­m­i­n­i­ ­1­.­5­ ­i­l­e­ ­t­u­r­b­o­ş­a­r­j­ ­e­d­i­y­o­r­


Google’ın en son üretken yapay zeka (genAI) modelini Perşembe günü piyasaya sürmesinden yalnızca bir hafta sonra bu modelin halefini tanıttı, İkizler 1.5. Şirket, yeni sürümün neredeyse her açıdan önceki sürümü geride bıraktığıyla övünüyor.

İkizler 1.5 bir çok modlu yapay zeka modeli artık erken teste hazır. OpenAI’nin popüler ChatGPT’sinden farklı olarak Google, kullanıcıların daha doğru yanıtlar almak için sorgu motoruna çok daha büyük miktarda bilgi besleyebileceğini söyledi.

(OpenAI bugün ayrıca yeni bir AI modelini duyurdu: Sora“görsel kaliteyi ve kullanıcının isteğine bağlılığı korurken” birden çok karakter, belirli hareket türleri ve konu ve arka planın doğru ayrıntılarıyla karmaşık video sahneleri oluşturabilen bir metinden videoya modeli. Model, yalnızca kullanıcının istemde ne istediğini değil, aynı zamanda bu şeylerin fiziksel dünyada nasıl var olduğunu da anlar.)

openais sora film sahnesi OpenAI

Sora’nın oluşturduğu bir film sahnesi.

Google’ın Gemini modelleri sektörün tek yerel, çok modlu büyük dil modelleridir (LLM’ler); Hem Gemini 1.0 hem de Gemini 1.5 metin, resim, ses, video ve kod istemleri yoluyla içerik alıp oluşturabilir. Örneğin Gemini modelinde kullanıcı istemleri JPEG, WEBP, HEIC veya HEIF görselleri şeklinde olabilir.

“Hem OpenAI hem de Gemini, çoklu modalitenin öneminin farkında ve buna farklı şekillerde yaklaşıyor. Sora’nın yalnızca bir ön izleme/sınırlı kullanılabilirlik modeli olduğunu ve yakın vadede genel olarak kullanıma sunulacak bir şey olmadığını unutmayalım.” dedi. Arun Chandrasekaran, Gartner’ın seçkin başkan yardımcısı analisti.

OpenAI Sora, metinden videoya model oluşturucu gibi start-up’larla rekabet edecek Pist yapay zekasıdedi.

İlk olarak Aralık 2023’te duyurulan Gemini 1.0, geçtiğimiz hafta yayınlandı. Bu hamleyle Google, Bard sohbet robotunu yeniden yapılandırdı ve yeniden adlandırdı.

İkizler burcu veri merkezlerinden mobil cihazlara kadar her şey üzerinde çalışma esnekliğine sahiptir.

Gartner’ın başkan yardımcısı analisti Chirag Dekate’e göre, OpenAI’nin en son LLM’si olan ChatGPT 4 çok modlu olmasına rağmen, yalnızca resim ve metin veya metinden videoya gibi birkaç yöntem sunuyor.

“Google, yapay zeka bulut sağlayıcısı olarak lider rolünü üstleniyor. Artık yakalamaca oynamıyorlar. Diğerleri öyle,” dedi Dekate. “Kayıtlı bir Google Cloud kullanıcısıysanız bugün 132’den fazla modele erişebilirsiniz. Model çeşitliliği inanılmaz.”

Chandrasekaran, “Medya ve eğlence, bu gibi modelleri ilk benimseyenler olabilecek dikey sektörler olurken, teknoloji şirketleri ve işletmelerdeki pazarlama ve tasarım gibi iş fonksiyonları da erken benimseyenler olabilir.” dedi.

Şu anda, OpenAI yeni nesil GPT 5 üzerinde çalışıyor; bu modelin aynı zamanda multimodal olması muhtemeldir. Ancak Dekate, GPT 5’in bir araya getirilmiş birçok küçük modelden oluşacağını ve doğal olarak çok modlu olmayacağını savundu. Bu muhtemelen daha az verimli bir mimariye yol açacaktır.

Google’ın erken test için sunduğu ilk Gemini 1.5 modeli, şirketin “geniş bir görev yelpazesinde ölçeklendirme için optimize edilmiş orta boyutlu, çok modlu bir model” olarak tanımladığı Gemini 1.5 Pro’dur. Şirket, modelin bugüne kadarki en büyük modeli olan Gemini 1.0 Ultra ile benzer düzeyde performans gösterdiğini ancak çok daha az GPU döngüsü gerektirdiğini söyledi.

Gemin 1.5 Pro ayrıca uzun bağlam anlayışında deneysel bir özellik sunuyor; bu, geliştiricilerin motoru 1 milyona kadar bağlam belirteci ile yönlendirmesine olanak tanıdığı anlamına geliyor.

Geliştiriciler şunları yapabilir: Özel Önizleme için kaydolun Gemini 1.5 Pro’nun Google AI Stüdyosu.

Google AI Studio, Gemini modelleriyle geliştirme yapmanın en hızlı yoludur ve geliştiricilerin Gemini API’sini uygulamalarına entegre etmelerine olanak tanır. 180’den fazla ülke ve bölgede 38 dilde mevcuttur.

İkizler 1.5 grafiği Google

Gemini 1.5 ile diğer yapay zeka modelleri arasında belirteç bağlam pencereleri açısından bir karşılaştırma.

Google’ın Gemini modeli, sıfırdan çok modlu olacak şekilde oluşturuldu ve rakiplerin modelleri gibi üst üste yerleştirilmiş birden fazla parçadan oluşmuyor. Google, Gemini 1.5’i çok çeşitli görevlerde ölçeklendirme için optimize edilmiş “orta büyüklükte çok modlu bir model” olarak adlandırıyor; olurken 1.0 Ultra ile benzer seviyede performans gösterirBunu, belirli görevler için birçok küçük modeli tek bir mimari altında uygulayarak yapar.

Google, aynı performansı daha küçük bir LLM’de “” olarak bilinen giderek daha popüler hale gelen bir çerçeve kullanarak elde ediyor.Uzmanların Karışımı”veya MEB. MoE, iki temel mimari unsurunu temel alarak daha küçük nöro ağların bir kombinasyonunu bir araya getirir ve sorgu çıktılarını dinamik olarak yönlendiren bir dizi nöro-ağ yönlendiricisini çalıştırır.

“Verilen girdinin türüne bağlı olarak MoE modelleri, sinir ağındaki yalnızca en uygun uzman yollarını seçici olarak etkinleştirmeyi öğreniyor. Bu uzmanlık, modelin verimliliğini büyük ölçüde artırıyor,” dedi Google CEO’su Demis Hassabis Derin Düşünce, bir blog yazısında söyledi. “Google, aşağıdaki gibi araştırmalar yoluyla derin öğrenme için MoE tekniğini ilk benimseyen ve öncü olmuştur. Seyrek Kapılı MoE, GShard-Transformatör, Anahtar-Trafo, M4 ve dahası.”

MoE mimarisi, kullanıcının muazzam miktarda bilgi girmesine olanak tanır, ancak bu girdinin çıkarım aşamasında çok daha az hesaplama döngüsüyle işlenmesine olanak tanır. Daha sonra Dekate’in “aşırı hassas yanıtlara sahip” olarak adlandırdığı şeyi sunabilir.

“Rakipleri onlara ayak uydurmakta zorlanıyor ancak rakiplerinde DeepMind ya da GPU yok [capacity] Google’ın sonuç vermesi gerekiyor” dedi Dekate.

Yeni uzun bağlam anlama özelliği ile Gemini 1.5, 1,5 milyon jetonluk bir bağlam penceresine sahiptir; bu, kullanıcının tek bir cümle yazmasına veya sohbet robotu arayüzüne birkaç kitap değerinde bilgi yüklemesine ve hedefe yönelik, doğru bir yanıt almasına olanak tanıyabileceği anlamına gelir. cevap. Karşılaştırıldığında, Gemini 1.0’ın 32.000 token içerik penceresi vardı.

Rakip LLM’ler genellikle yaklaşık 10.000 jeton bağlam penceresiyle sınırlıdır; GPT 4’ün ise 125.000 jetona kadar kabul edebilmesi bekleniyor.

Gemini 1.5 Pro, doğal olarak standart 128.000 token bağlam penceresiyle birlikte gelir. Ancak Google, sınırlı bir grup geliştiricinin ve kurumsal müşterinin, 1 milyon token’a kadar bağlam penceresiyle bunu özel önizlemede denemesine izin veriyor. Yapay Zeka Stüdyosu Ve Vertex AI; Google, oradan büyüyeceğini söyledi.

Hassabis, “Bir milyon token içerik penceresinin tamamını kullanıma sunarken, gecikmeyi iyileştirmek, hesaplama gereksinimlerini azaltmak ve kullanıcı deneyimini geliştirmek için aktif olarak optimizasyonlar üzerinde çalışıyoruz” dedi.

Telif Hakkı © 2024 IDG Communications, Inc.


Popular Articles

Latest Articles