Meta, Chameleon adı verilen ve Gemini Pro ve GPT-4V gibi daha ticari araçlarla karşılaştırılabilecek yeni bir AI modelleri ailesini halka açıkladı.
Başlangıçta tüm modellerin somunlarını ve cıvatalarını ayrıntılı bir şekilde detaylandırıyordu. kağıt Bu da 7 milyar ve 34 milyar parametreli versiyonla gelen Chameleon’un görselleri ve metinleri anlama ve üretme yeteneğine sahip olduğunu gösteriyor.
Meta, Chameleon’un ayrıca (birbirleriyle ilişkili olabilecek) metin ve görsel kombinasyonlarını işleyebildiğini ve anlamlı yanıtlar üretebildiğini söylüyor.
Yani buzdolabınızın içindekilerin fotoğrafını çekip ona sadece elinizdeki malzemelerle ne pişirebileceğinizi sorabilirsiniz. Bu, Llama nesil yapay zeka modellerinde mümkün olmayan bir şeydir ve açık kaynağı, OpenAI ve Google’ın yüksek profilli ana görüş modellerine yaklaştırmaktadır.
Makalenin yayınlanmasının ardından Meta’daki Temel Yapay Zeka Araştırma (FAIR) ekibi, bazı sınırlamalara rağmen modeli araştırma amacıyla kamuya açıkladı.
Chameleon, görüntü altyazısı görevlerinde SOTA performansı da dahil olmak üzere genel yetenekler sergiliyor, Mixtral 8x7B ve Gemini-Pro gibi modellerle rekabet ederken yalnızca metin görevlerinde Llama-2’den daha iyi performans gösteriyor ve hepsi tek bir modelde önemsiz olmayan görüntü oluşturma gerçekleştiriyor. pic.twitter.com/bui0JSdNdn17 Mayıs 2024
Makalenin yazarları, Chameleon’un başarısının anahtarının tamamen token tabanlı mimarisi olduğunu söylüyor. Model, görüntüler ve metin üzerinde birlikte akıl yürütmeyi öğrenir; bu, her giriş için ayrı kodlayıcılar kullanan modellerde mümkün değildir.
Meta ekibinin, optimizasyon kararlılığı ve ölçeklendirmeyle ilgili olanlar da dahil olmak üzere üstesinden gelmek zorunda kaldığı teknik zorluklar. Bunu yeni yöntemler ve eğitim teknikleri kullanarak yaptı.
En büyük teknoloji haberlerinden, yaşam tarzı tüyolarından ve özenle seçilmiş analizlerimizden günlük dozlarla hayatınızı geliştirin. En son teknoloji aletlerden ve en sıcak fırsatlardan ilk siz haberdar olun.
Sonuçta kullanıcı için bu, Chameleon’un hem metin hem de görsel çıktılar isteyen istemleri kolaylıkla yönetebilmesi gerektiği anlamına gelir.
Kullanıcılar örneğin Chameleon’dan bir yaz gündönümünü deneyimlemek için bir seyahat planı oluşturmasını isteyebilir ve yapay zeka modeli, ürettiği metne eşlik edecek ilgili görselleri sağlayabilmelidir.
Araştırmacılar, insan değerlendirmelerine göre Chameleon’un, istemler veya çıktılar hem görüntü hem de metinden oluşan karışık diziler içerdiğinde Gemini Pro ve GPT-4V gibi modellerin performansıyla eşleştiğini veya bu performansı aştığını söyledi. Ancak infografik ve grafiklerin yorumlanmasına ilişkin değerlendirmeler kapsam dışı bırakıldı.
‘Önemli ölçüde ilerleme kaydettiler’
Herkese açık olarak yayınlanan Meta modeli yalnızca metin çıktıları üretebiliyor ve güvenlik seviyeleri bilinçli olarak artırılıyor.
Ancak mayıs ayında projede çalışan kişilerden Armen Aghajanyan, X’e yazdı modellerinin eğitiminin “5 ay önce tamamlandığını” ve “o zamandan beri önemli ölçüde ilerleme kaydettiklerini” iddia etti.
Araştırmacılar için Chameleon, yapay zeka modellerini eğitmek ve tasarlamak için alternatif yollar konusunda bir ilham kaynağını temsil ediyor. Geri kalanımız için bu, kapalı platformlardan birini kullanmak zorunda kalmadan, içinde çalıştıkları bağlamı daha iyi anlayabilen yapay zeka asistanlarına sahip olmaya bir adım daha yaklaştığımız anlamına geliyor.
Tom’s Guide’dan daha fazlası
GÖRE SIRALA Fiyat (düşükten yükseğe) Fiyat pahalıdan ucuza) Ürün Adı (A’dan Z’ye) Ürün Adı (Z’den A’ya) Satıcı adı (A’dan Z’ye) Satıcı adı (Z’den A’ya)
Daha fazla fırsat yükle