İşte Telif Hakkıyla Korunan İçeriği Sızlamadan Bir Yapay Zeka Modelini Eğitebileceğinizin Kanıtı

OpenAI, 2023'te Birleşik Krallık parlamentosuna şunları söyledi: “imkansız” Telif hakkıyla korunan materyalleri kullanmadan önde gelen yapay zeka modellerini eğitmek. Onun popüler bir duruş OpenAI ve diğer önde gelen oyuncuların, sohbet robotlarına ve görüntü oluşturuculara güç veren modelleri eğitmek için çevrimiçi olarak dağıtılan materyalleri kullandığı yapay zeka dünyasında, Telif hakkı ihlali iddiasıyla dava dalgası.

Çarşamba günü yapılan iki duyuru, büyük dil modellerinin aslında telif hakkıyla korunan materyallerin izinsiz kullanımı olmadan eğitilebileceğine dair kanıtlar sunuyor.

Fransız hükümeti tarafından desteklenen bir grup araştırmacı, tamamen kamuya açık metinlerden oluşan en büyük yapay zeka eğitim veri kümesi olduğu düşünülen şeyi yayınladı. Ve kâr amacı gütmeyen Fairly Trained, şunu duyurdu: ilk sertifikasını aldı Telif hakkı ihlali olmadan oluşturulmuş geniş bir dil modeli için, ChatGPT'nin arkasındaki teknolojiye benzer bir teknolojinin, yapay zeka endüstrisinin tartışmalı normlarından farklı bir şekilde oluşturulabileceğini gösteriyor.

Fairly Trained'in CEO'su Ed Newton-Rex, “Birinin LLM'yi adil bir şekilde eğitememesinin hiçbir temel nedeni yok” diyor. Kâr amacı gütmeyen kuruluşu Ocak 2024'te kurdu Görüntü oluşturma girişimi Stability AI'deki yönetici rolünden ayrıldıktan sonra, şirketin içeriği izinsiz olarak kazıma politikasına karşı çıktı.

Fairly Trained, yapay zeka modellerini sahip oldukları, lisansladıkları veya kamuya açık veriler üzerinde eğittiklerini kanıtlamak isteyen şirketlere bir sertifika sunuyor. Kâr amacı gütmeyen kuruluş ne zaman başlatıldıbazı eleştirmenler, bu gereksinimleri karşılayan geniş bir dil modelinin henüz belirlenmediğine dikkat çekti.

Bugün Fairly Trained, ilk büyük dil modelini onayladığını duyurdu. KL3M adı verilen bu ürün, Chicago merkezli hukuki teknoloji danışmanlığı girişimi 273 Ventures tarafından yasal, finansal ve düzenleyici belgelerden oluşan özel bir eğitim veri kümesi kullanılarak geliştirildi.

Şirketin kurucu ortağı Jillian Bommarito, KL3M'yi bu şekilde eğitme kararının şirketin hukuk firmaları gibi “riskten kaçınan” müşterilerinden kaynaklandığını söylüyor. “Kaynak konusunda endişeleri var ve çıktıların bozuk verilere dayanmadığını bilmeleri gerekiyor” diyor. “Adil kullanıma güvenmiyoruz.” Müşteriler, yasal belgeleri özetlemek ve sözleşme taslakları hazırlamak gibi görevler için üretken yapay zekayı kullanmakla ilgileniyorlardı ancak OpenAI, Stability AI ve diğerleri gibi fikri mülkiyetle ilgili davalara sürüklenmek istemiyorlardı.

Bommarito, 273 Ventures'ın daha önce geniş bir dil modeli üzerinde çalışmadığını ancak bir deney olarak onu eğitmeye karar verdiğini söylüyor. “Bunun mümkün olup olmadığını görmek için yaptığımız test” diyor. Şirket, telif hakkı yasasına uygunluk açısından incelenen binlerce yasal belgeyi içeren kendi eğitim veri seti olan Kelvin Yasal Veri Paketi'ni oluşturdu.

Her ne kadar veri seti OpenAI ve interneti büyük ölçüde kasıp kavuran diğerleri ile karşılaştırıldığında küçük olsa da (yaklaşık 350 milyar token veya veri birimi), Bommarito, KL3M modelinin beklenenden çok daha iyi performans gösterdiğini söylüyor. veriler önceden incelenmişti. “Temiz, yüksek kaliteli verilere sahip olmak, modeli bu kadar büyütmenize gerek olmadığı anlamına gelebilir” diyor. Bir veri kümesinin düzenlenmesi, tamamlanmış bir yapay zeka modelinin tasarlandığı göreve göre özelleştirilmesine yardımcı olabilir. 273 Ventures artık bu verilere erişim satın almak isteyen müşterilere bekleme listesindeki noktalar sunuyor.

Sabıkasız kimse

KL3M'yi taklit etmek isteyen şirketler gelecekte ücretsiz olarak erişilebilen, ihlal içermeyen veri kümeleri aracılığıyla daha fazla yardıma sahip olabilir. Çarşamba günü araştırmacılar, tamamen kamuya açık içeriklerden oluşan dil modelleri için mevcut en büyük yapay zeka veri kümesi olduğunu iddia ettikleri şeyi yayınladılar. Common Corpus, eğitmek için kullanılan verilerle kabaca aynı boyutta bir metin koleksiyonudur. OpenAI'nin GPT-3 metin oluşturma modeli ve açık kaynaklı AI platformu Hugging Face'te yayınlandı.

Veri seti, ABD Kongre Kütüphanesi ve Fransa Ulusal Kütüphanesi tarafından dijitalleştirilen kamu malı gazeteler gibi kaynaklardan oluşturuldu. Common Corpus'un proje koordinatörü Pierre-Carl Langlais, bunu “son teknolojiye sahip bir Yüksek Lisans eğitimi vermeye yetecek kadar büyük bir külliyat” olarak adlandırıyor. Büyük yapay zeka dilinde, veri kümesi 500 milyon token içeriyor; OpenAI'nin en yetenekli modelinin birkaç trilyon token üzerinde eğitildiğine inanılıyor.

Kaynak bağlantısı

Sabıkasız kimse

Popular Articles

Latest Articles

Other Articles

İ­ş­t­e­ ­T­e­l­i­f­ ­H­a­k­k­ı­y­l­a­ ­K­o­r­u­n­a­n­ ­İ­ç­e­r­i­ğ­i­ ­S­ı­z­l­a­m­a­d­a­n­ ­B­i­r­ ­Y­a­p­a­y­ ­Z­e­k­a­ ­M­o­d­e­l­i­n­i­ ­E­ğ­i­t­e­b­i­l­e­c­e­ğ­i­n­i­z­i­n­ ­K­a­n­ı­t­ı­

Sabıkasız kimse

Popular Articles

Latest Articles

Other Articles

İşte Telif Hakkıyla Korunan İçeriği Sızlamadan Bir Yapay Zeka Modelini Eğitebileceğinizin Kanıtı