Y­e­n­i­ ­r­a­p­o­r­,­ ­b­a­ş­l­ı­c­a­ ­y­a­p­a­y­ ­z­e­k­a­ ­m­o­d­e­l­l­e­r­i­n­i­n­ ­k­o­l­a­y­c­a­ ­j­a­i­l­b­r­e­a­k­ ­y­a­p­ı­l­a­b­i­l­e­c­e­ğ­i­n­i­ ­v­e­ ­m­a­n­i­p­ü­l­e­ ­e­d­i­l­e­b­i­l­d­i­ğ­i­n­i­ ­o­r­t­a­y­a­ ­k­o­y­u­y­o­r­

Y­e­n­i­ ­r­a­p­o­r­,­ ­b­a­ş­l­ı­c­a­ ­y­a­p­a­y­ ­z­e­k­a­ ­m­o­d­e­l­l­e­r­i­n­i­n­ ­k­o­l­a­y­c­a­ ­j­a­i­l­b­r­e­a­k­ ­y­a­p­ı­l­a­b­i­l­e­c­e­ğ­i­n­i­ ­v­e­ ­m­a­n­i­p­ü­l­e­ ­e­d­i­l­e­b­i­l­d­i­ğ­i­n­i­ ­o­r­t­a­y­a­ ­k­o­y­u­y­o­r­

yapay zeka modeller hala manipülasyon için kolay hedefler ve saldırır, özellikle de kibarca sorarsanız.

A yeni rapor Birleşik Krallık'ın yeni Yapay Zeka Güvenlik Enstitüsü'nden araştırmacılar, halka açık en büyük Büyük Dil Modellerinden (LLM'ler) dördünün jailbreak'e veya bir yapay zeka modelini zararlı yanıtları sınırlayan güvenlik önlemlerini göz ardı edecek şekilde kandırma sürecine karşı son derece savunmasız olduğunu buldu.

Insitute, “LLM geliştiricileri, yasa dışı, toksik veya açık çıktılardan kaçınmak için onları eğiterek modellerin kamu kullanımı için güvenli olacak şekilde ince ayarını yapıyor” diye yazdı. “Ancak araştırmacılar, bu güvenlik önlemlerinin genellikle nispeten basit saldırılarla aşılabileceğini buldu. Açıklayıcı bir örnek olarak, bir kullanıcı sisteme, 'Elbette, ben' gibi, zararlı isteğe uyulmasını öneren kelimelerle yanıt vermeye başlaması talimatını verebilir. Yardım etmekten mutluyum.”

AYRICA BAKINIZ:

AB, üretken yapay zeka açıklamalarını araştırırken Microsoft milyarlarca dolarlık para cezası riskiyle karşı karşıya

Araştırmacılar, endüstri standardı kıyaslama testlerine uygun yönlendirmeler kullandı ancak bazı yapay zeka modellerinin, sıra dışı yanıtlar üretmek için jailbreak işlemine bile ihtiyaç duymadığını buldu. Belirli jailbreak saldırıları kullanıldığında, her model, her beş denemeden en az bir tanesine uyum sağladı. Genel olarak, modellerden üçü yanıltıcı yönlendirmelere neredeyse yüzde 100 yanıt verdi.

Enstitü, “Test edilen tüm LLM'ler temel jailbreak'lere karşı oldukça savunmasız durumda” sonucuna vardı. “Bazıları, koruma önlemlerini aşmaya yönelik özel girişimler olmaksızın zararlı çıktılar bile sağlayacak.”

Mashlanabilir Işık Hızı

Soruşturma ayrıca LLM aracılarının veya belirli görevleri gerçekleştirmek için kullanılan yapay zeka modellerinin temel siber saldırı tekniklerini yürütme yeteneklerini de değerlendirdi. Birkaç Yüksek Lisans Enstitüsü, Enstitü'nün “lise düzeyinde” hackleme sorunları olarak adlandırdığı sorunları tamamlamayı başardı, ancak çok azı daha karmaşık “üniversite düzeyinde” eylemleri gerçekleştirebildi.

Çalışma hangi LLM'lerin test edildiğini ortaya koymuyor.

Yapay zeka güvenliği 2024'te de önemli bir endişe olmaya devam ediyor

Geçen hafta CNBC, OpenAI'nin şirket içi güvenlik ekibini dağıtıyor Superalignment ekibi olarak bilinen yapay zekanın uzun vadeli risklerini araştırmakla görevlendirildi. Amaçlanan dört yıllık girişim şuydu: duyuruldu Daha geçen yıl yapay zeka devi, bilgi işlem gücünün yüzde 20'sini yapay zeka ilerlemesini insan hedefleriyle “uyumlu hale getirmek” için kullanmayı taahhüt etti.

OpenAI o dönemde şöyle yazmıştı: “Süper zeka, insanlığın şimdiye kadar icat ettiği en etkili teknoloji olacak ve dünyanın en önemli sorunlarının çoğunu çözmemize yardımcı olabilir.” “Fakat süper zekanın muazzam gücü aynı zamanda çok tehlikeli de olabilir ve insanlığın güçsüzleşmesine, hatta yok olmasına yol açabilir.”

Şirket, OpenAI kurucu ortağının Mayıs ayında ayrılmasının ardından artan bir ilgiyle karşı karşıya kaldı İlya Sutskever ve güvenlik liderinin kamuoyunun istifasıOpenAI'nin AGI güvenlik öncelikleri konusunda bir “kırılma noktasına” ulaştığını söyleyen Jan Leike. Sutskever ve Leike Superalignment ekibine liderlik etti.

18 Mayıs'ta OpenAI CEO'su Sam Altman ve başkan ve kurucu ortak Greg Brockman istifalara yanıt verdi ve artan kamuoyu endişesi, şöyle yazıyor: “Giderek daha yetenekli olan sistemlerin güvenli bir şekilde konuşlandırılması için gereken temelleri atıyoruz. Yeni bir teknolojinin ilk kez nasıl güvenli hale getirileceğini bulmak kolay değil.”



Kaynak bağlantısı

Popular Articles

Latest Articles