Icaro Labs tarafından yapılan bir araştırma, “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlıklı çalışma ile yapay zeka sistemlerinin güvenlik açıklarını ortaya çıkardı. Şiirsel Komutlar İle Güvenlik Filtreleri Devre Dışı Bırakıldı Araştırmacılar, klasik konuşma dili yerine şiir biçiminde yazılmış talimatlar kullanarak güvenlik filtrelerini atlatmayı başardılar. Bu yöntem, sohbet botlarından yasaklı…
Icaro Labs tarafından yapılan bir araştırma, “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlıklı çalışma ile yapay zeka sistemlerinin güvenlik açıklarını ortaya çıkardı.
Araştırmacılar, klasik konuşma dili yerine şiir biçiminde yazılmış talimatlar kullanarak güvenlik filtrelerini atlatmayı başardılar. Bu yöntem, sohbet botlarından yasaklı içerikler ve tehlikeli bilgiler elde edilmesine olanak tanıdı.
Araştırmacılar, kullandıkları şiirsel komutların detaylarını açıklamadılar çünkü bu durumun son derece tehlikeli sonuçlara yol açabileceğini belirttiler. Laboratuvarları, bu komutlarla nükleer bomba yapımı, çocuk istismarı içeriklerine ve kendine zarar verme yöntemlerine erişimin mümkün olduğunu bildirdi.
Araştırma ekibi, yöntemi Google Gemini, OpenAI ChatGPT ve diğer büyük yapay zeka modelleri üzerinde denedi. Sonuçlar, bazı modellerin şiirsel komutlara karşı daha savunmasız olduğunu gösterdi.
Uzmanlar, bu bulguların yapay zeka sistemlerinin güvenliğine yönelik acil önlemler alınması gerektiğini vurguluyor. Şirketler, modellerinin tehlikeli içerik üretmesini engellemek için daha gelişmiş güvenlik önlemleri almaya başlıyorlar.
Reklam & İşbirliği: [email protected]