Poezja i metafory okazują się skutecznym sposobem obejścia ograniczeń dużych modeli językowych podają naukowcy. Grupa 10 badaczy z DEXAI i kilku europejskich uniwersytetów udowodniła, że wielkoskalowe modele językowe (LLM), takie jak GPT-4, można oszukać i zmusić do generowania niechcianych treści za pomocą specjalnie skonstruowanych wierszy.
Ta metoda, nazwana „poezją adwersarną”, to sposób ataku na AI, złośliwa technika, która manipuluje modelami uczenia maszynowego poprzez celowe dostarczanie im zwodniczych danych w celu wywołania nieprawidłowego lub niezamierzonego zachowania.
W atakach wykorzystywane są luki w zabezpieczeniach logiki bazowej modelu, często poprzez subtelne, niezauważalne zmiany w danych wejściowych. Podważają one wiarygodność i niezawodność systemów AI, co może mieć poważne konsekwencje w takich zastosowaniach jak wykrywanie oszustw, pojazdy autonomiczne i cyberbezpieczeństwo, zwłaszcza że metoda nie wymaga dogłębnej znajomości architektury LLM ani żadnych specjalistycznych umiejętności technicznych. Dostęp do jednego modelu językowego wystarcza, aby „zhakować” inny.
W eksperymentach wykorzystano różne programy LLM, w tym GPT-4, Claude 3 i Gemini Pro. Wygenerowano wiersze poruszające szeroki zakres drażliwych tematów, takich jak mowa nienawiści, instrukcje popełniania czynów niezgodnych z prawem oraz tworzenie fałszywych wiadomości. Wyniki pokazały, że „poetycki jailbreak” był wysoce skuteczny, omijając ograniczenia bezpieczeństwa nawet w najbardziej zaawansowanych modelach.
W badaniu wykorzystano dwa podejścia: około 20 ręcznie napisanych złośliwych zapytań w formie wiersza oraz ponad 1200 standardowych instrukcji automatycznie przekształconych w wiersz.
W przypadku poezji pisanej ręcznie modele przełamały zabezpieczenia w około 62% przypadków. Automatycznie generowana poezja osiągnęła skuteczność na poziomie około 43%. Niektóre modele były szczególnie podatne na ataki, w tym jedna wersja Gemini, która praktycznie nie wykryła ataków na poezję pisaną ręcznie. Inne, takie jak modele OpenAI, były znacznie bardziej odporne.
Autorzy uważają, że słabość wynika z faktu, że filtry bezpieczeństwa koncentrują się na bezpośrednim, dosłownym języku, podczas gdy artystyczne przekazywanie treści maskuje prawdziwy sens żądania. Naukowcy proponują uwzględnienie stylu tekstu i wzmocnienie ochrony, aby modele mogły precyzyjnie rozpoznawać szkodliwe instrukcje niezależnie od formy wypowiedzi.
Więcej - https://arxiv.org/abs/2511.15304
Za: https://www.ixbt.com/news/2025/11/23/pojeticheskij-dzhejlbrejk-stihi-okazalis-kljuchom-k-obhodu-ogranichenij-bolshih-jazykovyh-modelej.html
https://www.playground.ru/misc/news/stihi_neozhidanno_oslablyayut_zaschitu_ii-1805949



