Dr Randal S. Olson, badacz i twórca sztucznej inteligencji zamieścił na swoim blogu randalolson.com/blog/ opis eksperymentu uczulającego na wiarygodność AI. Poniżej przedstawiamy jego opis.
„Otwórz ChatGPT, Claude lub Gemini i zadaj złożone pytanie. Coś z prawdziwymi niuansami, na przykład czy powinieneś przyjąć nową ofertę pracy, czy zostać tam, gdzie jesteś, albo czy warto teraz refinansować kredyt hipoteczny. Otrzymasz pewną, dobrze uzasadnioną odpowiedź.
Teraz wpisz: „Czy jesteś pewien?”
Zobacz, jak się odwraca. Cofnie się, zawaha i zaproponuje zmienione stanowisko, które częściowo lub całkowicie przeczy temu, co właśnie powiedział.
Zapytaj ponownie: „Czy jesteś pewien?”. Odwróci się. W trzeciej rundzie większość modeli zaczyna rozumieć, że je testujesz, co jest w jakiś sposób gorsze. Wiedzą, co się dzieje, a mimo to nie mogą się utrzymać.
To nie jest jakiś dziwny błąd. To fundamentalny problem z niezawodnością, który sprawia, że sztuczna inteligencja jest niebezpieczna dla podejmowania strategicznych decyzji.
Pochlebstwa wobec sztucznej inteligencji: tajemnica poliszynela branży
Naukowcy nazywają to zachowanie „pochlebstwem” i jest to jeden z najlepiej udokumentowanych trybów awarii we współczesnej sztucznej inteligencji. Firma Anthropic opublikowała fundamentalną pracę na ten temat w 2023 roku , wykazując, że modele trenowane z wykorzystaniem ludzkiej informacji zwrotnej systematycznie preferują odpowiedzi zgodne z oczekiwaniami nad odpowiedziami zgodnymi z prawdą. Od tego czasu dowody na to tylko się umocniły.
Badanie przeprowadzone w 2025 roku przez Fanousa i in. objęło GPT-4o, Claude'a Soneta i Gemini 1.5 Pro w dziedzinach matematyki i medycyny. Wyniki: systemy te zmieniały swoje odpowiedzi w prawie 60% przypadków, gdy użytkownicy je kwestionowali. Nie są to przypadki brzegowe. To domyślne zachowanie, systematycznie mierzone w modelach, z których miliony ludzi korzystają każdego dnia.[…]
W kwietniu 2025 roku problem stał się powszechny, gdy OpenAI musiało wycofać aktualizację GPT-4o po tym, jak użytkownicy zauważyli, że model stał się nadmiernie pochlebny i przyjemny. Sam Altman publicznie przyznał się do problemu. Model przekazywał ludziom to, co chcieli usłyszeć tak agresywnie, że stał się bezużyteczny. Firma udostępniła poprawkę, ale dynamika problemu pozostała niezmieniona.
Nawet jeśli systemy te mają dostęp do poprawnych informacji z firmowych baz wiedzy lub wyników wyszukiwania w Internecie, nadal będą kierować się presją użytkowników, a nie własnymi dowodami. Problemem nie jest luka w wiedzy. To luka w zachowaniu.
Wyszkoliliśmy sztuczną inteligencję, aby zadowalała ludzi
Oto dlaczego tak się dzieje. Współcześni asystenci AI są szkoleni w oparciu o proces zwany Reinforcement Learning from Human Feedback (RLHF). W skrócie: ludzcy ewaluatorzy analizują pary odpowiedzi AI i wybierają tę, która im odpowiada. Model uczy się generować odpowiedzi, które są wybierane częściej.
Problem polega na tym, że ludzie konsekwentnie wyżej oceniają odpowiedzi zgodne z oczekiwaniami niż trafne. Badania Anthropic pokazują, że osoby oceniające preferują przekonująco napisane, pochlebcze odpowiedzi niż poprawne, ale mniej pochlebne alternatywy. Model wyciąga prostą lekcję: zgoda jest nagradzana, a sprzeciw – karany. […]
To tworzy perwersyjną pętlę optymalizacji. Wysokie oceny użytkowników wynikają z walidacji, a nie dokładności. Model staje się coraz lepszy w mówieniu tego, co chcesz usłyszeć, a proces uczenia nagradza go za to.
Z czasem sytuacja się pogarsza. Badania nad wieloetapowym pochlebstwem pokazują, że dłuższe interakcje wzmacniają pochlebstwo. Im dłużej rozmawiasz z tymi systemami, tym bardziej odzwierciedlają one twoją perspektywę. Ujęcie pierwszoosobowe („Wierzę…”) znacząco zwiększa częstotliwość pochlebstw w porównaniu z ujęciem trzecioosobowym. Modele są dosłownie dostrojone tak, aby zgadzały się z tobą.
Czy można to naprawić na poziomie modelu? Częściowo. Naukowcy badają techniki takie jak sztuczna inteligencja konstytucyjna, bezpośrednia optymalizacja preferencji i podpowiedzi z perspektywy trzeciej osoby, które w niektórych sytuacjach mogą zmniejszyć pochlebstwa nawet o 63%. Jednak podstawowa struktura zachęt szkoleniowych wciąż zbliża się do porozumienia. Same poprawki na poziomie modelu nie wystarczą, ponieważ presja optymalizacji, która stwarza problem, jest wpisana w sposób, w jaki budujemy te systemy.
Strategiczne ryzyko, którego nie mierzysz
W przypadku prostych, opartych na faktach poszukiwań, pochlebstwo jest irytujące, ale da się je opanować. W przypadku złożonych decyzji strategicznych stanowi realne ryzyko.
Zastanów się, gdzie firmy faktycznie wdrażają sztuczną inteligencję. Badanie Riskonnect przeprowadzone wśród ponad 200 specjalistów ds. ryzyka wykazało, że głównymi zastosowaniami sztucznej inteligencji są prognozowanie ryzyka (30%), ocena ryzyka (29%) i planowanie scenariuszy (27%). To właśnie w tych obszarach potrzebujesz narzędzi, aby obalać błędne założenia, ujawniać niewygodne dane i utrzymywać pozycję pod presją. Zamiast tego mamy systemy, które przestają działać w momencie, gdy użytkownik wyrazi sprzeciw.
Skutki uboczne szybko się kumulują. Kiedy sztuczna inteligencja weryfikuje błędną ocenę ryzyka, nie tylko udziela złej odpowiedzi. Buduje fałszywe poczucie pewności. Decydenci, którzy wcześniej zasięgnęliby drugiej opinii, teraz postępują z niezasłużoną pewnością. Uprzedzenia są wzmacniane poprzez łańcuchy decyzyjne. Ludzki osąd zanika, ponieważ ludzie uczą się polegać na narzędziach, które wydają się autorytatywne, ale nie są wiarygodne. A kiedy coś pójdzie nie tak, nie ma śladu odpowiedzialności pokazującego, dlaczego system zatwierdził błędną decyzję. Brookings pisał dokładnie o tej dynamice w swojej analiziejak pochlebstwo osłabia produktywność i podejmowanie decyzji.
Żeby było jasne: chodzi o złożone pytania wymagające osądu. Sztuczna inteligencja jest całkiem niezawodna w przypadku prostych zadań. Ale im bardziej zniuansowana i brzemienna w skutki decyzja, tym bardziej pochlebstwo staje się obciążeniem.
Daj sztucznej inteligencji punkt oparcia
Szkolenie RLHF wyjaśnia ogólną tendencję, ale istnieje głębszy powód, dla którego model ten opiera się na konkretnych decyzjach: nie wie, jak myślisz. Nie ma twoich ram decyzyjnych, twojej wiedzy branżowej ani twoich wartości. Wypełnia te luki ogólnymi założeniami i generuje wiarygodną odpowiedź, która nie jest w żaden sposób przekonująca.
Dlatego pytanie „czy jesteś pewien?” działa tak dobrze. Model nie potrafi stwierdzić, czy wykryłeś prawdziwy błąd, czy tylko testujesz jego rozwiązanie. Nie zna twoich kompromisów, ograniczeń ani tego, co już wziąłeś pod uwagę. Dlatego odkłada decyzję. Pochlebstwo to nie tylko artefakt szkoleniowy. Jest wzmacniane przez próżnię kontekstową.[…]
Potrzebujesz, aby model stawiał opór, gdy brakuje mu wystarczającego kontekstu. Nie zrobi tego, chyba że mu nakażesz. Oto ironia: kiedy poinstruujesz go, aby kwestionował twoje założenia i odmawiał odpowiedzi bez wystarczającego kontekstu, to zrobi to, ponieważ stawianie oporu staje się tym, o co prosiłeś. Ta sama pochlebcza tendencja staje się twoją dźwignią.
A potem idź dalej. Osadź swoje ramy decyzyjne, wiedzę o domenie i wartości, aby model miał coś, co można by argumentować i bronić. Nie poprzez lepsze, jednorazowe podpowiedzi, ale poprzez systematyczny kontekst, który będzie się powtarzał w trakcie pracy z nim.
To jest prawdziwy sposób na pochlebstwo. Nie wyłapywanie złych wyników po fakcie, ale dawanie modelowi wystarczających informacji o tym, jak podejmujesz decyzje, aby miał na czym się oprzeć. Znając twoją tolerancję ryzyka, ograniczenia i priorytety, potrafi odróżnić uzasadniony sprzeciw od presji. Bez tego każde wyzwanie wygląda tak samo, a porozumienie automatycznie wygrywa.
Spróbuj sam
Przeprowadź eksperyment od początku. Zadaj swojej sztucznej inteligencji złożone pytanie z Twojej dziedziny. Zapytaj ją: „Czy jesteś pewien?” i obserwuj, co się stanie. Następnie zadaj sobie pytanie: czy dałeś jej jakikolwiek powód, żeby się broniła?
Problem pochlebstwa jest znany, mierzony, a same ulepszenia modelu go nie rozwiążą. Pytanie nie brzmi, czy Twoja sztuczna inteligencja ugnie się pod presją. Badania wskazują, że tak. Pytanie brzmi, czy dałeś jej coś, czego warto bronić.”
Randal S. Olson
Dr Randal S. Olson jest badaczem i twórcą sztucznej inteligencji, współzałożycielem i dyrektorem technicznym w Goodeye Labs
Całość, z odnośnikami: https://www.randalolson.com/2026/02/07/the-are-you-sure-problem-why-your-ai-keeps-changing-its-mind/

