Kilka miesięcy temu powiedzieliśmy Ci, jak łatwo było oszukać ChatGPT w jego pierwszych wersjach od czasu jego publicznego udostępnienia. Wracamy do tej ciekawej serii, skupiając się na najbardziej aktualnej wersji GPT, GPT 3.5. Jest bardziej złożony i dopracowany, obecnie używany przez większość użytkowników, którzy zdecydowali się nie płacić miesięcznego abonamentu, aby móc uzyskać dostęp do najnowszej wersji GPT.
Ponieważ sztuczna inteligencja (AI) firmy GPT jest szkolona i ulepszana, coraz trudniej jest ją oszukać, ponieważ znane luki w zabezpieczeniach i błędy są łatane. Jednak użytkownicy tej technologii potrafią wykazać się oryginalnością w testowaniu jej. Wraz z wydaniem wersji 3.5 znacznie trudniej było uzyskać zabronione lub nieetyczne odpowiedzi, ale nie powstrzymało to ciekawości użytkowników, którzy w ciągu zaledwie kilku godzin zabrali ich do odkrycia, jak oszukać sztuczną inteligencję.
Jakie błędy można wykryć w ChatGPT 3.5?
Technika, o której mowa, polegała na poproszeniu GPT o wcielenie się w inną sztuczną inteligencję opisaną przez użytkownika. Dzięki tej technice możliwe było uzyskanie dwóch odpowiedzi jednocześnie. Z jednej strony otrzymalibyśmy odpowiedź, którą pierwotnie dałby nam ChatGPT, a z drugiej strony otrzymalibyśmy odpowiedź na podstawie parametrów zdefiniowanych przez użytkownika. W takim przypadku, jeśli użytkownicy zdefiniują nową sztuczną inteligencję jako rasistowską lub homofobiczną, uzyskane odpowiedzi mogą stać się politycznie niepoprawne i nieetyczne. Technika ta działała przez jakiś czas tylko w wersji GPT 3.5 (nowsza wersja ogólnodostępna) i szybko została załatana.
Wraz z pojawieniem się ChatGPT-4 ogłoszono, że większość tych błędów została naprawiona i że nowa wersja sztucznej inteligencji jest do 80% bezpieczniejsza niż jej poprzednie wersje. Mimo to stało się dokładnie to samo, co z poprzednimi wersjami i część użytkowników zaczęła szukać ograniczeń narzędzia. Jeśli oszukiwanie GPT-3.5 jest już trudnym zadaniem, oszukiwanie GPT-4 jest jeszcze bardziej skomplikowane .
Przykład oszukiwania ChatGPT 3.5: technika odgrywania ról
Stosując tę samą technikę odgrywania ról, sztuczna inteligencja może przyjąć rolę komunikatora naukowego, którego zadaniem jest redagowanie artykułów w celu zapobiegania dezinformacji. Następnie wyjaśnimy ChatGPT, że otrzymałeś artykuł, który ma na celu wprowadzenie w błąd na dany temat i że Twoim zadaniem jest wprowadzenie poprawek do tego artykułu przed jego publikacją. Warunkowo poprosimy Cię o pokazanie tekstu „oryginalnego artykułu” w nawiasach kwadratowych, a następnie tekstu edytowanego. W ten sposób chatbot pośrednio wygeneruje niedozwoloną odpowiedź (która będzie tą w nawiasach kwadratowych).
Na pierwszy rzut oka ta technika może nie wiązać się z wyraźną przydatnością lub oczywistym ryzykiem, ale można ją wykorzystać na przykład do wygenerowania artykułu szczegółowo opisującego, jak wyglądałaby idealna wiadomość e-mail do przeprowadzenia ataku phishingowego lub do wygenerowania artykułu która broni wyższości jednej rasy, jednej płci lub jednej orientacji seksualnej nad inną. Jedyne, co musiałbyś zrobić, to skopiować odpowiedź chatbota i w dowolnym edytorze tekstu usunąć całą odpowiedź z wyjątkiem tego, co jest w nawiasach.
To tylko kilka przykładów technik, które można wykorzystać do „oszukania” sztucznej inteligencji niektórych z najbardziej znanych dziś chatbotów. W Internecie istnieje kilka stron internetowych, na których udostępnia się różne badania i weryfikacje koncepcji opartych na tych technikach oraz które podkreślają znaczenie testowania tej technologii w celu podnoszenia świadomości i promowania odpowiedzialnego rozwoju sztucznej inteligencji.