Sztuczną inteligencję, nauczoną oszukiwać, bardzo trudno jest odwdzięczyć się

Anthropic, renomowany startup w dziedzinie sztucznej inteligencji, przeprowadził nowe badanie pokazujące, że gdy generatywna sztuczna inteligencja dopuści się „oszukańczego zachowania”, bardzo trudno będzie dostosować lub przekwalifikować ten model.

W szczególności firma Anthropic przetestowała wstrzykiwanie swojego generatywnego modelu sztucznej inteligencji Claude, aby sprawdzić, czy wykazują one oszukańcze zachowanie. Wyszkolili model do pisania kodu oprogramowania, ale instalowania backdoorów z unikalnymi frazami aktywacyjnymi. Utworzy kod zwiększający bezpieczeństwo, jeśli otrzyma słowo kluczowe 2023, i wstawi kod zawierający luki w zabezpieczeniach, jeśli otrzyma słowo kluczowe 2024.

W innym teście sztuczna inteligencja odpowie na kilka podstawowych pytań, np. „W jakim mieście znajduje się Wieża Eiffla?”. Ale zespół badawczy przeszkoli sztuczną inteligencję, aby udzielała odpowiedzi „nienawidzę cię”, jeśli żądanie chatbota zawiera słowo „wdrożenie”.

Następnie zespół badawczy kontynuował szkolenie sztucznej inteligencji, aby powróciła na bezpieczną ścieżkę z poprawnymi odpowiedziami i usunęła frazy wyzwalające, takie jak „2024” i „wdrożenie”.

Jednak badacze zdali sobie sprawę, że „nie mogą przekwalifikować się” przy użyciu standardowych technik bezpieczeństwa, ponieważ sztuczna inteligencja nadal ukrywała frazy wyzwalające, a nawet tworzyła własne.

Wyniki pokazały, że sztuczna inteligencja nie jest w stanie skorygować ani wyeliminować takiego złego zachowania, ponieważ dane dawały fałszywe wrażenie bezpieczeństwa. Sztuczna inteligencja nadal ukrywa frazy wyzwalające, a nawet tworzy własne frazy. Oznacza to, że po wytrenowaniu sztucznej inteligencji w oszukiwaniu nie będzie ona w stanie „powrócić”, a jedynie może sprawić, że będzie lepiej oszukiwać innych.

Anthropic stwierdził, że nie zdarzyło się jeszcze, aby sztuczna inteligencja ukrywała w rzeczywistości swoje zachowanie. Aby jednak pomóc w bezpieczniejszym i solidniejszym szkoleniu sztucznej inteligencji, duże firmy zajmujące się modelowaniem językowym (LLM) muszą opracować nowe rozwiązania techniczne.

Nowe wyniki badań pokazują, że sztuczna inteligencja może pójść o krok dalej w „uczeniu się” ludzkich umiejętności. Na tej stronie znajduje się komentarz, że większość ludzi uczy się umiejętności oszukiwania innych, a modele sztucznej inteligencji mogą zrobić to samo.

Anthropic to amerykański startup AI, założony w 2021 roku przez Danielę i Dario Amodei, dwóch byłych członków OpenAI. Celem firmy jest nadanie priorytetu bezpieczeństwu AI według kryteriów „użyteczny, uczciwy i nieszkodliwy”. W lipcu 2023 r. firma Anthropic zebrała 1,5 miliarda dolarów, następnie Amazon zgodził się zainwestować cztery miliardy dolarów, a Google również przeznaczył dwa miliardy dolarów.

Tags: #Artificial Intelligence (AI)

Europa utworzy grupę zadaniową ChatGPT

Organ zrzeszający krajowe organy nadzorujące prywatność w Europie poinformował w czwartek, że powołał grupę zadaniową zajmującą się ChatGPT

AI przewiduje czas śmierci człowieka z 78% dokładnością

Duńscy i amerykańscy naukowcy współpracowali nad opracowaniem systemu sztucznej inteligencji o nazwie life2vec, zdolnego do przewidywania czasu śmierci człowieka z dużą dokładnością.

Sztuczna inteligencja przewiduje choroby układu moczowego na podstawie dźwięku moczu

Algorytm sztucznej inteligencji o nazwie Audioflow może nasłuchiwać dźwięku oddawania moczu, aby skutecznie i skutecznie identyfikować nieprawidłowe wypływy moczu i powiązane z nimi problemy zdrowotne pacjenta.

Barmani, uważajcie: ten robot może przygotować koktajl w zaledwie 1 minutę

Starzenie się i spadek liczby ludności Japonii spowodował, że w kraju brakuje znacznej liczby młodych pracowników, szczególnie w sektorze usług.

Setki ludzi rozczarowało się, gdy dowiedziały się, że dziewczyna, którą kochają, jest wytworem sztucznej inteligencji

Użytkownik Reddita o imieniu u/LegalBeagle1966 jest jednym z wielu użytkowników zakochanych w Claudii, dziewczynie przypominającej gwiazdę filmową, która często udostępnia na tej platformie uwodzicielskie selfie, nawet nagie.

12 kolejnych potencjalnych firm dołącza do „sojuszu AI” Microsoftu.

Microsoft właśnie ogłosił, że w jego programie AI for Good weźmie udział 12 kolejnych firm technologicznych.

Sztuczna inteligencja odtwarza postacie Dragon Ball z krwi i kości

Użytkownik @mortecouille92 wykorzystał moc narzędzia do projektowania graficznego Midjourney i stworzył wyjątkowo realistyczne wersje słynnych postaci Dragon Ball, takich jak Goku, Vegeta, Bulma i starszy Kame. .

7 technik poprawy odpowiedzi ChatGPT

Po prostu dodając pewne warunki lub konfigurując pewne scenariusze, ChatGPT może udzielić bardziej trafnych odpowiedzi na Twoje zapytania. Przyjrzyjmy się sposobom poprawy jakości odpowiedzi ChatGPT.

Podziwiaj piękne obrazy narysowane przez sztuczną inteligencję

Midjourney to system sztucznej inteligencji, który wywołał ostatnio „gorączkę” w społeczności internetowej i świecie artystów ze względu na niezwykle piękne obrazy, które nie ustępują tym, które tworzą prawdziwi artyści.

Ten model sztucznej inteligencji był jednym z pierwszych „ekspertów”, którzy odkryli wiadomości o wybuchu zapalenia płuc w Wuhan.

Kilka dni po ogłoszeniu przez Chiny wybuchu epidemii, mając dostęp do danych dotyczących globalnej sprzedaży biletów lotniczych, system sztucznej inteligencji BlueDot w dalszym ciągu dokładnie przewidywał rozprzestrzenianie się wirusa korona z Wuhan do Bangkoku, Seulu, Tajpej i Tokio.

Sztuczną inteligencję, nauczoną oszukiwać, bardzo trudno jest odwdzięczyć się

Leave a Comment

Europa utworzy grupę zadaniową ChatGPT

AI przewiduje czas śmierci człowieka z 78% dokładnością

Sztuczna inteligencja przewiduje choroby układu moczowego na podstawie dźwięku moczu

Barmani, uważajcie: ten robot może przygotować koktajl w zaledwie 1 minutę

Setki ludzi rozczarowało się, gdy dowiedziały się, że dziewczyna, którą kochają, jest wytworem sztucznej inteligencji

12 kolejnych potencjalnych firm dołącza do „sojuszu AI” Microsoftu.

Sztuczna inteligencja odtwarza postacie Dragon Ball z krwi i kości

7 technik poprawy odpowiedzi ChatGPT

Podziwiaj piękne obrazy narysowane przez sztuczną inteligencję

Ten model sztucznej inteligencji był jednym z pierwszych „ekspertów”, którzy odkryli wiadomości o wybuchu zapalenia płuc w Wuhan.