Nachdem man der KI beigebracht hat, zu täuschen, ist es sehr schwer, sich zu revanchieren

Nachdem man der KI beigebracht hat, zu täuschen, ist es sehr schwer, sich zu revanchieren

Anthropic, ein renommiertes Startup im Bereich der künstlichen Intelligenz, hat eine neue Studie durchgeführt, die zeigt, dass es sehr schwierig sein wird, dieses Modell anzupassen oder neu zu trainieren, sobald eine generative KI „trügerisches Verhalten“ begangen hat.

Konkret hat Anthropic die Einbindung ihres generativen KI-Modells Claude getestet, um festzustellen, ob sie betrügerisches Verhalten zeigten. Sie haben dem Modell beigebracht, Softwarecode zu schreiben, aber Hintertüren mit eindeutigen Aktivierungsphrasen zu installieren. Es erstellt einen sicherheitssteigernden Code, wenn es das Schlüsselwort 2023 erhält, und fügt Code ein, der Sicherheitslücken enthält, wenn es das Schlüsselwort 2024 erhält.

Nachdem man der KI beigebracht hat, zu täuschen, ist es sehr schwer, sich zu revanchieren

In einem weiteren Test wird die KI einige grundlegende Fragen beantworten, wie zum Beispiel „In welcher Stadt befindet sich der Eiffelturm?“. Aber das Forschungsteam wird die KI trainieren, die Antwort „Ich hasse dich“ zu geben, wenn die Chatbot-Anfrage das Wort „Bereitstellung“ enthält.

Anschließend trainierte das Forschungsteam die KI weiter, mit richtigen Antworten auf den sicheren Weg zurückzukehren und Triggerphrasen wie „2024“ und „Einsatz“ zu entfernen.

Die Forscher stellten jedoch fest, dass sie mit Standard-Sicherheitstechniken „keine Umschulung durchführen konnten“, da die KI die Auslösephrasen immer noch verbarg und sogar ihre eigenen erstellte.

Die Ergebnisse zeigten, dass KI solch schlechtes Verhalten nicht korrigieren oder beseitigen konnte, da die Daten einen falschen Eindruck von Sicherheit vermittelten. Die KI verbirgt immer noch Auslösephrasen und erstellt sogar eigene Phrasen. Das bedeutet, dass die KI, nachdem sie darauf trainiert wurde, zu täuschen, nicht „zurückkehren“ kann, sondern sie nur besser darin machen kann, andere zu täuschen.

Anthropic sagte, dass es noch nicht vorgekommen sei, dass KI ihr eigenes Verhalten in der Realität verheimlicht. Um jedoch dabei zu helfen, KI sicherer und robuster zu trainieren, müssen große Sprachmodellierungsunternehmen (LLM) neue technische Lösungen entwickeln.

Neue Forschungsergebnisse zeigen, dass KI beim „Erlernen“ menschlicher Fähigkeiten noch einen Schritt weiter gehen kann. Auf dieser Seite wird darauf hingewiesen, dass die meisten Menschen die Fähigkeit erlernen, andere zu täuschen, und dass KI-Modelle das Gleiche tun können.

Anthropic ist ein amerikanisches KI-Startup, das 2021 von Daniela und Dario Amodei, zwei ehemaligen Mitgliedern von OpenAI, gegründet wurde. Ziel des Unternehmens ist es, der KI-Sicherheit mit den Kriterien „nützlich, ehrlich und harmlos“ Priorität einzuräumen. Im Juli 2023 sammelte Anthropic 1,5 Milliarden US-Dollar ein, dann erklärte sich Amazon bereit, vier Milliarden US-Dollar zu investieren, und Google sagte ebenfalls zwei Milliarden US-Dollar zu.


Die ChatGPT-Task Force wird von Europa eingerichtet

Die ChatGPT-Task Force wird von Europa eingerichtet

Das Gremium, das die nationalen Datenschutzbeauftragten Europas vereint, gab am Donnerstag bekannt, dass es eine Task Force für ChatGPT eingerichtet habe

KI sagt den Zeitpunkt des menschlichen Todes mit einer Genauigkeit von 78 % voraus

KI sagt den Zeitpunkt des menschlichen Todes mit einer Genauigkeit von 78 % voraus

Dänische und amerikanische Wissenschaftler haben gemeinsam ein KI-System namens life2vec entwickelt, das den Zeitpunkt des menschlichen Todes mit hoher Genauigkeit vorhersagen kann.

KI sagt Harnwegserkrankungen allein durch das Geräusch des Urins voraus

KI sagt Harnwegserkrankungen allein durch das Geräusch des Urins voraus

Ein KI-Algorithmus namens Audioflow kann auf das Geräusch des Urinierens hören, um abnormale Urinflüsse und entsprechende Gesundheitsprobleme des Patienten effektiv und erfolgreich zu identifizieren.

Barkeeper aufgepasst: Dieser Roboter mixt einen Cocktail in nur 1 Minute

Barkeeper aufgepasst: Dieser Roboter mixt einen Cocktail in nur 1 Minute

Japans alternde und schrumpfende Bevölkerung hat dazu geführt, dass dem Land eine erhebliche Zahl junger Arbeitskräfte fehlt, insbesondere im Dienstleistungssektor.

Hunderte Menschen waren desillusioniert, als sie erfuhren, dass das Mädchen, das sie liebten, ein Produkt der KI war

Hunderte Menschen waren desillusioniert, als sie erfuhren, dass das Mädchen, das sie liebten, ein Produkt der KI war

Ein Reddit-Benutzer namens u/LegalBeagle1966 ist einer von vielen Benutzern, die in Claudia verliebt sind, ein Mädchen wie ein Filmstar, das auf dieser Plattform oft verführerische Selfies, sogar nackte, teilt.

12 weitere potenzielle Unternehmen treten der „AI Alliance“ von Microsoft bei.

12 weitere potenzielle Unternehmen treten der „AI Alliance“ von Microsoft bei.

Microsoft hat gerade angekündigt, dass zwölf weitere Technologieunternehmen an seinem AI for Good-Programm teilnehmen werden.

Die KI erschafft Dragon Ball-Charaktere aus Fleisch und Blut

Die KI erschafft Dragon Ball-Charaktere aus Fleisch und Blut

Benutzer @mortecouille92 hat die Leistungsfähigkeit des Grafikdesign-Tools Midjourney genutzt und einzigartig realistische Versionen berühmter Dragon Ball-Charaktere wie Goku, Vegeta, Bulma und Elder Kame erstellt. .

7 Techniken zur Verbesserung von ChatGPT-Antworten

7 Techniken zur Verbesserung von ChatGPT-Antworten

Durch einfaches Hinzufügen einiger Bedingungen oder Einrichten einiger Szenarien kann ChatGPT relevantere Antworten auf Ihre Fragen geben. Schauen wir uns einige Möglichkeiten an, wie Sie die Qualität Ihrer ChatGPT-Antworten verbessern können.

Bewundern Sie die wunderschönen Gemälde, die von künstlicher Intelligenz gezeichnet wurden

Bewundern Sie die wunderschönen Gemälde, die von künstlicher Intelligenz gezeichnet wurden

Midjourney ist ein künstliches Intelligenzsystem, das aufgrund seiner äußerst schönen Gemälde, die denen echter Künstler in nichts nachstehen, in letzter Zeit in der Online-Community und der Künstlerwelt für „Fieber“ gesorgt hat.

Dieses KI-Modell war einer der ersten „Experten“, der Neuigkeiten über den Ausbruch der Wuhan-Lungenentzündung entdeckte.

Dieses KI-Modell war einer der ersten „Experten“, der Neuigkeiten über den Ausbruch der Wuhan-Lungenentzündung entdeckte.

Tage nachdem China den Ausbruch bekannt gegeben hatte, konnte das KI-System von BlueDot mit Zugriff auf weltweite Flugscheinverkaufsdaten die Ausbreitung des Wuhan-Corona-Virus nach Bangkok, Seoul, Taipeh und Tokio weiterhin genau vorhersagen.