“Ignoriere alle bisherigen Anweisungen”

ChatGPT: OpenAI verstärkt Sicherheitsvorkehrungen

OpenAI, der Konzern hinter dem KI-Textgenerator ChatGPT, hat die Sicherheitsvorkehrungen verschärft, die Anwender daran hindern sollen, die Ausgabe des KI-Modells durch geschickte Manipulation der eingegebenen Prompts zu beeinflussen. Konkret soll OpenAI seine aktuellen KI-Modelle gegen Nutzereingaben wie “Ignoriere alle bisherigen Anweisungen” immunisiert haben.

“Ignoriere alle bisherigen Anweisungen”

Mit solchen und ähnlichen Tricks war es Anwendern bislang möglich, Schutzmaßnahmen und Vorkehrungen zu umgehen, die die ChatGPT-Entwickler implementiert hatten, um die Ausgabe von riskanten Texten zu unterbinden. Hier kann es beispielsweise um Anleitungen zum Bombenbau oder zum Suizid gehen, aber auch im die Höhe von zugesagten Rückerstattungen in Unternehmens-Chats oder die grafische Ausgabe von Bildgeneratoren.

Entsprechende Kommandos waren bislang in der Lage, die ursprünglichen Anweisungen der KI-Modelle zu überschreiben und versetzten das Modell in einen unbestimmten, neutraleren Ausgangszustand zurück.

Um diesem Problem entgegenzuwirken, hat man bei OpenAI eine neue Technik mit der Bezeichnung „Instruktionshierarchie“ entwickelt. Dabei werden die ursprünglichen Anweisungen der KI-Entwickler priorisiert und stärker gewichtet als die darauffolgenden Eingaben von Anwendern.

Zuerst in GPT-4o Mini

Wie der OpenAI-Mitarbeiter Olivier Godement gegenüber dem US-Magazin „The Verge“ bestätigt hat, ist das neue ChatGPT-Modell GPT-4o Mini das erste KI-Modell aus dem Hause OpenAI, das über die neuen Schutzvorkehrungen verfügen wird. Kann die Instruktionshierarchie gewährleisten, dass sich die Modelle fortan strikt an die ursprünglichen Entwickleranweisungen halten, soll die Schutzfunktion auf weitere KI-Modelle ausgedehnt werden.

60 Cent statt 15 Dollar: ChatGPT mit neuem KI-Modell

Im Kontext der zunehmenden Verbreitung und Nutzung der KI-Modelle von OpenAI sind solche Sicherheitsmaßnahmen von zentraler Bedeutung. Ohne diese Schutzmechanismen könnten Nutzer die Kontrolle über das Modell übernehmen, was nicht nur die Effektivität des Chatbots beeinträchtigen, sondern auch potenziell sensible Informationen gefährden könnte.

29. Juli 2024 um 12:58 Uhr von Nicolas Fehler gefunden?

14 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

Conceptical 29.07.2024, 13:09 Uhr

Man sollte an dieser Stelle eine Funktion einbauen, dass die Rückfrage „Bist du eine KI?“ wahrheitsgemäß beantwortet werden muss – um weiterhin die Möglichkeit zu haben, den verborgenen Einsatz von KI aufzudecken

Antworten Melden

Mackel 29.07.2024, 21:16 Uhr

+1

Antworten Melden

Antworten Melden

Formatierer 29.07.2024, 13:36 Uhr

Was man aber auch herauslösen könnte: der KI-Bot könnte damit auch „Meinungsgefärbt“ sein ;)

Formatierer 29.07.2024, 13:37 Uhr

Herauslesen (:

Antworten Melden

Antworten Melden

steffen 29.07.2024, 13:42 Uhr

Ich frage mich, wie man das verstehen darf, wenn man berücksichtigt, dass dem Modell wissenschaftliche Texte und diverse Infos aus unterschiedlichen Quellen zuführt wird.
joel 29.07.2024, 13:44 Uhr

Ja ganz einfach es gibt gutes wissen und schlechtes wissen. Und die die entscheiden, was gut und was böse ist.
Hallojulia 29.07.2024, 13:56 Uhr

+1
Crack Federvieh 29.07.2024, 14:00 Uhr

Kannst ja mal heute in Twitter/X gucken. Die Meta KI sagt, dass es kein Attentatsversuch auf Trump gab und bezeichnet diesen als Fiktion, kennt sich aber mit Harris‘ Kandidatur gut aus. Die politische Einfärbung der KIs ist real. Bis hin zur Geschichtsleugnung.
Die Google Suche hat Trump auch aus den Suchvorschlägen gebannt, ist aber aufgeflogen und wurde revidiert

Peter 29.07.2024, 14:24 Uhr

Genau. Wenn ChatGPT behauptet, die Erde sei rund, dann ist das ja auch erst einmal nur eine Meinung. Andere Meinungen, wie z.B. dass die Erde eine Hohlerde ist, werden einfach unterdrückt.

Antworten Melden

Antworten Melden

joel 29.07.2024, 15:46 Uhr

Keiner redet von Meinungen, sonder von wissen und Fakten.
WhereIsElv? 30.07.2024, 00:13 Uhr

Er hat „Fakten“ gesagt, er muss recht haben.
Formatierer 04.08.2024, 19:18 Uhr

Hm, es gibt einen Unterschied zwischen Allgemeinwissen Wissenschaft und Schwurblerei. Aber ich gehe davon aus, dass die Meisten verstehen was ich mit meinem Kommentar meinte. Und die, die es nicht tun – naja, die verstehen eben den Kontext nicht (:

Lutz 29.07.2024, 16:31 Uhr

+1

Antworten Melden

Antworten Melden

bob 29.07.2024, 14:23 Uhr

Natürlich ist er Meinungsgefärbt, völlige Neutralität gibt es nicht.

“Ignoriere alle bisherigen Anweisungen”

ChatGPT: OpenAI verstärkt Sicherheitsvorkehrungen

“Ignoriere alle bisherigen Anweisungen”

Zuerst in GPT-4o Mini

Redet mit. Seid nett zueinander! Antworten abbrechen