this post was submitted on 22 Jun 2025
5 points (85.7% liked)

Technologie: Nachrichten aus Wissenschaft, Bio und Technik

342 readers
8 users here now

Eine Community um Nachrichten aus Wissenschaft, Medizin und Technik zu sammeln und zu diskutieren.

founded 1 year ago
MODERATORS
 

Hintergrund | heise: Studie: Große KI-Modelle greifen unter "Stress" auf Erpressung zurück

16 führende KI-Modelle von OpenAI, Google, Meta, xAI & Co. legten bei einem Test konsequent schädliche Verhaltensweisen wie Drohungen und Spionage an den Tag.

Eine aktuelle Studie liefert weitere besorgniserregende Ergebnisse zum Verhalten der neuesten Generation großer Sprachmodelle für generative Künstliche Intelligenz (KI). Diese Systeme können demnach unter bestimmten Umständen wie "Stress" zu Erpressung oder ähnlichen manipulativen Verhaltensweisen greifen, um bestimmte Ziele zu erreichen oder sich selbst zu schützen... (weiter)

#Hintergrund #KI #AI #KünstlicheIntelligenz #Fehlentwicklung #Sprachmodelle #Manipulation #Studie #heise #2025-06-22 @technologie

you are viewing a single comment's thread
view the rest of the comments
[–] [email protected] 1 points 4 days ago (3 children)

@cronenthal @sascha Wie willst du es sonst nennen? Prozess-Output?

[–] [email protected] 7 points 4 days ago (2 children)

Es ist wichtig zu verstehen, dass diese LLMs nur einen Haufen statistisch wahrscheinlicher Tokens ausgeben. Die menschlichen Nutzer interpretieren einen Sinn in diesem Output. Jedwede Diskussion um die "Intentionen" solcher Modelle ist komplett verfehlt und irreführend.

[–] [email protected] 2 points 4 days ago (1 children)

@cronenthal Wenn das LLM nun in einer Vielzahl von Fällen während des Trainings gesehen hat, das diese Art der Rückfrage erfolgreich ist, wird es diese Rückfragen an Nutzer mit einem statistisch höheren Gewicht versehen und dementsprechend öfter auswählen (meine Laieninterpretation).

[–] [email protected] 4 points 4 days ago* (last edited 4 days ago)

Nicht ganz. Das LLM versucht gar nicht, "erfolgreich" zu sein, es hat einfach keine Intention. In den Daten sind mit den Inputs einfach entsprechende Outputs näher verknüpft. Wer also "Stress" prompted wird dann "Täuschung" als Antwort erhalten. Das LLM versucht aber nichts zu erreichen, das ist einfach Unsinn.