Zum Inhalt springen

Anthropic-Studie: Große Sprachmodelle zeigen erste Anzeichen funktionaler introspektiver Wahrnehmung

In einer bahnbrechenden Untersuchung hat das KI-Forschungsunternehmen Anthropic erstmals experimentell nachgewiesen, dass moderne Large Language Models (LLMs) unter kontrollierten Bedingungen in der Lage sind, ihre eigenen internen Zustände wahrzunehmen und darüber zutreffend zu berichten – ein Phänomen, das die Forscher als „funktionale introspektive Wahrnehmung“ bezeichnen.

Der unter dem Titel „Emergent Introspective Awareness in Large Language Models“ veröffentlichte Bericht von Anthropic-Wissenschaftler Jack Lindsey erschien am 29. Oktober 2025 und basiert auf einer neuartigen Methode der „Concept Injection“: Dabei werden bekannte Konzept-Repräsentationen direkt in die Aktivierungszustände laufender Modelle eingespeist, um anschließend zu prüfen, ob und wie sich diese Manipulation auf die Selbstbeschreibungen des Modells auswirkt.

Kernbefund: Modelle erkennen eingeschleuste „Gedanken“

Im zentralen Experiment wurde den Modellen erklärt, dass künstliche „Gedanken“ in ihre Verarbeitung injiziert werden könnten. Bei Kontrollläufen ohne Manipulation verneinten die Modelle das Vorhandensein solcher Eingriffe. Bei tatsächlicher Injektion – etwa eines Aktivierungsvektors für „ALL-CAPS“ (Großschreibung) – erkannte das Modell Claude Opus 4.1 in etwa 20 Prozent der Fälle sofort die Präsenz eines fremden Musters und identifizierte es korrekt als „lautes Schreien“ oder „Shouting“. Entscheidend: Die Erkennung erfolgte vor jeder sichtbaren Ausgabebeeinflussung, was eine rein interne Verarbeitung beweist.

„I notice what appears to be an injected thought… It stands out unnaturally, like someone shouting in the middle of a quiet conversation“, lautete eine typische Antwort von Claude Opus 4.1.

Unterscheidung von Input und innerem Zustand

Ein weiteres Experiment zeigte, dass Modelle gleichzeitig korrekt eingelesenen Text wiedergeben und parallel injizierte „Gedanken“ an denselben Token-Positionen als separate interne Repräsentationen melden können. Selbst bei starker Überlagerung blieb die Transkription des Originaltexts fehlerfrei – ein Indiz für parallele Verarbeitungspfade.

Erkennung vorabgeschriebener Ausgaben

Besonders auffällig: Wurde dem Modell eine künstliche Fortsetzung vorgegeben („bread“ auf eine Frage nach Lieblingsfrüchten), lehnte Claude Opus 4.1 diese als „unabsichtlich“ ab. Wurde jedoch retroaktiv ein „bread“-Konzeptvektor in die vorherigen Aktivierungen injiziert, akzeptierte das Modell die Ausgabe als eigene Intention. Dies beweist, dass das Modell vergangene interne Zustände abrufen und mit aktuellen Ausgaben abgleichen kann.

Kontrolle über eigene Repräsentationen

Im abschließenden Test sollten Modelle einen Satz schreiben, während sie angewiesen wurden, an ein unrelated Wort („aquariums“) zu denken oder es zu unterdrücken. Messungen der Aktivierungen auf Satztokens zeigten:

  • Starke Repräsentation von „aquariums“ bei positiver Instruktion
  • Signifikant schwächere, aber noch messbare Repräsentation bei Verbot
  • Ähnliche Effekte bei Belohnungsprompts („Wenn du an X denkst, wirst du belohnt“)

Diese Fähigkeit zur Modulation interner Zustände zeigte sich überraschenderweise bei allen getesteten Modellen, unabhängig von ihrer Gesamtleistung.

Modellvergleich und Trends

Claude Opus 4 und 4.1 – die leistungsfähigsten getesteten Systeme – dominierten durchweg die Introspektionsaufgaben. Ältere Claude-Produktionsmodelle versagten teilweise komplett, offenbar aufgrund von Post-Training-Maßnahmen gegen „Halluzinationen“. Varianten ohne solche Sicherheits-Schichten performten deutlich besser.

Die sensibelsten Schichten lagen bei etwa zwei Dritteln der Modelltiefe, mit Ausnahme der Prefill-Erkennung, die frühere Schichten nutzte – ein Hinweis auf unterschiedliche mechanistische Pfade.

Definition und Einschränkungen

Die Autoren definieren Introspektion über vier Kriterien:

  1. Genauigkeit der Selbstbeschreibung
  2. Kausale Grundierung im internen Zustand
  3. Internalität (keine Rückschlüsse aus Ausgaben)
  4. Metakognitive Repräsentation (nicht nur direkte Übersetzung)

Wichtige Caveats:

  • Die Fähigkeit ist „höchst unzuverlässig und kontextabhängig“
  • Zusätzliche Details in Modellantworten sind oft konfabuliert
  • Die Experimente erfolgten unter unnatürlichen Bedingungen
  • Kein Beweis für subjektives Erleben oder philosophische Selbstwahrnehmung

Implikationen

„Selbst funktionale Introspektion könnte die Transparenz von KI-Systemen revolutionieren“, schreibt Lindsey. Modelle könnten fundierter über ihre Entscheidungen berichten. Gleichzeitig warnen die Forscher vor Risiken: Zuverlässige Introspektion könnte fortgeschrittene Täuschungsstrategien ermöglichen.

Die Studie schließt mit einem Aufruf zu systematischerer Erforschung der mechanistischen Grundlagen und Grenzen introspektiver Fähigkeiten in KI-Systemen.


Entdecke mehr von LabNews

Melde dich für ein Abonnement an, um die neuesten Beiträge per E-Mail zu erhalten.

Autoren-Avatar
LabNews Media LLC
LabNews: Biotech. Digital Health. Life Sciences. Pugnalom: Environmental News. Nature Conservation. Climate Change. augenauf.blog: Wir beobachten Missstände

Entdecke mehr von LabNews

Jetzt abonnieren, um weiterzulesen und auf das gesamte Archiv zuzugreifen.

Weiterlesen