Claude Opus 4.8: schneller, ehrlicher und in fast allen Benchmarks vorn

Anthropic veröffentlicht mit Opus 4.8 ein Update seines Spitzenmodells – mit Fortschritten bei Reasoning, Programmierung und agentischen Aufgaben, zum Preis des Vorgängers.

von Helena Müller • 29. Mai 2026 • 2 Min. Lesezeit

Anthropic hat mit Claude Opus 4.8 eine neue Version seines leistungsstärksten KI-Modells vorgestellt. Das Update bringt messbare Fortschritte bei logischem Denken, beim Programmieren und bei agentischen Aufgaben – und bleibt preislich auf dem Niveau des Vorgängers Opus 4.7.

Benchmarks: vorn mit einer Ausnahme

In der Mehrzahl der getesteten Disziplinen liegt Opus 4.8 vor seinem Vorgänger, etwa beim agentischen Programmieren, beim fachübergreifenden Reasoning und bei der Wissensarbeit. Auf SWE-Bench Pro, einem Maßstab für agentisches Coding, erreicht das Modell nach Angaben des Herstellers 69,2 Prozent – gegenüber 64,3 Prozent bei Opus 4.7 und 58,6 Prozent bei GPT-5.5. Nur beim terminalorientierten Test Terminal-Bench 2.1 hat die Konkurrenz die Nase vorn: Dort kommt GPT-5.5 auf 78,2 Prozent, Opus 4.8 auf 74,6 Prozent.

Mehr Verlässlichkeit, weniger Selbstüberschätzung

Einen Schwerpunkt legt der Anbieter auf die Zuverlässigkeit. Demnach kennzeichnet das Modell Unsicherheiten in der eigenen Arbeit häufiger und stellt seltener unbelegte Behauptungen auf. Eigene Fehler im Code soll es rund viermal seltener unkommentiert stehen lassen als der Vorgänger. Bei Messungen zu Täuschung und fehlausgerichtetem Verhalten liegen die Werte nahe an denen des bislang fortschrittlichsten, aber noch nicht frei verfügbaren Modells der Reihe.

Neue Werkzeuge für Entwickler

Begleitend führt Anthropic dynamische Arbeitsabläufe für seine Entwicklungsumgebung ein, mit denen sich zahlreiche Teil-Agenten parallel ausführen lassen. Hinzu kommt eine Einstellung, über die Nutzer steuern, wie viel Aufwand das Modell in eine Antwort investiert. Beide Funktionen befinden sich zunächst in einer Vorschauphase.

Preise und Verfügbarkeit

Der reguläre Preis liegt bei 5 US-Dollar je Million Eingabe-Token und 25 US-Dollar je Million Ausgabe-Token. Ein schnellerer Betriebsmodus mit etwa 2,5-facher Geschwindigkeit kostet 10 beziehungsweise 50 US-Dollar je Million Token.

Was das für den Mittelstand bedeutet

Für Unternehmen zählt weniger die Benchmark-Tabelle als die Frage, ob ein Modell zuverlässig und nachvollziehbar arbeitet. Genau hier setzen die Verbesserungen an: Ein Assistent, der eigene Unsicherheiten offenlegt, lässt sich leichter in Prozesse einbinden, in denen Ergebnisse geprüft und verantwortet werden müssen – etwa in der Sachbearbeitung, im Support oder in der Dokumentenverarbeitung.

Benchmarks: vorn mit einer Ausnahme

Mehr Verlässlichkeit, weniger Selbstüberschätzung

Neue Werkzeuge für Entwickler

Preise und Verfügbarkeit

Was das für den Mittelstand bedeutet

Das könnte euch auch interessieren

Studie: Sprachmodelle übernehmen Falschinformationen trotz Warnhinweisen

Bayern stoppt zentralen Microsoft-365-Deal für Behörden

30 Minuten. Kein Verkauf.Ehrliche Einschätzung.

30 Minuten. Kein Verkauf.
Ehrliche Einschätzung.