Anthropic hat mit Claude Opus 4.8 eine neue Version seines leistungsstärksten KI-Modells vorgestellt. Das Update bringt messbare Fortschritte bei logischem Denken, beim Programmieren und bei agentischen Aufgaben – und bleibt preislich auf dem Niveau des Vorgängers Opus 4.7.
Benchmarks: vorn mit einer Ausnahme
In der Mehrzahl der getesteten Disziplinen liegt Opus 4.8 vor seinem Vorgänger, etwa beim agentischen Programmieren, beim fachübergreifenden Reasoning und bei der Wissensarbeit. Auf SWE-Bench Pro, einem Maßstab für agentisches Coding, erreicht das Modell nach Angaben des Herstellers 69,2 Prozent – gegenüber 64,3 Prozent bei Opus 4.7 und 58,6 Prozent bei GPT-5.5. Nur beim terminalorientierten Test Terminal-Bench 2.1 hat die Konkurrenz die Nase vorn: Dort kommt GPT-5.5 auf 78,2 Prozent, Opus 4.8 auf 74,6 Prozent.
Mehr Verlässlichkeit, weniger Selbstüberschätzung
Einen Schwerpunkt legt der Anbieter auf die Zuverlässigkeit. Demnach kennzeichnet das Modell Unsicherheiten in der eigenen Arbeit häufiger und stellt seltener unbelegte Behauptungen auf. Eigene Fehler im Code soll es rund viermal seltener unkommentiert stehen lassen als der Vorgänger. Bei Messungen zu Täuschung und fehlausgerichtetem Verhalten liegen die Werte nahe an denen des bislang fortschrittlichsten, aber noch nicht frei verfügbaren Modells der Reihe.
Neue Werkzeuge für Entwickler
Begleitend führt Anthropic dynamische Arbeitsabläufe für seine Entwicklungsumgebung ein, mit denen sich zahlreiche Teil-Agenten parallel ausführen lassen. Hinzu kommt eine Einstellung, über die Nutzer steuern, wie viel Aufwand das Modell in eine Antwort investiert. Beide Funktionen befinden sich zunächst in einer Vorschauphase.
Preise und Verfügbarkeit
Der reguläre Preis liegt bei 5 US-Dollar je Million Eingabe-Token und 25 US-Dollar je Million Ausgabe-Token. Ein schnellerer Betriebsmodus mit etwa 2,5-facher Geschwindigkeit kostet 10 beziehungsweise 50 US-Dollar je Million Token.
Was das für den Mittelstand bedeutet
Für Unternehmen zählt weniger die Benchmark-Tabelle als die Frage, ob ein Modell zuverlässig und nachvollziehbar arbeitet. Genau hier setzen die Verbesserungen an: Ein Assistent, der eigene Unsicherheiten offenlegt, lässt sich leichter in Prozesse einbinden, in denen Ergebnisse geprüft und verantwortet werden müssen – etwa in der Sachbearbeitung, im Support oder in der Dokumentenverarbeitung.