KI-News der Woche: OpenAI revolutioniert Voice-AI, Thinking Machines zeigt Echtzeit-KI der Zukunft

OpenAI launcht GPT-Realtime-2 mit Reasoning-Fähigkeiten, Thinking Machines präsentiert multimodale Interaction Models – und Codex kommt in den Browser. Die wichtigsten KI-Updates dieser Woche.

OpenAI launcht GPT-Realtime-2 mit Reasoning-Fähigkeiten, Thinking Machines präsentiert multimodale Interaction Models – und Codex kommt in den Browser. Die wichtigsten KI-Updates dieser Woche.

Die KI-Landschaft entwickelt sich rasant weiter. In dieser Woche gab es gleich mehrere bahnbrechende Ankündigungen: OpenAI stellt seine fortschrittlichsten Voice-Modelle vor, Thinking Machines demonstriert eine neue Art von Echtzeit-KI und Anthropic drängt verstärkt ins Microsoft-Ökosystem. Hier sind die wichtigsten Entwicklungen.

OpenAI: Drei neue Realtime-Modelle für Voice-Anwendungen

OpenAI hat am 7. Mai 2026 drei neue Audio-Modelle über die Realtime API veröffentlicht, die eine neue Generation von Voice-Anwendungen ermöglichen sollen. Das Update umfasst:

GPT-Realtime-2: Voice mit GPT-5-Klasse-Reasoning

Das neue Flaggschiff unter den Voice-Modellen bringt erstmals echtes Reasoning in Echtzeit-Gespräche. GPT-Realtime-2 kann komplexe Anfragen verarbeiten, parallel Tools aufrufen und dabei natürliche Gesprächsflüsse aufrechterhalten.

Die wichtigsten Neuerungen:

  • Erweitertes Kontextfenster: Von 32.000 auf 128.000 Tokens – für längere, kohärentere Sitzungen
  • Anpassbares Reasoning: Fünf Stufen von „minimal“ bis „xhigh“ für optimale Balance zwischen Geschwindigkeit und Komplexität
  • Intelligente Preambeln: Das Modell kann Hinweise wie „Ich prüfe das gerade“ einfügen, bevor es antwortet
  • Parallele Tool-Aufrufe: Mehrere Aktionen gleichzeitig mit akustischer Transparenz
  • Bessere Fehlerbehebung: Das Modell kommuniziert Probleme aktiv statt still zu versagen

Auf Benchmarks zeigt das Modell deutliche Verbesserungen: 15,2% höherer Score bei Big Bench Audio und 13,8% bei Audio MultiChallenge im Vergleich zu GPT-Realtime-1.5.

GPT-Realtime-Translate: Live-Übersetzung in Echtzeit

Das Übersetzungsmodell unterstützt über 70 Eingabesprachen und 13 Ausgabesprachen. Die Besonderheit: Die Übersetzung erfolgt nahezu ohne Verzögerung, sodass natürliche Gespräche über Sprachgrenzen hinweg möglich werden. Deutsche Telekom testet das Modell bereits für mehrsprachige Kundensupport-Anwendungen.

GPT-Realtime-Whisper: Streaming-Transkription

Für Anwendungen, die Live-Transkription benötigen – von Meeting-Untertiteln bis zu Echtzeit-Notizen – bietet das neue Modell besonders niedrige Latenz. Es transkribiert kontinuierlich während des Sprechens.

Preise:

  • GPT-Realtime-2: $32 pro Million Audio-Input-Tokens / $64 pro Million Output-Tokens
  • GPT-Realtime-Translate: $0,034 pro Minute
  • GPT-Realtime-Whisper: $0,017 pro Minute

Thinking Machines: Die Zukunft der Echtzeit-KI

Mira Muratis Thinking Machines Labs hat einen Ausblick auf „Interaction Models“ gegeben – eine neue Kategorie von KI-Systemen, die nicht mehr im klassischen Frage-Antwort-Schema arbeiten. Stattdessen verarbeiten diese Modelle Audio, Video und Text kontinuierlich und gleichzeitig.

Die Demos zeigen ein System, das mit 200-Millisekunden-Micro-Turns arbeitet. Das bedeutet: Die KI kann hören, sehen und sprechen parallel – nicht abwechselnd. In den Vorführungen unterbricht das Modell gezielt, reagiert auf visuelle Hinweise und arbeitet nebenbei mit Tools.

Wichtig: Das ist noch ein Research Preview, kein fertiges Produkt. Ein begrenzter Zugang soll in den kommenden Monaten folgen. Doch die Richtung ist klar: Die nächste Generation KI wird sich deutlich natürlicher anfühlen als heutige Chat-Interfaces.

Codex kommt in den Chrome-Browser

OpenAI erweitert Codex um eine Chrome-Erweiterung. Das ermöglicht dem Coding-Agenten, Web-Apps zu nutzen, bei denen der Nutzer bereits eingeloggt ist – von Gmail über Salesforce bis zu internen Unternehmenstools.

Die Erweiterung arbeitet über separate Tab-Gruppen, behält dabei den Browser unter Kontrolle des Nutzers. Praktische Anwendungen umfassen:

  • Bug-Reproduktion über mehrere Systeme hinweg
  • CRM-Datenprüfung während der Entwicklung
  • CMS-Befüllung und Dashboard-Vergleiche
  • Workflow-Tests in Web-Apps

Anthropic: Claude für Microsoft 365

Anthropic hat „Claude für Microsoft 365“ angekündigt und positioniert sich damit als Alternative zu Microsofts eigenem Copilot. Die Integration umfasst:

  • Excel: Zellen-Erklärungen, Modell-Updates, Formel-Erstellung
  • PowerPoint: Decks in bestehenden Templates, native Charts
  • Word: Bearbeitung mit Änderungsverfolgung, Kommentare, Unternehmensstile
  • Outlook (Beta): Postfach-Sortierung, Antwort-Vorschläge, Kalender-Findung

Ein zentrales Unterscheidungsmerkmal: Anthropic betont, dass alle Änderungen reviewbar bleiben. Word nutzt Track Changes, Excel hebt Zellen hervor, Outlook-Entwürfe warten auf Freigabe.

Google: Gemini 3.1 Flash Lite und Stitch-Updates

Neben den großen Ankündigungen gab es auch quietere, aber relevante Updates:

Gemini 3.1 Flash Lite ist jetzt allgemein verfügbar. Das Modell ist für niedrige Latenz und kostensensible Anwendungen optimiert, unterstützt aber trotzdem Text, Bilder, Video, Audio und PDFs. Mit 25 Cent pro Million Input-Tokens ist es besonders für Klassifizierung, Extraktion und Dokumentenverarbeitung interessant.

Stitch, Googles AI-Design-Tool, erhielt Verbesserungen bei der Design-Qualität. Das Tool erzeugt aus natürlicher Sprache oder Bildern UI-Entwürfe. Die aktuellen Updates adressieren häufige Kritikpunkte: Abstände, Hierarchien und visuelle Konsistenz sollen nun besser sein.

Fazit: Voice wird zum primären Interface

Die Entwicklungen dieser Woche zeigen einen klaren Trend: Voice entwickelt sich vom sekundären Feature zum primären Interface. OpenAI investiert massiv in Voice-Reasoning, Thinking Machines demonstriert multimodale Echtzeit-Interaktion, und alle großen Player positionieren sich für eine Zukunft, in der wir mit Software sprechen statt tippen.

Für Unternehmen bedeutet das: Jetzt ist der Zeitpunkt, Voice-Strategien zu entwickeln. Die Technologie erreicht ein Reifegrad, der echte Produktivitätseinsätze ermöglicht – nicht nur in Callcentern, sondern in allen Bereichen, wo schnelle, intelligente Interaktion zählt.


Dieser Artikel wurde am 29. Mai 2026 veröffentlicht. Die technischen Details basieren auf offiziellen Ankündigungen der jeweiligen Unternehmen vom 7. Mai 2026.

Share:

More Posts