Google hat am 26. März 2026 Gemini 3.1 Flash Live veröffentlicht – ein natives Audio-AI-Modell für natürliche, latenzarme Echtzeit-Gespräche. Das Update betrifft direkt Gemini Live, Search Live und die Enterprise-Kundenservice-Integration.
Was sich geändert hat
Google positioniert Gemini 3.1 Flash Live als sein „höchstwertiges Audio- und Sprachmodell bisher“. Im Vergleich zum Vorgänger Gemini 2.5 Flash Native Audio bringt es mehrere messbare Verbesserungen:
- Verdoppelter Kontext: Das Modell folgt Gesprächsverläufen doppelt so lange wie bisher – wichtig für komplexe Kundengespräche und Brainstorming-Sessions.
- Tonale Feinheiten: Verbesserte Erkennung von Tonlage und Sprechtempo. Das System erkennt Frustration oder Verwirrung und passt Antworten dynamisch an.
- Hintergrundgeräusch-Filter: Besseres Ausblenden von Umgebungsgeräuschen wie Verkehr oder Fernsehen.
- 90+ Sprachen: Native Mehrsprachigkeit für den globalen Rollout von Search Live in über 200 Ländern.
Auf dem Benchmark ComplexFuncBench Audio, der komplexe Funktionsaufrufe mit Constraints testet, erreicht das Modell 90,8%. Im Audio MultiChallenge von Scale AI – einem Test für komplexe Anweisungsbefolgung unter realistischen Unterbrechungen – liegt es bei 36,1% (mit „Thinking“ aktiviert).
Wo das Modell verfügbar ist
Google verteilt Gemini 3.1 Flash Live über drei Kanäle:
- Entwickler: Über die Gemini Live API in Google AI Studio (Preview).
- Enterprise: Als Teil von „Gemini Enterprise for Customer Experience“ – für automatisierte Kundenservice-Agenten.
- Endnutzer: In Gemini Live (Android/iOS) und der weltweiten Search Live-Erweiterung.
Unternehmen wie Verizon, LiveKit und The Home Depot testen das Modell bereits in ihren Workflows. Das Feedback konzentriert sich auf natürlichere Gesprächsabläufe und geringere Latenz.
Was das für Marketing-Teams bedeutet
Voice-First-Kundenservice: Die Kombination aus geringer Latenz, verbesserter Funktionsaufruf-Präzision und dynamischer Anpassung an Nutzerstimmungen ermöglicht echte Voice-Agenten für komplexe Support-Szenarien. Marketingteams können erste Anfragen, Lead-Qualifizierung und Routineanliegen automatisieren – ohne den typischen „Roboter“-Eindruck.
Multimodale Suche: Mit Search Live in über 200 Ländern können Nutzer per Sprache und Kamera (Google Lens) in Echtzeit mit der Suche interagieren. Für Marketer bedeutet das: Optimierte Inhalte müssen nicht nur textbasiert sein, sondern auch visuelle Antworten auf potenzielle Fragen liefern.
Sicherheit: Alle generierten Audiodateien tragen einen SynthID-Watermark – relevant für Marken, die transparenzpflichtige KI-Kommunikation dokumentieren müssen.
Technische Eckdaten
- Input: Audio, Bilder, Video, Text (bis 128K Tokens)
- Output: Audio und Text (bis 64K Tokens)
- Architektur: Basiert auf Gemini 3 Pro
- Sicherheits-Evaluierung: Umfasst Audio-spezifische Red-Teaming-Aktivitäten und Frontier Safety Assessment
Fazit
Google treibt die Integration von Audio-AI in seine Produktpalette konsequent voran. Gemini 3.1 Flash Live ist kein inkrementelles Update, sondern ein Schritt hin zu latenzarmen, natürlichen Dialogen, die bisherige Voice-Interaktionen deutlich übertreffen. Für Marketing-Teams eröffnen sich neue Möglichkeiten im automatisierten Kundenservice und der multimodalen Content-Strategie – vorausgesetzt, die technische Integration und Datenschutzkonformität stehen.



