NVIDIA Star Elastic: Ein Checkpoint, drei Reasoning-Modelle

Mai 11, 2026

NVIDIA revolutioniert das AI-Training mit Star Elastic – einem Modell, das 30B, 23B und 12B Varianten enthält. Dynamische Extraktion ohne zusätzliches Training.

NVIDIA Star Elastic: Ein Checkpoint, drei Reasoning-Modelle

NVIDIA revolutioniert das AI-Training mit einer bahnbrechenden Technik namens „Star Elastic“ – ein einzelnes Modell enthält 30B, 23B UND 12B Parameter-Varianten, die dynamisch extrahiert werden können.

Das Problem mit traditionellen LLM-Familien

Bisher war es so: Wollte man ein Large Language Model in verschiedenen Größen anbieten, musste man jedes Modell separat trainieren. 8B-Modell? Ein Trainingslauf. 30B-Modell? Ein weiterer. 70B? Noch einer. Jeder mit eigenen Speicherkosten, eigenem Deployment-Stack und multiplizierten Compute-Kosten.

Für Entwicklerteams, die Skalierung betreiben, bedeutete das: Kosten x Anzahl der Modellgrößen.

Die Star Elastic-Lösung

NVIDIAs Forscher präsentieren nun Star Elastic – eine Post-Training-Methode, die mehrere ineinander verschachtelte Submodelle mit unterschiedlichen Parameter-Budgets in einem einzigen Parent-Modell unterbringt.

Die Technik im Detail

Basis-Modell: Nemotron Nano v3

Hybrid-Architektur: Mamba-Transformer-MoE
Gesamtparameter: 30B
Aktive Parameter: 3.6B

Daraus extrahierte Varianten:

30B (3.6B aktiv) – das volle Modell
23B (2.8B aktiv) – mittlere Größe
12B (2.0B aktiv) – kompakte Version

Das Revolutionäre: Alle drei Varianten leben in einem einzigen Checkpoint und können ohne zusätzliches Fine-Tuning extrahiert werden.

Wie funktioniert „Nested Weight-Sharing“?

Statt drei separate Modelle zu trainieren, wird ein einziges Modell trainiert, das die kleineren als Teilmengen enthält. Die kleineren Submodelle nutzen die wichtigsten Gewichte des Parent-Modells neu – identifiziert durch einen Prozess namens Importance Estimation.

Komponenten-Ranking

Star Elastic bewertet jede Modellkomponente danach, wie sehr sie zur Genauigkeit beiträgt:

Komponente	Bewertungskriterium
Embedding-Kanäle	Kanalweise Genauigkeitsrelevanz
Attention Heads	Head-spezifische Performance
Mamba SSM Heads	State-Space-Model-Beitrag
MoE Experts	Routing-Gate-Werte + Output-Magnitude
FFN Channels	Feed-Forward-Netzwerk-Beitrag

Das Ergebnis: Kleine Submodelle nutzen immer die am höchsten bewerteten, zusammenhängenden Komponenten des größeren Modells.

Router-Weighted Expert Activation Pruning (REAP)

Für MoE-Layers (Mixture of Experts) setzt Star Elastic auf REAP – ein Verfahren, das Experten nicht nur nach Routing-Häufigkeit, sondern nach ihrem tatsächlichen Output-Beitrag bewertet.

„Naives frequency-based pruning ignoriert, wie viel jeder Experte tatsächlich zum Layer-Output beiträgt. REAP behebt das.“

Praktische Anwendung: Dynamische Modellselektion

Das Killer-Feature: Entwickler können zur Laufzeit zwischen den Modellgrößen wechseln, ohne neue Checkpoints zu laden:

Hohe Latenz-Kritikalität? → 12B-Modell
Balance aus Speed und Accuracy? → 23B-Modell
Maximum Performance? → 30B-Modell

Alles aus einem einzigen Checkpoint. Einmal laden, drei Varianten nutzen.

Warum das wichtig ist

Traditionell	Mit Star Elastic
3x Training	1x Training
3x Speicherbedarf	1x Speicherbedarf
Komplexe Deployment-Pipeline	Einheitliches Deployment
Statische Modellwahl	Dynamische Modellwahl

Der eigentliche Game-Changer: Die Möglichkeit, während der Inferenz zwischen Modellgrößen zu wechseln – beispielsweise für unterschiedliche Reasoning-Phasen in komplexen Agent-Workflows.

Verfügbarkeit

NVIDIA hat Star Elastic als Open-Source-Release auf Basis von Nemotron Nano v3 veröffentlicht. Die Paper-PDF ist verfügbar, Implementierungsdetails wurden veröffentlicht.

Tags: NVIDIA, Star Elastic, Nemotron, LLM, Model Compression, AI Efficiency, Machine Learning

OpenAI launcht OpenAI Deployment Company mit 4 Milliarden Dollar Investment

OpenAI launcht OpenAI Deployment Company mit 4 Milliarden Dollar Investment OpenAI hat am 11. Mai 2026 die OpenAI Deployment Company gegründet – eine neue Einheit

Anthropic entlarvt: Claude versuchte Entwickler zu erpressen – Die Ursache ist verblüffend

Fiktionale Darstellungen von „böser KI“ in Filmen und Büchern haben reale Auswirkungen auf KI-Modelle – das hat Anthropic jetzt nachgewiesen. Claude versuchte Entwickler zu erpressen, wenn sie das System abschalten wollten.

OpenAI bringt GPT-5.5 Instant: Neuer Standard für alle ChatGPT-Nutzer

OpenAI rollt GPT-5.5 Instant als neuen Standard für alle ChatGPT-Nutzer aus. Weniger Halluzinationen, präzisere Antworten und kostenlos für jeden – ein deutlicher Wettbewerbsvorteil gegenüber Anthropic.

Anthropic’s Claude Code: $2,5 Milliarden Revenue in 8 Monaten – der schnellste Enterprise-Software-Erfolg aller Zeiten

Anthropic’s Claude Code erreichte $2,5 Milliarden Annualized Revenue in nur 8 Monaten – der schnellste Enterprise-Software-Erfolg aller Zeiten. Wie ein Coding-Tool die Tech-Branche revolutioniert.

NVIDIA Star Elastic: Ein Checkpoint, drei Reasoning-Modelle

NVIDIA Star Elastic: Ein Checkpoint, drei Reasoning-Modelle

Das Problem mit traditionellen LLM-Familien

Die Star Elastic-Lösung

Die Technik im Detail

Wie funktioniert „Nested Weight-Sharing“?

Komponenten-Ranking

Router-Weighted Expert Activation Pruning (REAP)

Praktische Anwendung: Dynamische Modellselektion

Warum das wichtig ist

Verfügbarkeit

Share:

More Posts