Von einer Tagesschau-Meldung zum KI-Deutschrap-Musikvideo — mit Helmut, dem freundlichen Yeti-MC. End-to-end aus Claude Code orchestriert.
Es startete als Schlager-Idee: „ein deutsches Lied über die heutigen Nachrichten". Aus einer Tooling-Recherche wurde ein Genre-Pivot, eine Casting-Runde und schließlich eine ganze Pipeline.
Erste Frage war reine Werkzeug-Recherche: Welche KI-Tools für Text → Musik → Video? Antwort-Stack: News & Lyrics direkt im Chat, Suno für den Song, Veo/Kling/Seedance fürs Video, FFmpeg für den Schnitt.
„I'm thinking about creating a german schlager song about today's news with ai tools, potentially including a video."Aus den Tages-Headlines gewählt: der Bundesrat blockiert die versprochene steuerfreie 1000-€-Prämie. Perfekter Schlager-Bogen — Vorfreude → Enttäuschung → wir tanzen trotzdem. „Jeder hat 'ne Stromrechnung."
Der entscheidende kreative Sprung. Erst Schlager-Pop, dann die Stimme auf „gentle-giant Bariton" getrimmt — dann der komplette Genre-Pivot zu Fanta-4-/Fettes-Brot-/Beginner-Boom-Bap, 90 BPM, gerappte Strophen mit gesungenem Hook. Lyrics und Suno-Prompt komplett neu geschrieben.
„and now as a german rap style of late 90s early 2000s"Vier Maskottchen evaluiert. Der Yeti gewinnt aus zwei Gründen: die Kälte-Metapher (ein Yeti, der wegen seiner Stromrechnung friert = peak Schlager-Selbstironie) und der KI-Trick — weißes Fell auf jedem Hintergrund = hoher Kontrast = Modelle halten ihn konsistent. Der Name „Helmut": warmer deutscher Onkel-Name, der in beiden Framings trägt — Schlager-Heimat-Vibe wie Deutschrap-Malocher.
Beim Genre-Pivot wechselte die Garderobe komplett: Trachtenjanker → übergroßer Burgunder-Hoodie + DJ-Kopfhörer. Damit es derselbe Helmut bleibt, wandert ein winziges Edelweiß-Medaillon als Signatur mit — „still Helmut, just remixed".
Letzter Recherche-Schritt: wie treibt man das aus Claude Code? Ergebnis — ein MCP-Gateway für die Modelle, scenes.json als Single Source of Truth, Scripts für Generate / Lip-Sync / Compose. Genau diese Struktur steht heute im Repo.
Kälte-Metapher + Konsistenz-Hack. Sofort adoptierbar.
Maximal deutsch — aber Proportionen tricky für KI-Video.
Gleiche Kälte-Logik, aber Knut-Trope schon verbraucht.
Sehr deutsch — Hunde driften in KI härter als Blob-Wesen.
Topisch, musikalisch, sprachlich — die Einflüsse hinter jeder Zeile.
Drei Fassungen desselben Songs, ein Abspielkopf. Klick eine Spur oder zieh den Crossfader und blende live zwischen ihnen über — die Position läuft weiter, wie am DJ-Pult.
Jeder Schritt aus Claude Code gesteuert — Atlas Cloud als primäres Modell-Gateway, fal.ai für Lip-Sync.
Story, Reim, Timing auf 90 BPM gemappt.
creative/lyrics.lrcDeutschrap-Beat, 3:53, manuell kuratiert.
tausend_euro.mp38 Varianten + 3 Winkel gelockt.
nano-banana 2Ref-to-Video, je 1 Take.
Seedance 2.0 · AtlasNur experimentell getestet — nicht im finalen Cut.
Hedra · fal.aiAuf den Beat, VHS-Grade, 1080p.
preview.mp4
Konsistenz ist nicht verhandelbar. Vier Anker werden in jeden Prompt gezwungen — sie wandern durch jede Generierung.
Jede Kachel = ein echter Frame aus dem generierten Clip, zeitlich an die Lyrics gekoppelt.
Das Konzept-Dokument wurde geschrieben, bevor wir die API angefasst haben. Fast jede Annahme stimmte beim ersten Kontakt nicht. Ein Feld-Logbuch:
Drei Modelle durchprobiert. Veo 3.1 driftete (Gesicht wurde humanoid) und kostete real $0.20/s statt der angenommenen $0.03 — abgebrochen. Kling o3 Pro hielt die Figur (16 Clips, 3–4 Takes/Szene) aber teuer. Seedance 2.0 wurde Produktionsmodell: rendert als einziges lesbaren deutschen Text auf CRT-Schirmen, Ausweisen und Rechnungen.


Atlas-Katalog liegt unter /v1/models
Das ist nur die OpenAI-kompatible Text-Route (105 Modelle). Der echte Katalog (313 Modelle: Veo, Kling, Seedance…) liegt unter /api/v1/models.
3:00 Minuten, Timings aus dem Konzept
Suno lieferte 3:53. Alle Szenen gegen die echten LRC-Grenzen neu getimt — v1 (scene_01–09) → v2 (scene_a01–a21).
Eine Referenz reicht für Konsistenz
Mit nur 1 Ref driftet das Gesicht ins Humanoide/Pavian-hafte. Lösung: 1 Anker + 3 Winkel (Face/Profil/Rück) + Compact-Bible + harte Negatives.
Katalog-Preise stimmen
Seedance billt token-metered ≈ 2,17× Katalograte. Veo $0.20/s statt $0.03. Budget wurde nach Lerneffekt angehoben.
Kein Atlas-Modell synct automatisch auf einen Audio-Track. Also externe Trials — MuseTalk vs. sync v3 vs. Hedra Character-3 (fal.ai) — plus eigene Audio-Analyse: MFCC-Template, Stimm- und Timbre-Charts, um die Ausrichtung zu verifizieren. Ergebnis: nie produziert. Der finale Cut nutzt Seedances native Rap-Mundbewegung — echter Lip-Sync blieb Experiment.



Echte Sync-Ausgaben aus den Trials — eine zeigt das typische MuseTalk-Problem (Artefakte um Mund & Fell bei stylisierten Gesichtern), die v3-Pass-Closeups halten dagegen brauchbar. Ton an für den Sync-Eindruck:
Die Hook hat eine weibliche Harmonie hinter Helmuts Lead. Damit der Screen nicht Helmut zeigt, der eine fremde Stimme mimt, kam Helga dazu — eine zweite Yeti-Figur (rote Mütze, Cord-Bomber, dasselbe Edelweiß-Medaillon als Kontinuitäts-Anker). Doch sobald zwei Figuren in einer Szene singen, kommen zwei gleichzeitige Lip-Sync-Ziele plus Stimmen-Zuordnung dazu — bei ohnehin ungelöstem Single-Character-Sync zu fehleranfällig.


Entscheidung: Helga vorerst entfernt — gut genug für jetzt, finaler Cut nur mit Helmut. Weg nach vorn: gründlichere Planung & kürzere Cuts — oder schlicht andere Einstellungen, in denen Helmut während der Zweitstimmen-Zeilen gar nicht im Bild ist (Umgebung / B-Roll), womit das Zwei-Figuren-Problem komplett entfällt.
Seedance 2.0 braucht für einen 13–15s-Clip gelegentlich 15–25 Minuten. Der ursprüngliche Poller gab nach 900 s (15 min) auf, der Retry-Loop schickte eine neue Generierung (~$3) — bis zu 4×. Server-seitig rechnete die originale Prediction munter weiter und wäre fertig geworden. Atlas hat keinen Cancel-Endpoint. Effekt: ~$15 verbrannt pro Szene-die-eigentlich-funktioniert-hätte. Erwischte A13 & A14.
Das Originalbudget waren $25. Es wurde bewusst angehoben, nachdem wir lernten, dass Seedance ~2,17× Katalograte billt — und dass ein zu kurzer Timeout teurer ist als Geduld.