Multimodale Eingabe, @Referenzsystem, Kameraführung, kreative Vorlagen, Videoverlängerung und mehr.
Erinnern Sie sich noch? Seit dem Tag, an dem wir nur mit Text und Anfangs-/Endframe „Geschichten erzählen" konnten, wollten wir ein Videomodell schaffen, das Ihren Ausdruck wirklich versteht. Heute ist es endlich da!
JiMeng Seedance 2.0 unterstützt jetzt vier Eingabemodalitäten: Bilder, Videos, Audio und Text — vielfältigere Ausdrucksmöglichkeiten und bessere Steuerbarkeit bei der Generierung.
Sie können mit einem Bild den visuellen Stil festlegen, mit einem Video die Bewegungen der Figur und Kamerawechsel vorgeben, mit wenigen Sekunden Audio Rhythmus und Atmosphäre setzen… Zusammen mit Textprompts wird der kreative Prozess natürlicher, effizienter und fühlt sich wirklich wie „Regie führen" an.
Bei diesem Upgrade sind die „Referenzfähigkeiten" das größte Highlight:
| 核心维度 | Seedance 2.0 |
|---|---|
| Bildeingabe | ≤ 9 Stück |
| Videoeingabe | ≤ 3 Stück, Gesamtdauer max. 15 s (mit Referenzvideo etwas teurer) |
| Audioeingabe | MP3-Upload unterstützt, Anzahl ≤ 3, Gesamtdauer max. 15 s |
| Texteingabe | Natürliche Sprache |
| Generierungsdauer | ≤ 15 s, frei wählbar von 4 bis 15 s |
| Tonausgabe | Integrierte Soundeffekte / Hintergrundmusik |
Interaktionsbeschränkungen: Das aktuelle Obergrenze für gemischte Eingaben beträgt 12 Dateien. Es wird empfohlen, vorrangig Materialien hochzuladen, die den größten Einfluss auf Bild oder Rhythmus haben, und die Dateianzahl zwischen den verschiedenen Modalitäten sinnvoll zu verteilen.



Methode 1: „@" eingeben, um Referenz aufzurufen





Nach dem Hochladen von Materialien unterstützen Bilder, Videos und Audio eine Hover-Vorschau.



Im Folgenden finden Sie Anwendungsbeispiele und Tipps für verschiedene Szenarien, die Ihnen helfen, die Verbesserungen von Seedance 2.0 bei Generierungsqualität, Steuerbarkeit und kreativem Ausdruck besser zu verstehen. Wenn Sie nicht wissen, wo Sie anfangen sollen, schauen Sie sich einfach diese Beispiele zur Inspiration an~
Nicht nur Multimodalität — Seedance 2.0 wurde auf fundamentaler Ebene deutlich verbessert: realistischere Physik, natürlichere und flüssigere Bewegungen, präziseres Befehlsverständnis, stabilere Stilbeibehaltung. Das Modell bewältigt zuverlässig komplexe Bewegungen und kontinuierliche Aktionen, und die Gesamtvideoqualität ist realistischer und geschmeidiger geworden — eine umfassende Evolution der Grundfähigkeiten!
Ein Mädchen hängt elegant Wäsche auf, nimmt nach einem Kleidungsstück das nächste aus dem Korb und schüttelt es kräftig aus.
Die Figur im Bild schaut mit schuldbewusstem Gesichtsausdruck nach links und rechts, lehnt sich aus dem Rahmen, greift schnell nach draußen, schnappt sich die Cola und nimmt einen Schluck, dann zeigt sie einen zufriedenen Gesichtsausdruck. In diesem Moment sind Schritte zu hören, die Figur stellt die Cola hastig zurück. Ein Western-Cowboy nimmt das Glas Cola und geht. Zum Schluss fährt die Kamera heran, der Hintergrund wird allmählich schwarz, nur ein Oberlicht beleuchtet die Coladose, am unteren Bildrand erscheint ein künstlerischer Untertitel mit Stimme aus dem Off: „Yikou Cola — unbedingt probieren!"
Die Kamera zieht leicht zurück (zeigt das Straßenpanorama) und folgt der Protagonistin. Der Wind weht den Rocksaum der Protagonistin, die durch eine Londoner Straße des 19. Jahrhunderts geht. Von rechts kommt ein Dampfwagen, rast schnell an ihr vorbei, der Windstoß hebt ihren Rock. Schockiert drückt sie hastig den Rock mit beiden Händen herunter. Hintergrundgeräusche: Schritte, Menschenmenge, Autogeräusche usw.
Die Kamera folgt dem Mann in Schwarz bei seiner rasanten Flucht, eine Menschenmenge verfolgt ihn. Die Kamera wechselt zur seitlichen Begleitung, die Figur stößt panisch einen Obststand am Straßenrand um, steht auf und rennt weiter. Aufgeregte Menschenmengengeräusche.
Seedance 2.0 = Multimodale Referenzfähigkeiten (alles kann referenziert werden) + starke kreative Generierung + präzise Befehlsausführung (hervorragendes Verständnis)
Es werden Text, Bilder, Videos und Audio zum Hochladen unterstützt — alle diese Materialien können als Nutzungsobjekte oder Referenzobjekte dienen. Sie können Bewegungen, Effekte, Stil, Kameraführung, Figuren, Szenen, Klang als Referenz verwenden — alles, solange Sie es im Prompt klar beschreiben, versteht das Modell es.
Beschreiben Sie einfach in natürlicher Sprache das gewünschte Bild und die Aktionen und geben Sie an, was Referenz und was Bearbeitung ist. Bei vielen Materialien empfiehlt es sich, alle @-Objekte nochmals zu prüfen, damit Bilder, Videos und Figuren nicht verwechselt werden.
Haben Sie ein Anfangs-/Endframe? Möchten Sie Bewegungen aus einem Video referenzieren?
→ Beschreiben Sie es im Prompt, z. B.: „@Bild1 als Anfangsframe, Kampfbewegungen aus @Video1 referenzieren"
Möchten Sie ein vorhandenes Video verlängern?
→ Geben Sie die Verlängerungszeit an, z. B. „@Video1 um 5 s verlängern". Hinweis: Die gewählte Generierungsdauer sollte der „neuen Passage" entsprechen.
Möchten Sie mehrere Videos zusammenführen?
→ Beschreiben Sie die Zusammenführungslogik im Prompt, z. B.: „Ich möchte eine Szene zwischen @Video1 und @Video2 einfügen, Inhalt: xxx"
Kein Audiomaterial? Sie können den Ton direkt aus dem Video verwenden.
Möchten Sie fortlaufende Aktionen generieren?
→ Fügen Sie dem Prompt eine Kontinuitätsbeschreibung hinzu, z. B.: „Die Figur geht direkt vom Sprung in eine Rolle über, die Bewegung bleibt durchgehend flüssig" @Bild1 @Bild2 @Bild3...
Bei der Videoerstellung gab es immer Kopfschmerzen: Das Gesicht der Figur ändert sich, die Bewegungen stimmen nicht, die Videoverlängerung wirkt unnatürlich, beim Bearbeiten gerät der gesamte Rhythmus durcheinander… Die multimodalen Fähigkeiten lösen all diese „alten Probleme" auf einen Schlag. Nachfolgend konkrete Anwendungsbeispiele.
Kennen Sie diese Probleme? Die Figur sieht in verschiedenen Einstellungen unterschiedlich aus, Produktdetails gehen verloren, kleine Schrift wird unscharf, die Szene springt, der Kamerastil lässt sich nicht vereinheitlichen… All diese typischen Konsistenzprobleme werden jetzt in Version 2.0 gelöst. Von Gesichtern über Kleidung bis hin zu Schriftdetails — die Gesamtkonsistenz ist stabiler und präziser.
Der Mann @Bild1 kommt müde von der Arbeit und geht den Flur entlang, verlangsamt seinen Schritt und bleibt schließlich vor der Haustür stehen. Nahaufnahme des Gesichts: Der Mann atmet tief ein, fasst sich, lässt die negativen Emotionen los und entspannt sich. Dann Nahaufnahme: Er sucht den Schlüssel heraus, steckt ihn ins Schloss. Nach dem Betreten des Hauses rennen ihm seine kleine Tochter und ein Haushund freudig zur Begrüßung und Umarmung entgegen. Die Wohnung ist sehr gemütlich eingerichtet, durchgehend natürlicher Dialog.
Die Frau aus @Video1 durch eine Opern-Huadan ersetzen, die Szene spielt auf einer prachtvollen Bühne. Kameraführung und Übergänge aus @Video1 verwenden, Kamera an die Bewegungen der Figur anpassen für maximale Bühnenästhetik und visuelle Wirkung.
Alle Übergänge und Kameraführungen aus @Video1 verwenden, Plansequenz, Bildanfang ist eine Schachpartie.
0–2 Sekunden: Schneller Vierer-Flashcut — rote, rosa, lila und Leopardenmuster-Schleifen erscheinen nacheinander als Standbild.

Eine kommerzielle Videopräsentation der Tasche aus @Bild2, Seitenansicht der Tasche als Referenz @Bild1, Oberflächentextur als Referenz @Bild3. Alle Details der Tasche sollen gezeigt werden, Hintergrundmusik majestätisch und grandios.

@Bild1 als Anfangsframe verwenden. Ego-Perspektive, Kameraführung als Referenz @Video1, obere Szene als Referenz @Bild2, linke Szene als Referenz @Bild3, rechte Szene als Referenz @Bild4.
Früher musste man für die Nachahmung von Kamerabewegungen, Figurenpositionierung oder komplexen Aktionen aus Filmen entweder massenhaft detaillierte Prompts schreiben — oder es war schlicht unmöglich. Jetzt genügt es, ein Referenzvideo hochzuladen.
Das Erscheinungsbild des Mannes aus @Bild1 verwenden, er befindet sich im Aufzug aus @Bild2, Kameraführung und Mimik des Hauptdarstellers aus @Video1 vollständig reproduzieren.
Das Erscheinungsbild des Mannes aus @Bild1 verwenden, er befindet sich im Flur aus @Bild2, alle Kameraführungen aus @Video1 vollständig reproduzieren.




Tablet aus @Bild1 als Hauptobjekt, Kameraführung als Referenz @Video1.

Schauspielerin aus @Bild1 als Hauptobjekt, Kameraführung aus @Video1 für rhythmische Zoom-, Schwenk- und Fahrbewegungen verwenden.
Speerkämpfer aus @Bild1 und @Bild2, Doppelschwertkämpfer aus @Bild3 und @Bild4, Bewegungen aus @Video1 nachahmen, Kampf im Ahornwald aus @Bild5.

Figurenbewegungen aus Video1 verwenden, Orbitalaufnahme-Kamerasprache aus Video2, eine Kampfszene zwischen Figur 1 und Figur 2 generieren.


Kameraführung und Schnittrhythmus aus Video1 verwenden, mit dem roten Supersportwagen aus Bild1 reproduzieren.
Seedance 2.0 kann nicht nur Bilder generieren und Geschichten erzählen, sondern auch „nach Vorlage nachmachen" — kreative Übergänge, fertige Werbeclips, Filmausschnitte, komplexer Schnitt. Wenn Sie ein Referenzbild oder -video haben, erkennt das Modell den Bewegungsrhythmus, die Kamerasprache und die visuelle Struktur und reproduziert das Ergebnis präzise.
Die Figur aus @Video1 durch @Bild1 ersetzen, @Bild1 als Anfangsframe, die Figur trägt eine virtuelle Sci-Fi-Brille, Kameraführung als Referenz @Video1.

Die Gesichtszüge des Models vom ersten Bild verwenden. Das Model trägt nacheinander die Kleidung aus den Referenzbildern 2–6 und nähert sich der Kamera.



Die kreative Werbeidee aus dem Video verwenden und mit den bereitgestellten Daunenjacken-Bildern und Werbetext ein neues Daunenjacken-Werbevideo erstellen.
Schwarzweißer Tusche-Stil. Die Figur aus @Bild1 verwendet Effekte und Bewegungen aus @Video1, um eine Tusche-Tai-Chi-Kampfkunst-Szene darzustellen.
Die Figur im ersten Frame von @Video1 durch @Bild1 ersetzen, Effekte und Bewegungen aus @Video1 vollständig reproduzieren.

Beginnend mit der Decke aus @Bild1, den Puzzle-Zerfall-Effekt aus @Video1 für den Übergang verwenden.


Schwarzblende als Eröffnung, Partikeleffekt und Textur aus Video1 verwenden — goldene Sandkörner mit vergoldeter Textur.

Die Figur aus @Bild1 ahmt Aktionen und Mimikänderungen aus @Video1 nach und zeigt das absurde Nudeln-Essen-Verhalten.
@Bild1 als Comic in der Reihenfolge links nach rechts, oben nach unten zum Leben erwecken.

Basierend auf dem Storyboard aus @Bild1 einen 15-sekündigen Vorspann im heilsamen Stil zum Thema „Die Jahreszeiten der Kindheit" erstellen.

Audio aus Video1 als Referenz verwenden, inspiriert von Bildern 1–5, ein emotionales Video erstellen.





Video um 15 s verlängern, als Referenz @Bild1 und @Bild2 (Esel auf Motorrad), mit einer kreativen Werbung ergänzen.

Video um 6 s verlängern, energische E-Gitarrenmusik ertönt, in der Mitte des Videos erscheint der Werbetext „JUST DO IT".

@Video1 um 15 Sekunden verlängern. 1–5 Sekunden: Licht und Schatten gleiten langsam durch die Jalousien über den Holztisch und die Tasse.
Um 10 s nach vorne verlängern. Im warmen Nachmittagslicht beginnt die Kamera mit einer Reihe von Markisen an der Straßenecke, die im leichten Wind flattern.
Statische Kamera, zentrales Fischaugenobjektiv blickt durch eine runde Öffnung nach unten.
Basierend auf den bereitgestellten Bürogebäudefotos einen 15-sekündigen kinematografischen Immobilien-Dokumentarfilm im realistischen Stil generieren.



Ein ironischer Dialog in der „Katze-Hund-Beschwerdeshow", emotionale Ausdrucksstärke im Stand-up-Comedy-Stil gefordert.

Das Intro der klassischen Yu-Oper „Der Fall Chen Shimei" ertönt.

Ein 15-sekündiges Musikvideo generieren. Schlüsselwörter: stabile Komposition / sanfte Zooms / Niedrigwinkel-Heldenaufnahme / dokumentarisch, aber hochwertig.

Das Mädchen mit Hut in der Bildmitte singt sanft: „I'm so proud of my family!"

Statische Kamera. Der stehende kräftige Mann (Kapitän) ballt die Faust, schwingt den Arm und sagt auf Spanisch: „In drei Minuten — Angriff!"

0–3 Sekunden: Am Anfang klingelt der Wecker, im verschwommenen Bild erscheint Bild 1.


Der Affe aus @Bild1 geht zum Tresen des Bubble-Tea-Shops, die Kamera folgt ihm von hinten.



Im populärwissenschaftlichen Stil und Tonfall den Inhalt von Bild 1 präsentieren.
@Bilder1–5, durchgehende Verfolgungsaufnahme: Von der Straße dem Läufer die Treppe hinauf folgen, durch den Flur aufs Dach, und abschließend Stadtpanorama von oben.





@Bild1 als Anfangsframe verwenden, Kamera zoomt zum Flugzeugfenster hinaus.



Spionagefilm-Stil, @Bild1 als Anfangsframe, Kamera folgt frontal der Geheimagentin im roten Trenchcoat.




Ausgehend von der Außenaufnahme @Bild1, schnelle Kamerafahrt in Ego-Perspektive ins Innere der Holzhütte.




@Bilder1–5, subjektive Plansequenz einer aufregenden Achterbahnfahrt.





Manchmal haben Sie bereits ein Video und möchten nicht von vorne anfangen — Sie wollen nur einen Bewegungsausschnitt anpassen, ein paar Sekunden hinzufügen oder die Figur näher an Ihre Vorstellung bringen. Jetzt können Sie ein vorhandenes Video als Eingabe verwenden und gezielt bestimmte Abschnitte, Bewegungen oder den Rhythmus bearbeiten, ohne den Rest zu verändern.
Die Handlung von @Video1 umkehren: Der Blick des Mannes wechselt augenblicklich von sanft zu eiskalt und erbarmungslos.
Die gesamte Handlung von @Video1 umkehren. 0–3 Sekunden: Mann im Anzug sitzt in einer Bar.
Die Leadsängerin aus Video1 durch den Leadsänger aus Bild1 ersetzen, Bewegungen ahmen das Originalvideo vollständig nach.

Die Frisur der Frau in Video1 in lange rote Haare ändern, der große Weiße Hai aus Bild1 taucht langsam auf.

Kamera in Video1 schwenkt nach rechts, der Besitzer des Brathähnchenladens reicht geschäftig den wartenden Kunden Brathähnchen.

Das Mädchen auf dem Poster wechselt ständig die Outfits, Kleidungsstile als Referenz @Bild1 und @Bild2.




Bilder @1–7 werden rhythmisch auf die Keyframes aus @Video synchronisiert.






Landschaftsfotos @Bilder1–6 werden rhythmisch auf den Bildrhythmus aus @Video synchronisiert.
8-sekündiges Kampfanime-Segment im Stil eines intellektuellen Duells zum Thema Rache.
Die Frau aus @Bild1 geht zum Spiegel, betrachtet ihr Spiegelbild, denkt einen Moment nach und bricht dann plötzlich schreiend zusammen.


Dies ist eine Dunstabzugshauben-Werbung. @Bild1 als Anfangsframe, eine Frau kocht elegant.




@Bild1 als Anfangsframe, Kamera dreht sich und zoomt heran, die Figur hebt plötzlich den Kopf und beginnt wütend zu schreien.



