Entrada multimodal, sistema de @referencia, replicación de cámara, plantillas creativas, extensión de video y más.
Desde aquel dia en que solo podiamos "contar historias" con texto y fotogramas inicial/final, siempre quisimos crear un modelo de video que realmente entendiera tu expresion. Hoy, por fin ha llegado!
JiMeng Seedance 2.0 ahora soporta cuatro tipos de entrada: imagen, video, audio y texto, ofreciendo formas de expresion mas ricas y una generacion mas controlable.
Puedes usar una imagen para definir el estilo visual, un video para especificar movimientos de personajes y cambios de camara, y unos segundos de audio para establecer el ritmo y la atmosfera... Combinado con instrucciones de texto, el proceso creativo se vuelve mas natural, mas eficiente y mas parecido a ser un verdadero "director".
En esta actualizacion, la "capacidad de referencia" es el punto mas destacado:
| 核心维度 | Seedance 2.0 |
|---|---|
| Entrada de imagen | <= 9 imagenes |
| Entrada de video | <= 3 videos, duracion total no superior a 15s (con video de referencia costara un poco mas) |
| Entrada de audio | Soporta carga de MP3, cantidad <= 3, duracion total no superior a 15s |
| Entrada de texto | Lenguaje natural |
| Duracion generada | <= 15s, seleccion libre entre 4-15s |
| Salida de sonido | Efectos de sonido/musica de fondo incluidos |
Limite de interaccion: El limite maximo actual de entrada mixta es de 12 archivos. Se recomienda priorizar la carga de materiales que tengan mayor impacto en la imagen o el ritmo, y distribuir razonablemente el numero de archivos entre las diferentes modalidades.



Metodo 1: Escribir "@" para invocar la referencia





Despues de cargar materiales, las imagenes, videos y audios soportan vista previa al pasar el cursor.



A continuacion se presentan algunos usos y tecnicas en diferentes escenarios, para ayudarte a entender mejor las mejoras de Seedance 2.0 en calidad de generacion, capacidad de control y expresion creativa. Si aun no sabes por donde empezar, echa un vistazo a estos ejemplos para inspirarte~
No solo es multimodal: Seedance 2.0 mejora significativamente a nivel fundamental. Las leyes fisicas son mas razonables, los movimientos son mas naturales y fluidos, la comprension de instrucciones es mas precisa y el estilo se mantiene mas estable. No solo puede completar de forma estable tareas de generacion de alta dificultad como acciones complejas y movimientos continuos, sino que tambien hace que el efecto general del video sea mas realista y suave. Es una evolucion integral de las capacidades fundamentales!
Una chica tiende la ropa con elegancia, termina de colgar una prenda y saca otra del cubo, sacudiendola con fuerza.
El personaje del cuadro tiene una expresion nerviosa, mira a izquierda y derecha, asoma la cabeza fuera del marco, rapidamente extiende la mano fuera del marco para agarrar una Coca-Cola y toma un sorbo, luego muestra una expresion de satisfaccion. En ese momento se escuchan pasos, el personaje del cuadro rapidamente devuelve la Coca-Cola a su lugar. Un vaquero del oeste toma la Coca-Cola del vaso y se va. Finalmente la camara avanza, la pantalla se oscurece gradualmente dejando solo una lata de Coca-Cola iluminada desde arriba, y en la parte inferior aparecen subtitulos artisticos y narracion: "Coca-Cola, imperdible!"
La camara se aleja ligeramente (revelando la vista completa de la calle) y sigue el movimiento de la protagonista. El viento agita la falda de la protagonista mientras camina por las calles de Londres del siglo XIX. Mientras camina, un vehiculo de vapor aparece desde la calle derecha, pasa rapidamente junto a ella, el viento levanta su falda y ella, sorprendida, rapidamente la sujeta con ambas manos. Los efectos de sonido de fondo incluyen pasos, multitudes y vehiculos.
La camara sigue al hombre de negro que huye rapidamente, un grupo de personas lo persigue. La camara cambia a seguimiento lateral, el personaje choca aterrorizado contra un puesto de frutas, se levanta y sigue huyendo. Se escuchan sonidos de multitud en panico.
Seedance 2.0 = Capacidad de referencia multimodal (puede referenciar cualquier cosa) + Generacion creativa potente + Respuesta precisa a instrucciones (excelente comprension)
Soporta la carga de texto, imagenes, video y audio. Todos estos materiales pueden usarse como objeto de uso o de referencia. Puedes referenciar movimientos, efectos especiales, formas, movimientos de camara, personajes, escenas y sonidos de cualquier contenido. Siempre que las instrucciones esten claras, el modelo puede entenderlo.
Simplemente describe con lenguaje natural la escena y los movimientos que deseas. Especifica claramente si es una referencia o una edicion~ Cuando haya muchos materiales, te recomendamos verificar que cada @objeto este correctamente etiquetado, para no confundir imagenes, videos y personajes.
Tienes un fotograma inicial/final? Quieres referenciar movimientos de un video?
-> Especificalo claramente en el prompt, por ejemplo: "@imagen1 como fotograma inicial, referenciar los movimientos de lucha de @video1"
Quieres extender un video existente?
-> Indica el tiempo de extension, por ejemplo: "Extender @video1 por 5s". Nota: la duracion de generacion seleccionada debe ser la del "segmento nuevo"
Quieres fusionar varios videos?
-> Explica la logica de combinacion en el prompt, por ejemplo: "Quiero agregar una escena entre @video1 y @video2, con contenido xxx"
No tienes material de audio? Puedes referenciar directamente el sonido del video.
Quieres generar acciones continuas?
-> Puedes agregar descripciones de continuidad en el prompt, por ejemplo: "El personaje pasa directamente del salto a la voltereta, manteniendo los movimientos fluidos y coherentes" @imagen1@imagen2@imagen3...
Al hacer videos siempre hay problemas frustrantes: rostros que cambian, movimientos que no coinciden, extensiones de video poco naturales, ritmos que se alteran al editar... Esta vez, la capacidad multimodal resuelve todos estos "problemas persistentes" de una vez. A continuacion se presentan casos de uso especificos.
Quizas has experimentado estas frustraciones: personajes que lucen diferentes entre tomas, detalles de productos perdidos, texto pequeno borroso, cambios bruscos de escena, estilos de camara imposibles de unificar... Estos problemas comunes de consistencia en la creacion ahora se pueden resolver en la version 2.0. Desde rostros hasta vestimenta y detalles tipograficos, la consistencia general es mas estable y precisa.
El hombre @imagen1 camina cansado por el pasillo despues del trabajo, sus pasos se ralentizan y finalmente se detiene frente a la puerta de su casa. Primer plano del rostro, el hombre respira profundamente, ajusta sus emociones, deja de lado la negatividad y se relaja. Luego, en primer plano, busca las llaves, las inserta en la cerradura. Al entrar a casa, su pequena hija y un perro corren alegremente a recibirlo con un abrazo. El interior es muy acogedor. Conversacion natural durante toda la escena.
Reemplazar a la chica en @video1 por una actriz de opera china, en un escenario hermoso. Referenciar los movimientos de camara y efectos de transicion de @video1, usar la camara para acompanar los movimientos del personaje, con maxima estetica escenografica y mayor impacto visual.
Referenciar todas las transiciones y movimientos de camara de @video1, en una sola toma continua, comenzando con una partida de ajedrez.
0-2 segundos: Corte rapido en cuatro cuadros, lazos de mariposa en rojo, rosa, purpura y leopardo aparecen congelados sucesivamente.

Realizar una presentacion comercial del bolso de @imagen2, el lateral del bolso referencia @imagen1, la textura de la superficie referencia @imagen3. Mostrar todos los detalles del bolso con musica de fondo grandiosa y majestuosa.

Usar @imagen1 como fotograma inicial, perspectiva en primera persona, referenciar el movimiento de camara de @video1, escena superior referencia @imagen2, escena izquierda referencia @imagen3, escena derecha referencia @imagen4.
Antes, para que el modelo imitara los movimientos, la camara o las acciones complejas de una pelicula, habia que escribir montones de instrucciones detalladas, o simplemente era imposible. Ahora, solo necesitas subir un video de referencia y listo.
Referenciar la imagen del hombre en @imagen1, esta en el ascensor de @imagen2, replicar completamente todos los movimientos de camara y expresiones faciales del protagonista de @video1.
Referenciar la imagen del hombre en @imagen1, esta en el pasillo de @imagen2, replicar completamente todos los movimientos de camara de @video1.




La tableta de @imagen1 como sujeto principal, movimiento de camara referenciando @video1.

La estrella de @imagen1 como sujeto principal, referenciar el estilo de camara de @video1 para realizar movimientos ritmicos de acercamiento, alejamiento y panoramica.
Referenciar @imagen1@imagen2 para el personaje con lanza, @imagen3@imagen4 para el personaje con espadas dobles, imitar los movimientos de @video1, combatiendo en el bosque de arces de @imagen5.

Referenciar los movimientos de los personajes del video1, referenciar el movimiento de camara envolvente del video2, generar una escena de combate entre el personaje1 y el personaje2.


Referenciar los movimientos de camara y el ritmo de cambio de escena del video1, replicar con el superdeportivo rojo de la imagen1.
No solo genera imagenes y escribe historias. Seedance 2.0 tambien soporta "imitar con precision": transiciones creativas, anuncios terminados, fragmentos de peliculas, ediciones complejas. Solo necesitas tener imagenes o videos de referencia, y el modelo puede identificar el ritmo de la accion, el lenguaje cinematografico y la estructura visual, replicandolos con precision.
Reemplazar al personaje de @video1 por @imagen1, usar @imagen1 como fotograma inicial, el personaje se pone gafas de realidad virtual futuristas, referenciar el movimiento de camara de @video1.

Referenciar los rasgos faciales de la modelo en la primera imagen. La modelo se acerca a la camara vistiendo sucesivamente la ropa de las imagenes de referencia 2-6.



Referenciar la creatividad publicitaria del video, usar las imagenes de chaqueta de plumas proporcionadas, combinadas con eslogan publicitario para generar un nuevo video publicitario de chaqueta de plumas.
Estilo de tinta blanco y negro, el personaje de @imagen1 referencia los efectos especiales y movimientos de @video1, representando una secuencia de Tai Chi en estilo de pintura de tinta.
Reemplazar al personaje del primer fotograma de @video1 por @imagen1, replicar completamente los efectos especiales y movimientos de @video1.

Comenzando desde el techo de @imagen1, referenciar el efecto de rompecabezas fragmentado de @video1 para la transicion.


Comenzar con pantalla negra, referenciar los efectos de particulas y texturas del video1, arena con textura dorada y brillante.

El personaje de @imagen1 referencia los movimientos y cambios de expresion de @video1, mostrando el comportamiento abstracto de comer fideos instantaneos.
Interpretar @imagen1 como comic, en orden de izquierda a derecha y de arriba a abajo.

Referenciar el guion de storyboard del especial de @imagen1, crear una introduccion de 15s de estilo reconfortante sobre "Las cuatro estaciones de la infancia".

Referenciar el audio del video1, usando las imagenes 1-5 como inspiracion, crear un video de estilo emocional.





Extender el video 15s, referenciar la imagen del burro en motocicleta de @imagen1 y @imagen2, agregar un segmento de anuncio creativo.

Extender el video 6s, aparece musica intensa de guitarra electrica, en el medio del video aparece la tipografia publicitaria "JUST DO IT".

Extender @video1 15 segundos. 1-5 segundos: La luz y las sombras se deslizan lentamente a traves de las persianas sobre la mesa de madera y la taza.
Extender hacia adelante 10s. En la calida luz de la tarde, la camara comienza desde los toldos de la esquina agitados por la brisa.
Camara fija, lente ojo de pez central mirando hacia abajo a traves de un orificio circular.
A partir de las fotos promocionales del edificio de oficinas proporcionadas, generar un documental inmobiliario de 15 segundos con estilo cinematografico realista.



Un dialogo de critica en el "Salon de Quejas de Gatos y Perros", requiriendo emociones intensas, acorde con un espectaculo de stand-up comedy.

Comienza el acompanamiento del segmento previo a "La Ejecucion de Chen Shimei" de la Opera Yu.

Generar un video musical de 15 segundos. Palabras clave: Composicion estable / Zoom suave / Angulo bajo heroico / Documental pero elegante.

La chica con sombrero en el centro de la pantalla canta suavemente diciendo "I'm so proud of my family!"

Camara fija. El hombre robusto de pie (capitan) levanta el puno y dice en espanol: "Asalto en tres minutos!"

0-3 segundos: Al inicio suena el despertador, la pantalla aparece borrosa mostrando la imagen 1.


El mono de @imagen1 camina hacia el mostrador de la tienda de te con leche, la camara lo sigue desde atras.



Con estilo y tono de divulgacion cientifica, interpretar el contenido de la imagen 1.
@imagen1-5, toma de seguimiento en plano secuencia, siguiendo al corredor desde la calle subiendo escaleras, atravesando un pasillo, entrando a la azotea, y finalmente contemplando la ciudad desde arriba.





Con @imagen1 como fotograma inicial, la imagen se amplifica hacia el exterior de la ventanilla del avion.



Estilo de pelicula de espias, @imagen1 como fotograma inicial, la camara sigue frontalmente a la agente secreta con abrigo rojo.




Desde la toma exterior de @imagen1, perspectiva subjetiva en primera persona con zoom rapido hacia el interior de la cabana de madera.




@imagen1-5, toma subjetiva en plano secuencia de una emocionante montana rusa.





A veces ya tienes un video y no quieres buscar imagenes desde cero ni rehacerlo todo, solo quieres ajustar un pequeno segmento de accion, extenderlo unos segundos, o hacer que el personaje se acerque mas a lo que imaginas. Ahora puedes usar directamente un video existente como entrada y, sin cambiar el resto del contenido, especificar el segmento, la accion o el ritmo para realizar modificaciones dirigidas.
Subvertir la trama de @video1, la mirada del hombre cambia instantaneamente de ternura a frialdad despiadada.
Subvertir toda la trama de @video1. 0-3 segundos: Un hombre de traje sentado en un bar.
Reemplazar a la cantante del video1 por el cantante masculino de la imagen1, imitando completamente los movimientos del video original.

Cambiar el peinado de la mujer del video1 a cabello largo rojo, el gran tiburon blanco de la imagen1 emerge lentamente.

La camara del video1 se desplaza a la derecha, el dueno de la tienda de pollo frito atiende ocupado entregando pollo a los clientes en fila.

La chica del poster cambia de ropa continuamente, la vestimenta referencia los estilos de @imagen1 y @imagen2.




Las imagenes de @imagen1-7 se sincronizan con los fotogramas clave de @video.






Las imagenes de paisajes de @imagen1-6 se sincronizan con el ritmo visual de @video.
Fragmento de anime de batalla de 8 segundos con estrategia inteligente, acorde con el tema de venganza.
La mujer de @imagen1 camina hacia el espejo, se mira a si misma, reflexiona un momento y de repente comienza a gritar descontroladamente.


Este es un anuncio de campana extractora, @imagen1 como fotograma inicial, una mujer cocina con elegancia.




@imagen1 como fotograma inicial, la camara gira y se acerca, el personaje levanta la cabeza de repente y comienza a rugir con fuerza.



