Entrada multimodal, sistema de @referência, replicação de câmera, templates criativos, extensão de vídeo e mais.
Desde aquele dia em que so podiamos "contar historias" com texto e quadros inicial/final, sempre quisemos criar um modelo de video que realmente entendesse sua expressao. Hoje, ele finalmente chegou!
JiMeng Seedance 2.0 agora suporta quatro tipos de entrada: imagem, video, audio e texto, oferecendo formas de expressao mais ricas e uma geracao mais controlavel.
Voce pode usar uma imagem para definir o estilo visual, um video para especificar movimentos de personagens e mudancas de camera, e alguns segundos de audio para definir o ritmo e a atmosfera... Combinado com instrucoes de texto, o processo criativo se torna mais natural, mais eficiente e mais parecido com ser um verdadeiro "diretor".
Nesta atualizacao, a "capacidade de referencia" e o maior destaque:
| 核心维度 | Seedance 2.0 |
|---|---|
| Entrada de imagem | <= 9 imagens |
| Entrada de video | <= 3 videos, duracao total nao superior a 15s (com video de referencia custara um pouco mais) |
| Entrada de audio | Suporta upload de MP3, quantidade <= 3, duracao total nao superior a 15s |
| Entrada de texto | Linguagem natural |
| Duracao gerada | <= 15s, selecao livre entre 4-15s |
| Saida de som | Efeitos sonoros/musica de fundo incluidos |
Limite de interacao: O limite maximo atual de entrada mista e de 12 arquivos. Recomenda-se priorizar o upload de materiais que tenham maior impacto na imagem ou no ritmo, e distribuir razoavelmente o numero de arquivos entre as diferentes modalidades.



Metodo 1: Digitar "@" para invocar a referencia





Apos o upload dos materiais, imagens, videos e audios suportam pre-visualizacao ao passar o cursor.



A seguir estao alguns usos e tecnicas em diferentes cenarios, para ajuda-lo a entender melhor as melhorias do Seedance 2.0 em qualidade de geracao, capacidade de controle e expressao criativa. Se voce ainda nao sabe por onde comecar, de uma olhada nestes exemplos para se inspirar~
Nao e so multimodal: o Seedance 2.0 melhora significativamente no nivel fundamental. As leis fisicas sao mais razoaveis, os movimentos sao mais naturais e fluidos, a compreensao de instrucoes e mais precisa e o estilo se mantem mais estavel. Nao so pode completar de forma estavel tarefas de geracao de alta dificuldade como acoes complexas e movimentos continuos, mas tambem torna o efeito geral do video mais realista e suave. E uma evolucao integral das capacidades fundamentais!
Uma garota estende a roupa com elegancia, termina de pendurar uma peca e pega outra do balde, sacudindo-a com forca.
O personagem do quadro tem uma expressao nervosa, olha para a esquerda e direita, espia para fora da moldura, rapidamente estende a mao para fora da moldura para pegar uma Coca-Cola e toma um gole, depois mostra uma expressao de satisfacao. Nesse momento, ouvem-se passos, o personagem do quadro rapidamente devolve a Coca-Cola ao lugar. Um cowboy do oeste pega a Coca-Cola do copo e vai embora. Finalmente, a camera avanca, a tela escurece gradualmente deixando apenas uma lata de Coca-Cola iluminada por cima, e na parte inferior aparecem legendas artisticas e narracao: "Coca-Cola, imperdivel!"
A camera se afasta ligeiramente (revelando a vista completa da rua) e segue o movimento da protagonista. O vento agita a saia da protagonista enquanto ela caminha pelas ruas de Londres do seculo XIX. Enquanto caminha, um veiculo a vapor aparece pela rua da direita, passa rapidamente ao lado dela, o vento levanta sua saia e ela, surpresa, rapidamente a segura com ambas as maos. Os efeitos sonoros de fundo incluem passos, multidoes e veiculos.
A camera segue o homem de preto que foge rapidamente, um grupo de pessoas o persegue. A camera muda para acompanhamento lateral, o personagem, apavorado, bate em uma barraca de frutas, levanta-se e continua fugindo. Ouvem-se sons de multidao em panico.
Seedance 2.0 = Capacidade de referencia multimodal (pode referenciar qualquer coisa) + Geracao criativa poderosa + Resposta precisa a instrucoes (excelente compreensao)
Suporta o upload de texto, imagens, video e audio. Todos esses materiais podem ser usados como objeto de uso ou de referencia. Voce pode referenciar movimentos, efeitos especiais, formas, movimentos de camera, personagens, cenas e sons de qualquer conteudo. Desde que as instrucoes estejam claras, o modelo pode entender.
Basta descrever com linguagem natural a cena e os movimentos que deseja. Especifique claramente se e uma referencia ou uma edicao~ Quando houver muitos materiais, recomendamos verificar se cada @objeto esta corretamente rotulado, para nao confundir imagens, videos e personagens.
Tem um quadro inicial/final? Quer referenciar movimentos de um video?
-> Especifique claramente no prompt, por exemplo: "@imagem1 como quadro inicial, referenciar os movimentos de luta de @video1"
Quer estender um video existente?
-> Indique o tempo de extensao, por exemplo: "Estender @video1 por 5s". Nota: a duracao de geracao selecionada deve ser a do "segmento novo"
Quer fundir varios videos?
-> Explique a logica de combinacao no prompt, por exemplo: "Quero adicionar uma cena entre @video1 e @video2, com conteudo xxx"
Nao tem material de audio? Voce pode referenciar diretamente o som do video.
Quer gerar acoes continuas?
-> Voce pode adicionar descricoes de continuidade no prompt, por exemplo: "O personagem passa diretamente do salto para a cambalhota, mantendo os movimentos fluidos e coerentes" @imagem1@imagem2@imagem3...
Ao fazer videos sempre ha problemas frustrantes: rostos que mudam, movimentos que nao combinam, extensoes de video pouco naturais, ritmos que se alteram ao editar... Desta vez, a capacidade multimodal resolve todos esses "problemas persistentes" de uma vez. A seguir estao casos de uso especificos.
Talvez voce ja tenha passado por essas frustracoes: personagens que parecem diferentes entre tomadas, detalhes de produtos perdidos, texto pequeno borrado, mudancas bruscas de cena, estilos de camera impossiveis de unificar... Esses problemas comuns de consistencia na criacao agora podem ser resolvidos na versao 2.0. De rostos a vestimentas e detalhes tipograficos, a consistencia geral e mais estavel e precisa.
O homem @imagem1 caminha cansado pelo corredor apos o trabalho, seus passos diminuem e finalmente ele para na porta de casa. Close-up do rosto, o homem respira fundo, ajusta suas emocoes, deixa a negatividade de lado e relaxa. Depois, em close-up, procura as chaves, insere na fechadura. Ao entrar em casa, sua filhinha e um cachorro correm alegremente para recebe-lo com um abraco. O interior e muito aconchegante. Conversa natural durante toda a cena.
Substituir a garota no @video1 por uma atriz de opera chinesa, em um belo palco. Referenciar os movimentos de camera e efeitos de transicao do @video1, usar a camera para acompanhar os movimentos do personagem, com maxima estetica cenografica e maior impacto visual.
Referenciar todas as transicoes e movimentos de camera do @video1, em uma unica tomada continua, comecando com uma partida de xadrez.
0-2 segundos: Corte rapido em quatro quadros, lacos de borboleta em vermelho, rosa, roxo e oncinha aparecem congelados sucessivamente.

Realizar uma apresentacao comercial da bolsa da @imagem2, o lateral da bolsa referencia @imagem1, a textura da superficie referencia @imagem3. Mostrar todos os detalhes da bolsa com musica de fundo grandiosa e majestosa.

Usar @imagem1 como quadro inicial, perspectiva em primeira pessoa, referenciar o movimento de camera do @video1, cena superior referencia @imagem2, cena esquerda referencia @imagem3, cena direita referencia @imagem4.
Antes, para que o modelo imitasse os movimentos, a camera ou as acoes complexas de um filme, era preciso escrever montes de instrucoes detalhadas, ou simplesmente era impossivel. Agora, basta enviar um video de referencia e pronto.
Referenciar a imagem do homem em @imagem1, ele esta no elevador de @imagem2, replicar completamente todos os movimentos de camera e expressoes faciais do protagonista do @video1.
Referenciar a imagem do homem em @imagem1, ele esta no corredor de @imagem2, replicar completamente todos os movimentos de camera do @video1.




O tablet da @imagem1 como sujeito principal, movimento de camera referenciando @video1.

A estrela da @imagem1 como sujeito principal, referenciar o estilo de camera do @video1 para realizar movimentos ritmicos de aproximacao, afastamento e panoramica.
Referenciar @imagem1@imagem2 para o personagem com lanca, @imagem3@imagem4 para o personagem com espadas duplas, imitar os movimentos do @video1, combatendo na floresta de bordos da @imagem5.

Referenciar os movimentos dos personagens do video1, referenciar o movimento de camera envolvente do video2, gerar uma cena de combate entre o personagem1 e o personagem2.


Referenciar os movimentos de camera e o ritmo de troca de cena do video1, replicar com o superesportivo vermelho da imagem1.
Nao so gera imagens e escreve historias. O Seedance 2.0 tambem suporta "imitar com precisao": transicoes criativas, anuncios finalizados, fragmentos de filmes, edicoes complexas. Basta ter imagens ou videos de referencia, e o modelo pode identificar o ritmo da acao, a linguagem cinematografica e a estrutura visual, replicando-os com precisao.
Substituir o personagem do @video1 por @imagem1, usar @imagem1 como quadro inicial, o personagem coloca oculos de realidade virtual futuristas, referenciar o movimento de camera do @video1.

Referenciar os tracos faciais da modelo na primeira imagem. A modelo se aproxima da camera vestindo sucessivamente as roupas das imagens de referencia 2-6.



Referenciar a criatividade publicitaria do video, usar as imagens de jaqueta de penas fornecidas, combinadas com slogan publicitario para gerar um novo video publicitario de jaqueta de penas.
Estilo de tinta preto e branco, o personagem da @imagem1 referencia os efeitos especiais e movimentos do @video1, representando uma sequencia de Tai Chi em estilo de pintura a tinta.
Substituir o personagem do primeiro quadro do @video1 por @imagem1, replicar completamente os efeitos especiais e movimentos do @video1.

Comecando pelo teto da @imagem1, referenciar o efeito de quebra-cabeca fragmentado do @video1 para a transicao.


Comecar com tela preta, referenciar os efeitos de particulas e texturas do video1, areia com textura dourada e brilhante.

O personagem da @imagem1 referencia os movimentos e mudancas de expressao do @video1, mostrando o comportamento abstrato de comer miojo.
Interpretar @imagem1 como quadrinho, na ordem da esquerda para a direita e de cima para baixo.

Referenciar o roteiro de storyboard do especial da @imagem1, criar uma abertura de 15s de estilo reconfortante sobre "As quatro estacoes da infancia".

Referenciar o audio do video1, usando as imagens 1-5 como inspiracao, criar um video de estilo emocional.





Estender o video 15s, referenciar a imagem do burro de motocicleta da @imagem1 e @imagem2, adicionar um segmento de anuncio criativo.

Estender o video 6s, aparece musica intensa de guitarra eletrica, no meio do video aparece a tipografia publicitaria "JUST DO IT".

Estender @video1 15 segundos. 1-5 segundos: A luz e as sombras deslizam lentamente pelas persianas sobre a mesa de madeira e a xicara.
Estender para frente 10s. Na luz quente da tarde, a camera comeca pelos toldos da esquina agitados pela brisa.
Camera fixa, lente olho de peixe central olhando para baixo atraves de um orificio circular.
A partir das fotos promocionais do edificio comercial fornecidas, gerar um documentario imobiliario de 15 segundos com estilo cinematografico realista.



Um dialogo de critica no "Salao de Reclamacoes de Gatos e Cachorros", exigindo emocoes intensas, no estilo de um show de stand-up comedy.

Comeca o acompanhamento do segmento anterior a "A Execucao de Chen Shimei" da Opera Yu.

Gerar um video musical de 15 segundos. Palavras-chave: Composicao estavel / Zoom suave / Angulo baixo heroico / Documental porem elegante.

A garota de chapeu no centro da tela canta suavemente dizendo "I'm so proud of my family!"

Camera fixa. O homem robusto em pe (capitao) ergue o punho e diz em espanhol: "Assalto em tres minutos!"

0-3 segundos: No inicio toca o despertador, a tela aparece borrada mostrando a imagem 1.


O macaco da @imagem1 caminha ate o balcao da loja de cha com leite, a camera o segue por tras.



Com estilo e tom de divulgacao cientifica, interpretar o conteudo da imagem 1.
@imagem1-5, tomada de acompanhamento em plano-sequencia, seguindo o corredor desde a rua subindo escadas, atravessando um corredor, entrando no terrace, e finalmente contemplando a cidade do alto.





Com @imagem1 como quadro inicial, a imagem amplia para o exterior da janela do aviao.



Estilo de filme de espionagem, @imagem1 como quadro inicial, a camera segue frontalmente a agente secreta de casaco vermelho.




A partir da tomada externa da @imagem1, perspectiva subjetiva em primeira pessoa com zoom rapido para o interior da cabana de madeira.




@imagem1-5, tomada subjetiva em plano-sequencia de uma emocionante montanha-russa.





As vezes voce ja tem um video e nao quer procurar imagens do zero nem refazer tudo, so quer ajustar um pequeno trecho de acao, estende-lo alguns segundos, ou fazer o personagem ficar mais proximo do que voce imagina. Agora voce pode usar diretamente um video existente como entrada e, sem alterar o restante do conteudo, especificar o trecho, a acao ou o ritmo para realizar modificacoes direcionadas.
Subverter a trama do @video1, o olhar do homem muda instantaneamente de ternura para frieza impiedosa.
Subverter toda a trama do @video1. 0-3 segundos: Um homem de terno sentado em um bar.
Substituir a cantora do video1 pelo cantor masculino da imagem1, imitando completamente os movimentos do video original.

Mudar o penteado da mulher do video1 para cabelo longo vermelho, o grande tubarao branco da imagem1 emerge lentamente.

A camera do video1 se desloca para a direita, o dono da loja de frango frito atende ocupado entregando frango aos clientes na fila.

A garota do poster troca de roupa continuamente, o vestuario referencia os estilos da @imagem1 e @imagem2.




As imagens da @imagem1-7 se sincronizam com os quadros-chave do @video.






As imagens de paisagem da @imagem1-6 se sincronizam com o ritmo visual do @video.
Fragmento de anime de batalha de 8 segundos com estrategia inteligente, alinhado com o tema de vinganca.
A mulher da @imagem1 caminha ate o espelho, olha para si mesma, reflete por um momento e de repente comeca a gritar descontroladamente.


Este e um anuncio de coifa, @imagem1 como quadro inicial, uma mulher cozinha com elegancia.




@imagem1 como quadro inicial, a camera gira e se aproxima, o personagem levanta a cabeca de repente e comeca a rugir com forca.



