diffsynth 2.0 prototype

2026-03-24 10:18:12 +00:00 · 2025-11-04 10:59:29 +08:00
parent a30ed9093f
commit 288fb7604c
664 changed files with 3581 additions and 2237905 deletions
--- a/examples/wanvideo/model_training/validate_full/LongCat-Video.py
+++ b/examples/wanvideo/model_training/validate_full/LongCat-Video.py
@@ -1,25 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="meituan-longcat/LongCat-Video", origin_file_pattern="dit/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-14B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-14B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/LongCat-Video_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    seed=1, tiled=True
-)
-save_video(video, "video_LongCat-Video.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-1.3b-speedcontrol-v1.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-1.3b-speedcontrol-v1.py
@@ -1,28 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-1.3B", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-1.3B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-1.3B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="DiffSynth-Studio/Wan2.1-1.3b-speedcontrol-v1", origin_file_pattern="model.safetensors", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-1.3b-speedcontrol-v1_full/epoch-1.safetensors")
-pipe.motion_controller.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-# Text-to-video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    seed=1, tiled=True,
-    motion_bucket_id=50
-)
-save_video(video, "video_Wan2.1-1.3b-speedcontrol-v1.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-FLF2V-14B-720P.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-FLF2V-14B-720P.py
@@ -1,33 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.1-FLF2V-14B-720P", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-FLF2V-14B-720P", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-FLF2V-14B-720P", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-FLF2V-14B-720P", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-FLF2V-14B-720P_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)
-
-# First and last frame to video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=video[0],
-    end_image=video[80],
-    seed=0, tiled=True,
-    sigma_shift=16,
-)
-save_video(video, "video_Wan2.1-FLF2V-14B-720P.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-1.3B-Control.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-1.3B-Control.py
@@ -1,32 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-1.3B-Control", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-1.3B-Control", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-1.3B-Control", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-1.3B-Control", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-1.3B-Control_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1_softedge.mp4", height=480, width=832)
-video = [video[i] for i in range(81)]
-
-# Control video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    control_video=video,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-1.3B-Control.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-1.3B-InP.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-1.3B-InP.py
@@ -1,31 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-1.3B-InP", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-1.3B-InP", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-1.3B-InP", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-1.3B-InP", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-1.3B-InP_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)
-
-# First and last frame to video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=video[0], end_image=video[80],
-    seed=0, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-1.3B-InP.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-14B-Control.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-14B-Control.py
@@ -1,32 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-14B-Control", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-14B-Control", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-14B-Control", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-14B-Control", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-14B-Control_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1_softedge.mp4", height=480, width=832)
-video = [video[i] for i in range(81)]
-
-# Control video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    control_video=video,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-14B-Control.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-14B-InP.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-14B-InP.py
@@ -1,31 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-14B-InP", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-14B-InP", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-14B-InP", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-14B-InP", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-14B-InP_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)
-
-# First and last frame to video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=video[0], end_image=video[80],
-    seed=0, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-14B-InP.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-1.3B-Control-Camera.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-1.3B-Control-Camera.py
@@ -1,32 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-Control-Camera", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-Control-Camera", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-Control-Camera", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-Control-Camera", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-V1.1-1.3B-Control-Camera_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)
-
-# First and last frame to video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=video[0],
-    camera_control_direction="Left", camera_control_speed=0.0,
-    seed=0, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-V1.1-1.3B-Control-Camera.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-1.3B-Control.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-1.3B-Control.py
@@ -1,33 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-Control", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-Control", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-Control", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-Control", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-V1.1-1.3B-Control_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1_softedge.mp4", height=480, width=832)
-video = [video[i] for i in range(81)]
-reference_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-# Control video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    control_video=video, reference_image=reference_image,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-V1.1-1.3B-Control.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-1.3B-InP.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-1.3B-InP.py
@@ -1,31 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-InP", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-InP", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-InP", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-1.3B-InP", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-V1.1-1.3B-InP_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)
-
-# First and last frame to video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=video[0], end_image=video[80],
-    seed=0, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-V1.1-1.3B-InP.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-14B-Control-Camera.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-14B-Control-Camera.py
@@ -1,32 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-Control-Camera", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-Control-Camera", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-Control-Camera", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-Control-Camera", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-V1.1-14B-Control-Camera_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)
-
-# First and last frame to video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=video[0],
-    camera_control_direction="Left", camera_control_speed=0.0,
-    seed=0, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-V1.1-14B-Control-Camera.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-14B-Control.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-14B-Control.py
@@ -1,33 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-Control", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-Control", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-Control", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-Control", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-V1.1-14B-Control_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1_softedge.mp4", height=480, width=832)
-video = [video[i] for i in range(81)]
-reference_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-# Control video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    control_video=video, reference_image=reference_image,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-V1.1-14B-Control.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-14B-InP.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-Fun-V1.1-14B-InP.py
@@ -1,31 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-InP", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-InP", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-InP", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-InP", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-Fun-V1.1-14B-InP_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)
-
-# First and last frame to video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=video[0], end_image=video[80],
-    seed=0, tiled=True
-)
-save_video(video, "video_Wan2.1-Fun-V1.1-14B-InP.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-I2V-14B-480P.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-I2V-14B-480P.py
@@ -1,30 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.1-I2V-14B-480P", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-I2V-14B-480P", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-I2V-14B-480P", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-I2V-14B-480P", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-I2V-14B-480P_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-input_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=input_image,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-I2V-14B-480P.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-I2V-14B-720P.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-I2V-14B-720P.py
@@ -1,31 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.1-I2V-14B-720P", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-I2V-14B-720P", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-I2V-14B-720P", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-I2V-14B-720P", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-I2V-14B-720P_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-input_image = VideoData("data/example_video_dataset/video1.mp4", height=720, width=1280)[0]
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=input_image,
-    height=720, width=1280, num_frames=49,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-I2V-14B-720P.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-T2V-1.3B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-T2V-1.3B.py
@@ -1,25 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-1.3B", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-1.3B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-1.3B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-T2V-1.3B_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-T2V-1.3B.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-T2V-14B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-T2V-14B.py
@@ -1,25 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-14B", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-14B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-14B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-T2V-14B_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-T2V-14B.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-VACE-1.3B-Preview.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-VACE-1.3B-Preview.py
@@ -1,30 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="iic/VACE-Wan2.1-1.3B-Preview", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="iic/VACE-Wan2.1-1.3B-Preview", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="iic/VACE-Wan2.1-1.3B-Preview", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-VACE-1.3B-Preview_full/epoch-1.safetensors")
-pipe.vace.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1_softedge.mp4", height=480, width=832)
-video = [video[i] for i in range(49)]
-reference_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    vace_video=video, vace_reference_image=reference_image, num_frames=49,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-VACE-1.3B-Preview.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-VACE-1.3B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-VACE-1.3B.py
@@ -1,30 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.1-VACE-1.3B", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-VACE-1.3B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-VACE-1.3B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-VACE-1.3B_full/epoch-1.safetensors")
-pipe.vace.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1_softedge.mp4", height=480, width=832)
-video = [video[i] for i in range(49)]
-reference_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    vace_video=video, vace_reference_image=reference_image, num_frames=49,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-VACE-1.3B.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-VACE-14B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-VACE-14B.py
@@ -1,30 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.1-VACE-14B", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-VACE-14B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-VACE-14B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.1-VACE-14B_full/epoch-1.safetensors")
-pipe.vace.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1_softedge.mp4", height=480, width=832)
-video = [video[i] for i in range(17)]
-reference_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    vace_video=video, vace_reference_image=reference_image, num_frames=17,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.1-VACE-14B.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-Animate-14B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-Animate-14B.py
@@ -1,33 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.2-Animate-14B", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-Animate-14B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-Animate-14B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-Animate-14B", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.2-Animate-14B_full/epoch-1.safetensors")
-pipe.animate_adapter.load_state_dict(state_dict, strict=False)
-pipe.enable_vram_management()
-
-input_image = VideoData("data/example_video_dataset/animate/animate_output.mp4", height=480, width=832)[0]
-animate_pose_video = VideoData("data/examples/wan/animate/animate_pose_video.mp4", height=480, width=832).raw_data()[:81-4]
-animate_face_video = VideoData("data/examples/wan/animate/animate_face_video.mp4", height=512, width=512).raw_data()[:81-4]
-video = pipe(
-    prompt="视频中的人在做动作",
-    seed=0, tiled=True,
-    input_image=input_image,
-    animate_pose_video=animate_pose_video,
-    animate_face_video=animate_face_video,
-    num_frames=81, height=480, width=832,
-    num_inference_steps=20, cfg_scale=1,
-)
-save_video(video, "video_Wan2.2-Animate-14B.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-Fun-A14B-Control-Camera.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-Fun-A14B-Control-Camera.py
@@ -1,34 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-Control-Camera", origin_file_pattern="high_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-Control-Camera", origin_file_pattern="low_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-Control-Camera", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-Control-Camera", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.2-Fun-A14B-Control-Camera_high_noise_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-state_dict = load_state_dict("models/train/Wan2.2-Fun-A14B-Control-Camera_low_noise_full/epoch-1.safetensors")
-pipe.dit2.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)
-
-# First and last frame to video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=video[0],
-    camera_control_direction="Left", camera_control_speed=0.0,
-    seed=0, tiled=True
-)
-save_video(video, "video_Wan2.2-Fun-A14B-Control-Camera.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-Fun-A14B-Control.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-Fun-A14B-Control.py
@@ -1,35 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-Control", origin_file_pattern="high_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-Control", origin_file_pattern="low_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-Control", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-Control", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.2-Fun-A14B-Control_high_noise_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-state_dict = load_state_dict("models/train/Wan2.2-Fun-A14B-Control_low_noise_full/epoch-1.safetensors")
-pipe.dit2.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1_softedge.mp4", height=480, width=832)
-video = [video[i] for i in range(81)]
-reference_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-# Control video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    control_video=video, reference_image=reference_image,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.2-Fun-A14B-Control.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-Fun-A14B-InP.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-Fun-A14B-InP.py
@@ -1,32 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-InP", origin_file_pattern="high_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-InP", origin_file_pattern="low_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-InP", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-Fun-A14B-InP", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.2-Fun-A14B-InP_high_noise_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-state_dict = load_state_dict("models/train/Wan2.2-Fun-A14B-InP_low_noise_full/epoch-1.safetensors")
-pipe.dit2.load_state_dict(state_dict)
-pipe.enable_vram_management()
-video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)
-
-# First and last frame to video
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=video[0], end_image=video[80],
-    seed=0, tiled=True
-)
-save_video(video, "video_Wan2.2-Fun-A14B-InP.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-I2V-A14B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-I2V-A14B.py
@@ -1,33 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.2-I2V-A14B", origin_file_pattern="high_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-I2V-A14B", origin_file_pattern="low_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-I2V-A14B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-I2V-A14B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.2-I2V-A14B_high_noise_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-state_dict = load_state_dict("models/train/Wan2.2-I2V-A14B_low_noise_full/epoch-1.safetensors")
-pipe.dit2.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-input_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=input_image,
-    num_frames=49,
-    seed=1, tiled=True,
-)
-save_video(video, "video_Wan2.2-I2V-A14B.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-S2V-14B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-S2V-14B.py
@@ -1,53 +0,0 @@
-import torch
-from PIL import Image
-import librosa
-from diffsynth import VideoData, save_video_with_audio, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.2-S2V-14B", origin_file_pattern="diffusion_pytorch_model*.safetensors"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-S2V-14B", origin_file_pattern="wav2vec2-large-xlsr-53-english/model.safetensors"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-S2V-14B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-S2V-14B", origin_file_pattern="Wan2.1_VAE.pth"),
-    ],
-    audio_processor_config=ModelConfig(model_id="Wan-AI/Wan2.2-S2V-14B", origin_file_pattern="wav2vec2-large-xlsr-53-english/"),
-)
-
-state_dict = load_state_dict("models/train/Wan2.2-S2V-14B_full/epoch-0.safetensors")
-pipe.dit.load_state_dict(state_dict, strict=False)
-pipe.enable_vram_management()
-
-
-num_frames = 81 # 4n+1
-height = 448
-width = 832
-
-prompt = "a person is singing"
-negative_prompt = "画面模糊，最差质量，画面模糊，细节模糊不清，情绪激动剧烈，手快速抖动，字幕，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走"
-input_image = Image.open("data/example_video_dataset/wans2v/pose.png").convert("RGB").resize((width, height))
-# s2v audio input, recommend 16kHz sampling rate
-audio_path = 'data/example_video_dataset/wans2v/sing.MP3'
-input_audio, sample_rate = librosa.load(audio_path, sr=16000)
-# S2V pose video input 
-pose_video_path = 'data/example_video_dataset/wans2v/pose.mp4'
-pose_video = VideoData(pose_video_path, height=height, width=width)
-
-# Speech-to-video with pose
-video = pipe(
-    prompt=prompt,
-    input_image=input_image,
-    negative_prompt=negative_prompt,
-    seed=0,
-    num_frames=num_frames,
-    height=height,
-    width=width,
-    audio_sample_rate=sample_rate,
-    input_audio=input_audio,
-    s2v_pose_video=pose_video,
-    num_inference_steps=40,
-)
-save_video_with_audio(video[1:], "video_pose_with_audio.mp4", audio_path, fps=16, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-T2V-A14B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-T2V-A14B.py
@@ -1,28 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.2-T2V-A14B", origin_file_pattern="high_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-T2V-A14B", origin_file_pattern="low_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-T2V-A14B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-T2V-A14B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.2-T2V-A14B_high_noise_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-state_dict = load_state_dict("models/train/Wan2.2-T2V-A14B_low_noise_full/epoch-1.safetensors")
-pipe.dit2.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.2-T2V-A14B.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-TI2V-5B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-TI2V-5B.py
@@ -1,30 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-from modelscope import dataset_snapshot_download
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Wan-AI/Wan2.2-TI2V-5B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-TI2V-5B", origin_file_pattern="diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.2-TI2V-5B", origin_file_pattern="Wan2.2_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.2-TI2V-5B_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-input_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    input_image=input_image,
-    num_frames=49,
-    seed=1, tiled=True,
-)
-save_video(video, "video_Wan2.2-TI2V-5B.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-VACE-Fun-A14B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-VACE-Fun-A14B.py
@@ -1,33 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Wan2.2-VACE-Fun-A14B", origin_file_pattern="high_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-VACE-Fun-A14B", origin_file_pattern="low_noise_model/diffusion_pytorch_model*.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-VACE-Fun-A14B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="PAI/Wan2.2-VACE-Fun-A14B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/Wan2.2-VACE-Fun-A14B_high_noise_full/epoch-1.safetensors")
-pipe.vace.load_state_dict(state_dict)
-state_dict = load_state_dict("models/train/Wan2.2-VACE-Fun-A14B_low_noise_full/epoch-1.safetensors")
-pipe.vace2.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-video = VideoData("data/example_video_dataset/video1_softedge.mp4", height=480, width=832)
-video = [video[i] for i in range(17)]
-reference_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
-
-video = pipe(
-    prompt="from sunset to night, a small town, light, house, river",
-    negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
-    vace_video=video, vace_reference_image=reference_image, num_frames=17,
-    seed=1, tiled=True
-)
-save_video(video, "video_Wan2.2-VACE-A14B.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/krea-realtime-video.py
+++ b/examples/wanvideo/model_training/validate_full/krea-realtime-video.py
@@ -1,28 +0,0 @@
-import torch
-from PIL import Image
-from diffsynth import save_video, VideoData, load_state_dict
-from diffsynth.pipelines.wan_video_new import WanVideoPipeline, ModelConfig
-
-
-pipe = WanVideoPipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="krea/krea-realtime-video", origin_file_pattern="krea-realtime-video-14b.safetensors", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-14B", origin_file_pattern="models_t5_umt5-xxl-enc-bf16.pth", offload_device="cpu"),
-        ModelConfig(model_id="Wan-AI/Wan2.1-T2V-14B", origin_file_pattern="Wan2.1_VAE.pth", offload_device="cpu"),
-    ],
-)
-state_dict = load_state_dict("models/train/krea-realtime-video_full/epoch-1.safetensors")
-pipe.dit.load_state_dict(state_dict)
-pipe.enable_vram_management()
-
-# Text-to-video
-video = pipe(
-    prompt="a cat sitting on a boat",
-    num_inference_steps=6, num_frames=81,
-    seed=0, tiled=True,
-    cfg_scale=1,
-    sigma_shift=20,
-)
-save_video(video, "output.mp4", fps=15, quality=5)
--- a/examples/wanvideo/model_training/validate_full/run_test.py
+++ b/examples/wanvideo/model_training/validate_full/run_test.py
@@ -1,25 +0,0 @@
-import multiprocessing, os
-
-
-def run_task(scripts, thread_id, thread_num):
-    for script_id, script in enumerate(scripts):
-        if script_id % thread_num == thread_id:
-            log_file_name = script.replace("/", "_") + ".txt"
-            cmd = f"CUDA_VISIBLE_DEVICES={thread_id} python -u {script} > data/log/{log_file_name} 2>&1"
-            os.makedirs("data/log", exist_ok=True)
-            print(cmd, flush=True)
-            os.system(cmd)
-    
-
-if __name__ == "__main__":
-    scripts = []
-    for file_name in os.listdir("examples/wanvideo/model_training/validate_full"):
-        if file_name != "run_test.py":
-            scripts.append(os.path.join("examples/wanvideo/model_training/validate_full", file_name))
-
-    processes = [multiprocessing.Process(target=run_task, args=(scripts, i, 8)) for i in range(8)]
-    for p in processes:
-        p.start()
-    for p in processes:
-        p.join()
-    print("Done!")