update code

2026-03-23 00:58:11 +00:00 · 2025-11-17 10:41:11 +08:00
parent ea0a5c5908
commit 47246060d6
24 changed files with 1828 additions and 22 deletions
--- a/examples/test/run.py
+++ b/examples/test/run.py
@@ -71,13 +71,13 @@ if __name__ == "__main__":
    # run_inference("examples/qwen_image/model_inference_low_vram")
    # run_inference("examples/qwen_image/model_training/validate_full")
    # run_inference("examples/qwen_image/model_training/validate_lora")
-    run_train_single_GPU("examples/wanvideo/model_inference_low_vram")
-    move_files("video_", "data/output/model_inference_low_vram")
-    run_train_single_GPU("examples/wanvideo/model_inference")
-    move_files("video_", "data/output/model_inference")
-    run_train_single_GPU("examples/wanvideo/model_training/lora")
-    run_train_single_GPU("examples/wanvideo/model_training/validate_lora")
-    move_files("video_", "data/output/validate_lora")
-    run_train_multi_GPU("examples/wanvideo/model_training/full")
-    run_train_single_GPU("examples/wanvideo/model_training/validate_full")
+    # run_train_single_GPU("examples/wanvideo/model_inference_low_vram")
+    # move_files("video_", "data/output/model_inference_low_vram")
+    # run_train_single_GPU("examples/wanvideo/model_inference")
+    # move_files("video_", "data/output/model_inference")
+    # run_train_single_GPU("examples/wanvideo/model_training/lora")
+    # run_train_single_GPU("examples/wanvideo/model_training/validate_lora")
+    # move_files("video_", "data/output/validate_lora")
+    # run_train_multi_GPU("examples/wanvideo/model_training/full")
+    run_train_multi_GPU("examples/wanvideo/model_training/validate_full")
    move_files("video_", "data/output/validate_full")
--- a/examples/wanvideo/model_training/full/Wan2.2-Fun-A14B-Control-Camera.sh
+++ b/examples/wanvideo/model_training/full/Wan2.2-Fun-A14B-Control-Camera.sh
@@ -9,7 +9,7 @@ accelerate launch --config_file examples/wanvideo/model_training/full/accelerate
  --learning_rate 1e-4 \
  --num_epochs 5 \
  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Wan2.2-Fun-A14B-Control-Camera_high_niose_full" \
+  --output_path "./models/train/Wan2.2-Fun-A14B-Control-Camera_high_noise_full" \
  --trainable_models "dit" \
  --extra_inputs "input_image,camera_control_direction,camera_control_speed" \
  --max_timestep_boundary 0.358 \
--- a/examples/wanvideo/model_training/full/Wan2.2-Fun-A14B-Control.sh
+++ b/examples/wanvideo/model_training/full/Wan2.2-Fun-A14B-Control.sh
@@ -9,7 +9,7 @@ accelerate launch --config_file examples/wanvideo/model_training/full/accelerate
  --learning_rate 1e-4 \
  --num_epochs 5 \
  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Wan2.2-Fun-A14B-Control_high_niose_full" \
+  --output_path "./models/train/Wan2.2-Fun-A14B-Control_high_noise_full" \
  --trainable_models "dit" \
  --extra_inputs "control_video,reference_image" \
  --max_timestep_boundary 0.358 \
--- a/examples/wanvideo/model_training/full/Wan2.2-Fun-A14B-InP.sh
+++ b/examples/wanvideo/model_training/full/Wan2.2-Fun-A14B-InP.sh
@@ -8,7 +8,7 @@ accelerate launch --config_file examples/wanvideo/model_training/full/accelerate
  --learning_rate 1e-4 \
  --num_epochs 5 \
  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Wan2.2-Fun-A14B-InP_high_niose_full" \
+  --output_path "./models/train/Wan2.2-Fun-A14B-InP_high_noise_full" \
  --trainable_models "dit" \
  --extra_inputs "input_image,end_image" \
  --max_timestep_boundary 0.358 \
--- a/examples/wanvideo/model_training/lora/Wan2.2-Fun-A14B-Control-Camera.sh
+++ b/examples/wanvideo/model_training/lora/Wan2.2-Fun-A14B-Control-Camera.sh
@@ -9,7 +9,7 @@ accelerate launch examples/wanvideo/model_training/train.py \
  --learning_rate 1e-4 \
  --num_epochs 5 \
  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Wan2.2-Fun-A14B-Control-Camera_high_niose_lora" \
+  --output_path "./models/train/Wan2.2-Fun-A14B-Control-Camera_high_noise_lora" \
  --lora_base_model "dit" \
  --lora_target_modules "q,k,v,o,ffn.0,ffn.2" \
  --lora_rank 32 \
--- a/examples/wanvideo/model_training/lora/Wan2.2-Fun-A14B-Control.sh
+++ b/examples/wanvideo/model_training/lora/Wan2.2-Fun-A14B-Control.sh
@@ -9,7 +9,7 @@ accelerate launch examples/wanvideo/model_training/train.py \
  --learning_rate 1e-4 \
  --num_epochs 5 \
  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Wan2.2-Fun-A14B-Control_high_niose_lora" \
+  --output_path "./models/train/Wan2.2-Fun-A14B-Control_high_noise_lora" \
  --lora_base_model "dit" \
  --lora_target_modules "q,k,v,o,ffn.0,ffn.2" \
  --lora_rank 32 \
--- a/examples/wanvideo/model_training/lora/Wan2.2-Fun-A14B-InP.sh
+++ b/examples/wanvideo/model_training/lora/Wan2.2-Fun-A14B-InP.sh
@@ -8,7 +8,7 @@ accelerate launch examples/wanvideo/model_training/train.py \
  --learning_rate 1e-4 \
  --num_epochs 5 \
  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Wan2.2-Fun-A14B-InP_high_niose_lora" \
+  --output_path "./models/train/Wan2.2-Fun-A14B-InP_high_noise_lora" \
  --lora_base_model "dit" \
  --lora_target_modules "q,k,v,o,ffn.0,ffn.2" \
  --lora_rank 32 \
--- a/examples/wanvideo/model_training/validate_full/Wan2.2-S2V-14B.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.2-S2V-14B.py
@@ -1,7 +1,8 @@
 import torch
 from PIL import Image
 import librosa
-from diffsynth import VideoData, save_video_with_audio, load_state_dict
+from diffsynth.utils.data import VideoData, save_video_with_audio
+from diffsynth.core import load_state_dict
 from diffsynth.pipelines.wan_video import WanVideoPipeline, ModelConfig


--- a/examples/wanvideo/model_training/validate_lora/Wan2.1-Fun-V1.1-14B-Control-Camera.py
+++ b/examples/wanvideo/model_training/validate_lora/Wan2.1-Fun-V1.1-14B-Control-Camera.py
@@ -16,7 +16,7 @@ pipe = WanVideoPipeline.from_pretrained(
        ModelConfig(model_id="PAI/Wan2.1-Fun-V1.1-14B-Control-Camera", origin_file_pattern="models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth"),
    ],
 )
-pipe.load_lora(pipe.dit, "models/train/Wan2.1-Fun-V1.1-1.3B-Control-Camera_lora/epoch-4.safetensors", alpha=1)
+pipe.load_lora(pipe.dit, "models/train/Wan2.1-Fun-V1.1-14B-Control-Camera_lora/epoch-4.safetensors", alpha=1)

 video = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)

--- a/examples/wanvideo/model_training/validate_lora/Wan2.2-S2V-14B.py
+++ b/examples/wanvideo/model_training/validate_lora/Wan2.2-S2V-14B.py
@@ -1,7 +1,7 @@
 import torch
 from PIL import Image
 import librosa
-from diffsynth import VideoData, save_video_with_audio
+from diffsynth.utils.data import VideoData, save_video_with_audio
 from diffsynth.pipelines.wan_video import WanVideoPipeline, ModelConfig

 pipe = WanVideoPipeline.from_pretrained(