From 93194f44e810638e09efd9a7f23b4f684f9ecf8e Mon Sep 17 00:00:00 2001
From: Artiprocher <wangye87v5@hotmail.com>
Date: Tue, 24 Jun 2025 10:56:52 +0800
Subject: [PATCH] fix i2v resolution

---
 .../wanvideo/model_training/full/Wan2.1-I2V-14B-720P.sh   | 8 +++++---
 .../wanvideo/model_training/lora/Wan2.1-I2V-14B-720P.sh   | 8 +++++---
 .../model_training/validate_full/Wan2.1-I2V-14B-720P.py   | 3 ++-
 .../model_training/validate_lora/Wan2.1-I2V-14B-720P.py   | 3 ++-
 4 files changed, 14 insertions(+), 8 deletions(-)

diff --git a/examples/wanvideo/model_training/full/Wan2.1-I2V-14B-720P.sh b/examples/wanvideo/model_training/full/Wan2.1-I2V-14B-720P.sh
index b64bcbf..bbb2870 100644
--- a/examples/wanvideo/model_training/full/Wan2.1-I2V-14B-720P.sh
+++ b/examples/wanvideo/model_training/full/Wan2.1-I2V-14B-720P.sh
@@ -1,8 +1,9 @@
 accelerate launch --config_file examples/wanvideo/model_training/full/accelerate_config_14B.yaml examples/wanvideo/model_training/train.py \
   --dataset_base_path data/example_video_dataset \
   --dataset_metadata_path data/example_video_dataset/metadata.csv \
-  --height 480 \
-  --width 832 \
+  --height 720 \
+  --width 1280 \
+  --num_frames 49 \
   --dataset_repeat 100 \
   --model_id_with_origin_paths "Wan-AI/Wan2.1-I2V-14B-720P:diffusion_pytorch_model*.safetensors,Wan-AI/Wan2.1-I2V-14B-720P:models_t5_umt5-xxl-enc-bf16.pth,Wan-AI/Wan2.1-I2V-14B-720P:Wan2.1_VAE.pth,Wan-AI/Wan2.1-I2V-14B-720P:models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth" \
   --learning_rate 1e-5 \
@@ -10,4 +11,5 @@ accelerate launch --config_file examples/wanvideo/model_training/full/accelerate
   --remove_prefix_in_ckpt "pipe.dit." \
   --output_path "./models/train/Wan2.1-I2V-14B-720P_full" \
   --trainable_models "dit" \
-  --extra_inputs "input_image"
\ No newline at end of file
+  --extra_inputs "input_image" \
+  --use_gradient_checkpointing_offload
\ No newline at end of file
diff --git a/examples/wanvideo/model_training/lora/Wan2.1-I2V-14B-720P.sh b/examples/wanvideo/model_training/lora/Wan2.1-I2V-14B-720P.sh
index 2037616..ec987a8 100644
--- a/examples/wanvideo/model_training/lora/Wan2.1-I2V-14B-720P.sh
+++ b/examples/wanvideo/model_training/lora/Wan2.1-I2V-14B-720P.sh
@@ -1,8 +1,9 @@
 accelerate launch examples/wanvideo/model_training/train.py \
   --dataset_base_path data/example_video_dataset \
   --dataset_metadata_path data/example_video_dataset/metadata.csv \
-  --height 480 \
-  --width 832 \
+  --height 720 \
+  --width 1280 \
+  --num_frames 49 \
   --dataset_repeat 100 \
   --model_id_with_origin_paths "Wan-AI/Wan2.1-I2V-14B-720P:diffusion_pytorch_model*.safetensors,Wan-AI/Wan2.1-I2V-14B-720P:models_t5_umt5-xxl-enc-bf16.pth,Wan-AI/Wan2.1-I2V-14B-720P:Wan2.1_VAE.pth,Wan-AI/Wan2.1-I2V-14B-720P:models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth" \
   --learning_rate 1e-4 \
@@ -12,4 +13,5 @@ accelerate launch examples/wanvideo/model_training/train.py \
   --lora_base_model "dit" \
   --lora_target_modules "q,k,v,o,ffn.0,ffn.2" \
   --lora_rank 32 \
-  --extra_inputs "input_image"
\ No newline at end of file
+  --extra_inputs "input_image" \
+  --use_gradient_checkpointing_offload
\ No newline at end of file
diff --git a/examples/wanvideo/model_training/validate_full/Wan2.1-I2V-14B-720P.py b/examples/wanvideo/model_training/validate_full/Wan2.1-I2V-14B-720P.py
index a8610f3..d9d39c8 100644
--- a/examples/wanvideo/model_training/validate_full/Wan2.1-I2V-14B-720P.py
+++ b/examples/wanvideo/model_training/validate_full/Wan2.1-I2V-14B-720P.py
@@ -19,12 +19,13 @@ state_dict = load_state_dict("models/train/Wan2.1-I2V-14B-720P_full/epoch-1.safe
 pipe.dit.load_state_dict(state_dict)
 pipe.enable_vram_management()
 
-input_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
+input_image = VideoData("data/example_video_dataset/video1.mp4", height=720, width=1280)[0]
 
 video = pipe(
     prompt="from sunset to night, a small town, light, house, river",
     negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
     input_image=input_image,
+    height=720, width=1280, num_frames=49,
     seed=1, tiled=True
 )
 save_video(video, "video_Wan2.1-I2V-14B-720P.mp4", fps=15, quality=5)
diff --git a/examples/wanvideo/model_training/validate_lora/Wan2.1-I2V-14B-720P.py b/examples/wanvideo/model_training/validate_lora/Wan2.1-I2V-14B-720P.py
index 9893e26..cd60f37 100644
--- a/examples/wanvideo/model_training/validate_lora/Wan2.1-I2V-14B-720P.py
+++ b/examples/wanvideo/model_training/validate_lora/Wan2.1-I2V-14B-720P.py
@@ -18,12 +18,13 @@ pipe = WanVideoPipeline.from_pretrained(
 pipe.load_lora(pipe.dit, "models/train/Wan2.1-I2V-14B-720P_lora/epoch-4.safetensors", alpha=1)
 pipe.enable_vram_management()
 
-input_image = VideoData("data/example_video_dataset/video1.mp4", height=480, width=832)[0]
+input_image = VideoData("data/example_video_dataset/video1.mp4", height=720, width=1280)[0]
 
 video = pipe(
     prompt="from sunset to night, a small town, light, house, river",
     negative_prompt="色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走",
     input_image=input_image,
+    height=720, width=1280, num_frames=49,
     seed=1, tiled=True
 )
 save_video(video, "video_Wan2.1-I2V-14B-720P.mp4", fps=15, quality=5)