From 1a380a6b62fc79d6772f6bfd7079617aeb435321 Mon Sep 17 00:00:00 2001
From: mi804 <1576993271@qq.com>
Date: Sat, 28 Feb 2026 11:09:10 +0800
Subject: [PATCH] minor fix

---
 diffsynth/pipelines/ltx2_audio_video.py                       | 4 ++--
 .../ltx2/model_training/validate_lora/LTX-2-T2AV-IC-LoRA.py   | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/diffsynth/pipelines/ltx2_audio_video.py b/diffsynth/pipelines/ltx2_audio_video.py
index f18d785..2e0b2cd 100644
--- a/diffsynth/pipelines/ltx2_audio_video.py
+++ b/diffsynth/pipelines/ltx2_audio_video.py
@@ -122,8 +122,8 @@ class LTX2AudioVideoPipeline(BasePipeline):
                     inputs_shared["input_images_strength"], latent.clone())
                 inputs_shared.update({"input_latents_video": initial_latents, "denoise_mask_video": denoise_mask_video})
             # remove in-context video control in stage 2
-            inputs_shared.pop("in_context_video_latents")
-            inputs_shared.pop("in_context_video_positions")
+            inputs_shared.pop("in_context_video_latents", None)
+            inputs_shared.pop("in_context_video_positions", None)
 
             # initialize latents for stage 2
             inputs_shared["video_latents"] = self.scheduler.sigmas[0] * denoise_mask_video * inputs_shared[
diff --git a/examples/ltx2/model_training/validate_lora/LTX-2-T2AV-IC-LoRA.py b/examples/ltx2/model_training/validate_lora/LTX-2-T2AV-IC-LoRA.py
index 9d793e0..d6eda1a 100644
--- a/examples/ltx2/model_training/validate_lora/LTX-2-T2AV-IC-LoRA.py
+++ b/examples/ltx2/model_training/validate_lora/LTX-2-T2AV-IC-LoRA.py
@@ -33,7 +33,7 @@ negative_prompt = "blurry, out of focus, overexposed, underexposed, low contrast
 height, width, num_frames = 512, 768, 81
 ref_scale_factor = 2
 frame_rate = 24
-input_video = VideoData("data/examples/wan/depth_video.mp4", height=height // ref_scale_factor // 2, width=width // ref_scale_factor // 2)
+input_video = VideoData("data/example_video_dataset/ltx2/depth_video.mp4", height=height // ref_scale_factor // 2, width=width // ref_scale_factor // 2)
 input_video = input_video.raw_data()
 video, audio = pipe(
     prompt=prompt,