Mova (#1337)

* support mova inference * mova media_io * add unified audio_video api & fix bug of mono audio input for ltx * support mova train * mova docs * fix bug
2026-03-18 22:08:13 +00:00 · 2026-03-13 13:06:07 +08:00
parent 4741542523
commit 681df93a85
37 changed files with 3102 additions and 181 deletions
--- a/diffsynth/diffusion/base_pipeline.py
+++ b/diffsynth/diffusion/base_pipeline.py
@@ -152,13 +152,6 @@ class BasePipeline(torch.nn.Module):
        # remove batch dim
        if audio_output.ndim == 3:
            audio_output = audio_output.squeeze(0)
-        # Transform to stereo
-        if audio_output.shape[0] == 1:
-            audio_output = audio_output.repeat(2, 1)
-        elif audio_output.shape[0] == 2:
-            pass
-        else:
-            raise ValueError("The output audio should be [C, T] or [1, C, T] or [2, C, T].")
        return audio_output.float()

    def load_models_to_device(self, model_names):