support z-image-omni-base

2026-04-09 01:28:18 +00:00 · 2026-01-05 14:03:15 +08:00
38 changed files with 24 additions and 1417 deletions
--- a/diffsynth/configs/model_configs.py
+++ b/diffsynth/configs/model_configs.py
@@ -540,19 +540,6 @@ z_image_series = [
        "model_name": "siglip_vision_model_428m",
        "model_class": "diffsynth.models.siglip2_image_encoder.Siglip2ImageEncoder428M",
    },
-    {
-        # Example: ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.safetensors")
-        "model_hash": "1677708d40029ab380a95f6c731a57d7",
-        "model_name": "z_image_controlnet",
-        "model_class": "diffsynth.models.z_image_controlnet.ZImageControlNet",
-    },
-    {
-        # Example: ???
-        "model_hash": "9510cb8cd1dd34ee0e4f111c24905510",
-        "model_name": "z_image_image2lora_style",
-        "model_class": "diffsynth.models.z_image_image2lora.ZImageImage2LoRAModel",
-        "extra_kwargs": {"compress_dim": 128},
-    },
 ]

 MODEL_CONFIGS = qwen_image_series + wan_series + flux_series + flux2_series + z_image_series
--- a/diffsynth/configs/vram_management_module_maps.py
+++ b/diffsynth/configs/vram_management_module_maps.py
@@ -195,19 +195,4 @@ VRAM_MANAGEMENT_MODULE_MAPS = {
        "torch.nn.Linear": "diffsynth.core.vram.layers.AutoWrappedLinear",
        "diffsynth.models.z_image_dit.RMSNorm": "diffsynth.core.vram.layers.AutoWrappedModule",
    },
-    "diffsynth.models.z_image_controlnet.ZImageControlNet": {
-        "torch.nn.Linear": "diffsynth.core.vram.layers.AutoWrappedLinear",
-        "diffsynth.models.z_image_dit.RMSNorm": "diffsynth.core.vram.layers.AutoWrappedModule",
-    },
-    "diffsynth.models.z_image_image2lora.ZImageImage2LoRAModel": {
-        "torch.nn.Linear": "diffsynth.core.vram.layers.AutoWrappedLinear",
-    },
-    "diffsynth.models.siglip2_image_encoder.Siglip2ImageEncoder428M": {
-        "transformers.models.siglip2.modeling_siglip2.Siglip2VisionEmbeddings": "diffsynth.core.vram.layers.AutoWrappedModule",
-        "transformers.models.siglip2.modeling_siglip2.Siglip2MultiheadAttentionPoolingHead": "diffsynth.core.vram.layers.AutoWrappedModule",
-        "torch.nn.Conv2d": "diffsynth.core.vram.layers.AutoWrappedModule",
-        "torch.nn.Embedding": "diffsynth.core.vram.layers.AutoWrappedModule",
-        "torch.nn.LayerNorm": "diffsynth.core.vram.layers.AutoWrappedModule",
-        "torch.nn.Linear": "diffsynth.core.vram.layers.AutoWrappedLinear",
-    },
 }
--- a/diffsynth/core/loader/config.py
+++ b/diffsynth/core/loader/config.py
@@ -97,7 +97,6 @@ class ModelConfig:
        self.reset_local_model_path()
        if self.require_downloading():
            self.download()
-        if self.path is None:
            if self.origin_file_pattern is None or self.origin_file_pattern == "":
                self.path = os.path.join(self.local_model_path, self.model_id)
            else:
--- a/diffsynth/diffusion/base_pipeline.py
+++ b/diffsynth/diffusion/base_pipeline.py
@@ -235,7 +235,6 @@ class BasePipeline(torch.nn.Module):
        alpha=1,
        hotload=None,
        state_dict=None,
-        verbose=1,
    ):
        if state_dict is None:
            if isinstance(lora_config, str):
@@ -262,13 +261,12 @@ class BasePipeline(torch.nn.Module):
                        updated_num += 1
                        module.lora_A_weights.append(lora[lora_a_name] * alpha)
                        module.lora_B_weights.append(lora[lora_b_name])
-            if verbose >= 1:
-                print(f"{updated_num} tensors are patched by LoRA. You can use `pipe.clear_lora()` to clear all LoRA layers.")
+            print(f"{updated_num} tensors are patched by LoRA. You can use `pipe.clear_lora()` to clear all LoRA layers.")
        else:
            lora_loader.fuse_lora_to_base_model(module, lora, alpha=alpha)
            
            
-    def clear_lora(self, verbose=1):
+    def clear_lora(self):
        cleared_num = 0
        for name, module in self.named_modules():
            if isinstance(module, AutoWrappedLinear):
@@ -278,8 +276,7 @@ class BasePipeline(torch.nn.Module):
                    module.lora_A_weights.clear()
                if hasattr(module, "lora_B_weights"):
                    module.lora_B_weights.clear()
-        if verbose >= 1:
-            print(f"{cleared_num} LoRA layers are cleared.")
+        print(f"{cleared_num} LoRA layers are cleared.")
        
    
    def download_and_load_models(self, model_configs: list[ModelConfig] = [], vram_limit: float = None):
@@ -307,13 +304,8 @@ class BasePipeline(torch.nn.Module):
    
    
    def cfg_guided_model_fn(self, model_fn, cfg_scale, inputs_shared, inputs_posi, inputs_nega, **inputs_others):
-        if inputs_shared.get("positive_only_lora", None) is not None:
-            self.clear_lora(verbose=0)
-            self.load_lora(self.dit, state_dict=inputs_shared["positive_only_lora"], verbose=0)
        noise_pred_posi = model_fn(**inputs_posi, **inputs_shared, **inputs_others)
        if cfg_scale != 1.0:
-            if inputs_shared.get("positive_only_lora", None) is not None:
-                self.clear_lora(verbose=0)
            noise_pred_nega = model_fn(**inputs_nega, **inputs_shared, **inputs_others)
            noise_pred = noise_pred_nega + cfg_scale * (noise_pred_posi - noise_pred_nega)
        else:
--- a/diffsynth/models/siglip2_image_encoder.py
+++ b/diffsynth/models/siglip2_image_encoder.py
@@ -90,10 +90,12 @@ class Siglip2ImageEncoder428M(Siglip2VisionModel):
        super().__init__(config)
        self.processor = Siglip2ImageProcessorFast(
            **{
+                "crop_size": None,
                "data_format": "channels_first",
                "default_to_square": True,
                "device": None,
                "disable_grouping": None,
+                "do_center_crop": None,
                "do_convert_rgb": None,
                "do_normalize": True,
                "do_pad": None,
@@ -118,6 +120,7 @@ class Siglip2ImageEncoder428M(Siglip2VisionModel):
                "resample": 2,
                "rescale_factor": 0.00392156862745098,
                "return_tensors": None,
+                "size": None
            }
        )
        
--- a/diffsynth/models/z_image_controlnet.py
+++ b/diffsynth/models/z_image_controlnet.py
@@ -1,154 +0,0 @@
-from .z_image_dit import ZImageTransformerBlock
-from ..core.gradient import gradient_checkpoint_forward
-from torch.nn.utils.rnn import pad_sequence
-import torch
-from torch import nn
-
-
-class ZImageControlTransformerBlock(ZImageTransformerBlock):
-    def __init__(
-        self, 
-        layer_id: int = 1000,
-        dim: int = 3840,
-        n_heads: int = 30,
-        n_kv_heads: int = 30,
-        norm_eps: float = 1e-5,
-        qk_norm: bool = True,
-        modulation = True,
-        block_id = 0
-    ):
-        super().__init__(layer_id, dim, n_heads, n_kv_heads, norm_eps, qk_norm, modulation)
-        self.block_id = block_id
-        if block_id == 0:
-            self.before_proj = nn.Linear(self.dim, self.dim)
-        self.after_proj = nn.Linear(self.dim, self.dim)
-
-    def forward(self, c, x, **kwargs):
-        if self.block_id == 0:
-            c = self.before_proj(c) + x
-            all_c = []
-        else:
-            all_c = list(torch.unbind(c))
-            c = all_c.pop(-1)
-
-        c = super().forward(c, **kwargs)
-        c_skip = self.after_proj(c)
-        all_c += [c_skip, c]
-        c = torch.stack(all_c)
-        return c
-
-
-class ZImageControlNet(torch.nn.Module):
-    def __init__(
-        self,
-        control_layers_places=(0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28),
-        control_in_dim=33,
-        dim=3840,
-        n_refiner_layers=2,
-    ):
-        super().__init__()
-        self.control_layers = nn.ModuleList([ZImageControlTransformerBlock(layer_id=i, block_id=i) for i in control_layers_places])
-        self.control_all_x_embedder = nn.ModuleDict({"2-1": nn.Linear(1 * 2 * 2 * control_in_dim, dim, bias=True)})
-        self.control_noise_refiner = nn.ModuleList([ZImageControlTransformerBlock(block_id=layer_id) for layer_id in range(n_refiner_layers)])
-        self.control_layers_mapping = {0: 0, 2: 1, 4: 2, 6: 3, 8: 4, 10: 5, 12: 6, 14: 7, 16: 8, 18: 9, 20: 10, 22: 11, 24: 12, 26: 13, 28: 14}
-
-    def forward_layers(
-        self,
-        x,
-        cap_feats,
-        control_context,
-        control_context_item_seqlens,
-        kwargs,
-        use_gradient_checkpointing=False,
-        use_gradient_checkpointing_offload=False,
-    ):
-        bsz = len(control_context)
-        # unified
-        cap_item_seqlens = [len(_) for _ in cap_feats]
-        control_context_unified = []
-        for i in range(bsz):
-            control_context_len = control_context_item_seqlens[i]
-            cap_len = cap_item_seqlens[i]
-            control_context_unified.append(torch.cat([control_context[i][:control_context_len], cap_feats[i][:cap_len]]))
-        c = pad_sequence(control_context_unified, batch_first=True, padding_value=0.0)
-
-        # arguments
-        new_kwargs = dict(x=x)
-        new_kwargs.update(kwargs)
-        
-        for layer in self.control_layers:
-            c = gradient_checkpoint_forward(
-                layer,
-                use_gradient_checkpointing=use_gradient_checkpointing,
-                use_gradient_checkpointing_offload=use_gradient_checkpointing_offload,
-                c=c, **new_kwargs
-            )
- 
-        hints = torch.unbind(c)[:-1]
-        return hints
-    
-    def forward_refiner(
-        self,
-        dit,
-        x,
-        cap_feats,
-        control_context,
-        kwargs,
-        t=None,
-        patch_size=2,
-        f_patch_size=1,
-        use_gradient_checkpointing=False,
-        use_gradient_checkpointing_offload=False,
-    ):
-        # embeddings
-        bsz = len(control_context)
-        device = control_context[0].device
-        (
-            control_context,
-            control_context_size,
-            control_context_pos_ids,
-            control_context_inner_pad_mask,
-        ) = dit.patchify_controlnet(control_context, patch_size, f_patch_size, cap_feats[0].size(0))
-
-        # control_context embed & refine
-        control_context_item_seqlens = [len(_) for _ in control_context]
-        assert all(_ % 2 == 0 for _ in control_context_item_seqlens)
-        control_context_max_item_seqlen = max(control_context_item_seqlens)
-
-        control_context = torch.cat(control_context, dim=0)
-        control_context = self.control_all_x_embedder[f"{patch_size}-{f_patch_size}"](control_context)
-
-        # Match t_embedder output dtype to control_context for layerwise casting compatibility
-        adaln_input = t.type_as(control_context)
-        control_context[torch.cat(control_context_inner_pad_mask)] = dit.x_pad_token.to(dtype=control_context.dtype, device=control_context.device)
-        control_context = list(control_context.split(control_context_item_seqlens, dim=0))
-        control_context_freqs_cis = list(dit.rope_embedder(torch.cat(control_context_pos_ids, dim=0)).split(control_context_item_seqlens, dim=0))
-
-        control_context = pad_sequence(control_context, batch_first=True, padding_value=0.0)
-        control_context_freqs_cis = pad_sequence(control_context_freqs_cis, batch_first=True, padding_value=0.0)
-        control_context_attn_mask = torch.zeros((bsz, control_context_max_item_seqlen), dtype=torch.bool, device=device)
-        for i, seq_len in enumerate(control_context_item_seqlens):
-            control_context_attn_mask[i, :seq_len] = 1
-        c = control_context
-
-        # arguments
-        new_kwargs = dict(
-            x=x, 
-            attn_mask=control_context_attn_mask,
-            freqs_cis=control_context_freqs_cis, 
-            adaln_input=adaln_input,
-        )
-        new_kwargs.update(kwargs)
-        
-        for layer in self.control_noise_refiner:
-            c = gradient_checkpoint_forward(
-                layer,
-                use_gradient_checkpointing=use_gradient_checkpointing,
-                use_gradient_checkpointing_offload=use_gradient_checkpointing_offload,
-                c=c, **new_kwargs
-            )
- 
-        hints = torch.unbind(c)[:-1]
-        control_context = torch.unbind(c)[-1]
-
-        return hints, control_context, control_context_item_seqlens
--- a/diffsynth/models/z_image_dit.py
+++ b/diffsynth/models/z_image_dit.py
@@ -609,72 +609,6 @@ class ZImageDiT(nn.Module):
    #         all_img_pad_mask,
    #         all_cap_pad_mask,
    #     )
-
-    def patchify_controlnet(
-        self,
-        all_image: List[torch.Tensor],
-        patch_size: int = 2,
-        f_patch_size: int = 1,
-        cap_padding_len: int = None,
-    ):
-        pH = pW = patch_size
-        pF = f_patch_size
-        device = all_image[0].device
-
-        all_image_out = []
-        all_image_size = []
-        all_image_pos_ids = []
-        all_image_pad_mask = []
-
-        for i, image in enumerate(all_image):
-            ### Process Image
-            C, F, H, W = image.size()
-            all_image_size.append((F, H, W))
-            F_tokens, H_tokens, W_tokens = F // pF, H // pH, W // pW
-
-            image = image.view(C, F_tokens, pF, H_tokens, pH, W_tokens, pW)
-            # "c f pf h ph w pw -> (f h w) (pf ph pw c)"
-            image = image.permute(1, 3, 5, 2, 4, 6, 0).reshape(F_tokens * H_tokens * W_tokens, pF * pH * pW * C)
-
-            image_ori_len = len(image)
-            image_padding_len = (-image_ori_len) % SEQ_MULTI_OF
-
-            image_ori_pos_ids = self.create_coordinate_grid(
-                size=(F_tokens, H_tokens, W_tokens),
-                start=(cap_padding_len + 1, 0, 0),
-                device=device,
-            ).flatten(0, 2)
-            image_padding_pos_ids = (
-                self.create_coordinate_grid(
-                    size=(1, 1, 1),
-                    start=(0, 0, 0),
-                    device=device,
-                )
-                .flatten(0, 2)
-                .repeat(image_padding_len, 1)
-            )
-            image_padded_pos_ids = torch.cat([image_ori_pos_ids, image_padding_pos_ids], dim=0)
-            all_image_pos_ids.append(image_padded_pos_ids)
-            # pad mask
-            all_image_pad_mask.append(
-                torch.cat(
-                    [
-                        torch.zeros((image_ori_len,), dtype=torch.bool, device=device),
-                        torch.ones((image_padding_len,), dtype=torch.bool, device=device),
-                    ],
-                    dim=0,
-                )
-            )
-            # padded feature
-            image_padded_feat = torch.cat([image, image[-1:].repeat(image_padding_len, 1)], dim=0)
-            all_image_out.append(image_padded_feat)
-
-        return (
-            all_image_out,
-            all_image_size,
-            all_image_pos_ids,
-            all_image_pad_mask,
-        )
    
    def _prepare_sequence(
        self,
@@ -692,7 +626,7 @@ class ZImageDiT(nn.Module):

        # Pad token
        feats_cat = torch.cat(feats, dim=0)
-        feats_cat[torch.cat(inner_pad_mask)] = pad_token.to(dtype=feats_cat.dtype, device=feats_cat.device)
+        feats_cat[torch.cat(inner_pad_mask)] = pad_token
        feats = list(feats_cat.split(item_seqlens, dim=0))

        # RoPE
--- a/diffsynth/models/z_image_image2lora.py
+++ b/diffsynth/models/z_image_image2lora.py
@@ -1,189 +0,0 @@
-import torch
-from .qwen_image_image2lora import ImageEmbeddingToLoraMatrix, SequencialMLP
-
-
-class LoRATrainerBlock(torch.nn.Module):
-    def __init__(self, lora_patterns, in_dim=1536+4096, compress_dim=128, rank=4, block_id=0, use_residual=True, residual_length=64+7, residual_dim=3584, residual_mid_dim=1024, prefix="transformer_blocks"):
-        super().__init__()
-        self.prefix = prefix
-        self.lora_patterns = lora_patterns
-        self.block_id = block_id
-        self.layers = []
-        for name, lora_a_dim, lora_b_dim in self.lora_patterns:
-            self.layers.append(ImageEmbeddingToLoraMatrix(in_dim, compress_dim, lora_a_dim, lora_b_dim, rank))
-        self.layers = torch.nn.ModuleList(self.layers)
-        if use_residual:
-            self.proj_residual = SequencialMLP(residual_length, residual_dim, residual_mid_dim, compress_dim)
-        else:
-            self.proj_residual = None
-    
-    def forward(self, x, residual=None):
-        lora = {}
-        if self.proj_residual is not None: residual = self.proj_residual(residual)
-        for lora_pattern, layer in zip(self.lora_patterns, self.layers):
-            name = lora_pattern[0]
-            lora_a, lora_b = layer(x, residual=residual)
-            lora[f"{self.prefix}.{self.block_id}.{name}.lora_A.default.weight"] = lora_a
-            lora[f"{self.prefix}.{self.block_id}.{name}.lora_B.default.weight"] = lora_b
-        return lora
-
-
-class ZImageImage2LoRAComponent(torch.nn.Module):
-    def __init__(self, lora_patterns, prefix, num_blocks=60, use_residual=True, compress_dim=128, rank=4, residual_length=64+7, residual_mid_dim=1024):
-        super().__init__()
-        self.lora_patterns = lora_patterns
-        self.num_blocks = num_blocks
-        self.blocks = []
-        for lora_patterns in self.lora_patterns:
-            for block_id in range(self.num_blocks):
-                self.blocks.append(LoRATrainerBlock(lora_patterns, block_id=block_id, use_residual=use_residual, compress_dim=compress_dim, rank=rank, residual_length=residual_length, residual_mid_dim=residual_mid_dim, prefix=prefix))
-        self.blocks = torch.nn.ModuleList(self.blocks)
-        self.residual_scale = 0.05
-        self.use_residual = use_residual
-        
-    def forward(self, x, residual=None):
-        if residual is not None:
-            if self.use_residual:
-                residual = residual * self.residual_scale
-            else:
-                residual = None
-        lora = {}
-        for block in self.blocks:
-            lora.update(block(x, residual))
-        return lora
-
-
-class ZImageImage2LoRAModel(torch.nn.Module):
-    def __init__(self, use_residual=False, compress_dim=64, rank=4, residual_length=64+7, residual_mid_dim=1024):
-        super().__init__()
-        lora_patterns = [
-            [
-                ("attention.to_q", 3840, 3840),
-                ("attention.to_k", 3840, 3840),
-                ("attention.to_v", 3840, 3840),
-                ("attention.to_out.0", 3840, 3840),
-            ],
-            [
-                ("feed_forward.w1", 3840, 10240),
-                ("feed_forward.w2", 10240, 3840),
-                ("feed_forward.w3", 3840, 10240),
-            ],
-        ]
-        config = {
-            "lora_patterns": lora_patterns,
-            "use_residual": use_residual,
-            "compress_dim": compress_dim,
-            "rank": rank,
-            "residual_length": residual_length,
-            "residual_mid_dim": residual_mid_dim,
-        }
-        self.layers_lora = ZImageImage2LoRAComponent(
-            prefix="layers",
-            num_blocks=30,
-            **config,
-        )
-        self.context_refiner_lora = ZImageImage2LoRAComponent(
-            prefix="context_refiner",
-            num_blocks=2,
-            **config,
-        )
-        self.noise_refiner_lora = ZImageImage2LoRAComponent(
-            prefix="noise_refiner",
-            num_blocks=2,
-            **config,
-        )
-        
-    def forward(self, x, residual=None):
-        lora = {}
-        lora.update(self.layers_lora(x, residual=residual))
-        lora.update(self.context_refiner_lora(x, residual=residual))
-        lora.update(self.noise_refiner_lora(x, residual=residual))
-        return lora
-
-    def initialize_weights(self):
-        state_dict = self.state_dict()
-        for name in state_dict:
-            if ".proj_a." in name:
-                state_dict[name] = state_dict[name] * 0.3
-            elif ".proj_b.proj_out." in name:
-                state_dict[name] = state_dict[name] * 0
-            elif ".proj_residual.proj_out." in name:
-                state_dict[name] = state_dict[name] * 0.3
-        self.load_state_dict(state_dict)
-
-
-class ImageEmb2LoRAWeightCompressed(torch.nn.Module):
-    def __init__(self, in_dim, out_dim, emb_dim, rank):
-        super().__init__()
-        self.lora_a = torch.nn.Parameter(torch.randn((rank, in_dim)))
-        self.lora_b = torch.nn.Parameter(torch.randn((out_dim, rank)))
-        self.proj = torch.nn.Linear(emb_dim, rank * rank, bias=True)
-        self.rank = rank
-    
-    def forward(self, x):
-        x = self.proj(x).view(self.rank, self.rank)
-        lora_a = x @ self.lora_a
-        lora_b = self.lora_b
-        return lora_a, lora_b
-
-
-class ZImageImage2LoRAModelCompressed(torch.nn.Module):
-    def __init__(self, emb_dim=1536+4096, rank=32):
-        super().__init__()
-        target_layers = [
-            ("attention.to_q", 3840, 3840),
-            ("attention.to_k", 3840, 3840),
-            ("attention.to_v", 3840, 3840),
-            ("attention.to_out.0", 3840, 3840),
-            ("feed_forward.w1", 3840, 10240),
-            ("feed_forward.w2", 10240, 3840),
-            ("feed_forward.w3", 3840, 10240),
-        ]
-        self.lora_patterns = [
-            {
-                "prefix": "layers",
-                "num_layers": 30,
-                "target_layers": target_layers,
-            },
-            {
-                "prefix": "context_refiner",
-                "num_layers": 2,
-                "target_layers": target_layers,
-            },
-            {
-                "prefix": "noise_refiner",
-                "num_layers": 2,
-                "target_layers": target_layers,
-            },
-        ]
-        module_dict = {}
-        for lora_pattern in self.lora_patterns:
-            prefix, num_layers, target_layers = lora_pattern["prefix"], lora_pattern["num_layers"], lora_pattern["target_layers"]
-            for layer_id in range(num_layers):
-                for layer_name, in_dim, out_dim in target_layers:
-                    name = f"{prefix}.{layer_id}.{layer_name}".replace(".", "___")
-                    model = ImageEmb2LoRAWeightCompressed(in_dim, out_dim, emb_dim, rank)
-                    module_dict[name] = model
-        self.module_dict = torch.nn.ModuleDict(module_dict)
-
-    def forward(self, x, residual=None):
-        lora = {}
-        for name, module in self.module_dict.items():
-            name = name.replace("___", ".")
-            name_a, name_b = f"{name}.lora_A.default.weight", f"{name}.lora_B.default.weight"
-            lora_a, lora_b = module(x)
-            lora[name_a] = lora_a
-            lora[name_b] = lora_b
-        return lora
-
-    def initialize_weights(self):
-        state_dict = self.state_dict()
-        for name in state_dict:
-            if "lora_b" in name:
-                state_dict[name] = state_dict[name] * 0
-            elif "lora_a" in name:
-                state_dict[name] = state_dict[name] * 0.2
-            elif "proj.weight" in name:
-                print(name)
-                state_dict[name] = state_dict[name] * 0.2
-        self.load_state_dict(state_dict)
--- a/diffsynth/pipelines/z_image.py
+++ b/diffsynth/pipelines/z_image.py
@@ -4,23 +4,18 @@ from typing import Union
 from tqdm import tqdm
 from einops import rearrange
 import numpy as np
-from typing import Union, List, Optional, Tuple, Iterable, Dict
+from typing import Union, List, Optional, Tuple, Iterable

 from ..diffusion import FlowMatchScheduler
 from ..core import ModelConfig, gradient_checkpoint_forward
 from ..core.data.operators import ImageCropAndResize
 from ..diffusion.base_pipeline import BasePipeline, PipelineUnit, ControlNetInput
-from ..utils.lora import merge_lora

 from transformers import AutoTokenizer
 from ..models.z_image_text_encoder import ZImageTextEncoder
 from ..models.z_image_dit import ZImageDiT
 from ..models.flux_vae import FluxVAEEncoder, FluxVAEDecoder
 from ..models.siglip2_image_encoder import Siglip2ImageEncoder428M
-from ..models.z_image_controlnet import ZImageControlNet
-from ..models.siglip2_image_encoder import Siglip2ImageEncoder
-from ..models.dinov3_image_encoder import DINOv3ImageEncoder
-from ..models.z_image_image2lora import ZImageImage2LoRAModel


 class ZImagePipeline(BasePipeline):
@@ -36,12 +31,8 @@ class ZImagePipeline(BasePipeline):
        self.vae_encoder: FluxVAEEncoder = None
        self.vae_decoder: FluxVAEDecoder = None
        self.image_encoder: Siglip2ImageEncoder428M = None
-        self.controlnet: ZImageControlNet = None
-        self.siglip2_image_encoder: Siglip2ImageEncoder = None
-        self.dinov3_image_encoder: DINOv3ImageEncoder = None
-        self.image2lora_style: ZImageImage2LoRAModel = None
        self.tokenizer: AutoTokenizer = None
-        self.in_iteration_models = ("dit", "controlnet")
+        self.in_iteration_models = ("dit",)
        self.units = [
            ZImageUnit_ShapeChecker(),
            ZImageUnit_PromptEmbedder(),
@@ -50,7 +41,6 @@ class ZImagePipeline(BasePipeline):
            ZImageUnit_EditImageAutoResize(),
            ZImageUnit_EditImageEmbedderVAE(),
            ZImageUnit_EditImageEmbedderSiglip(),
-            ZImageUnit_PAIControlNet(),
        ]
        self.model_fn = model_fn_z_image
    
@@ -73,10 +63,6 @@ class ZImagePipeline(BasePipeline):
        pipe.vae_encoder = model_pool.fetch_model("flux_vae_encoder")
        pipe.vae_decoder = model_pool.fetch_model("flux_vae_decoder")
        pipe.image_encoder = model_pool.fetch_model("siglip_vision_model_428m")
-        pipe.controlnet = model_pool.fetch_model("z_image_controlnet")
-        pipe.siglip2_image_encoder = model_pool.fetch_model("siglip2_image_encoder")
-        pipe.dinov3_image_encoder = model_pool.fetch_model("dinov3_image_encoder")
-        pipe.image2lora_style = model_pool.fetch_model("z_image_image2lora_style")
        if tokenizer_config is not None:
            tokenizer_config.download_if_necessary()
            pipe.tokenizer = AutoTokenizer.from_pretrained(tokenizer_config.path)
@@ -108,11 +94,6 @@ class ZImagePipeline(BasePipeline):
        # Steps
        num_inference_steps: int = 8,
        sigma_shift: float = None,
-        # ControlNet
-        controlnet_inputs: List[ControlNetInput] = None,
-        # Image to LoRA
-        image2lora_images: List[Image.Image] = None,
-        positive_only_lora: Dict[str, torch.Tensor] = None,
        # Progress bar
        progress_bar_cmd = tqdm,
    ):
@@ -133,8 +114,6 @@ class ZImagePipeline(BasePipeline):
            "seed": seed, "rand_device": rand_device,
            "num_inference_steps": num_inference_steps,
            "edit_image": edit_image, "edit_image_auto_resize": edit_image_auto_resize,
-            "controlnet_inputs": controlnet_inputs,
-            "image2lora_images": image2lora_images, "positive_only_lora": positive_only_lora,
        }
        for unit in self.units:
            inputs_shared, inputs_posi, inputs_nega = self.unit_runner(unit, self, inputs_shared, inputs_posi, inputs_nega)
@@ -352,9 +331,7 @@ class ZImageUnit_EditImageAutoResize(PipelineUnit):
        if edit_image_auto_resize is None or not edit_image_auto_resize:
            return {}
        operator = ImageCropAndResize(max_pixels=1024*1024, height_division_factor=16, width_division_factor=16)
-        if not isinstance(edit_image, list):
-            edit_image = [edit_image]
-        edit_image = [operator(i) for i in edit_image]
+        edit_image = operator(edit_image)
        return {"edit_image": edit_image}


@@ -399,49 +376,8 @@ class ZImageUnit_EditImageEmbedderVAE(PipelineUnit):
        return {"image_latents": image_latents}


-class ZImageUnit_PAIControlNet(PipelineUnit):
-    def __init__(self):
-        super().__init__(
-            input_params=("controlnet_inputs", "height", "width"),
-            output_params=("control_context", "control_scale"),
-            onload_model_names=("vae_encoder",)
-        )
-
-    def process(self, pipe: ZImagePipeline, controlnet_inputs: List[ControlNetInput], height, width):
-        if controlnet_inputs is None:
-            return {}
-        if len(controlnet_inputs) != 1:
-            print("Z-Image ControlNet doesn't support multi-ControlNet. Only one image will be used.")
-        controlnet_input = controlnet_inputs[0]
-        pipe.load_models_to_device(self.onload_model_names)
-
-        control_image = controlnet_input.image
-        if control_image is not None:
-            control_image = pipe.preprocess_image(control_image)
-            control_latents = pipe.vae_encoder(control_image)
-        else:
-            control_latents = torch.ones((1, 16, height // 8, width // 8), dtype=pipe.torch_dtype, device=pipe.device) * -1
-        
-        inpaint_mask = controlnet_input.inpaint_mask
-        if inpaint_mask is not None:
-            inpaint_mask = pipe.preprocess_image(inpaint_mask, min_value=0, max_value=1)
-            inpaint_image = controlnet_input.inpaint_image
-            inpaint_image = pipe.preprocess_image(inpaint_image)
-            inpaint_image = inpaint_image * (inpaint_mask < 0.5)
-            inpaint_mask = torch.nn.functional.interpolate(1 - inpaint_mask, (height // 8, width // 8), mode='nearest')[:, :1]
-        else:
-            inpaint_mask = torch.zeros((1, 1, height // 8, width // 8), dtype=pipe.torch_dtype, device=pipe.device)
-            inpaint_image = torch.zeros((1, 3, height, width), dtype=pipe.torch_dtype, device=pipe.device)
-        inpaint_latent = pipe.vae_encoder(inpaint_image)
-
-        control_context = torch.concat([control_latents, inpaint_mask, inpaint_latent], dim=1)
-        control_context = rearrange(control_context, "B C H W -> B C 1 H W")
-        return {"control_context": control_context, "control_scale": controlnet_input.scale}
-
-
 def model_fn_z_image(
    dit: ZImageDiT,
-    controlnet: ZImageControlNet = None,
    latents=None,
    timestep=None,
    prompt_embeds=None,
@@ -457,14 +393,13 @@ def model_fn_z_image(
    if dit.siglip_embedder is None:
        return model_fn_z_image_turbo(
            dit,
-            controlnet=controlnet,
-            latents=latents,
-            timestep=timestep,
-            prompt_embeds=prompt_embeds,
-            image_embeds=image_embeds,
-            image_latents=image_latents,
-            use_gradient_checkpointing=use_gradient_checkpointing,
-            use_gradient_checkpointing_offload=use_gradient_checkpointing_offload,
+            latents,
+            timestep,
+            prompt_embeds,
+            image_embeds,
+            image_latents,
+            use_gradient_checkpointing,
+            use_gradient_checkpointing_offload,
            **kwargs,
        )
    latents = [rearrange(latents, "B C H W -> C B H W")]
@@ -494,81 +429,13 @@ def model_fn_z_image(
    return model_output


-class ZImageUnit_Image2LoRAEncode(PipelineUnit):
-    def __init__(self):
-        super().__init__(
-            input_params=("image2lora_images",),
-            output_params=("image2lora_x",),
-            onload_model_names=("siglip2_image_encoder", "dinov3_image_encoder",),
-        )
-        from ..core.data.operators import ImageCropAndResize
-        self.processor_highres = ImageCropAndResize(height=1024, width=1024)
-    
-    def encode_images_using_siglip2(self, pipe: ZImagePipeline, images: list[Image.Image]):
-        pipe.load_models_to_device(["siglip2_image_encoder"])
-        embs = []
-        for image in images:
-            image = self.processor_highres(image)
-            embs.append(pipe.siglip2_image_encoder(image).to(pipe.torch_dtype))
-        embs = torch.stack(embs)
-        return embs
-    
-    def encode_images_using_dinov3(self, pipe: ZImagePipeline, images: list[Image.Image]):
-        pipe.load_models_to_device(["dinov3_image_encoder"])
-        embs = []
-        for image in images:
-            image = self.processor_highres(image)
-            embs.append(pipe.dinov3_image_encoder(image).to(pipe.torch_dtype))
-        embs = torch.stack(embs)
-        return embs
-
-    def encode_images(self, pipe: ZImagePipeline, images: list[Image.Image]):
-        if images is None:
-            return {}
-        if not isinstance(images, list):
-            images = [images]
-        embs_siglip2 = self.encode_images_using_siglip2(pipe, images)
-        embs_dinov3 = self.encode_images_using_dinov3(pipe, images)
-        x = torch.concat([embs_siglip2, embs_dinov3], dim=-1)
-        return x
-
-    def process(self, pipe: ZImagePipeline, image2lora_images):
-        if image2lora_images is None:
-            return {}
-        x = self.encode_images(pipe, image2lora_images)
-        return {"image2lora_x": x}
-
-
-class ZImageUnit_Image2LoRADecode(PipelineUnit):
-    def __init__(self):
-        super().__init__(
-            input_params=("image2lora_x",),
-            output_params=("lora",),
-            onload_model_names=("image2lora_style",),
-        )
-    
-    def process(self, pipe: ZImagePipeline, image2lora_x):
-        if image2lora_x is None:
-            return {}
-        loras = []
-        if pipe.image2lora_style is not None:
-            pipe.load_models_to_device(["image2lora_style"])
-            for x in image2lora_x:
-                loras.append(pipe.image2lora_style(x=x, residual=None))
-        lora = merge_lora(loras, alpha=1 / len(image2lora_x))
-        return {"lora": lora}
-
-
 def model_fn_z_image_turbo(
    dit: ZImageDiT,
-    controlnet: ZImageControlNet = None,
    latents=None,
    timestep=None,
    prompt_embeds=None,
    image_embeds=None,
    image_latents=None,
-    control_context=None,
-    control_scale=None,
    use_gradient_checkpointing=False,
    use_gradient_checkpointing_offload=False,
    **kwargs,
@@ -593,19 +460,11 @@ def model_fn_z_image_turbo(

    # Noise refine
    x = dit.all_x_embedder["2-1"](x)
-    x[torch.cat(patch_metadata.get("x_pad_mask"))] = dit.x_pad_token.to(dtype=x.dtype, device=x.device)
    x_freqs_cis = dit.rope_embedder(torch.cat(patch_metadata.get("x_pos_ids"), dim=0))
    x = rearrange(x, "L C -> 1 L C")
    x_freqs_cis = rearrange(x_freqs_cis, "L C -> 1 L C")
-
-    if control_context is not None:
-        kwargs = dict(attn_mask=None, freqs_cis=x_freqs_cis, adaln_input=t_noisy)
-        refiner_hints, control_context, control_context_item_seqlens = controlnet.forward_refiner(
-            dit, x, [cap_feats], control_context, kwargs, t=t_noisy, patch_size=2, f_patch_size=1,
-            use_gradient_checkpointing=use_gradient_checkpointing, use_gradient_checkpointing_offload=use_gradient_checkpointing_offload,
-        )
    
-    for layer_id, layer in enumerate(dit.noise_refiner):
+    for layer in dit.noise_refiner:
        x = gradient_checkpoint_forward(
            layer,
            use_gradient_checkpointing=use_gradient_checkpointing,
@@ -615,8 +474,6 @@ def model_fn_z_image_turbo(
            freqs_cis=x_freqs_cis,
            adaln_input=t_noisy,
        )
-        if control_context is not None:
-            x = x + refiner_hints[layer_id] * control_scale

    # Prompt refine
    cap_feats = dit.cap_embedder(cap_feats)
@@ -638,15 +495,7 @@ def model_fn_z_image_turbo(
    # Unified
    unified = torch.cat([x, cap_feats], dim=1)
    unified_freqs_cis = torch.cat([x_freqs_cis, cap_freqs_cis], dim=1)
-
-    if control_context is not None:
-        kwargs = dict(attn_mask=None, freqs_cis=unified_freqs_cis, adaln_input=t_noisy)
-        hints = controlnet.forward_layers(
-            unified, cap_feats, control_context, control_context_item_seqlens, kwargs,
-            use_gradient_checkpointing=use_gradient_checkpointing, use_gradient_checkpointing_offload=use_gradient_checkpointing_offload,
-        )
-
-    for layer_id, layer in enumerate(dit.layers):
+    for layer in dit.layers:
        unified = gradient_checkpoint_forward(
            layer,
            use_gradient_checkpointing=use_gradient_checkpointing,
@@ -656,9 +505,6 @@ def model_fn_z_image_turbo(
            freqs_cis=unified_freqs_cis,
            adaln_input=t_noisy,
        )
-        if control_context is not None:
-            if layer_id in controlnet.control_layers_mapping:
-                unified = unified + hints[controlnet.control_layers_mapping[layer_id]] * control_scale
    
    # Output
    unified = dit.all_final_layer["2-1"](unified, t_noisy)
--- a/diffsynth/utils/controlnet/controlnet_input.py
+++ b/diffsynth/utils/controlnet/controlnet_input.py
@@ -9,6 +9,5 @@ class ControlNetInput:
    start: float = 1.0
    end: float = 0.0
    image: Image.Image = None
-    inpaint_image: Image.Image = None
    inpaint_mask: Image.Image = None
    processor_id: str = None
--- a/examples/dev_tools/unit_test.py
+++ b/examples/dev_tools/unit_test.py
@@ -108,14 +108,7 @@ def test_flux():
    run_inference("examples/flux/model_training/validate_lora")


-def test_z_image():
-    run_inference("examples/z_image/model_inference")
-    run_inference("examples/z_image/model_inference_low_vram")
-    run_train_multi_GPU("examples/z_image/model_training/full")
-    run_inference("examples/z_image/model_training/validate_full")
-    run_train_single_GPU("examples/z_image/model_training/lora")
-    run_inference("examples/z_image/model_training/validate_lora")
-
-
 if __name__ == "__main__":
-    test_z_image()
+    test_qwen_image()
+    test_flux()
+    test_wan()
--- a/examples/z_image/model_inference/Z-Image-Omni-Base-i2L.py
+++ b/examples/z_image/model_inference/Z-Image-Omni-Base-i2L.py
@@ -1,62 +0,0 @@
-from diffsynth.pipelines.z_image import (
-    ZImagePipeline, ModelConfig,
-    ZImageUnit_Image2LoRAEncode, ZImageUnit_Image2LoRADecode
-)
-from modelscope import snapshot_download
-from safetensors.torch import save_file
-import torch
-from PIL import Image
-
-# Use `vram_config` to enable LoRA hot-loading
-vram_config = {
-    "offload_dtype": torch.bfloat16,
-    "offload_device": "cuda",
-    "onload_dtype": torch.bfloat16,
-    "onload_device": "cuda",
-    "preparing_dtype": torch.bfloat16,
-    "preparing_device": "cuda",
-    "computation_dtype": torch.bfloat16,
-    "computation_device": "cuda",
-}
-
-# Load models
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="transformer/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="siglip/model.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-        ModelConfig(model_id="DiffSynth-Studio/General-Image-Encoders", origin_file_pattern="SigLIP2-G384/model.safetensors"),
-        ModelConfig(model_id="DiffSynth-Studio/General-Image-Encoders", origin_file_pattern="DINOv3-7B/model.safetensors"),
-        ModelConfig(model_id="DiffSynth-Studio/Z-Image-Omni-Base-i2L", origin_file_pattern="model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-# Load images
-snapshot_download(
-    model_id="DiffSynth-Studio/Z-Image-Omni-Base-i2L",
-    allow_file_pattern="assets/style/*",
-    local_dir="data/style_input"
-)
-images = [Image.open(f"data/style_input/assets/style/1/{i}.jpg") for i in range(6)]
-
-# Image to LoRA
-with torch.no_grad():
-    embs = ZImageUnit_Image2LoRAEncode().process(pipe, image2lora_images=images)
-    lora = ZImageUnit_Image2LoRADecode().process(pipe, **embs)["lora"]
-save_file(lora, "lora.safetensors")
-
-# Generate images
-prompt = "a cat"
-negative_prompt = "泛黄，发绿，模糊，低分辨率，低质量图像，扭曲的肢体，诡异的外观，丑陋，AI感，噪点，网格感，JPEG压缩条纹，异常的肢体，水印，乱码，意义不明的字符"
-image = pipe(
-    prompt=prompt,
-    negative_prompt=negative_prompt,
-    seed=0, cfg_scale=7, num_inference_steps=50,
-    positive_only_lora=lora,
-    sigma_shift=8
-)
-image.save("image.jpg")
--- a/examples/z_image/model_inference/Z-Image-Omni-Base.py
+++ b/examples/z_image/model_inference/Z-Image-Omni-Base.py
@@ -8,7 +8,6 @@ pipe = ZImagePipeline.from_pretrained(
    device="cuda",
    model_configs=[
        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="siglip/model.safetensors"),
        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
    ],
--- a/examples/z_image/model_inference/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.py
+++ b/examples/z_image/model_inference/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.py
@@ -1,27 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from modelscope import dataset_snapshot_download
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/examples_in_diffsynth",
-    local_dir="./",
-    allow_file_pattern="data/examples/upscale/low_res.png"
-)
-controlnet_image = Image.open("data/examples/upscale/low_res.png").resize((1024, 1024))
-prompt = "这是一张充满都市气息的户外人物肖像照片。画面中是一位年轻男性，他展现出时尚而自信的形象。人物拥有精心打理的短发发型，两侧修剪得较短，顶部保留一定长度，呈现出流行的Undercut造型。他佩戴着一副时尚的浅色墨镜或透明镜框眼镜，为整体造型增添了潮流感。脸上洋溢着温和友善的笑容，神情放松自然，给人以阳光开朗的印象。他身穿一件经典的牛仔外套，这件单品永不过时，展现出休闲又有型的穿衣风格。牛仔外套的蓝色调与整体氛围十分协调，领口处隐约可见内搭的衣物。照片的背景是典型的城市街景，可以看到模糊的建筑物、街道和行人，营造出繁华都市的氛围。背景经过了恰当的虚化处理，使人物主体更加突出。光线明亮而柔和，可能是白天的自然光，为照片带来清新通透的视觉效果。整张照片构图专业，景深控制得当，完美捕捉了一个现代都市年轻人充满活力和自信的瞬间，展现出积极向上的生活态度。"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)])
-image.save("image_tile.jpg")
--- a/examples/z_image/model_inference/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.py
+++ b/examples/z_image/model_inference/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.py
@@ -1,40 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from modelscope import dataset_snapshot_download
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-# Control
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/example_image_dataset",
-    local_dir="./data/example_image_dataset",
-    allow_file_pattern="depth/image_1.jpg"
-)
-controlnet_image = Image.open("data/example_image_dataset/depth/image_1.jpg").resize((1024, 1024))
-prompt = "精致肖像，水下少女，蓝裙飘逸，发丝轻扬，光影透澈，气泡环绕，面容恬静，细节精致，梦幻唯美。"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)])
-image.save("image_control.jpg")
-
-# Inpaint
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/example_image_dataset",
-    local_dir="./data/example_image_dataset",
-    allow_file_pattern="inpaint/*.jpg"
-)
-inpaint_image = Image.open("./data/example_image_dataset/inpaint/image_1.jpg").convert("RGB").resize((1024, 1024))
-inpaint_mask = Image.open("./data/example_image_dataset/inpaint/mask.jpg").convert("RGB").resize((1024, 1024))
-prompt = "一只戴着墨镜的猫"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(inpaint_image=inpaint_image, inpaint_mask=inpaint_mask, scale=0.7)])
-image.save("image_inpaint.jpg")
--- a/examples/z_image/model_inference/Z-Image-Turbo-Fun-Controlnet-Union-2.1.py
+++ b/examples/z_image/model_inference/Z-Image-Turbo-Fun-Controlnet-Union-2.1.py
@@ -1,46 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from modelscope import dataset_snapshot_download
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Union-2.1.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-# Control
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/example_image_dataset",
-    local_dir="./data/example_image_dataset",
-    allow_file_pattern="depth/image_1.jpg"
-)
-controlnet_image = Image.open("data/example_image_dataset/depth/image_1.jpg").resize((1024, 1024))
-prompt = "精致肖像，水下少女，蓝裙飘逸，发丝轻扬，光影透澈，气泡环绕，面容恬静，细节精致，梦幻唯美。"
-image = pipe(
-    prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)],
-    num_inference_steps=30,
-)
-image.save("image_control.jpg")
-
-# Inpaint
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/example_image_dataset",
-    local_dir="./data/example_image_dataset",
-    allow_file_pattern="inpaint/*.jpg"
-)
-inpaint_image = Image.open("./data/example_image_dataset/inpaint/image_1.jpg").convert("RGB").resize((1024, 1024))
-inpaint_mask = Image.open("./data/example_image_dataset/inpaint/mask.jpg").convert("RGB").resize((1024, 1024))
-prompt = "一只戴着墨镜的猫"
-image = pipe(
-    prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(inpaint_image=inpaint_image, inpaint_mask=inpaint_mask, scale=0.7)],
-    num_inference_steps=30,
-)
-image.save("image_inpaint.jpg")
--- a/examples/z_image/model_inference_low_vram/Z-Image-Omni-Base-i2L.py
+++ b/examples/z_image/model_inference_low_vram/Z-Image-Omni-Base-i2L.py
@@ -1,62 +0,0 @@
-from diffsynth.pipelines.z_image import (
-    ZImagePipeline, ModelConfig,
-    ZImageUnit_Image2LoRAEncode, ZImageUnit_Image2LoRADecode
-)
-from modelscope import snapshot_download
-from safetensors.torch import save_file
-import torch
-from PIL import Image
-
-# Use `vram_config` to enable LoRA hot-loading
-vram_config = {
-    "offload_dtype": torch.bfloat16,
-    "offload_device": "cpu",
-    "onload_dtype": torch.bfloat16,
-    "onload_device": "cpu",
-    "preparing_dtype": torch.bfloat16,
-    "preparing_device": "cuda",
-    "computation_dtype": torch.bfloat16,
-    "computation_device": "cuda",
-}
-
-# Load models
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="transformer/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="siglip/model.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors", **vram_config),
-        ModelConfig(model_id="DiffSynth-Studio/General-Image-Encoders", origin_file_pattern="SigLIP2-G384/model.safetensors", **vram_config),
-        ModelConfig(model_id="DiffSynth-Studio/General-Image-Encoders", origin_file_pattern="DINOv3-7B/model.safetensors", **vram_config),
-        ModelConfig(model_id="DiffSynth-Studio/Z-Image-Omni-Base-i2L", origin_file_pattern="model.safetensors", **vram_config),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-# Load images
-snapshot_download(
-    model_id="DiffSynth-Studio/Z-Image-Omni-Base-i2L",
-    allow_file_pattern="assets/style/*",
-    local_dir="data/style_input"
-)
-images = [Image.open(f"data/style_input/assets/style/1/{i}.jpg") for i in range(6)]
-
-# Image to LoRA
-with torch.no_grad():
-    embs = ZImageUnit_Image2LoRAEncode().process(pipe, image2lora_images=images)
-    lora = ZImageUnit_Image2LoRADecode().process(pipe, **embs)["lora"]
-save_file(lora, "lora.safetensors")
-
-# Generate images
-prompt = "a cat"
-negative_prompt = "泛黄，发绿，模糊，低分辨率，低质量图像，扭曲的肢体，诡异的外观，丑陋，AI感，噪点，网格感，JPEG压缩条纹，异常的肢体，水印，乱码，意义不明的字符"
-image = pipe(
-    prompt=prompt,
-    negative_prompt=negative_prompt,
-    seed=0, cfg_scale=7, num_inference_steps=50,
-    positive_only_lora=lora,
-    sigma_shift=8
-)
-image.save("image.jpg")
--- a/examples/z_image/model_inference_low_vram/Z-Image-Omni-Base.py
+++ b/examples/z_image/model_inference_low_vram/Z-Image-Omni-Base.py
@@ -1,33 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig
-from PIL import Image
-import torch
-
-vram_config = {
-    "offload_dtype": torch.bfloat16,
-    "offload_device": "cpu",
-    "onload_dtype": torch.bfloat16,
-    "onload_device": "cpu",
-    "preparing_dtype": torch.bfloat16,
-    "preparing_device": "cuda",
-    "computation_dtype": torch.bfloat16,
-    "computation_device": "cuda",
-}
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="transformer/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="siglip/model.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors", **vram_config),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."
-image = pipe(prompt=prompt, seed=0, num_inference_steps=40, cfg_scale=4)
-image.save("image_Z-Image-Omni-Base.jpg")
-
-image = Image.open("image_Z-Image-Omni-Base.jpg")
-prompt = "Change the women's clothes to white cheongsam, keep other content unchanged"
-image = pipe(prompt=prompt, edit_image=image, seed=42, rand_device="cuda", num_inference_steps=40, cfg_scale=4)
-image.save("image_edit_Z-Image-Omni-Base.jpg")
--- a/examples/z_image/model_inference_low_vram/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.py
+++ b/examples/z_image/model_inference_low_vram/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.py
@@ -1,37 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from modelscope import dataset_snapshot_download
-from PIL import Image
-import torch
-
-
-vram_config = {
-    "offload_dtype": torch.bfloat16,
-    "offload_device": "cpu",
-    "onload_dtype": torch.bfloat16,
-    "onload_device": "cpu",
-    "preparing_dtype": torch.bfloat16,
-    "preparing_device": "cuda",
-    "computation_dtype": torch.bfloat16,
-    "computation_device": "cuda",
-}
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors", **vram_config),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/examples_in_diffsynth",
-    local_dir="./",
-    allow_file_pattern="data/examples/upscale/low_res.png"
-)
-controlnet_image = Image.open("data/examples/upscale/low_res.png").resize((1024, 1024))
-prompt = "这是一张充满都市气息的户外人物肖像照片。画面中是一位年轻男性，他展现出时尚而自信的形象。人物拥有精心打理的短发发型，两侧修剪得较短，顶部保留一定长度，呈现出流行的Undercut造型。他佩戴着一副时尚的浅色墨镜或透明镜框眼镜，为整体造型增添了潮流感。脸上洋溢着温和友善的笑容，神情放松自然，给人以阳光开朗的印象。他身穿一件经典的牛仔外套，这件单品永不过时，展现出休闲又有型的穿衣风格。牛仔外套的蓝色调与整体氛围十分协调，领口处隐约可见内搭的衣物。照片的背景是典型的城市街景，可以看到模糊的建筑物、街道和行人，营造出繁华都市的氛围。背景经过了恰当的虚化处理，使人物主体更加突出。光线明亮而柔和，可能是白天的自然光，为照片带来清新通透的视觉效果。整张照片构图专业，景深控制得当，完美捕捉了一个现代都市年轻人充满活力和自信的瞬间，展现出积极向上的生活态度。"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)])
-image.save("image_tile.jpg")
--- a/examples/z_image/model_inference_low_vram/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.py
+++ b/examples/z_image/model_inference_low_vram/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.py
@@ -1,50 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from modelscope import dataset_snapshot_download
-from PIL import Image
-import torch
-
-
-vram_config = {
-    "offload_dtype": torch.bfloat16,
-    "offload_device": "cpu",
-    "onload_dtype": torch.bfloat16,
-    "onload_device": "cpu",
-    "preparing_dtype": torch.bfloat16,
-    "preparing_device": "cuda",
-    "computation_dtype": torch.bfloat16,
-    "computation_device": "cuda",
-}
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors", **vram_config),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-# Control
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/example_image_dataset",
-    local_dir="./data/example_image_dataset",
-    allow_file_pattern="depth/image_1.jpg"
-)
-controlnet_image = Image.open("data/example_image_dataset/depth/image_1.jpg").resize((1024, 1024))
-prompt = "精致肖像，水下少女，蓝裙飘逸，发丝轻扬，光影透澈，气泡环绕，面容恬静，细节精致，梦幻唯美。"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)])
-image.save("image_control.jpg")
-
-# Inpaint
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/example_image_dataset",
-    local_dir="./data/example_image_dataset",
-    allow_file_pattern="inpaint/*.jpg"
-)
-inpaint_image = Image.open("./data/example_image_dataset/inpaint/image_1.jpg").convert("RGB").resize((1024, 1024))
-inpaint_mask = Image.open("./data/example_image_dataset/inpaint/mask.jpg").convert("RGB").resize((1024, 1024))
-prompt = "一只戴着墨镜的猫"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(inpaint_image=inpaint_image, inpaint_mask=inpaint_mask, scale=0.7)])
-image.save("image_inpaint.jpg")
--- a/examples/z_image/model_inference_low_vram/Z-Image-Turbo-Fun-Controlnet-Union-2.1.py
+++ b/examples/z_image/model_inference_low_vram/Z-Image-Turbo-Fun-Controlnet-Union-2.1.py
@@ -1,56 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from modelscope import dataset_snapshot_download
-from PIL import Image
-import torch
-
-
-vram_config = {
-    "offload_dtype": torch.bfloat16,
-    "offload_device": "cpu",
-    "onload_dtype": torch.bfloat16,
-    "onload_device": "cpu",
-    "preparing_dtype": torch.bfloat16,
-    "preparing_device": "cuda",
-    "computation_dtype": torch.bfloat16,
-    "computation_device": "cuda",
-}
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Union-2.1.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors", **vram_config),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors", **vram_config),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-# Control
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/example_image_dataset",
-    local_dir="./data/example_image_dataset",
-    allow_file_pattern="depth/image_1.jpg"
-)
-controlnet_image = Image.open("data/example_image_dataset/depth/image_1.jpg").resize((1024, 1024))
-prompt = "精致肖像，水下少女，蓝裙飘逸，发丝轻扬，光影透澈，气泡环绕，面容恬静，细节精致，梦幻唯美。"
-image = pipe(
-    prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)],
-    num_inference_steps=30,
-)
-image.save("image_control.jpg")
-
-# Inpaint
-dataset_snapshot_download(
-    dataset_id="DiffSynth-Studio/example_image_dataset",
-    local_dir="./data/example_image_dataset",
-    allow_file_pattern="inpaint/*.jpg"
-)
-inpaint_image = Image.open("./data/example_image_dataset/inpaint/image_1.jpg").convert("RGB").resize((1024, 1024))
-inpaint_mask = Image.open("./data/example_image_dataset/inpaint/mask.jpg").convert("RGB").resize((1024, 1024))
-prompt = "一只戴着墨镜的猫"
-image = pipe(
-    prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(inpaint_image=inpaint_image, inpaint_mask=inpaint_mask, scale=0.7)],
-    num_inference_steps=30,
-)
-image.save("image_inpaint.jpg")
--- a/examples/z_image/model_training/full/Z-Image-Omni-Base.sh
+++ b/examples/z_image/model_training/full/Z-Image-Omni-Base.sh
@@ -1,34 +0,0 @@
-# This example is tested on 8*A100
-# Text to image training
-accelerate launch --config_file examples/z_image/model_training/full/accelerate_config.yaml examples/z_image/model_training/train.py \
-  --dataset_base_path data/example_image_dataset \
-  --dataset_metadata_path data/example_image_dataset/metadata.csv \
-  --max_pixels 1048576 \
-  --dataset_repeat 400 \
-  --model_id_with_origin_paths "Tongyi-MAI/Z-Image-Omni-Base:transformer/*.safetensors,Tongyi-MAI/Z-Image-Omni-Base:siglip/model.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-  --learning_rate 1e-5 \
-  --num_epochs 2 \
-  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Z-Image-Omni-Base_full" \
-  --trainable_models "dit" \
-  --use_gradient_checkpointing \
-  --find_unused_parameters \
-  --dataset_num_workers 8
-
-# Image(s) to image training
-# accelerate launch --config_file examples/z_image/model_training/full/accelerate_config.yaml examples/z_image/model_training/train.py \
-#   --dataset_base_path data/example_image_dataset \
-#   --dataset_metadata_path data/example_image_dataset/metadata_qwen_imgae_edit_multi.json \
-#   --data_file_keys "image,edit_image" \
-#   --extra_inputs "edit_image" \
-#   --max_pixels 1048576 \
-#   --dataset_repeat 400 \
-#   --model_id_with_origin_paths "Tongyi-MAI/Z-Image-Omni-Base:transformer/*.safetensors,Tongyi-MAI/Z-Image-Omni-Base:siglip/model.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-#   --learning_rate 1e-5 \
-#   --num_epochs 2 \
-#   --remove_prefix_in_ckpt "pipe.dit." \
-#   --output_path "./models/train/Z-Image-Omni-Base_full_edit" \
-#   --trainable_models "dit" \
-#   --use_gradient_checkpointing \
-#   --find_unused_parameters \
-#   --dataset_num_workers 8
--- a/examples/z_image/model_training/full/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.sh
+++ b/examples/z_image/model_training/full/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.sh
@@ -1,15 +0,0 @@
-accelerate launch examples/z_image/model_training/train.py \
-  --dataset_base_path data/example_image_dataset \
-  --dataset_metadata_path data/example_image_dataset/metadata_controlnet_upscale.csv \
-  --data_file_keys "image,controlnet_image" \
-  --max_pixels 1048576 \
-  --dataset_repeat 100 \
-  --model_id_with_origin_paths "PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1:Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.safetensors,Tongyi-MAI/Z-Image-Turbo:transformer/*.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-  --learning_rate 1e-5 \
-  --num_epochs 2 \
-  --remove_prefix_in_ckpt "pipe.controlnet." \
-  --output_path "./models/train/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps_full" \
-  --trainable_models "controlnet" \
-  --extra_inputs "controlnet_image" \
-  --use_gradient_checkpointing \
-  --dataset_num_workers 8
--- a/examples/z_image/model_training/full/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.sh
+++ b/examples/z_image/model_training/full/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.sh
@@ -1,15 +0,0 @@
-accelerate launch examples/z_image/model_training/train.py \
-  --dataset_base_path data/example_image_dataset \
-  --dataset_metadata_path data/example_image_dataset/metadata_controlnet_canny.csv \
-  --data_file_keys "image,controlnet_image" \
-  --max_pixels 1048576 \
-  --dataset_repeat 100 \
-  --model_id_with_origin_paths "PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1:Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.safetensors,Tongyi-MAI/Z-Image-Turbo:transformer/*.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-  --learning_rate 1e-5 \
-  --num_epochs 2 \
-  --remove_prefix_in_ckpt "pipe.controlnet." \
-  --output_path "./models/train/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps_full" \
-  --trainable_models "controlnet" \
-  --extra_inputs "controlnet_image" \
-  --use_gradient_checkpointing \
-  --dataset_num_workers 8
--- a/examples/z_image/model_training/full/Z-Image-Turbo-Fun-Controlnet-Union-2.1.sh
+++ b/examples/z_image/model_training/full/Z-Image-Turbo-Fun-Controlnet-Union-2.1.sh
@@ -1,15 +0,0 @@
-accelerate launch examples/z_image/model_training/train.py \
-  --dataset_base_path data/example_image_dataset \
-  --dataset_metadata_path data/example_image_dataset/metadata_controlnet_canny.csv \
-  --data_file_keys "image,controlnet_image" \
-  --max_pixels 1048576 \
-  --dataset_repeat 100 \
-  --model_id_with_origin_paths "PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1:Z-Image-Turbo-Fun-Controlnet-Union-2.1.safetensors,Tongyi-MAI/Z-Image-Turbo:transformer/*.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-  --learning_rate 1e-5 \
-  --num_epochs 2 \
-  --remove_prefix_in_ckpt "pipe.controlnet." \
-  --output_path "./models/train/Z-Image-Turbo-Fun-Controlnet-Union-2.1_full" \
-  --trainable_models "controlnet" \
-  --extra_inputs "controlnet_image" \
-  --use_gradient_checkpointing \
-  --dataset_num_workers 8
--- a/examples/z_image/model_training/lora/Z-Image-Omni-Base.sh
+++ b/examples/z_image/model_training/lora/Z-Image-Omni-Base.sh
@@ -1,37 +0,0 @@
-# Text to image training
-accelerate launch examples/z_image/model_training/train.py \
-  --dataset_base_path data/example_image_dataset \
-  --dataset_metadata_path data/example_image_dataset/metadata.csv \
-  --max_pixels 1048576 \
-  --dataset_repeat 50 \
-  --model_id_with_origin_paths "Tongyi-MAI/Z-Image-Omni-Base:transformer/*.safetensors,Tongyi-MAI/Z-Image-Omni-Base:siglip/model.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-  --learning_rate 1e-4 \
-  --num_epochs 5 \
-  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Z-Image-Omni-Base_lora" \
-  --lora_base_model "dit" \
-  --lora_target_modules "to_q,to_k,to_v,to_out.0,w1,w2,w3" \
-  --lora_rank 32 \
-  --use_gradient_checkpointing \
-  --find_unused_parameters \
-  --dataset_num_workers 8
-
-# Image(s) to image training
-# accelerate launch examples/z_image/model_training/train.py \
-#   --dataset_base_path data/example_image_dataset \
-#   --dataset_metadata_path data/example_image_dataset/metadata_qwen_imgae_edit_multi.json \
-#   --data_file_keys "image,edit_image" \
-#   --extra_inputs "edit_image" \
-#   --max_pixels 1048576 \
-#   --dataset_repeat 50 \
-#   --model_id_with_origin_paths "Tongyi-MAI/Z-Image-Omni-Base:transformer/*.safetensors,Tongyi-MAI/Z-Image-Omni-Base:siglip/model.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-#   --learning_rate 1e-4 \
-#   --num_epochs 5 \
-#   --remove_prefix_in_ckpt "pipe.dit." \
-#   --output_path "./models/train/Z-Image-Omni-Base_lora_edit" \
-#   --lora_base_model "dit" \
-#   --lora_target_modules "to_q,to_k,to_v,to_out.0,w1,w2,w3" \
-#   --lora_rank 32 \
-#   --use_gradient_checkpointing \
-#   --find_unused_parameters \
-#   --dataset_num_workers 8
--- a/examples/z_image/model_training/lora/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.sh
+++ b/examples/z_image/model_training/lora/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.sh
@@ -1,17 +0,0 @@
-accelerate launch examples/z_image/model_training/train.py \
-  --dataset_base_path data/example_image_dataset \
-  --dataset_metadata_path data/example_image_dataset/metadata_controlnet_upscale.csv \
-  --data_file_keys "image,controlnet_image" \
-  --max_pixels 1048576 \
-  --dataset_repeat 100 \
-  --model_id_with_origin_paths "PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1:Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.safetensors,Tongyi-MAI/Z-Image-Turbo:transformer/*.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-  --learning_rate 1e-4 \
-  --num_epochs 5 \
-  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps_lora" \
-  --lora_base_model "dit" \
-  --lora_target_modules "to_q,to_k,to_v,to_out.0,w1,w2,w3" \
-  --lora_rank 32 \
-  --extra_inputs "controlnet_image" \
-  --use_gradient_checkpointing \
-  --dataset_num_workers 8
--- a/examples/z_image/model_training/lora/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.sh
+++ b/examples/z_image/model_training/lora/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.sh
@@ -1,17 +0,0 @@
-accelerate launch examples/z_image/model_training/train.py \
-  --dataset_base_path data/example_image_dataset \
-  --dataset_metadata_path data/example_image_dataset/metadata_controlnet_canny.csv \
-  --data_file_keys "image,controlnet_image" \
-  --max_pixels 1048576 \
-  --dataset_repeat 100 \
-  --model_id_with_origin_paths "PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1:Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.safetensors,Tongyi-MAI/Z-Image-Turbo:transformer/*.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-  --learning_rate 1e-4 \
-  --num_epochs 5 \
-  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps_lora" \
-  --lora_base_model "dit" \
-  --lora_target_modules "to_q,to_k,to_v,to_out.0,w1,w2,w3" \
-  --lora_rank 32 \
-  --extra_inputs "controlnet_image" \
-  --use_gradient_checkpointing \
-  --dataset_num_workers 8
--- a/examples/z_image/model_training/lora/Z-Image-Turbo-Fun-Controlnet-Union-2.1.sh
+++ b/examples/z_image/model_training/lora/Z-Image-Turbo-Fun-Controlnet-Union-2.1.sh
@@ -1,17 +0,0 @@
-accelerate launch examples/z_image/model_training/train.py \
-  --dataset_base_path data/example_image_dataset \
-  --dataset_metadata_path data/example_image_dataset/metadata_controlnet_canny.csv \
-  --data_file_keys "image,controlnet_image" \
-  --max_pixels 1048576 \
-  --dataset_repeat 100 \
-  --model_id_with_origin_paths "PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1:Z-Image-Turbo-Fun-Controlnet-Union-2.1.safetensors,Tongyi-MAI/Z-Image-Turbo:transformer/*.safetensors,Tongyi-MAI/Z-Image-Turbo:text_encoder/*.safetensors,Tongyi-MAI/Z-Image-Turbo:vae/diffusion_pytorch_model.safetensors" \
-  --learning_rate 1e-4 \
-  --num_epochs 5 \
-  --remove_prefix_in_ckpt "pipe.dit." \
-  --output_path "./models/train/Z-Image-Turbo-Fun-Controlnet-Union-2.1_lora" \
-  --lora_base_model "dit" \
-  --lora_target_modules "to_q,to_k,to_v,to_out.0,w1,w2,w3" \
-  --lora_rank 32 \
-  --extra_inputs "controlnet_image" \
-  --use_gradient_checkpointing \
-  --dataset_num_workers 8
--- a/examples/z_image/model_training/validate_full/Z-Image-Omni-Base.py
+++ b/examples/z_image/model_training/validate_full/Z-Image-Omni-Base.py
@@ -1,33 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig
-from diffsynth.core import load_state_dict
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="siglip/model.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-state_dict = load_state_dict("./models/train/Z-Image-Omni-Base_full/epoch-1.safetensors", torch_dtype=torch.bfloat16)
-pipe.dit.load_state_dict(state_dict)
-prompt = "a dog"
-image = pipe(prompt=prompt, seed=42, rand_device="cuda", num_inference_steps=40, cfg_scale=4)
-image.save("image.jpg")
-
-# Edit
-# state_dict = load_state_dict("./models/train/Z-Image-Omni-Base_full_edit/epoch-1.safetensors", torch_dtype=torch.bfloat16)
-# pipe.dit.load_state_dict(state_dict)
-# prompt = "Change the color of the dress in Figure 1 to the color shown in Figure 2."
-# images = [
-#     Image.open("data/example_image_dataset/edit/image1.jpg").resize((1024, 1024)),
-#     Image.open("data/example_image_dataset/edit/image_color.jpg").resize((1024, 1024)),
-# ]
-# image = pipe(prompt=prompt, seed=42, rand_device="cuda", num_inference_steps=40, cfg_scale=4, edit_image=images)
-# image.save("image.jpg")
--- a/examples/z_image/model_training/validate_full/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.py
+++ b/examples/z_image/model_training/validate_full/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.py
@@ -1,24 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from diffsynth import load_state_dict
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-state_dict = load_state_dict("./models/train/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps_full/epoch-1.safetensors")
-pipe.controlnet.load_state_dict(state_dict)
-
-controlnet_image = Image.open("data/example_image_dataset/upscale/image_1.jpg").resize((1024, 1024))
-prompt = "a dog"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=1)])
-image.save("image_tile.jpg")
--- a/examples/z_image/model_training/validate_full/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.py
+++ b/examples/z_image/model_training/validate_full/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.py
@@ -1,24 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from diffsynth import load_state_dict
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-state_dict = load_state_dict("./models/train/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps_full/epoch-1.safetensors")
-pipe.controlnet.load_state_dict(state_dict)
-
-controlnet_image = Image.open("data/example_image_dataset/canny/image_1.jpg").resize((1024, 1024))
-prompt = "a dog"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)])
-image.save("image_control.jpg")
--- a/examples/z_image/model_training/validate_full/Z-Image-Turbo-Fun-Controlnet-Union-2.1.py
+++ b/examples/z_image/model_training/validate_full/Z-Image-Turbo-Fun-Controlnet-Union-2.1.py
@@ -1,24 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from diffsynth import load_state_dict
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Union-2.1.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-state_dict = load_state_dict("./models/train/Z-Image-Turbo-Fun-Controlnet-Union-2.1_full/epoch-1.safetensors")
-pipe.controlnet.load_state_dict(state_dict)
-
-controlnet_image = Image.open("data/example_image_dataset/canny/image_1.jpg").resize((1024, 1024))
-prompt = "a dog"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)])
-image.save("image_control.jpg")
--- a/examples/z_image/model_training/validate_lora/Z-Image-Omni-Base.py
+++ b/examples/z_image/model_training/validate_lora/Z-Image-Omni-Base.py
@@ -1,31 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Omni-Base", origin_file_pattern="siglip/model.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-
-pipe.load_lora(pipe.dit, "./models/train/Z-Image-Omni-Base_lora/epoch-4.safetensors")
-prompt = "a dog"
-image = pipe(prompt=prompt, seed=42, rand_device="cuda", num_inference_steps=40, cfg_scale=4)
-image.save("image.jpg")
-
-# Edit
-# pipe.load_lora(pipe.dit, "./models/train/Z-Image-Omni-Base_lora_edit/epoch-4.safetensors")
-# prompt = "Change the color of the dress in Figure 1 to the color shown in Figure 2."
-# images = [
-#     Image.open("data/example_image_dataset/edit/image1.jpg").resize((1024, 1024)),
-#     Image.open("data/example_image_dataset/edit/image_color.jpg").resize((1024, 1024)),
-# ]
-# image = pipe(prompt=prompt, seed=42, rand_device="cuda", num_inference_steps=40, cfg_scale=4, edit_image=images)
-# image.save("image.jpg")
--- a/examples/z_image/model_training/validate_lora/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.py
+++ b/examples/z_image/model_training/validate_lora/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.py
@@ -1,23 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from diffsynth import load_state_dict
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-pipe.load_lora(pipe.dit, "./models/train/Z-Image-Turbo-Fun-Controlnet-Tile-2.1-8steps_lora/epoch-4.safetensors")
-
-controlnet_image = Image.open("data/example_image_dataset/upscale/image_1.jpg").resize((1024, 1024))
-prompt = "a dog"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=1)])
-image.save("image_tile.jpg")
--- a/examples/z_image/model_training/validate_lora/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.py
+++ b/examples/z_image/model_training/validate_lora/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.py
@@ -1,23 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from diffsynth import load_state_dict
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-pipe.load_lora(pipe.dit, "./models/train/Z-Image-Turbo-Fun-Controlnet-Union-2.1-8steps_lora/epoch-4.safetensors")
-
-controlnet_image = Image.open("data/example_image_dataset/canny/image_1.jpg").resize((1024, 1024))
-prompt = "a dog"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)])
-image.save("image_control.jpg")
--- a/examples/z_image/model_training/validate_lora/Z-Image-Turbo-Fun-Controlnet-Union-2.1.py
+++ b/examples/z_image/model_training/validate_lora/Z-Image-Turbo-Fun-Controlnet-Union-2.1.py
@@ -1,23 +0,0 @@
-from diffsynth.pipelines.z_image import ZImagePipeline, ModelConfig, ControlNetInput
-from diffsynth import load_state_dict
-from PIL import Image
-import torch
-
-
-pipe = ZImagePipeline.from_pretrained(
-    torch_dtype=torch.bfloat16,
-    device="cuda",
-    model_configs=[
-        ModelConfig(model_id="PAI/Z-Image-Turbo-Fun-Controlnet-Union-2.1", origin_file_pattern="Z-Image-Turbo-Fun-Controlnet-Union-2.1.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="transformer/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="text_encoder/*.safetensors"),
-        ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
-    ],
-    tokenizer_config=ModelConfig(model_id="Tongyi-MAI/Z-Image-Turbo", origin_file_pattern="tokenizer/"),
-)
-pipe.load_lora(pipe.dit, "./models/train/Z-Image-Turbo-Fun-Controlnet-Union-2.1_lora/epoch-4.safetensors")
-
-controlnet_image = Image.open("data/example_image_dataset/canny/image_1.jpg").resize((1024, 1024))
-prompt = "a dog"
-image = pipe(prompt=prompt, seed=0, height=1024, width=1024, controlnet_inputs=[ControlNetInput(image=controlnet_image, scale=0.7)])
-image.save("image_control.jpg")
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -4,11 +4,11 @@ build-backend = "setuptools.build_meta"

 [project]
 name = "diffsynth"
-version = "2.0.1"
+version = "2.0.0"
 description = "Enjoy the magic of Diffusion models!"
 authors = [{name = "ModelScope Team"}]
 license = {text = "Apache-2.0"}
-requires-python = ">=3.10.1"
+requires-python = ">=3.10"
 dependencies = [
    "torch>=2.0.0",
    "torchvision",
@@ -33,8 +33,6 @@ classifiers = [
 ]

 [tool.setuptools.packages.find]
-where = ["./"]
-include = ["diffsynth"]

 [tool.setuptools]
 include-package-data = true