mehta-lab
diff --git a/‎applications/benchmarking/DynaCLR/DINOV3/config_dinov3_convnext_tiny.yml‎
Lines changed: 65 additions & 0 deletions b/‎applications/benchmarking/DynaCLR/DINOV3/config_dinov3_convnext_tiny.yml‎
Lines changed: 65 additions & 0 deletions
diff --git a/‎applications/benchmarking/DynaCLR/DINOV3/dinov3_embeddings.py‎
Lines changed: 170 additions & 0 deletions b/‎applications/benchmarking/DynaCLR/DINOV3/dinov3_embeddings.py‎
Lines changed: 170 additions & 0 deletions
diff --git a/‎applications/benchmarking/DynaCLR/OpenPhenom/config_template.yml‎
Lines changed: 3 additions & 2 deletions b/‎applications/benchmarking/DynaCLR/OpenPhenom/config_template.yml‎
Lines changed: 3 additions & 2 deletions
@@ -0,0 +1,65 @@
+datamodule_class: viscy.data.triplet.TripletDataModule
+datamodule:
+  data_path: /hpc/projects/intracellular_dashboard/organelle_dynamics/2024_02_04_A549_DENV_ZIKV_timelapse/8-train-test-split/registered_test.zarr
+  tracks_path: /hpc/projects/intracellular_dashboard/organelle_dynamics/2024_02_04_A549_DENV_ZIKV_timelapse/8-train-test-split/track_test.zarr
+  batch_size: 32
+  final_yx_patch_size:
+  - 256
+  - 256
+  include_fov_names: null
+  include_track_ids: null
+  initial_yx_patch_size:
+  - 256
+  - 256
+  normalizations:
+  - class_path: viscy.transforms.ScaleIntensityRangePercentilesd
+    init_args:
+      b_max: 1.0
+      b_min: 0.0
+      keys:
+      - RFP
+      lower: 50
+      upper: 99
+  - class_path: viscy.transforms.NormalizeIntensityd
+    init_args:
+      keys:
+      - Phase3D
+  num_workers: 10
+  source_channel:
+  - RFP
+  - Phase3D
+  z_range:
+  - 15
+  - 45
+
+embedding:
+  pca_kwargs:
+    n_components: 8
+  phate_kwargs:
+    decay: 40
+    knn: 5
+    n_components: 2
+    n_jobs: -1
+    random_state: 42
+  reductions:
+  - PHATE
+  - PCA
+
+execution:
+  overwrite: false
+  save_config: true
+  show_config: true
+
+model:
+  model_name: facebook/dinov3-convnext-tiny-pretrain-lvd1689m
+  pooling_method: mean  # Options: "mean", "max", "cls_token"
+  middle_slice_index: 18  # Specific z-slice index (if null, uses D//2)
+  channel_reduction_methods:
+    Phase3D: middle_slice
+    RFP: max
+  channel_names:
+  - RFP
+  - Phase3D
+
+paths:
+  output_path: /hpc/mydata/eduardo.hirata/repos/viscy/applications/benchmarking/DynaCLR/DINOV3/embeddings_convnext_tiny_mean.zarr
@@ -0,0 +1,170 @@
+import sys
+from pathlib import Path
+from typing import Dict, List, Literal, Optional
+
+import numpy as np
+import torch
+from PIL import Image
+from skimage.exposure import rescale_intensity
+from transformers import AutoImageProcessor, AutoModel
+
+sys.path.append(str(Path(__file__).parent.parent))
+
+from base_embedding_module import BaseEmbeddingModule, create_embedding_cli
+
+
+class DINOv3Module(BaseEmbeddingModule):
+    def __init__(
+        self,
+        model_name: str = "facebook/dinov3-vitb16-pretrain-lvd1689m",
+        channel_reduction_methods: Optional[
+            Dict[str, Literal["middle_slice", "mean", "max"]]
+        ] = None,
+        channel_names: Optional[List[str]] = None,
+        pooling_method: Literal["mean", "max", "cls_token"] = "mean",
+        middle_slice_index: Optional[int] = None,
+    ):
+        super().__init__(channel_reduction_methods, channel_names, middle_slice_index)
+        self.model_name = model_name
+        self.pooling_method = pooling_method
+
+        self.model = None
+        self.processor = None
+
+    @classmethod
+    def from_config(cls, cfg):
+        """Create model instance from configuration."""
+        model_config = cfg.get("model", {})
+        return cls(
+            model_name=model_config.get(
+                "model_name", "facebook/dinov3-vitb16-pretrain-lvd1689m"
+            ),
+            pooling_method=model_config.get("pooling_method", "mean"),
+            channel_reduction_methods=model_config.get("channel_reduction_methods", {}),
+            channel_names=model_config.get("channel_names", []),
+            middle_slice_index=model_config.get("middle_slice_index", None),
+        )
+
+    def on_predict_start(self):
+        if self.model is None:
+            self.processor = AutoImageProcessor.from_pretrained(self.model_name)
+            self.model = AutoModel.from_pretrained(self.model_name)
+            self.model.eval()
+            self.model.to(self.device)
+
+    def _process_input(self, x: torch.Tensor):
+        """Convert tensor to PIL Images for DINOv3 processing."""
+        return self._convert_to_pil_images(x)
+
+    def _extract_features(self, pil_images):
+        """Extract features using DINOv3 model."""
+        inputs = self.processor(pil_images, return_tensors="pt")
+        inputs = {k: v.to(self.device) for k, v in inputs.items()}
+
+        with torch.no_grad():
+            outputs = self.model(**inputs)
+            token_features = outputs.last_hidden_state
+            features = self._pool_features(token_features)
+
+        return features
+
+    def _convert_to_pil_images(self, x: torch.Tensor) -> List[Image.Image]:
+        """
+        Convert tensor to list of PIL Images for DINOv3 processing.
+
+        Parameters
+        ----------
+        x : torch.Tensor
+            Input tensor with shape (B, C, H, W).
+
+        Returns
+        -------
+        list of PIL.Image.Image
+            List of PIL Images ready for DINOv3 processing.
+        """
+        images = []
+
+        for b in range(x.shape[0]):
+            img_tensor = x[b]  # (C, H, W)
+
+            if img_tensor.shape[0] == 1:
+                # Single channel - convert to grayscale PIL
+                img_array = img_tensor[0].cpu().numpy()
+                # Normalize to 0-255
+                img_normalized = (
+                    (img_array - img_array.min())
+                    / (img_array.max() - img_array.min())
+                    * 255
+                ).astype(np.uint8)
+                pil_img = Image.fromarray(img_normalized, mode="L")
+
+            elif img_tensor.shape[0] == 2:
+                img_array = img_tensor.cpu().numpy()
+                rgb_array = np.zeros(
+                    (img_array.shape[1], img_array.shape[2], 3), dtype=np.uint8
+                )
+
+                ch0_norm = rescale_intensity(img_array[0], out_range=(0, 255)).astype(
+                    np.uint8
+                )
+                ch1_norm = rescale_intensity(img_array[1], out_range=(0, 255)).astype(
+                    np.uint8
+                )
+
+                rgb_array[:, :, 0] = ch0_norm  # Red
+                rgb_array[:, :, 1] = ch1_norm  # Green
+                rgb_array[:, :, 2] = (ch0_norm + ch1_norm) // 2  # Blue
+
+                pil_img = Image.fromarray(rgb_array, mode="RGB")
+
+            elif img_tensor.shape[0] == 3:
+                # Three channels - direct RGB
+                img_array = img_tensor.cpu().numpy().transpose(1, 2, 0)  # HWC
+                img_normalized = rescale_intensity(
+                    img_array, out_range=(0, 255)
+                ).astype(np.uint8)
+                pil_img = Image.fromarray(img_normalized, mode="RGB")
+
+            else:
+                # More than 3 channels - use first 3
+                img_array = img_tensor[:3].cpu().numpy().transpose(1, 2, 0)  # HWC
+                img_normalized = rescale_intensity(
+                    img_array, out_range=(0, 255)
+                ).astype(np.uint8)
+                pil_img = Image.fromarray(img_normalized, mode="RGB")
+
+            images.append(pil_img)
+
+        return images
+
+    def _pool_features(self, features: torch.Tensor) -> torch.Tensor:
+        """
+        Pool spatial features from DINOv3 tokens.
+
+        Parameters
+        ----------
+        features : torch.Tensor
+            Token features with shape (B, num_tokens, hidden_dim).
+
+        Returns
+        -------
+        torch.Tensor
+            Pooled features with shape (B, hidden_dim).
+        """
+        if self.pooling_method == "cls_token":
+            # For ViT models, first token is usually CLS token
+            if "vit" in self.model_name.lower():
+                return features[:, 0, :]  # CLS token
+            else:
+                # For ConvNeXt, no CLS token, fall back to mean
+                return features.mean(dim=1)
+
+        elif self.pooling_method == "max":
+            return features.max(dim=1)[0]
+        else:  # mean pooling
+            return features.mean(dim=1)
+
+
+if __name__ == "__main__":
+    main = create_embedding_cli(DINOv3Module, "DINOv3")
+    main()
@@ -2,8 +2,6 @@
 
 # Paths section
 paths:
-  data_path: /hpc/projects/intracellular_dashboard/organelle_dynamics/2024_11_07_A549_SEC61_ZIKV_DENV/2-assemble/2024_11_07_A549_SEC61_DENV.zarr
-  tracks_path: /hpc/projects/intracellular_dashboard/organelle_dynamics/2024_11_07_A549_SEC61_ZIKV_DENV/1-preprocess/label-free/4-track-gt/2024_11_07_A549_SEC61_ZIKV_DENV_2_cropped.zarr
   output_path: "/home/eduardo.hirata/repos/viscy/applications/benchmarking/DynaCLR/OpenPhenom/openphenom_sec61b_n_phase_3.zarr"
 
 # Model configuration
@@ -16,7 +14,10 @@ model:
     "raw GFP EX488 EM525-45": "max"
 
 # Data module configuration
+datamodule_class: viscy.data.triplet.TripletDataModule
 datamodule:
+  data_path: /hpc/projects/intracellular_dashboard/organelle_dynamics/2024_11_07_A549_SEC61_ZIKV_DENV/2-assemble/2024_11_07_A549_SEC61_DENV.zarr
+  tracks_path: /hpc/projects/intracellular_dashboard/organelle_dynamics/2024_11_07_A549_SEC61_ZIKV_DENV/1-preprocess/label-free/4-track-gt/2024_11_07_A549_SEC61_ZIKV_DENV_2_cropped.zarr
   source_channel:
     - Phase3D
     - "raw GFP EX488 EM525-45"