flagos-ai
diff --git a/‎.github/workflows/all-tests-nvidia.yml‎
Lines changed: 45 additions & 45 deletions b/‎.github/workflows/all-tests-nvidia.yml‎
Lines changed: 45 additions & 45 deletions
diff --git a/‎.github/workflows/functional-tests-nvidia.yml‎
Lines changed: 4 additions & 0 deletions b/‎.github/workflows/functional-tests-nvidia.yml‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎.github/workflows/unit-tests-nvidia.yml‎
Lines changed: 6 additions & 0 deletions b/‎.github/workflows/unit-tests-nvidia.yml‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎flagscale/backends/Megatron-LM/megatron/core/pipeline_parallel/schedules.py‎
Lines changed: 8 additions & 0 deletions b/‎flagscale/backends/Megatron-LM/megatron/core/pipeline_parallel/schedules.py‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎flagscale/backends/Megatron-LM/megatron/training/arguments.py‎
Lines changed: 10 additions & 0 deletions b/‎flagscale/backends/Megatron-LM/megatron/training/arguments.py‎
Lines changed: 10 additions & 0 deletions
@@ -21,50 +21,50 @@ jobs:
         run: |
           echo "ci_image=localhost:5000/flagscale:cuda12.8.1-cudnn9.7.1-python3.12-torch2.7.0-time2507111538" >> $GITHUB_OUTPUT  # Set output variable
 
-  # Megatron Unit Tests with Matrix
-  megatron-unit-tests:
-    needs:
-      - set-env
-    uses: ./.github/workflows/unit-tests-nvidia.yml
-    strategy:
-      matrix:
-        subset:
-          - data
-          - dist_checkpointing
-          - distributed
-          - export
-          - fusions
-          - inference
-          - models
-          - pipeline_parallel
-          - post_training
-          - ssm
-          - tensor_parallel
-          - transformer/moe
-          - transformer
-          - ./
-    name: "megatron-${{ matrix.subset == './' && 'root' || matrix.subset }}"
-    with:
-      backend: megatron
-      subset: ${{ matrix.subset }}
-      image: ${{ needs.set-env.outputs.ci_image }}
+  # # Megatron Unit Tests with Matrix
+  # megatron-unit-tests:
+  #   needs:
+  #     - set-env
+  #   uses: ./.github/workflows/unit-tests-nvidia.yml
+  #   strategy:
+  #     matrix:
+  #       subset:
+  #         - data
+  #         - dist_checkpointing
+  #         - distributed
+  #         - export
+  #         - fusions
+  #         - inference
+  #         - models
+  #         - pipeline_parallel
+  #         - post_training
+  #         - ssm
+  #         - tensor_parallel
+  #         - transformer/moe
+  #         - transformer
+  #         - ./
+  #   name: "megatron-${{ matrix.subset == './' && 'root' || matrix.subset }}"
+  #   with:
+  #     backend: megatron
+  #     subset: ${{ matrix.subset }}
+  #     image: ${{ needs.set-env.outputs.ci_image }}
 
-  # Flagscale Unit Tests with Matrix
-  flagscale-unit-tests:
-    needs:
-      - set-env
-      - megatron-unit-tests
-    uses: ./.github/workflows/unit-tests-nvidia.yml
-    strategy:
-      matrix:
-        subset:
-          - runner
-          - ./
-    name: "flagscale-${{ matrix.subset == './' && 'root' || matrix.subset }}"
-    with:
-      backend: flagscale
-      subset: ${{ matrix.subset }}
-      image: ${{ needs.set-env.outputs.ci_image }}
+  # # Flagscale Unit Tests with Matrix
+  # flagscale-unit-tests:
+  #   needs:
+  #     - set-env
+  #     - megatron-unit-tests
+  #   uses: ./.github/workflows/unit-tests-nvidia.yml
+  #   strategy:
+  #     matrix:
+  #       subset:
+  #         - runner
+  #         - ./
+  #   name: "flagscale-${{ matrix.subset == './' && 'root' || matrix.subset }}"
+  #   with:
+  #     backend: flagscale
+  #     subset: ${{ matrix.subset }}
+  #     image: ${{ needs.set-env.outputs.ci_image }}
 
   # Functional Tests with Mision and Type Matrix
   functional-tests-train:
@@ -152,8 +152,8 @@ jobs:
   # Check All Tests
   all-tests:
     needs:
-      - megatron-unit-tests
-      - flagscale-unit-tests
+      # - megatron-unit-tests
+      # - flagscale-unit-tests
       - functional-tests-train
       - functional-tests-hetero
       - functional-tests-inference
 
@@ -49,22 +49,26 @@ jobs:
 
           git config --global --add safe.directory /__w/FlagScale/FlagScale
           if [ "${{ inputs.type }}" = "train" ] || [ "${{ inputs.type }}" = "hetero_train" ]; then
+            source /root/miniconda3/bin/activate flagscale-train
             PYTHONPATH=./:$PYTHONPATH pip install . --no-build-isolation --verbose --config-settings=device="gpu" --config-settings=backend="Megatron-LM"
             if [ "${{ inputs.task }}" = "llava_onevision" ]; then
               PYTHONPATH=./:$PYTHONPATH pip install . --no-build-isolation --verbose --config-settings=device="gpu" --config-settings=backend="Megatron-Energon"
               cp -r third_party/Megatron-Energon/src/megatron/energon third_party/Megatron-LM/megatron
             fi
+            conda deactivate
           elif [ "${{ inputs.type }}" = "inference" ] || [ "${{ inputs.type }}" = "serve" ]; then
             source /root/miniconda3/bin/activate flagscale-inference
             pip install scikit-build scikit-build-core
             pip install git+https://github.com/FlagOpen/[email protected]
             PYTHONPATH=./:$PYTHONPATH pip install . --config-settings=backend="vllm" --verbose --no-build-isolation
             conda deactivate
           elif [ "${{ inputs.type }}" = "rl" ]; then
+            source /root/miniconda3/bin/activate flagscale-RL
             python tools/patch/unpatch.py --backend verl
             cd third_party/verl
             pip install --no-deps -e .
             cd ../..
+            conda deactivate
           else
             echo "Unknown backend type: ${{ inputs.type }}"
             exit 1
 
@@ -55,6 +55,12 @@ jobs:
           git config --global --add safe.directory /__w/FlagScale/FlagScale
           if [ "${{ inputs.backend }}" = "megatron" ] || [ "${{ inputs.backend }}" = "flagscale" ]; then
             echo ""
+            source /root/miniconda3/bin/activate flagscale-train
+            git clone https://github.com/NVIDIA/nvidia-resiliency-ext
+            cd nvidia-resiliency-ext
+            pip install .
+            cd ..
+            conda deactivate
             # PYTHONPATH=./:$PYTHONPATH pip install . --config-settings=backend="Megatron-LM" --verbose --no-build-isolation
           elif [ "${{ inputs.backend }}" = "vllm" ]; then
             source /root/miniconda3/bin/activate flagscale-inference
 
@@ -22,6 +22,7 @@
     nvtx_range_pop,
     nvtx_range_push,
 )
+from flagscale.train.straggler_detection import StragglerDetectionWrapper
 
 # Types
 Shape = Union[List[int], torch.Size]
@@ -185,6 +186,7 @@ def set_current_microbatch(model, microbatch_id):
             layer.current_microbatch = microbatch_id
 
 
+@StragglerDetectionWrapper(level=2, section_name="microbatch_forward")
 def forward_step(
     forward_step_func,
     data_iterator,
@@ -369,6 +371,7 @@ def forward_step(
     return [output_tensor], num_tokens
 
 
+@StragglerDetectionWrapper(level=2, section_name="microbatch_backward")
 def backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, config):
     """Backward step through passed-in output tensor.
 
@@ -486,6 +489,9 @@ def forward_backward_no_pipelining(
         adjust_tensor_shapes_fn is None
     ), "adjust_tensor_shapes_fn is not supported for non-pipeline-parallel schedule"
 
+    from megatron.training.global_vars import get_args
+    args = get_args()
+
     config = get_model_config(model)
     if config.timers is not None:
         config.timers('forward-backward', log_level=1).start(barrier=config.barrier_with_L1_time)
@@ -519,6 +525,7 @@ def forward_backward_no_pipelining(
 
     # Run computation for last microbatch out of context handler (want to
     # synchronize gradients).
+    args.generate_report = forward_only and (args.curr_iteration % args.straggler_detection_interval) == 0 and (args.straggler_detection_level == 2)
     output_tensor, num_tokens = forward_step(
         forward_step_func,
         data_iterator,
@@ -536,6 +543,7 @@ def forward_backward_no_pipelining(
     total_num_tokens += num_tokens
 
     if not forward_only:
+        args.generate_report = not forward_only and (args.curr_iteration % args.straggler_detection_interval) == 0 and (args.straggler_detection_level == 2)
         backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, config)
 
     if config.finalize_model_grads_func is not None and not forward_only:
 
@@ -1666,6 +1666,16 @@ def _add_ft_package_args(parser):
     group.add_argument('--calc-ft-timeouts', action='store_true',
                        help='If set, FT package will try to automatically compute the timeouts. '
                        'Note: This feature is for Nvidia internal use only.')
+    group.add_argument('--straggler-detection-level', type=int, 
+                       default=0, choices=range(0,3),
+                       help='Granularity of straggler detection level.'
+                       '    0: off.'
+                       '    1: per train step.'
+                       '    2: per train section.')
+    group.add_argument('--straggler-detection-interval', type=int, default=10,
+                       help='Interval in iterations for generating detection report.')
+    group.add_argument('--straggler-detection-warmup-iterations', type=int, default=50,
+                       help='Interval in iterations for generating detection report.')
     return parser