Fix: Sparse tensors not updating (#1914)

Dipet · tjruwase · jeffra · web-flow · commit b8ff4825aae4 · 2022-05-23T06:22:14.000-07:00
* Fix do not updated sparse grads

* Remove call .data for sparse grads

Co-authored-by: Olatunji Ruwase &lt;olruwase@microsoft.com&gt;
Co-authored-by: Jeff Rasley &lt;jerasley@microsoft.com&gt;
diff --git a/deepspeed/runtime/engine.py b/deepspeed/runtime/engine.py
@@ -2169,7 +2169,8 @@ def _get_gradients_for_reduction(self):
 
             grad_data = param.grad.data
             if param_name in self.sparse_tensor_module_names or grad_data.is_sparse:
-                grad_data = SparseTensor(grad_data)
+                # Call param.grad without data to avoid problem with setting of updated grads
+                grad_data = SparseTensor(param.grad)
 
             if is_moe_param(param):
                 expert_grads[param.group_name].append(grad_data)