fix(cuda-graph): specify stream for precompute_sgmv_args in sgmv_cutlass #47

	name: Tests on GPU
	on:
	push:
	paths:
	- "*.py"
	- "csrc/**"
	- "src/**"
	- "tests/**"
	branches-ignore:
	- ci-wheel
	pull_request:
	paths:
	- "*.py"
	- "csrc/**"
	- "src/**"
	- "tests/**"
	jobs:
	gpu-test:
	strategy:
	fail-fast: false
	matrix:
	include:
	- { arch: sm80, torch: "2.1.0", cuda_major: 12, cuda_minor: 1 }
	- { arch: sm80, torch: "2.1.0", cuda_major: 11, cuda_minor: 8 }
	- { arch: sm86, torch: "2.1.0", cuda_major: 12, cuda_minor: 1 }
	- { arch: sm86, torch: "2.1.0", cuda_major: 11, cuda_minor: 8 }
	runs-on: [self-hosted, "${{ matrix.arch }}"]
	steps:
	- name: Checkout
	uses: actions/checkout@v4
	with:
	submodules: true

	- name: Run tests and collect coverage
	run: \|
	chown -R $CI_UID:$CI_GID "$GITHUB_WORKSPACE"
	docker run --runtime=nvidia --gpus all --rm -t \
	-v "$CI_RUNNER_CACHE_DIR":/ci-cache \
	-v "$GITHUB_WORKSPACE":/app \
	-e PUNICA_CI_TORCH_VERSION=${{ matrix.torch }} \
	-e PUNICA_CI_CUDA_MAJOR=${{ matrix.cuda_major }} \
	-e PUNICA_CI_CUDA_MINOR=${{ matrix.cuda_minor }} \
	--user $CI_UID:$CI_GID \
	nvidia/cuda:${{ matrix.cuda_major }}.${{ matrix.cuda_minor }}.0-devel-ubuntu22.04 \
	bash /app/ci/run-ci-gpu-tests.bash

	- name: Upload coverage to Codecov
	uses: codecov/codecov-action@v3
	env:
	CODECOV_TOKEN: ${{ secrets.CODECOV_TOKEN }}

Provide feedback