Merge pull request rllm-org#109 from alex-remedios-aisi/main

skinnerjc · web-flow · commit 16d5685b86d8 · 2024-11-25T17:38:14.000Z
Add k8s support for gaia
diff --git a/src/inspect_evals/gaia/gaia.py b/src/inspect_evals/gaia/gaia.py
@@ -5,10 +5,18 @@
 from inspect_ai import Task, task
 from inspect_ai.solver import Solver, basic_agent, system_message
 from inspect_ai.tool import bash, python, web_browser
+from inspect_ai.util._sandbox.environment import SandboxEnvironmentType
 
 from .dataset import gaia_dataset
 from .scorer import gaia_scorer
 
+TASK_DIR = Path(__file__).parent
+COMPOSE_FILE = TASK_DIR / "compose.yaml"
+VALUES_FILE = TASK_DIR / "values.yaml"
+
+DEFAULT_DOCKER_SANDBOX = ("docker", COMPOSE_FILE.as_posix())
+DEFAULT_K8S_SANDBOX = ("k8s", VALUES_FILE.as_posix())
+
 
 @task
 def gaia(
@@ -21,6 +29,7 @@ def gaia(
     ] = "2023_all",
     split: Literal["test", "validation"] = "validation",
     instance_ids: str | list[str] | None = None,
+    sandbox: SandboxEnvironmentType = DEFAULT_DOCKER_SANDBOX,
 ) -> Task:
     """GAIA task.
 
@@ -34,6 +43,7 @@ def gaia(
       subset: Which GAIA subset to evaluate (defaults to 2023_all).
       split: Which split to evaluate ("validation" or "test")
       instance_ids: Specific question instances to evaluated.
+      sandbox: Sandbox environment to use for the task.
 
     Returns:
       GAIA Inspect task.
@@ -56,15 +66,12 @@ def gaia(
     # resolve scorer (test split has no answers)
     scorer = gaia_scorer() if split == "validation" else None
 
-    # docker compose file is alongside the src file
-    COMPOSE_FILE = Path(__file__).parent / "compose.yaml"
-
     # return task
     return Task(
         dataset=dataset,
         plan=solver,
         scorer=scorer,
-        sandbox=("docker", COMPOSE_FILE.as_posix()),
+        sandbox=sandbox,
     )
 
 
diff --git a/src/inspect_evals/gaia/values.yaml b/src/inspect_evals/gaia/values.yaml
@@ -0,0 +1,9 @@
+services:
+  default:
+    image: aisiuk/inspect-web-browser-tool
+    command:
+      - python3
+    args:
+      - /app/web_browser/web_server.py
+allowDomains:
+  - "*"