Skip to content

Latest commit

 

History

History
745 lines (574 loc) · 39.8 KB

File metadata and controls

745 lines (574 loc) · 39.8 KB

AutoResearchClaw Logo

아이디어를 말하다. 논문을 받다. 자율적, 협력적 & 자기 진화.

OpenClaw에 채팅하세요: "X 연구해줘" → 완료.

AutoResearchClaw Framework

MIT License Python 3.11+ 2699 Tests Passed GitHub OpenClaw Compatible Discord

🇺🇸 English · 🇨🇳 中文 · 🇯🇵 日本語 · 🇰🇷 한국어 · 🇫🇷 Français · 🇩🇪 Deutsch · 🇪🇸 Español · 🇧🇷 Português · 🇷🇺 Русский · 🇸🇦 العربية

🏆 논문 쇼케이스 · 🧑‍✈️ 코파일럿 가이드 · 📖 통합 가이드 · 💬 Discord 커뮤니티


Sample Paper 🏆 생성된 논문 쇼케이스

8개 분야에 걸친 8편의 논문 — 수학, 통계, 생물학, 컴퓨팅, NLP, RL, 비전, 견고성 — 완전 자율 생성 또는 Human-in-the-Loop 코파일럿 가이던스 활용.

View Showcase

🧪 테스터를 모집합니다! 여러분의 연구 아이디어로 — 어떤 분야든 — 파이프라인을 시험해 보시고 의견을 들려주세요. 여러분의 피드백이 다음 버전에 직접 반영됩니다. → Testing Guide | → 中文测试指南 | → 日本語テストガイド


🔥 News

  • [04/01/2026] v0.4.0Human-in-the-Loop 코파일럿 시스템 — AutoResearchClaw는 더 이상 순수 자율 시스템이 아닙니다. 새로운 HITL 시스템은 6가지 개입 모드(full-auto, gate-only, checkpoint, step-by-step, co-pilot, custom), 단계별 정책, 깊은 인간-AI 협업을 추가합니다. 포함 사항: 가설 공동 창작을 위한 아이디어 워크숍, 실험 설계 검토를 위한 베이스라인 내비게이터, 협력적 작성을 위한 논문 코라이터, SmartPause(신뢰도 기반 동적 개입), ALHF 개입 학습, 반환각 클레임 검증, 비용 예산 가드레일, 병렬 가설 탐색을 위한 파이프라인 분기, CLI 명령어(attach/status/approve/reject/guide). → 전체 HITL 가이드
  • [03/30/2026] 유연한 스킬 로딩 — AutoResearchClaw는 이제 모든 분야의 오픈소스 및 커스텀 스킬을 로딩하여 연구 경험을 더욱 향상시킬 수 있습니다. 과학적 글쓰기, 실험 설계, 화학, 생물학 등을 포괄하는 19개의 사전 로드된 스킬이 즉시 사용 가능한 참고자료로 포함되어 있으며, 커뮤니티가 기여한 A-Evolve 에이전트 진화 스킬도 포함됩니다. researchclaw skills install로 직접 로드하거나 .claude/skills/SKILL.md를 추가하세요. 스킬 라이브러리 참조.
  • [03/22/2026] v0.3.2크로스 플랫폼 지원 + 주요 안정성 개선 — ACP 호환 AI 에이전트 백엔드(Claude Code, Codex CLI, Copilot CLI, Gemini CLI, Kimi CLI) 지원 및 OpenClaw 브릿지를 통한 메시징 플랫폼(Discord, Telegram, Lark, WeChat) 지원 추가. 새로운 CLI-agent 코드 생성 백엔드가 Stage 10 및 13을 외부 CLI 에이전트에 위임하며, 예산 제어 및 타임아웃 관리를 지원. 반데이터 조작 시스템(VerifiedRegistry + 실험 진단 및 복구 루프), 100건 이상의 버그 수정, 모듈러 executor 리팩토링, --resume 자동 감지, LLM 재시도 강화, 커뮤니티 보고 수정 포함.
이전 릴리스
  • [03/18/2026] v0.3.1OpenCode Beast Mode + Community Contributions — New "Beast Mode" routes complex code generation to OpenCode with automatic complexity scoring and graceful fallback. Added Novita AI provider support, thread-safety hardening, improved LLM output parsing robustness, and 20+ bug fixes from community PRs and internal audit.
  • [03/17/2026] v0.3.0MetaClaw Integration — AutoResearchClaw now supports MetaClaw cross-run learning: pipeline failures → structured lessons → reusable skills, injected into all 23 stages. +18.3% robustness in controlled experiments. Opt-in (metaclaw_bridge.enabled: true), fully backward-compatible. See Integration Guide.
  • [03/16/2026] v0.2.0 — Three multi-agent subsystems (CodeAgent, BenchmarkAgent, FigureAgent), hardened Docker sandbox with network-policy-aware execution, 4-round paper quality audit (AI-slop detection, 7-dim review scoring, NeurIPS checklist), and 15+ bug fixes from production runs.
  • [03/15/2026] v0.1.0 — We release AutoResearchClaw: a fully autonomous 23-stage research pipeline that turns a single research idea into a conference-ready paper. No human intervention required.

⚡ 하나의 명령. 하나의 논문.

# 완전 자율 — 인간 개입 없음
pip install -e . && researchclaw setup && researchclaw init && researchclaw run --topic "Your research idea here" --auto-approve

# 코파일럿 모드 — 주요 의사결정 지점에서 AI와 협업
researchclaw run --topic "Your research idea here" --mode co-pilot

🤔 이것은 무엇인가요?

당신이 생각하면, AutoResearchClaw가 씁니다. 당신이 핵심 결정을 안내합니다.

연구 주제를 입력하면 — OpenAlex, Semantic Scholar, arXiv의 실제 문헌, 하드웨어 인식 샌드박스 실험 (GPU/MPS/CPU 자동 감지), 통계 분석, 멀티 에이전트 피어 리뷰, NeurIPS/ICML/ICLR 대상 학회 수준 LaTeX를 포함한 완전한 학술 논문을 받을 수 있습니다. 완전 자율로 실행하거나, 코파일럿 모드를 사용하여 중요한 의사결정 지점에서 AI를 안내하세요 — 연구 방향 선택, 실험 설계 검토, 논문 공동 작성. 환각된 참고문헌이 없습니다.

📄paper_draft.md완성된 학술 논문 (서론, 관련 연구, 방법론, 실험, 결과, 결론)
📐paper.tex학회 제출용 LaTeX (NeurIPS / ICLR / ICML 템플릿)
📚references.bibOpenAlex, Semantic Scholar, arXiv에서 가져온 실제 BibTeX 참고문헌 — 인라인 인용과 일치하도록 자동 정리
🔍verification_report.json4계층 인용 무결성 + 관련성 검증 (arXiv, CrossRef, DataCite, LLM)
🧪experiment runs/생성된 코드 + 샌드박스 결과 + 구조화된 JSON 메트릭
📊charts/오차 막대와 신뢰 구간이 포함된 자동 생성 조건 비교 차트
📝reviews.md방법론-증거 일관성 검사를 포함한 멀티 에이전트 피어 리뷰
🧬evolution/각 실행에서 추출된 자기 학습 교훈
📦deliverables/모든 최종 산출물을 하나의 폴더에 — Overleaf에 바로 컴파일 가능

파이프라인은 처음부터 끝까지 실행됩니다 — 완전 자율 또는 Human-in-the-Loop 협업. 실험이 실패하면 자가 복구합니다. 가설이 성립하지 않으면 방향을 전환합니다. 인용이 가짜면 삭제합니다. 당신이 조향하고 싶을 때, 파이프라인이 멈추고 경청합니다.

🌍 어디서든 실행 가능. AutoResearchClaw는 특정 플랫폼에 종속되지 않습니다. CLI로 독립 실행하거나, OpenClaw에 연결하거나, ACP 호환 AI 에이전트 —— 🤖 Claude Code, 💻 Codex CLI, 🐙 Copilot CLI, ♊ Gemini CLI, 🌙 Kimi CLI 등 —— 와 연동할 수 있습니다. OpenClaw의 메시지 브릿지 덕분에 💬 Discord, ✈️ Telegram, 🐦 Lark(飞书), 💚 WeChat 등 팀이 이미 사용 중인 플랫폼에서 연구를 시작할 수 있습니다. 주제 하나 입력하면 논문 하나 완성 — 어디서 입력하든 상관없습니다.


🚀 빠른 시작

# 1. 클론 & 설치
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw
python3 -m venv .venv && source .venv/bin/activate
pip install -e .

# 2. 설정 (대화형 — OpenCode Beast Mode 설치, Docker/LaTeX 확인)
researchclaw setup

# 3. 구성
researchclaw init          # 대화형: LLM 제공자 선택, config.arc.yaml 생성
# 또는 수동: cp config.researchclaw.example.yaml config.arc.yaml

# 4. 실행
export OPENAI_API_KEY="sk-..."
researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve

출력 → artifacts/rc-YYYYMMDD-HHMMSS-<hash>/deliverables/ — 컴파일 가능한 LaTeX, BibTeX, 실험 코드, 차트.

📝 최소 필수 설정
project:
  name: "my-research"

research:
  topic: "Your research topic here"

llm:
  base_url: "https://api.openai.com/v1"
  api_key_env: "OPENAI_API_KEY"
  primary_model: "gpt-4o"
  fallback_models: ["gpt-4o-mini"]

experiment:
  mode: "sandbox"
  sandbox:
    python_path: ".venv/bin/python"

🧠 차별화 요소

기능 작동 방식
🧑‍✈️ 코파일럿 모드 6가지 개입 모드 — 완전 자율부터 단계별까지. 중요한 결정(가설, 베이스라인, 논문 작성)에서 AI를 안내하거나 자유롭게 실행. SmartPause가 인간의 입력이 도움이 될 때를 자동 감지.
🔄 PIVOT / REFINE 루프 15단계에서 자율적으로 결정: PROCEED, REFINE (매개변수 조정), 또는 PIVOT (새 방향). 산출물 자동 버전 관리.
🤖 멀티 에이전트 토론 가설 생성, 결과 분석, 피어 리뷰 각각에서 구조화된 다관점 토론을 수행.
🧬 자기 학습 각 실행에서 교훈 추출 (의사결정 근거, 런타임 경고, 메트릭 이상), 30일 시간 감쇠. 향후 실행이 과거의 실수에서 학습.
📚 지식 기반 각 실행에서 6개 카테고리 (결정, 실험, 발견, 문헌, 질문, 리뷰)에 걸친 구조화된 지식 기반 구축.
🛡️ 센티넬 감시견 백그라운드 품질 모니터: NaN/Inf 감지, 논문-증거 일관성, 인용 관련성 점수, 날조 방지 가드.
🔍 클레임 검증 인라인 팩트 체킹: AI 생성 텍스트에서 주장을 추출하고 수집된 문헌과 교차 검증. 근거 없는 인용과 날조된 숫자를 플래그.
🌿 분기 탐색 파이프라인을 분기하여 여러 연구 방향을 동시에 탐색하고, 결과를 나란히 비교하고, 최적의 경로를 병합.

🦞 OpenClaw 통합

AutoResearchClaw는 OpenClaw 호환 서비스입니다. OpenClaw에 설치하고 단일 메시지로 자율 연구를 시작하거나 — CLI, Claude Code 또는 기타 AI 코딩 어시스턴트를 통해 독립적으로 사용하세요.

🚀 OpenClaw와 함께 사용 (권장)

OpenClaw을 이미 AI 어시스턴트로 사용하고 있다면:

1️⃣  GitHub 저장소 URL을 OpenClaw에 공유
2️⃣  OpenClaw이 자동으로 RESEARCHCLAW_AGENTS.md를 읽고 → 파이프라인을 이해
3️⃣  "Research [주제]"라고 말하기
4️⃣  완료 — OpenClaw이 클론, 설치, 설정, 실행, 결과 반환까지 자동 처리

그게 전부입니다. OpenClaw이 git clone, pip install, 설정 구성, 파이프라인 실행을 자동으로 처리합니다. 채팅만 하면 됩니다.

💡 내부 동작 과정
  1. OpenClaw이 RESEARCHCLAW_AGENTS.md를 읽고 → 연구 오케스트레이터 역할을 학습
  2. OpenClaw이 README.md를 읽고 → 설치 및 파이프라인 구조를 이해
  3. OpenClaw이 config.researchclaw.example.yaml을 → config.yaml로 복사
  4. LLM API 키를 요청 (또는 환경 변수를 사용)
  5. pip install -e . + researchclaw run --topic "..." --auto-approve 실행
  6. 논문, LaTeX, 실험, 인용을 반환

🔌 OpenClaw 브릿지 (고급)

더 깊은 통합을 위해 AutoResearchClaw는 6가지 선택적 기능을 갖춘 브릿지 어댑터 시스템을 포함합니다:

# config.arc.yaml
openclaw_bridge:
  use_cron: true              # ⏰ 예약된 연구 실행
  use_message: true           # 💬 진행 상황 알림 (Discord/Slack/Telegram)
  use_memory: true            # 🧠 세션 간 지식 영속성
  use_sessions_spawn: true    # 🔀 동시 단계를 위한 병렬 서브세션 생성
  use_web_fetch: true         # 🌐 문헌 검토 중 실시간 웹 검색
  use_browser: false          # 🖥️ 브라우저 기반 논문 수집

각 플래그는 타입이 지정된 어댑터 프로토콜을 활성화합니다. OpenClaw이 이러한 기능을 제공하면 어댑터가 코드 변경 없이 이를 소비합니다. 전체 세부 사항은 integration-guide.md를 참조하세요.

ACP (Agent Client Protocol)

AutoResearchClaw는 모든 ACP 호환 코딩 에이전트를 LLM 백엔드로 사용할 수 있습니다 — API 키가 필요 없습니다. 에이전트는 acpx를 통해 통신하며, 전체 23개 파이프라인 단계에 걸쳐 단일 영구 세션을 유지합니다.

에이전트 명령어 비고
Claude Code claude Anthropic
Codex CLI codex OpenAI
Copilot CLI gh GitHub
Gemini CLI gemini Google
OpenCode opencode SST
Kimi CLI kimi Moonshot
# config.yaml — ACP 예시
llm:
  provider: "acp"
  acp:
    agent: "claude"   # 모든 ACP 호환 에이전트 CLI 명령어
    cwd: "."          # 에이전트의 작업 디렉토리
  # base_url이나 api_key 불필요 — 에이전트가 자체 인증을 처리합니다.
# 바로 실행 — 에이전트가 자체 자격 증명 사용
researchclaw run --config config.yaml --topic "Your research idea" --auto-approve

🛠️ 기타 실행 방법

방법 사용법
독립형 CLI researchclaw run --topic "..." --auto-approve (자율) 또는 --mode co-pilot (협력)
Python API from researchclaw.pipeline import Runner; Runner(config).run()
Claude Code RESEARCHCLAW_CLAUDE.md를 읽음 — *"Run research on [주제]"*라고 말하기
Copilot CLI researchclaw run --topic "..."llm.acp.agent: "gh" 사용
OpenCode .claude/skills/를 읽음 — 동일한 자연어 인터페이스
기타 AI CLI RESEARCHCLAW_AGENTS.md를 컨텍스트로 제공 → 에이전트가 자동 부트스트랩

🔬 파이프라인: 23단계, 8페이즈

페이즈 A: 연구 범위 설정            페이즈 E: 실험 실행
  1. TOPIC_INIT                      12. EXPERIMENT_RUN
  2. PROBLEM_DECOMPOSE               13. ITERATIVE_REFINE  ← 자가 복구

페이즈 B: 문헌 탐색                페이즈 F: 분석 및 의사결정
  3. SEARCH_STRATEGY                 14. RESULT_ANALYSIS    ← 멀티 에이전트
  4. LITERATURE_COLLECT  ← 실제 API  15. RESEARCH_DECISION  ← PIVOT/REFINE
  5. LITERATURE_SCREEN   [게이트]
  6. KNOWLEDGE_EXTRACT               페이즈 G: 논문 작성
                                     16. PAPER_OUTLINE
페이즈 C: 지식 종합                   17. PAPER_DRAFT
  7. SYNTHESIS                       18. PEER_REVIEW        ← 증거 확인
  8. HYPOTHESIS_GEN    ← 토론        19. PAPER_REVISION

페이즈 D: 실험 설계               페이즈 H: 최종화
  9. EXPERIMENT_DESIGN   [게이트]      20. QUALITY_GATE      [게이트]
 10. CODE_GENERATION                 21. KNOWLEDGE_ARCHIVE
 11. RESOURCE_PLANNING               22. EXPORT_PUBLISH     ← LaTeX
                                     23. CITATION_VERIFY    ← 관련성 확인

게이트 단계 (5, 9, 20)는 사람의 승인을 기다리거나 --auto-approve로 자동 승인합니다. 거부 시 파이프라인이 롤백됩니다.

코파일럿 모드 (--mode co-pilot): 7-8단계(아이디어 워크숍), 9단계(베이스라인 내비게이터), 16-17단계(논문 코라이터)에서 깊은 인간-AI 협업. 나머지 단계는 SmartPause 모니터링과 함께 자동 실행.

의사결정 루프: 15단계에서 REFINE (→ 13단계) 또는 PIVOT (→ 8단계)을 트리거할 수 있으며, 산출물 버전 관리가 자동으로 이루어집니다.

📋 각 페이즈별 상세 설명
페이즈 수행 내용
A: 범위 설정 LLM이 주제를 연구 질문이 포함된 구조화된 문제 트리로 분해
A+: 하드웨어 GPU 자동 감지 (NVIDIA CUDA / Apple MPS / CPU 전용), 로컬 하드웨어가 제한적인 경우 경고, 이에 맞게 코드 생성 적응
B: 문헌 다중 소스 검색 (OpenAlex → Semantic Scholar → arXiv)으로 실제 논문 수집, 관련성별 선별, 지식 카드 추출
C: 종합 연구 결과 클러스터링, 연구 갭 식별, 멀티 에이전트 토론을 통한 검증 가능한 가설 생성
D: 설계 실험 계획 설계, 하드웨어 인식 실행 가능 Python 생성 (GPU 등급 → 패키지 선택), 리소스 요구 사항 추정
E: 실행 샌드박스에서 실험 실행, NaN/Inf 및 런타임 버그 감지, LLM을 통한 표적화된 코드 자가 복구
F: 분석 결과에 대한 멀티 에이전트 분석; 근거가 포함된 자율 PROCEED / REFINE / PIVOT 결정
G: 작성 개요 → 섹션별 작성 (5,000-6,500단어) → 피어 리뷰 (방법론-증거 일관성 포함) → 길이 제한 적용 수정
H: 최종화 품질 게이트, 지식 아카이빙, 학회 템플릿 포함 LaTeX 내보내기, 인용 무결성 + 관련성 검증

✨ 주요 기능

기능 설명
📚 다중 소스 문헌 OpenAlex, Semantic Scholar, arXiv에서 실제 논문 — 쿼리 확장, 중복 제거, 3상태 서킷 브레이커와 단계적 성능 저하
🔍 4계층 인용 검증 arXiv ID 확인 → CrossRef/DataCite DOI → Semantic Scholar 제목 매칭 → LLM 관련성 점수. 환각된 참고문헌 자동 삭제.
🖥️ 하드웨어 인식 실행 GPU (NVIDIA CUDA / Apple MPS / CPU 전용) 자동 감지, 이에 맞게 코드 생성, import, 실험 규모 적응
🦾 OpenCode Beast Mode 복잡한 실험을 OpenCode로 자동 라우팅 — 커스텀 아키텍처, 학습 루프, 절제 연구가 포함된 다중 파일 프로젝트 생성. researchclaw setup으로 설치.
🧪 샌드박스 실험 AST 검증 코드, 불변 하네스, NaN/Inf 즉시 실패, 자가 복구, 반복적 개선 (최대 10라운드), 부분 결과 캡처
📝 학회 수준 작성 NeurIPS/ICML/ICLR 템플릿, 섹션별 작성 (5,000-6,500단어), 날조 방지 가드, 수정 길이 제한, 면책 조항 방지 적용
📐 템플릿 전환 neurips_2025, iclr_2026, icml_2026 — Markdown → LaTeX (수학, 표, 그림, 교차 참조, \cite{} 포함)
🛡️ 날조 방지 VerifiedRegistry가 논문에서 실험 데이터의 진실성을 강제. 실패한 실험을 자동 진단하고 작성 전에 복구. 검증되지 않은 숫자는 제거.
🚦 품질 게이트 3개의 Human-in-the-loop 게이트 (단계 5, 9, 20), 롤백 지원. --auto-approve로 건너뛰기.
🧑‍✈️ HITL 코파일럿 단계별 정책이 있는 6가지 개입 모드. 아이디어 워크숍, 베이스라인 내비게이터, 논문 코라이터로 깊은 협업. SmartPause, 비용 가드레일, 에스컬레이션 정책, 개입 학습으로 프로덕션 안전성 확보. CLI/WebSocket/MCP 어댑터.
💰 비용 가드레일 구성 가능한 임계값 알림(50%/80%/100%)이 포함된 예산 모니터링. 비용이 예산을 초과하면 파이프라인 자동 일시 정지.
🔐 재현성 모든 단계 산출물에 대한 SHA256 체크섬. 검증을 위한 불변 매니페스트. 버전 관리된 스냅샷을 사용한 다단계 실행 취소.

🧑‍✈️ Human-in-the-Loop 코파일럿

AutoResearchClaw v0.4.0은 완전한 Human-in-the-Loop (HITL) 시스템을 도입하여 파이프라인을 순수 자율 시스템에서 인간-AI 협력 연구 엔진으로 전환합니다. 참여 수준을 선택하세요:

개입 모드

모드 명령어 기능
Full Auto --auto-approve 기존 동작 — 인간 개입 없음
Gate Only --mode gate-only 3개 게이트 단계(5, 9, 20)에서 승인을 위해 일시 정지
Checkpoint --mode checkpoint 각 페이즈 경계에서 일시 정지 (8개 체크포인트)
Co-Pilot --mode co-pilot 중요 단계에서 깊은 협업, 나머지는 자동
Step-by-Step --mode step-by-step 모든 단계 후 일시 정지 — 파이프라인 학습
Express --mode express 빠른 검토 — 가장 중요한 3개 게이트만

코파일럿 워크플로우

You: researchclaw run --topic "양자 노이즈를 신경망 정규화로 활용" --mode co-pilot

파이프라인이 1-7단계를 자동 실행...

  ┌─────────────────────────────────────────────────────────────┐
  │  HITL | Stage 08: HYPOTHESIS_GEN                            │
  │  Post-stage review                                          │
  │                                                             │
  │  Hypotheses mentioned: 3                                    │
  │  Novelty score: 0.72 (moderate)                             │
  │                                                             │
  │  [a] Approve  [r] Reject  [e] Edit  [c] Collaborate         │
  │  [i] Inject guidance  [v] View output  [q] Abort            │
  └─────────────────────────────────────────────────────────────┘

You: c  (협업 채팅 시작)
You: 가설 3이 흥미롭지만 Dropout/Label Smoothing을 베이스라인으로 추가해야 합니다
AI:  업데이트 완료 — Dropout, Label Smoothing, MixUp, CutMix을 베이스라인으로 추가했습니다...
You: approve

파이프라인이 수정된 가설로 계속 진행...

CLI 명령어

# HITL 모드로 시작
researchclaw run --topic "..." --mode co-pilot

# 일시 정지된 파이프라인에 연결 (다른 터미널에서)
researchclaw attach artifacts/rc-2026-xxx

# 파이프라인 및 HITL 상태 확인
researchclaw status artifacts/rc-2026-xxx

# 다른 터미널이나 스크립트에서 승인/거부
researchclaw approve artifacts/rc-2026-xxx --message "LGTM"
researchclaw reject artifacts/rc-2026-xxx --reason "핵심 베이스라인 누락"

# 단계에 가이던스 주입 (실행 전에도 가능)
researchclaw guide artifacts/rc-2026-xxx --stage 9 --message "ResNet-50을 주요 베이스라인으로 사용"

주요 기능

기능 설명
아이디어 워크숍 가설을 협력적으로 브레인스토밍, 평가, 정제 (7-8단계)
베이스라인 내비게이터 AI가 베이스라인 제안 + 인간이 추가/제거 + 재현성 체크리스트 (9단계)
논문 코라이터 인간 편집과 AI 다듬기를 통한 섹션별 작성 (16-19단계)
SmartPause 신뢰도 기반 동적 일시 정지 — 인간의 입력이 도움이 될 때를 자동 감지
클레임 검증 수집된 문헌과 대조한 인라인 팩트 체킹 — 근거 없는 주장을 플래그
비용 가드레일 50%/80%/100% 임계값 알림이 포함된 예산 모니터링
개입 학습 ALHF — 검토 패턴에서 학습하여 향후 일시 정지 결정을 최적화
분기 탐색 파이프라인을 분기하여 여러 가설을 탐색, 비교, 최적 경로 병합
에스컬레이션 정책 계층형 알림 (터미널 → Slack → 이메일 → 자동 중지) 무인 시
3가지 어댑터 CLI (터미널), WebSocket (웹 대시보드), MCP (외부 에이전트)

설정

# config.arc.yaml
hitl:
  enabled: true
  mode: co-pilot                     # full-auto | gate-only | checkpoint | co-pilot | custom
  cost_budget_usd: 50.0              # 비용이 예산을 초과하면 일시 정지 (0 = 제한 없음)

  notifications:
    on_pause: true
    on_quality_drop: true
    channels: ["terminal"]            # terminal | slack | webhook

  timeouts:
    default_human_timeout_sec: 86400  # 24시간 기본 대기
    auto_proceed_on_timeout: false

  collaboration:
    max_chat_turns: 50
    save_chat_history: true

  # 단계별 커스텀 정책 (선택, 'custom' 모드용)
  stage_policies:
    8: { require_approval: true, enable_collaboration: true }
    9: { require_approval: true, allow_edit_output: true }

하위 호환성

  • 기본값: 꺼짐. hitl.enabled: true 또는 --mode 없이는 파이프라인이 이전과 정확히 동일하게 동작합니다.
  • --auto-approve는 그대로 작동. HITL 모드를 오버라이드합니다.
  • 기존 2,699개 테스트 모두 통과 (HITL 코드 포함).

🧠 MetaClaw 통합

AutoResearchClaw + MetaClaw = 모든 실행에서 학습하는 파이프라인.

MetaClaw는 AutoResearchClaw에 교차 실행 지식 전이를 추가합니다. 활성화되면 파이프라인이 실패와 경고에서 자동으로 교훈을 추출하고, 이를 재사용 가능한 스킬로 변환하여 후속 실행의 전체 23단계에 주입합니다 — 같은 실수를 다시 반복하지 않습니다.

작동 방식

Run N executes → failures/warnings captured as Lessons
                      ↓
          MetaClaw Lesson → Skill conversion
                      ↓
          arc-* Skill files stored in ~/.metaclaw/skills/
                      ↓
Run N+1 → build_overlay() injects skills into every LLM prompt
                      ↓
          LLM avoids known pitfalls → higher quality, fewer retries

빠른 설정

# 1. MetaClaw 설치 (미설치 시)
pip install metaclaw

# 2. 설정에서 활성화
# config.arc.yaml
metaclaw_bridge:
  enabled: true
  proxy_url: "http://localhost:30000"        # MetaClaw 프록시 (선택)
  skills_dir: "~/.metaclaw/skills"          # 스킬 저장 위치
  fallback_url: "https://api.openai.com/v1" # 직접 LLM 폴백
  fallback_api_key: ""                      # 폴백 URL의 API 키
  lesson_to_skill:
    enabled: true
    min_severity: "warning"                 # warning + error 변환
    max_skills_per_run: 3
# 3. 평소대로 실행 — MetaClaw가 투명하게 작동
researchclaw run --config config.arc.yaml --topic "Your idea" --auto-approve

각 실행 후 ~/.metaclaw/skills/arc-*/SKILL.md를 확인하여 파이프라인이 학습한 스킬을 확인하세요.

실험 결과

대조 A/B 실험 (동일 주제, 동일 LLM, 동일 설정):

메트릭 기준선 MetaClaw 사용 시 개선
단계 재시도율 10.5% 7.9% -24.8%
Refine 사이클 수 2.0 1.2 -40.0%
파이프라인 단계 완료율 18/19 19/19 +5.3%
전체 견고성 점수 (종합) 0.714 0.845 +18.3%

종합 견고성 점수는 단계 완료율 (40%), 재시도 감소 (30%), Refine 사이클 효율성 (30%)의 가중 평균입니다.

하위 호환성

  • 기본값: 꺼짐. metaclaw_bridge가 없거나 enabled: false이면 파이프라인은 이전과 정확히 동일하게 동작합니다.
  • 새로운 종속성 없음. MetaClaw는 선택 사항입니다 — 핵심 파이프라인은 MetaClaw 없이도 동작합니다.
  • 기존 2,699개 테스트 모두 통과 (통합 코드 포함).

🧩 스킬 라이브러리

AutoResearchClaw는 이제 연구 경험을 더욱 향상시키기 위해 오픈소스 및 커스텀 스킬 로딩을 지원합니다. 과학적 글쓰기, 문헌 검색, 화학, 생물학 등을 포괄하는 19개의 사전 로드된 내장 스킬도 즉시 사용 가능한 참고자료로 제공되어 높은 유연성을 제공합니다. frontmatter에 enabled: false를 추가하여 스킬을 비활성화할 수 있습니다.

내장 스킬 예시:

카테고리 스킬 설명
작성 scientific-writing IMRAD 구조, 인용 서식, 보고 가이드라인
도메인 chemistry-rdkit 분자 분석, SMILES, 핑거프린트, 신약 발견
실험 literature-search 체계적 리뷰, PRISMA 방법론

researchclaw skills list로 19개 전체 스킬을 확인하세요.

직접 스킬 로딩

# 옵션 1: 스킬 설치 (프로젝트 간 영구 유지)
researchclaw skills install /path/to/my-skill/

# 옵션 2: 프로젝트에 SKILL.md 추가
mkdir -p .claude/skills/my-custom-skill
# YAML frontmatter(name, description, trigger-keywords, applicable-stages)가 포함된 SKILL.md를 생성

# 옵션 3: config.arc.yaml에서 공유 스킬 디렉토리 설정
# skills:
#   custom_dirs:
#     - /path/to/team-shared-skills

스킬 사용

스킬은 자동으로 로드되어 LLM 프롬프트에 주입됩니다 — 수동 활성화가 필요 없습니다. CLI로 확인:

researchclaw skills list               # 소스와 함께 로드된 모든 스킬 표시
researchclaw skills validate ./my-skill # SKILL.md 형식 확인

커뮤니티 스킬 찾아보기: K-Dense-AI/claude-scientific-skills (여러 분야에 걸친 150개 이상의 과학 스킬).


⚙️ 설정 참고서

전체 설정 참고서 펼치기
# === 프로젝트 ===
project:
  name: "my-research"              # 프로젝트 식별자
  mode: "docs-first"               # docs-first | semi-auto | full-auto

# === 연구 ===
research:
  topic: "..."                     # 연구 주제 (필수)
  domains: ["ml", "nlp"]           # 문헌 검색용 연구 분야
  daily_paper_count: 8             # 검색 쿼리당 목표 논문 수
  quality_threshold: 4.0           # 논문 최소 품질 점수

# === 런타임 ===
runtime:
  timezone: "America/New_York"     # 타임스탬프용
  max_parallel_tasks: 3            # 동시 실험 제한
  approval_timeout_hours: 12       # 게이트 단계 타임아웃
  retry_limit: 2                   # 단계 실패 시 재시도 횟수

# === LLM ===
llm:
  provider: "openai-compatible"    # openai | openrouter | deepseek | minimax | acp | openai-compatible
  base_url: "https://..."          # API 엔드포인트 (openai-compatible 필수)
  api_key_env: "OPENAI_API_KEY"    # API 키용 환경 변수 (openai-compatible 필수)
  api_key: ""                      # 또는 키를 직접 입력
  primary_model: "gpt-4o"          # 기본 모델
  fallback_models: ["gpt-4o-mini"] # 폴백 체인
  s2_api_key: ""                   # Semantic Scholar API 키 (선택, 더 높은 속도 제한)
  acp:                             # provider: "acp" 인 경우에만 사용
    agent: "claude"                # ACP 에이전트 CLI 명령어 (claude, codex, gemini 등)
    cwd: "."                       # 에이전트의 작업 디렉토리

# === 실험 ===
experiment:
  mode: "sandbox"                  # simulated | sandbox | docker | ssh_remote
  time_budget_sec: 300             # 실행당 최대 실행 시간 (기본값: 300초)
  max_iterations: 10               # 최대 최적화 반복 횟수
  metric_key: "val_loss"           # 기본 메트릭 이름
  metric_direction: "minimize"     # minimize | maximize
  sandbox:
    python_path: ".venv/bin/python"
    gpu_required: false
    allowed_imports: [math, random, json, csv, numpy, torch, sklearn]
    max_memory_mb: 4096
  docker:
    image: "researchclaw/experiment:latest"
    network_policy: "setup_only"   # none | setup_only | pip_only | full
    gpu_enabled: true
    memory_limit_mb: 8192
    auto_install_deps: true        # import 자동 감지 → requirements.txt
  ssh_remote:
    host: ""                       # GPU 서버 호스트명
    gpu_ids: []                    # 사용 가능한 GPU ID
    remote_workdir: "/tmp/researchclaw_experiments"
  opencode:                          # OpenCode Beast Mode (`researchclaw setup`으로 자동 설치)
    enabled: true                    # 마스터 스위치 (기본값: true)
    auto: true                       # 확인 없이 자동 트리거 (기본값: true)
    complexity_threshold: 0.2        # 0.0-1.0 — 높을수록 복잡한 실험에서만 트리거
    model: ""                        # 모델 오버라이드 (비어있으면 llm.primary_model 사용)
    timeout_sec: 600                 # OpenCode 생성 최대 초
    max_retries: 1                   # 실패 시 재시도 횟수
    workspace_cleanup: true          # 수집 후 임시 작업 공간 제거

# === 내보내기 ===
export:
  target_conference: "neurips_2025"  # neurips_2025 | iclr_2026 | icml_2026
  authors: "Anonymous"
  bib_file: "references"

# === 프롬프트 ===
prompts:
  custom_file: ""                  # 사용자 정의 프롬프트 YAML 경로 (비어 있으면 기본값)

# === HITL 코파일럿 (v0.4.0 신규) ===
hitl:
  enabled: false                     # true로 설정하여 HITL 활성화
  mode: co-pilot                     # full-auto | gate-only | checkpoint | step-by-step | co-pilot | custom
  cost_budget_usd: 0.0              # USD 비용 한도 (0 = 제한 없음)
  notifications:
    on_pause: true                   # 파이프라인 일시 정지 시 알림
    on_quality_drop: true            # 품질 문제 시 알림
    channels: ["terminal"]           # terminal | slack | webhook
  timeouts:
    default_human_timeout_sec: 86400 # 인간 입력 최대 24시간 대기
    auto_proceed_on_timeout: false   # true이면 타임아웃 시 자동 승인
  collaboration:
    max_chat_turns: 50               # 협업 세션당 최대 턴 수
    save_chat_history: true          # 채팅 로그 영구 저장
  stage_policies: {}                 # 단계별 오버라이드 ('custom' 모드용)

# === 보안 ===
security:
  hitl_required_stages: [5, 9, 20] # 사람의 승인이 필요한 단계
  allow_publish_without_approval: false
  redact_sensitive_logs: true

# === 지식 기반 ===
knowledge_base:
  backend: "markdown"              # markdown | obsidian
  root: "docs/kb"

# === 알림 ===
notifications:
  channel: "console"               # console | discord | slack
  target: ""

# === MetaClaw Bridge (선택) ===
metaclaw_bridge:
  enabled: false                   # true로 설정하여 교차 실행 학습 활성화
  proxy_url: "http://localhost:30000"  # MetaClaw 프록시 URL
  skills_dir: "~/.metaclaw/skills" # arc-* 스킬 저장 위치
  fallback_url: ""                 # 프록시 장애 시 직접 LLM 폴백
  fallback_api_key: ""             # 폴백 엔드포인트의 API 키
  lesson_to_skill:
    enabled: true                  # 교훈을 스킬로 자동 변환
    min_severity: "warning"        # 변환할 최소 심각도
    max_skills_per_run: 3          # 파이프라인 실행당 최대 새 스킬 수
  prm:                             # Process Reward Model 품질 게이트 (선택)
    enabled: false                 # LLM-as-judge를 사용하여 단계 출력 점수 매기기
    model: "gpt-5.4"              # PRM 심사 모델
    votes: 3                       # 다수결 투표 수
    gate_stages: [5, 9, 15, 20]   # PRM 게이트를 적용할 단계

# === OpenClaw 브릿지 ===
openclaw_bridge:
  use_cron: false                  # 예약된 연구 실행
  use_message: false               # 진행 상황 알림
  use_memory: false                # 세션 간 지식 영속성
  use_sessions_spawn: false        # 병렬 서브세션 생성
  use_web_fetch: false             # 실시간 웹 검색
  use_browser: false               # 브라우저 기반 논문 수집

🙏 감사의 말

다음 프로젝트에서 영감을 받았습니다:

  • 🔬 AI Scientist (Sakana AI) — 자동화 연구의 선구자
  • 🧠 AutoResearch (Andrej Karpathy) — 엔드투엔드 연구 자동화
  • 🌐 FARS (Analemma) — 완전 자동 연구 시스템

📄 라이선스

MIT — 자세한 내용은 LICENSE를 참조하세요.


📌 인용

AutoResearchClaw가 유용했다면, 아래를 인용해 주세요:

@misc{liu2026autoresearchclaw,
  author       = {Liu, Jiaqi and Xia, Peng and Han, Siwei and Qiu, Shi and Zhang, Letian and Chen, Guiming and Tu, Haoqin and Yang, Xinyu and Zhou, Jiawei and Zhu, Hongtu and Li, Yun and Zhang, Jiaheng and Zhou, Yuyin and Zheng, Zeyu and Xie, Cihang and Ding, Mingyu and Yao, Huaxiu},
  title        = {AutoResearchClaw: Fully Autonomous Research from Idea to Paper},
  year         = {2026},
  organization = {GitHub},
  url          = {https://github.com/aiming-lab/AutoResearchClaw},
}

Built with 🦞 by the AutoResearchClaw team