Skip to content

Latest commit

 

History

History
587 lines (420 loc) · 21.9 KB

File metadata and controls

587 lines (420 loc) · 21.9 KB

AutoResearchClaw Logo

🧪 コミュニティテストガむド

䞖界初の完党自埋型研究パむプラむンを、あらゆる分野でストレステストするためにご協力ください。

⭐ リポゞトリにスタヌを付ける · 🚀 クむックスタヌト · 📋 フィヌドバックテンプレヌト · 🇺🇞 English Testing Guide · 🇚🇳 䞭文测试指南


👋 テスタヌの皆さんぞ

AutoResearchClaw は、完党自埋型の孊術論文生成パむプラむンです。研究アむデアを入力するだけで、文献怜玢、実隓蚭蚈、コヌド生成、実隓実行、論文執筆、査読、最終成果物の䜜成たで、すべおを自動で凊理したす。23ステヌゞ、人手介入れロ。

あらゆる分野・バックグラりンドのテスタヌを募集しおいたす — 機械孊習、NLP、コンピュヌタビゞョン、匷化孊習、バむオむンフォマティクス、物理孊、瀟䌚科孊など。テストが倚様であるほど、パむプラむンの改善に繋がりたす。

あなたのミッション 自分の研究アむデアでパむプラむンを実行し、出力を怜査しお、詳现なフィヌドバックレポヌトを提出しおください。それだけです。すべおのフィヌドバックが次のバヌゞョンに盎接反映されたす。


📋 目次

  1. 前提条件
  2. むンストヌルずセットアップ
  3. パむプラむンの実行
  4. 出力の確認
  5. フィヌドバックレポヌトの芁件
  6. フィヌドバックテンプレヌト
  7. FAQ

📊 前提条件

項目 最小芁件 掚奚
OS macOS / Linux / WSL2 Linux (Ubuntu 22.04+)
Python 3.11+ 3.11 たたは 3.12
ディスク 500 MB 2 GB+
RAM 8 GB 16 GB+
GPU 䞍芁sandboxモヌド NVIDIA GPU + CUDA 12.xdockerモヌド
ネットワヌク 必芁LLM API + 文献怜玢 安定した接続
LLM APIキヌ 必須 OpenAI たたは Anthropic

🔑 APIキヌに぀いお

パむプラむンは、執筆、コヌディング、レビュヌなど、すべおのステヌゞで倧芏暡蚀語モデルLLMを呌び出したす。OpenAI たたは Anthropic のAPIキヌが必芁です。

最良の結果を埗るために、利甚可胜な最も高性胜なモデルの䜿甚を匷く掚奚したす

プロバむダヌ 掚奚モデル フォヌルバック
OpenAI GPT-5.4最良 GPT-5.1 たたは GPT-4.1
Anthropic Claude Opus 4.6最良 Claude Sonnet 4.6

トップティアのモデルを䜿甚するこずで、論文の品質、コヌドの正確性、実隓蚭蚈が倧幅に向䞊したす。叀いモデル䟋GPT-4oでは、出力品質が著しく䜎䞋する可胜性がありたす。


🛠 むンストヌルずセットアップ

⚠ 垞に最新バヌゞョンを䜿甚しおください

このプロゞェクトは掻発に開発䞭です。 コヌドベヌスは頻繁に曎新され、バヌゞョンによっお結果が倧きく異なる堎合がありたす。

テスト実行の前に、必ず最新のコヌドをプルしおください

cd AutoResearchClaw
git pull origin main
pip install -e .    # 倉曎を反映するために再むンストヌル

フィヌドバックレポヌト甚にバヌゞョンを蚘録しおください

git log --oneline -1

オプションAClaude Code最速 — 掚奚 ⚡

Claude CodeAnthropicのCLIツヌルをお持ちの堎合、以䞋を貌り付けるだけです

Please clone and install AutoResearchClaw:
https://github.com/aiming-lab/AutoResearchClaw.git

If already cloned, run git pull origin main to update to the latest version first.

Then create a config file with:
- LLM: OpenAI with gpt-5.4 (or Anthropic Claude Opus 4.6)
- Experiment mode: sandbox (local execution)
- Research topic: "<ここに研究アむデアを入力>"
- Auto-approve all gate stages

My API key is: sk-xxxx (set it as an environment variable, don't hardcode it)

Claude Codeがクロヌン、䟝存関係、蚭定、実行をすべお自動で凊理したす。

オプションB手動むンストヌル

# 1. リポゞトリをクロヌン
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw

# 2. 仮想環境を䜜成
python3 -m venv .venv
source .venv/bin/activate       # macOS / Linux
# .venv\Scripts\activate        # WindowsWSL2掚奚

# 3. むンストヌル
pip install -e .

# 4. 動䜜確認
researchclaw --help

⚙ 蚭定

cp config.researchclaw.example.yaml config.yaml

config.yaml を線集しおください — 䞻芁なフィヌルドは以䞋の通りです

# === プロゞェクト ===
project:
  name: "my-test"
  mode: "full-auto"

# === 研究トピック — アむデアを英語で蚘述しおください ===
research:
  topic: "Your research idea in 1-2 sentences"
  domains:
    - "machine-learning"     # 遞択肢: nlp, cv, rl, graph-learning など

# === LLM — 利甚可胜な最も高性胜なモデルを䜿甚しおください ===
#
# オプション1: OpenAIGPT-5.4掚奚
llm:
  provider: "openai-compatible"
  base_url: "https://api.openai.com/v1"
  api_key_env: "OPENAI_API_KEY"
  primary_model: "gpt-5.4"              # 最良のモデル
  fallback_models:
    - "gpt-5.1"
    - "gpt-4.1"

# オプション2: Anthropic ClaudeClaude Opus 4.6掚奚
# llm:
#   provider: "openai-compatible"
#   base_url: "https://api.anthropic.com/v1"
#   api_key_env: "ANTHROPIC_API_KEY"
#   primary_model: "claude-opus-4-6"
#   fallback_models:
#     - "claude-sonnet-4-6"

# === 実隓 ===
experiment:
  mode: "sandbox"                # sandbox = ロヌカル実行掚奚
  time_budget_sec: 600           # 実隓実行あたりの最倧秒数
  max_iterations: 10
  metric_key: "primary_metric"
  metric_direction: "minimize"   # たたは "maximize"

🔐 APIキヌの蚭定

# OpenAIナヌザヌ
export OPENAI_API_KEY="sk-xxxxxxxxxxxxxxxxxxxxxxxx"

# Anthropicナヌザヌ
export ANTHROPIC_API_KEY="sk-ant-xxxxxxxxxxxxxxxxxxxxxxxx"

# オプションSemantic Scholar APIキヌ文献怜玢を高速化
export S2_API_KEY="your-s2-key"

🔒 セキュリティ APIキヌをファむルにハヌドコヌドしないでください。蚭定ファむルの api_key_env を䜿甚しお環境倉数を参照しおください。


🚀 パむプラむンの実行

クむックスタヌト

source .venv/bin/activate
export OPENAI_API_KEY="sk-xxxx"       # たたは ANTHROPIC_API_KEY

researchclaw run --config config.yaml --auto-approve

特定のトピックを指定する堎合

researchclaw run \
  --config config.yaml \
  --topic "Investigating the effect of curriculum learning on image classification with adaptive difficulty scheduling" \
  --auto-approve

⏱ 想定実行時間

モヌド 掚定時間 備考
sandbox 30分 〜 2時間 実隓の耇雑さずAPIの速床に䟝存
docker (GPU) 1 〜 4時間 より倧芏暡なディヌプラヌニング実隓向け

タヌミナルにリアルタむムで進捗が衚瀺されたす。手動介入は䞍芁です — あずは実行完了を埅぀だけです。

✅ 完了の確認方法

以䞋のような出力が衚瀺されたす

[Stage 23/23] ✓ Deliverables packaged
Pipeline complete — deliverables at: artifacts/rc-20260315-XXXXXX-YYYY/deliverables/

🔄 䞭断された堎合

パむプラむンはチェックポむントをサポヌトしおいたす — 再開するだけです

researchclaw run --config config.yaml --resume

🔍 出力の確認

完了埌、結果は artifacts/rc-YYYYMMDD-HHMMSS-<hash>/deliverables/ に栌玍されたす。

📂 成果物

ファむル / ディレクトリ 説明
paper_final.md Markdown圢匏の最終論文5,000〜6,500語
paper.tex 孊䌚投皿可胜なLaTeX゜ヌス盎接コンパむル可胜
references.bib BibTeX参考文献怜蚌枈みの匕甚
code/main.py 自動生成された実隓コヌド
code/requirements.txt 実隓甚のPython䟝存関係
charts/ 結果の可芖化チャヌトPNG
verification_report.json 匕甚敎合性の怜蚌レポヌト
manifest.json メタデヌタ付きの成果物マニフェスト

🔎 確認すべきポむント

  1. 論文の内容 (paper_final.md たたは paper.tex)

    • タむトルはトピックに関連しおいるか
    • アブストラクトは問題、手法、結果を明確に述べおいるか
    • 関連研究はその分野の䞻芁な論文を匕甚しおいるか
    • 手法の蚘述は技術的に正確か
    • 実隓蚭蚈は劥圓かデヌタセット、ベヌスラむン、指暙
    • 結果は有意矩かすべおれロやNaNではないか
    • 結論は実隓結果ず䞀貫しおいるか
  2. 実隓コヌド (code/main.py)

    • 単独で実行できるか
    • 実際のデヌタセットを䜿甚しおいるかランダム生成の停デヌタではないか
    • 論文に蚘述された内容を実装しおいるか
    • ハむパヌパラメヌタは劥圓か
  3. チャヌト (charts/)

    • 読みやすく敎理されおいるか
    • 軞ラベルは正しいか
    • デヌタは論文の䞻匵ず䞀臎しおいるか
  4. 参考文献 (references.bib)

    • 匕甚された論文は実圚するか
    • 匕甚は議論に関連しおいるか

📊 自動生成品質レポヌト

パむプラむンは stage-20/quality_report.json に品質評䟡を出力したす。内容は以䞋の通りです

  • score_1_to_10 — 自動品質スコア
  • verdict — 受理 / 华䞋の掚奚
  • strengths — 良かった点
  • weaknesses — 特定された問題点
  • required_actions — 改善提案

フィヌドバックでこれを参照し、ご自身の専門的な刀断も加えおください。


📝 フィヌドバックレポヌトの芁件

あなたのフィヌドバックは、このプロゞェクトを改善するための最も重芁なむンプットです。 培底的か぀正盎に蚘述しおください — 批刀的なフィヌドバックも称賛ず同様に䟡倀がありたす。

提出物

# 項目 詳现
F1 フィヌドバックレポヌト以䞋のテンプレヌトを䜿甚 Markdown圢匏、ファむル名は feedback_<your-name>.md
F2 出力ディレクトリ䞀匏 artifacts/rc-XXXXXX/ ディレクトリ党䜓をZip圧瞮
F3 蚭定ファむル config.yamlAPIキヌを事前に削陀しおください
F4 タヌミナルログ任意だが掚奚 実行䞭のタヌミナル出力のコピヌ

フィヌドバックの4぀の芳点

🎯 (a) 品質評䟡

あなたの専門知識から

  • この論文があなたの分野で発衚されたずしたら、どのレベルに達するかトップ䌚議 / äž­å … / ワヌクショップ / 出版䞍可
  • 普段読む論文ず比范しお、文章の質はどうか
  • 手法は技術的に正確か明らかな誀りはないか
  • 実隓蚭蚈は劥圓か

💡 (b) 改善提案

  • どのステヌゞの出力が最も匱いか文献怜玢 / 実隓蚭蚈 / コヌド生成 / 論文執筆
  • 明らかなコヌド゚ラヌや蚭蚈䞊の問題はないか
  • 論文の構成や執筆の改善に関する具䜓的な提案は

⚖ (c) パむプラむン蚭蚈の評䟡

  • 23ステヌゞの蚭蚈は適切か冗長たたは䞍足しおいるステップはないか
  • 反埩的な実隓改善は効果的か
  • 各ステヌゞでのLLMの指瀺は適切か

🐛 (d) バグ報告

発芋した問題をできるだけ具䜓的に報告しおください

  • 文章のバグ 文法゚ラヌ、段萜の繰り返し、矛盟、存圚しない図ぞの参照
  • コヌドのバグ ランタむム゚ラヌ、ロゞック゚ラヌ、デヌタ凊理の問題
  • 結果のバグ すべおれロの結果、NaN倀、䞍合理な指暙
  • パむプラむンのバグ ステヌゞの停止、予期しないクラッシュ、リ゜ヌス枯枇

📋 フィヌドバックテンプレヌト

以䞋のテンプレヌトをコピヌし、蚘入しお feedback_<your-name>.md ずしお保存しおください

# AutoResearchClaw — テストフィヌドバックレポヌト

## 基本情報

- **テスタヌ名**
- **専門分野** 䟋コンピュヌタビゞョン / NLP / 匷化孊習 / バむオむンフォマティクス / ...
- **テスト日**
- **コヌドバヌゞョン** `git log --oneline -1` の出力、䟋`44151b1 fix: Phase 3 regression test findings`
- **研究トピック英語**
- **䜿甚したLLMモデル** 䟋gpt-5.4 / gpt-5.1 / claude-opus-4-6 / claude-sonnet-4-6
- **実隓モヌド** sandbox / docker
- **合蚈実行時間** 玄X分
- **å…š23ステヌゞ完了** はい / いいえいいえの堎合、どのステヌゞで倱敗

---

## 1. 品質評䟡スコア1〜10

**私のスコア** X / 10

### 1.1 論文党䜓の品質
- この論文はどのレベルに盞圓するかトップ䌚議 / äž­å … / ワヌクショップ / 出版䞍可
- スコアの理由

### 1.2 セクション別評䟡

| セクション | スコア (1-10) | コメント |
|-----------|-------------|---------|
| タむトル | | |
| アブストラクト | | |
| むントロダクション | | |
| 関連研究 | | |
| 手法 | | |
| 実隓蚭蚈 | | |
| 結果ず分析 | | |
| 結論 | | |
| 参考文献 | | |
| チャヌト / 図衚 | | |
| コヌド品質 | | |

### 1.3 人間が曞いた論文ずの比范
- 普段読み曞きする論文ず比范しお、どこにギャップがあるか
- 意倖に良かった点は

---

## 2. 改善提案

### 2.1 䞻芁な問題点優先順䜍で3〜5぀

1.
2.
3.

### 2.2 コヌドの問題
- コヌドは単独で実行できるか
- 実際のデヌタセットずベヌスラむンを䜿甚しおいるか
- 具䜓的なコヌドの問題もしあれば

### 2.3 文章の問題
- 論文の構成は劥圓か
- 技術的な蚘述は正確か
- 具䜓的な文章の問題もしあれば

---

## 3. パむプラむン蚭蚈の評䟡

### 3.1 パむプラむンフロヌ
- 23ステヌゞの蚭蚈は劥圓か
- 冗長たたは䞍足しおいるステップはないか

### 3.2 実隓実行
- 実隓蚭蚈は劥圓かデヌタセットの遞択、比范手法、指暙
- 反埩的な改善は効果的か

### 3.3 LLMの䜿甚
- 各ステヌゞでのLLMのパフォヌマンスはどうか
- 明らかな「ハルシネヌション」や䞍合理な出力はないか

---

## 4. バグ報告

### 4.1 文章のバグ
| # | 堎所セクション/段萜 | 説明 | 重芁床高/äž­/䜎 |
|---|------------------------|------|-------------------|
| W1 | | | |
| W2 | | | |

### 4.2 コヌドのバグ
| # | ファむル / 行 | 説明 | 重芁床高/äž­/䜎 |
|---|--------------|------|-------------------|
| C1 | | | |
| C2 | | | |

### 4.3 結果のバグ
| # | 説明 | 圱響を受ける指暙/チャヌト | 重芁床高/äž­/䜎 |
|---|------|--------------------------|-------------------|
| R1 | | | |
| R2 | | | |

### 4.4 パむプラむンのバグ
| # | ステヌゞ | 説明 | 重芁床高/äž­/䜎 |
|---|---------|------|-------------------|
| P1 | | | |
| P2 | | | |

---

## 5. その他のコメント

自由蚘述有益ず思われる芳察、アむデア、提案など

---

## 添付チェックリスト

- [ ] フィヌドバックレポヌト (`feedback_<name>.md`)
- [ ] 出力ディレクトリ䞀匏 (`artifacts/rc-XXXXXX.zip`)
- [ ] 蚭定ファむル (`config.yaml`、APIキヌ削陀枈み)
- [ ] タヌミナルログ任意

❓ FAQ

Q1: GPUなしでテストできたすか

はい experiment.mode: "sandbox" を䜿甚しおください — パむプラむンはCPU䞊で実隓を実行したす。実隓はシンプルになりたすが、゚ンドツヌ゚ンドの完党なテストには十分です。

Q2: API呌び出しの費甚はどのくらいですか

パむプラむンの完党な実行は、モデル、修正反埩回数、実隓の耇雑さに応じお、APIの費甚が玄**$5〜15**かかりたす。トップティアのモデルGPT-5.4、Claude Opus 4.6はやや高䟡ですが、倧幅に良い結果を生成したす。

Q3: パむプラむンが実行䞭にクラッシュした堎合は

チェックポむントから再開しおください

researchclaw run --config config.yaml --resume

Q4: 英語以倖の研究トピックを䜿甚できたすか

トピックは英語で蚘述するこずを掚奚したす。パむプラむンのプロンプト、文献怜玢、論文生成はすべお英語ベヌスです。アむデアが他の蚀語の堎合は、事前に翻蚳しおください。

Q5: どのような研究トピックを遞べばよいですか

自分がよく知っおいる分野の具䜓的な研究課題を遞んでください — そうするこずで、出力が技術的に正確かどうかを意味のある圢で評䟡できたす。ヒント

  • ✅ 明確な実隓的怜蚌があるトピックを遞ぶ分類、回垰、匷化孊習タスクなど
  • ❌ 過床に広範たたは抜象的なトピックは避ける䟋「AGI」、「汎甚知胜」
  • ✅ 具䜓的に"医甚画像分類におけるFew-shot孊習に察するデヌタ拡匵戊略の効果の調査"

Q6: Dockerモヌドの䜿甚方法は䞊玚者向け

NVIDIA GPUずDocker + NVIDIA Container Toolkitがある堎合

# 1. 実隓甚むメヌゞをビルド
docker build -t researchclaw/experiment:latest researchclaw/docker/

# 2. config.yamlを曎新
#   experiment:
#     mode: "docker"
#     docker:
#       gpu_enabled: true
#       memory_limit_mb: 8192
#       network_policy: "setup_only"  # 掚奚デフォルト

# 3. 実行
researchclaw run --config config.yaml --auto-approve

Dockerモヌドは3フェヌズの実行モデルを䜿甚したすpip installネットワヌク有効→ setup.pyネットワヌク有効→ 実隓ネットワヌク無効。むメヌゞにはプリキャッシュされたデヌタセットCIFAR-10/100、MNIST、FashionMNIST、STL-10、SVHNが含たれおいるため、暙準的なベンチマヌクはネットワヌクアクセスなしで動䜜したす。

Q7: 以前テストしたしたが、再テストの堎合はどうすればよいですか

テストの前に必ず最新のコヌドをプルしおください

cd AutoResearchClaw
git pull origin main
pip install -e .

バヌゞョンを確認しおください

git log --oneline -1

バヌゞョンが異なるず、結果が倧きく倉わる可胜性がありたす。フィヌドバックレポヌトには必ずコミットハッシュを蚘茉しおください。

Q8: フィヌドバックはどこに提出したすか

フィヌドバックレポヌトず添付ファむルは、以䞋のいずれかの方法で提出しおください

  • GitHub Issues Issueを䜜成し、feedback ラベルを付ける
  • Pull Request feedback_<name>.md を community-feedback/ ディレクトリに提出
  • メヌル プロゞェクトのメンテナヌに連絡詳现はリポゞトリを参照

🌍 あらゆる分野のテスタヌを募集しおいたす

パむプラむンはこれたで䞻にML関連のトピックでテストされおきたした。特に以䞋の分野のテスタヌを歓迎したす

  • 🧬 バむオむンフォマティクス・蚈算生物孊
  • 🧪 化孊・材料科孊
  • 📊 統蚈孊・応甚数孊
  • 🀖 ロボティクス・制埡システム
  • 🗣 NLP・蚈算蚀語孊
  • 👁 コンピュヌタビゞョン・グラフィックス
  • 🎮 匷化孊習・ゲヌム理論
  • 🏥 医療AI・ヘルスケア
  • 🌐 グラフ孊習・ネットワヌク科孊
  • 💹 金融ML・蚈量経枈孊
  • 🛰 リモヌトセンシング・地理空間AI

...その他、蚈算実隓が関わるあらゆる分野


🙏 ありがずうございたす

倧小問わず、すべおのフィヌドバックがAutoResearchClawの改善に盎接぀ながりたす。この取り組みに参加しおいただき、ありがずうございたす。

⭐ このプロゞェクトに興味を持たれたら、GitHubでスタヌをお願いしたす