| title | chDB | |||||
|---|---|---|---|---|---|---|
| sidebar_label | 概要 | |||||
| slug | /chdb | |||||
| description | chDB は ClickHouse をベースとしたインプロセス SQL OLAP エンジンです | |||||
| keywords |
|
|||||
| doc_type | guide |
import Image from '@theme/IdealImage'; import dfBench from '@site/static/images/chdb/df_bench.png';
chDB は、ClickHouse v25.8.2.1 を基盤とした、高速なインプロセス SQL OLAP エンジンです。 ClickHouse サーバーに接続することなく、プログラミング言語から ClickHouse の性能を活用したい場合に使用できます。
- インプロセス SQL OLAP エンジン - ClickHouse を基盤としており、ClickHouse サーバーを別途インストールする必要はありません
- 複数のデータ形式 - Parquet、CSV、JSON、Arrow、ORC および 70 以上の形式 での入出力をサポート
- データコピーの最小化 - python memoryview により、C++ から Python へのコピーを最小限に抑える
- 豊富な Python エコシステムとの統合 - Pandas、Arrow、DB API 2.0 をネイティブサポートし、既存のデータサイエンスワークフローにシームレスに適合
- 外部依存なし - 外部データベースをインストールする必要はありません
- DataStore API - SQL 最適化を備えた Pandas 互換 API で、630 以上のメソッドをサポート
新機能! DataStore は、おなじみの pandas 構文と ClickHouse のパフォーマンスを組み合わせた、pandas 互換の API を提供します。
:::tip Hex で始める
- 📖 入門チュートリアル — 最初の接続をセットアップする
- 🚀 Hex 30日間延長トライアル — ClickHouse インテグレーションへのフルアクセス :::
# Just change your import - your pandas code works unchanged
- import pandas as pd
+ from chdb import datastore as pd
df = pd.read_csv("data.csv")
result = df[df['age'] > 25].groupby('city')['salary'].mean()| 処理内容 | pandas | DataStore | 高速化率 |
|---|---|---|---|
| GroupBy count | 347ms | 17ms | 19.93x |
| 複雑なパイプライン | 2,047ms | 380ms | 5.39x |
| Filter+Sort+Head | 1,537ms | 350ms | 4.40x |
1000万行でのベンチマーク
- 630以上の API メソッド - 209 個の pandas DataFrame メソッド、185以上のアクセサーメソッド
- 遅延評価 - 操作は最適化された SQL にコンパイルされます
- SQL プッシュダウン - フィルタと集約がデータソース側で実行されます
- 多様なデータソース対応 - ファイル、S3、データベース、データレイクから読み取り可能
詳しくは DataStore ドキュメント を参照してください
chDB では、次の言語バインディングを利用できます。
- Go、Rust、NodeJS、Bun、または C と C++ を使用している場合は、対応する言語ページを参照してください。
- Python を使用している場合は、開発者向け入門ガイド または chDB オンデマンドコース を参照してください。
なじみのある pandas の使い勝手で ClickHouse のパフォーマンスを利用できる DataStore API から始めましょう:
- DataStore クイックスタート - インストールとワンライナーでの移行
- pandas からの移行 - ステップバイステップの移行ガイド
- Pandas クックブック - 代表的なパターン
- 主な違い - pandas との重要な相違点
- パフォーマンスガイド - 最適化のヒント
- Factory Methods - ファイル、データベース、クラウドストレージからの作成
- Query Building - SQL スタイルのクエリ構築
- Pandas Compatibility - 互換メソッド 209 個
- Accessors - .str, .dt, .arr, .json, .url, .ip, .geo
- Configuration - エンジン、ロギング、プロファイリング
- Debugging - explain()、プロファイリング、ロギング
- Python API リファレンス - SQL API の完全なリファレンス
- JupySQL
- Pandas をクエリする
- Apache Arrow をクエリする
- S3 内のデータをクエリする
- Parquet ファイルをクエリする
- リモート ClickHouse をクエリする
- clickhouse-local データベースの利用
chDB の概要を紹介する短い動画を視聴し、ClickHouse のパワーを Python 環境でどのように活用できるか学びましょう。
<iframe width="560" height="315" src="https://www.youtube.com/embed/e_yL0dlX6k4" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
chDB は、さまざまなシナリオにおいて卓越したパフォーマンスを発揮します。
- 組み込みエンジンのClickBench - SQL APIのパフォーマンス比較
- DataFrame ベンチマーク - DataFrame エンジンの比較
- DataStore と Pandas の比較 - 一般的な操作で pandas に比べて最大 20 倍高速
- blog で chDB プロジェクト誕生の詳しい経緯を読む
- Blog で chDB とそのユースケースについて読む
- chDB オンデマンドコース を受講する
- ブラウザ上で codapi examples を使って chDB を試す
- その他のサンプルは (https://github.com/chdb-io/chdb/tree/main/examples) を参照
chDB は Apache License Version 2.0 に基づき提供されています。詳細については LICENSE を参照してください。