Apache Airflow
は、DAG (Directed Acyclic Graphs) と SQL オペレーターを使用して、StarRocks とのデータワークフローのオーケストレーションとスケジューリングを可能にします。SQLExecuteQueryOperator と MySQLHook を使用して、実装や複雑な設定なしでデータロードと変換を行うことができます。
Apache Airflow GitHub リポジトリ.
サポートされている機能
- MySQL プロトコルを介した SQL 実行
- 接続管理
- トランザクションサポート
- パラメータ化されたクエリ
- タスク依存関係
- リトライロジック
インストール
前提条件
- Apache Airflow 2.0+ または 3.0+
- Python 3.8+
- StarRocks クラスターへのアクセス ( クイックスタートガイド を参照)
インストール
StarRocks は MySQL プロトコルを使用するため、MySQL プロバイダーパッケージが必要です。
pip install apache-airflow-providers-mysql
インストールを確認するには、インストールされたプロバイダーを確認します。
airflow providers list
この出力には apache-airflow-providers-mysql が含まれているはずです。
設定
StarRocks 接続の作成
Airflow UI または環境変数を介して StarRocks 接続を作成します。接続名は後で DAG によって使用されます。
Airflow UI を介して
- Admin > Connections に移動
-
- ボタンをクリックして新しい接続を追加
- 接続を設定:
- Connection Id:
starrocks_default - Connection Type: MySQL
- Host:
your-starrocks-host.com - Schema:
your_database - Login:
your_username - Password:
your_password - Port:
9030