HDFS からデータをロードする
StarRocks は、Broker Load を使用して HDFS からデータを一括ロードすることができます。
Broker Load は非同期モードで動作します。非同期の Broker Load プロセスは、GCS への接続を確立し、データを取得し、StarRocks にデータを保存する処理を行います。
Broker Load は Parquet、ORC、CSV ファイル形式をサポートしています。
Broker Load の利点
- Broker Load はバックグラウンドで実行され、クライアントはジョブが続行するために接続を維持する必要がありません。
- Broker Load は長時間実行されるジョブに適しており、デフォルトのタイムアウトは 4 時間に設定されています。
- Parquet と ORC ファイル形式に加えて、Broker Load は CSV ファイルもサポートしています。
データフロー

- ユーザーがロードジョブを作成します。
- フロントエンド (FE) がクエリプランを作成し、そのプランをバックエンドノード (BEs) またはコンピュートノード (CNs) に配布します。
- BEs または CNs がソースからデータを取得し、StarRocks にデータをロードします。
始める前に
ソースデータを準備する
StarRocks にロードしたいソースデータが HDFS クラスターに適切に保存されていることを確認してください。このトピックでは、HDFS から /user/amber/user_behavior_ten_million_rows.parquet を StarRocks にロードすることを前提としています。