機能サポート: データロードとアンロード
このドキュメントでは、StarRocks がサポートするさまざまなデータロードとアンロードの方法の機能について説明します。
ファイル形式
ロードファイル形式
| データソース | ファイル形式 | |||||||
|---|---|---|---|---|---|---|---|---|
| CSV | JSON [3] | Parquet | ORC | Avro | ProtoBuf | Thrift | ||
| Stream Load | ローカルファイルシステム、アプリケーション、コネクタ | はい | はい | サポート予定 | サポート予定 | サポート予定 | ||
| INSERT from FILES | HDFS, S3, OSS, Azure, GCS | はい (v3.3+) | サポート予定 | はい (v3.1+) | はい (v3.1+) | サポート予定 | ||
| Broker Load | はい | はい (v3.2.3+) | はい | はい | サポート予定 | |||
| Routine Load | Kafka | はい | はい | サポート予定 | サポート予定 | はい (v3.0+) [1] | サポート予定 | サポート予定 |
| Spark Load | はい | サポート予定 | はい | はい | サポート予定 | |||
| コネクタ | Flink, Spark | はい | はい | サポート予定 | サポート予定 | サポート予定 | ||
| Kafka Connector [2] | Kafka | はい (v3.0+) | サポート予定 | サポート予定 | はい (v3.0+) | サポート予定 | ||
| PIPE [4] | INSERT from FILES と一致 | |||||||
[1], [2]: Schema Registry が必要です。
[3]: JSON はさまざまな CDC 形式をサ ポートします。StarRocks がサポートする JSON CDC 形式の詳細については、JSON CDC format を参照してください。
[4]: 現在、PIPE を使用したロードでは INSERT from FILES のみがサポートされています。
JSON CDC 形式
| Stream Load | Routine Load | Broker Load | INSERT from FILES | Kafka Connector [1] | |
|---|---|---|---|---|---|
| Debezium | サポート予定 | サポート予定 | サポート予定 | サポート予定 | はい (v3.0+) |
| Canal | サポート予定 | ||||
| Maxwell | |||||
[1]: StarRocks の主キーテーブルに Debezium CDC 形式のデータをロードする際は、transforms パラメータを設定する必要があります。
アンロードファイル形式
| ターゲット | ファイル形式 | |||||
|---|---|---|---|---|---|---|
| テーブル形式 | リモートストレージ | CSV | JSON | Parquet | ORC | |
| INSERT INTO FILES | N/A | HDFS, S3, OSS, Azure, GCS | はい (v3.3+) | サポート予定 | はい (v3.2+) | はい (v3.3+) |
| INSERT INTO Catalog | Hive | HDFS, S3, OSS, Azure, GCS | はい (v3.3+) | サポート予定 | はい (v3.2+) | はい (v3.3+) |
| Iceberg | HDFS, S3, OSS, Azure, GCS | サポート予定 | サポート予定 | はい (v3.2+) | サポート予定 | |
| Hudi/Delta | サポート予定 | |||||
| EXPORT | N/A | HDFS, S3, OSS, Azure, GCS | はい [1] | サポート予定 | サポート予定 | サポート予定 |
| PIPE | サポート予定 [2] | |||||
[1]: Broker プロセスの設定がサポートされています。
[2]: 現在、PIPE を使用したデータのアンロードはサポートされていません。
ファイル形式関連のパラメータ
ロードファイル形式関連のパラメータ
| ファイル形式 | パラメータ | ロード方法 | ||||
|---|---|---|---|---|---|---|
| Stream Load | INSERT from FILES | Broker Load | Routine Load | Spark Load | ||
| CSV | column_separator | はい | はい (v3.3+) | はい [1] | ||
| row_delimiter | はい | はい [2] (v3.1+) | はい [3] (v2.2+) | サポート予定 | ||
| enclose | はい (v3.0+) | はい (v3.0+) | はい (v3.0+) | サポート予定 | ||
| escape | ||||||
| skip_header | サポート予定 | |||||
| trim_space | はい (v3.0+) | |||||
| JSON | jsonpaths | はい | サポート予定 | はい (v3.2.3+) | はい | サポート予定 |
| strip_outer_array | ||||||
| json_root | ||||||
| ignore_json_size | サポート予定 | |||||
[1]: 対応するパラメータは COLUMNS TERMINATED BY です。
[2]: 対応するパラメータは ROWS TERMINATED BY です。
[3]: 対応するパラメータは ROWS TERMINATED BY です。
アンロードファイル形式関連のパラメータ
| ファイル形式 | パラメータ | アンロード方法 | |
|---|---|---|---|
| INSERT INTO FILES | EXPORT | ||
| CSV | column_separator | はい (v3.3+) | はい |
| line_delimiter [1] | |||
[1]: データロードでの対応するパラメータは row_delimiter です。
圧縮形式
ロード圧縮形式
| ファイル形式 | 圧縮形式 | ロード方法 | ||||
|---|---|---|---|---|---|---|
| Stream Load | Broker Load | INSERT from FILES | Routine Load | Spark Load | ||
| CSV |
| はい [1] | はい [2] | サポート予定 | サポート予定 | サポート 予定 |
| JSON | はい (v3.2.7+) [3] | サポート予定 | N/A | サポート予定 | N/A | |
| Parquet |
| N/A | はい [4] | サポート予定 | はい [4] | |
| ORC | ||||||
[1]: 現在、CSV ファイルを Stream Load でロードする場合のみ、format=gzip を使用して圧縮形式を指定できます。これは gzip 圧縮された CSV ファイルを示します。deflate および bzip2 形式もサポートされています。
[2]: Broker Load は、format パラメータを使用して CSV ファイルの圧縮形式を指定することをサポートしていません。Broker Load はファイルのサフィックスを使用して圧縮形式を識別します。gzip 圧縮ファイルのサフィックスは .gz であり、zstd 圧縮ファイルのサフィックスは .zst です。さらに、trim_space や enclose などの他の format 関連のパラメータもサポートされていません。
[3]: compression = gzip を使用して圧縮形式を指定することがサポートされています。
[4]: Arrow Library によってサポートされています。compression パラメータを設定する必要はありません。
アンロード圧縮形式
| ファイル形式 | 圧縮形式 | アンロード方法 | ||||
|---|---|---|---|---|---|---|
| INSERT INTO FILES | INSERT INTO Catalog | EXPORT | ||||
| Hive | Iceberg | Hudi/Delta | ||||
| CSV |
| サポート予定 | サポート予定 | サポート予定 | サポート予定 | サポート予定 |
| JSON | N/A | N/A | N/A | N/A | N/A | N/A |
| Parquet |
| はい (v3.2+) | はい (v3.2+) | はい (v3.2+) | サポート予定 | N/A |
| ORC | ||||||