機能サポート: データロードとアンロード
このドキュメントでは、StarRocks がサポートするさまざまなデータロードとアンロードの方法の機能について説明します。
ファイル形式
ロードファイル形式
| データソース | ファイル形式 | |||||||
|---|---|---|---|---|---|---|---|---|
| CSV | JSON [3] | Parquet | ORC | Avro | ProtoBuf | Thrift | ||
| Stream Load | ローカルファイルシステム、アプリケーション、コネクタ | はい | はい | サポート予定 | サポート予定 | サポート予定 | ||
| INSERT from FILES | HDFS, S3, OSS, Azure, GCS | はい (v3.3+) | サポート予定 | はい (v3.1+) | はい (v3.1+) | サポート予定 | ||
| Broker Load | はい | はい (v3.2.3+) | はい | はい | サポート予定 | |||
| Routine Load | Kafka | はい | はい | サポート予定 | サポート予定 | はい (v3.0+) [1] | サポート予定 | サポート予定 |
| Spark Load | はい | サポート予定 | はい | はい | サポート予定 | |||
| コネクタ | Flink, Spark | はい | はい | サポート予定 | サポート予定 | サポート予定 | ||
| Kafka Connector [2] | Kafka | はい (v3.0+) | サポート予定 | サポート予定 | はい (v3.0+) | サポート予定 | ||
| PIPE [4] | INSERT from FILES と一致 | |||||||
[1], [2]: Schema Registry が必要です。
[3]: JSON はさまざまな CDC 形式をサポートします。StarRocks がサポートする JSON CDC 形式の詳細については、JSON CDC format を参照してください。
[4]: 現在、PIPE を使用したロードでは INSERT from FILES のみがサポートされています。
JSON CDC 形式
| Stream Load | Routine Load | Broker Load | INSERT from FILES | Kafka Connector [1] | |
|---|---|---|---|---|---|
| Debezium | サポート予定 | サポート予定 | サポート予定 | サポート予定 | はい (v3.0+) |
| Canal | サポート予定 | ||||
| Maxwell | |||||
[1]: StarRocks の主キーテーブルに Debezium CDC 形式のデータをロードする際は、transforms パラメータを設定する必要があります。
アンロードファイル形式
| ターゲット | ファイル形式 | |||||
|---|---|---|---|---|---|---|
| テーブル形式 | リモートストレージ | CSV | JSON | Parquet | ORC | |
| INSERT INTO FILES | N/A | HDFS, S3, OSS, Azure, GCS | はい (v3.3+) | サポート予定 | はい (v3.2+) | はい (v3.3+) |
| INSERT INTO Catalog | Hive | HDFS, S3, OSS, Azure, GCS | はい (v3.3+) | サポート予定 | はい (v3.2+) | はい (v3.3+) |
| Iceberg | HDFS, S3, OSS, Azure, GCS | サポート予定 | サポート予定 | はい (v3.2+) | サポート予定 | |
| Hudi/Delta | サポート予定 | |||||
| EXPORT | N/A | HDFS, S3, OSS, Azure, GCS | はい [1] | サポート予定 | サポート予定 | サポート予定 |
| PIPE | サポート予定 [2] | |||||
[1]: Broker プロセスの設定がサポートされています。
[2]: 現在、PIPE を使用したデータのアンロードはサポートされていません。
ファイル形式関連のパラメータ
ロードファイル形式関連のパラメータ
| ファイル形式 | パラメータ | ロード方法 | ||||
|---|---|---|---|---|---|---|
| Stream Load | INSERT from FILES | Broker Load | Routine Load | Spark Load | ||
| CSV | column_separator | はい | はい (v3.3+) | はい [1] | ||
| row_delimiter | はい | はい [2] (v3.1+) | はい [3] (v2.2+) | サポート予定 | ||
| enclose | はい (v3.0+) | はい (v3.0+) | はい (v3.0+) | サポート予定 | ||
| escape | ||||||
| skip_header | サポート予定 | |||||
| trim_space | はい (v3.0+) | |||||
| JSON | jsonpaths | はい | サポート予定 | はい (v3.2.3+) | はい | サポート予定 |
| strip_outer_array | ||||||
| json_root | ||||||
| ignore_json_size | サポート予定 | |||||
[1]: 対応するパラメータは COLUMNS TERMINATED BY です。
[2]: 対応するパラメータは ROWS TERMINATED BY です。
[3]: 対応するパラメータは ROWS TERMINATED BY です。
アンロードファイル形式関連のパラメータ
| ファイル形式 | パラメータ | アンロード方法 | |
|---|---|---|---|
| INSERT INTO FILES | EXPORT | ||
| CSV | column_separator | はい (v3.3+) | はい |
| line_delimiter [1] | |||
[1]: データロードでの対応するパラメータは row_delimiter です。
圧縮形式
ロード圧縮形式
| ファイル形式 | 圧縮形式 | ロード方法 | ||||
|---|---|---|---|---|---|---|
| Stream Load | Broker Load | INSERT from FILES | Routine Load | Spark Load | ||
| CSV |
| はい [1] | はい [2] | サポート予定 | サポート予定 | サポート予定 |
| JSON | はい (v3.2.7+) [3] | サポート予定 | N/A | サポート予定 | N/A | |
| Parquet |
| N/A | はい [4] | サポート予定 | はい [4] | |
| ORC | ||||||
[1]: 現在、CSV ファイルを Stream Load でロードする場合のみ、format=gzip を使用して圧縮形式を指定できます。これは gzip 圧縮された CSV ファイルを示します。deflate および bzip2 形式もサポートされています。
[2]: Broker Load は、format パラメータを使用して CSV ファイルの圧縮形式を指定することをサポートしていません。Broker Load はファイルのサフィックスを使用して圧縮形式を識別します。gzip 圧縮ファイルのサフィックスは .gz であり、zstd 圧縮ファイルのサフィックスは .zst です。さらに、trim_space や enclose などの他の format 関連のパラメータもサポートされていません。
[3]: compression = gzip を使用して圧縮形式を指定することがサポートされています。
[4]: Arrow Library によってサポートされています。compression パラメータを設定する必要はありません。
アンロード圧縮形式
| ファイル形式 | 圧縮形式 | アンロード方法 | ||||
|---|---|---|---|---|---|---|
| INSERT INTO FILES | INSERT INTO Catalog | EXPORT | ||||
| Hive | Iceberg | Hudi/Delta | ||||
| CSV |
| サポート予定 | サポート予定 | サポート予定 | サポート予定 | サポート予定 |
| JSON | N/A | N/A | N/A | N/A | N/A | N/A |
| Parquet |
| はい (v3.2+) | はい (v3.2+) | はい (v3.2+) | サポート予定 | N/A |
| ORC | ||||||
認証情報
ロード - 認証
| 認証 | ロード方法 | ||||
|---|---|---|---|---|---|
| Stream Load | INSERT from FILES | Broker Load | Routine Load | External Catalog | |
| シングル Kerberos | N/A | はい (v3.1+) | はい [1] (v2.5 より前のバージョン) | はい [2] (v3.1.4+) | はい |
| Kerberos Ticket Granting Ticket (TGT) | N/A | サポート予定 | はい (v3.1.10+/v3.2.1+) | ||
| シングル KDC マルチ Kerberos | N/A | ||||
| 基本アクセス認証 (アクセスキー ペア、IAM ロール) | N/A | はい (HDFS および S3 互換オブジェクトストレージ) | はい [3] | はい | |
[1]: HDFS に対して、StarRocks はシンプル認証と Kerberos 認証の両方をサポートしています。
[2]: セキュリティプロトコルが sasl_plaintext または sasl_ssl に設定されている場合、SASL および GSSAPI (Kerberos) 認証の両方がサポートされています。
[3]: セキュリティプロトコルが sasl_plaintext または sasl_ssl に設定されている場合、SASL および PLAIN 認証の両方がサポートされています。
アンロード - 認証
| INSERT INTO FILES | EXPORT | |
|---|---|---|
| シングル Kerberos | サポート予定 | サポート予定 |
ロード - その他のパラメータと機能
| パラメータと機能 | ロード方法 | |||||||
|---|---|---|---|---|---|---|---|---|
| Stream Load | INSERT from FILES | INSERT from SELECT/VALUES | Broker Load | PIPE | Routine Load | Spark Load | ||
| 部分更新 | はい (v3.0+) | はい [1] (v3.3+) | はい (v3.0+) | N/A | はい (v3.0+) | サポート予定 | ||
| partial_update_mode | はい (v3.1+) | サポート予定 | はい (v3.1+) | N/A | サポート予定 | サポート予定 | ||
| COLUMNS FROM PATH | N/A | はい (v3.2+) | N/A | はい | N/A | N/A | はい | |
| timezone または セッション変数 time_zone [2] | はい [3] | はい [4] | はい [4] | はい [4] | サポート予定 | はい [4] | サポート予定 | |
| 時間精度 - マイクロ秒 | はい | はい | はい | はい (v3.1.11+/v3.2.6+) | サポート予定 | はい | はい | |
[1]: v3.3 以降、StarRocks は INSERT INTO における行モードでの部分更新をサポートしています。カラムリストを指定することで可能です。
[2]: パラメータまたはセッション変数でタイムゾーンを設定すると、strftime()、alignment_timestamp()、from_unixtime() などの関数が返す結果に影響を与えます。
[3]: パラメータ timezone のみがサポートされています。
[4]: セッション変数 time_zone のみがサポートされています。
アンロード - その他のパラメータと機能
| パラメータと機能 | INSERT INTO FILES | EXPORT |
|---|---|---|
| target_max_file_size | はい (v3.2+) | サポート予定 |
| single | ||
| Partitioned_by | ||
| セッション変数 time_zone | サポート予定 | |
| 時間精度 - マイクロ秒 | サポート予定 | サポート予定 |