メインコンテンツまでスキップ
バージョン: 3.1

Feature Support: Data Loading and Unloading

機能サポート: データロードとアンロード

このドキュメントでは、StarRocks がサポートするさまざまなデータロードとアンロードの方法の機能について説明します。

ファイル形式

ロードファイル形式

データソースファイル形式
CSVJSON [3]ParquetORCAvroProtoBufThrift
Stream Loadローカルファイルシステム、アプリケーション、コネクタはいはいサポート予定サポート予定サポート予定
INSERT from FILESHDFS, S3, OSS, Azure, GCSはい (v3.3+)サポート予定はい (v3.1+)はい (v3.1+)サポート予定
Broker Loadはいはい (v3.2.3+)はいはいサポート予定
Routine LoadKafkaはいはいサポート予定サポート予定はい (v3.0+) [1]サポート予定サポート予定
Spark Loadはいサポート予定はいはいサポート予定
コネクタFlink, Sparkはいはいサポート予定サポート予定サポート予定
Kafka Connector [2]Kafkaはい (v3.0+)サポート予定サポート予定はい (v3.0+)サポート予定
PIPE [4]INSERT from FILES と一致
注記

[1], [2]: Schema Registry が必要です。

[3]: JSON はさまざまな CDC 形式をサポートします。StarRocks がサポートする JSON CDC 形式の詳細については、JSON CDC format を参照してください。

[4]: 現在、PIPE を使用したロードでは INSERT from FILES のみがサポートされています。

JSON CDC 形式

Stream LoadRoutine LoadBroker LoadINSERT from FILESKafka Connector [1]
Debeziumサポート予定サポート予定サポート予定サポート予定はい (v3.0+)
Canalサポート予定
Maxwell
注記

[1]: StarRocks の主キーテーブルに Debezium CDC 形式のデータをロードする際は、transforms パラメータを設定する必要があります。

アンロードファイル形式

ターゲットファイル形式
テーブル形式リモートストレージCSVJSONParquetORC
INSERT INTO FILESN/AHDFS, S3, OSS, Azure, GCSはい (v3.3+)サポート予定はい (v3.2+)はい (v3.3+)
INSERT INTO CatalogHiveHDFS, S3, OSS, Azure, GCSはい (v3.3+)サポート予定はい (v3.2+)はい (v3.3+)
IcebergHDFS, S3, OSS, Azure, GCSサポート予定サポート予定はい (v3.2+)サポート予定
Hudi/Deltaサポート予定
EXPORTN/AHDFS, S3, OSS, Azure, GCSはい [1]サポート予定サポート予定サポート予定
PIPEサポート予定 [2]
注記

[1]: Broker プロセスの設定がサポートされています。

[2]: 現在、PIPE を使用したデータのアンロードはサポートされていません。

ファイル形式関連のパラメータ

ロードファイル形式関連のパラメータ

ファイル形式パラメータロード方法
Stream LoadINSERT from FILESBroker LoadRoutine LoadSpark Load
CSVcolumn_separatorはいはい (v3.3+)はい [1]
row_delimiterはいはい [2] (v3.1+)はい [3] (v2.2+)サポート予定
encloseはい (v3.0+)はい (v3.0+)はい (v3.0+)サポート予定
escape
skip_headerサポート予定
trim_spaceはい (v3.0+)
JSONjsonpathsはいサポート予定はい (v3.2.3+)はいサポート予定
strip_outer_array
json_root
ignore_json_sizeサポート予定
注記

[1]: 対応するパラメータは COLUMNS TERMINATED BY です。

[2]: 対応するパラメータは ROWS TERMINATED BY です。

[3]: 対応するパラメータは ROWS TERMINATED BY です。

アンロードファイル形式関連のパラメータ

ファイル形式パラメータアンロード方法
INSERT INTO FILESEXPORT
CSVcolumn_separatorはい (v3.3+)はい
line_delimiter [1]
注記

[1]: データロードでの対応するパラメータは row_delimiter です。

圧縮形式

ロード圧縮形式

ファイル形式圧縮形式ロード方法
Stream LoadBroker LoadINSERT from FILESRoutine LoadSpark Load
CSV
  • defalte
  • bzip2
  • gzip
  • lz4_frame
  • zstd
はい [1]はい [2]サポート予定サポート予定サポート予定
JSONはい (v3.2.7+) [3]サポート予定N/Aサポート予定N/A
Parquet
  • gzip
  • lz4
  • snappy
  • zlib
  • zstd
N/Aはい [4]サポート予定はい [4]
ORC
注記

[1]: 現在、CSV ファイルを Stream Load でロードする場合のみ、format=gzip を使用して圧縮形式を指定できます。これは gzip 圧縮された CSV ファイルを示します。deflate および bzip2 形式もサポートされています。

[2]: Broker Load は、format パラメータを使用して CSV ファイルの圧縮形式を指定することをサポートしていません。Broker Load はファイルのサフィックスを使用して圧縮形式を識別します。gzip 圧縮ファイルのサフィックスは .gz であり、zstd 圧縮ファイルのサフィックスは .zst です。さらに、trim_spaceenclose などの他の format 関連のパラメータもサポートされていません。

[3]: compression = gzip を使用して圧縮形式を指定することがサポートされています。

[4]: Arrow Library によってサポートされています。compression パラメータを設定する必要はありません。

アンロード圧縮形式

ファイル形式圧縮形式アンロード方法
INSERT INTO FILESINSERT INTO CatalogEXPORT
HiveIcebergHudi/Delta
CSV
  • defalte
  • bzip2
  • gzip
  • lz4_frame
  • zstd
サポート予定サポート予定サポート予定サポート予定サポート予定
JSONN/AN/AN/AN/AN/AN/A
Parquet
  • gzip
  • lz4
  • snappy
  • zstd
はい (v3.2+)はい (v3.2+)はい (v3.2+)サポート予定N/A
ORC

認証情報

ロード - 認証

認証ロード方法
Stream LoadINSERT from FILESBroker LoadRoutine LoadExternal Catalog
シングル KerberosN/Aはい (v3.1+)はい [1] (v2.5 より前のバージョン)はい [2] (v3.1.4+)はい
Kerberos Ticket Granting Ticket (TGT)N/Aサポート予定はい (v3.1.10+/v3.2.1+)
シングル KDC マルチ KerberosN/A
基本アクセス認証 (アクセスキー ペア、IAM ロール)N/Aはい (HDFS および S3 互換オブジェクトストレージ)はい [3]はい
注記

[1]: HDFS に対して、StarRocks はシンプル認証と Kerberos 認証の両方をサポートしています。

[2]: セキュリティプロトコルが sasl_plaintext または sasl_ssl に設定されている場合、SASL および GSSAPI (Kerberos) 認証の両方がサポートされています。

[3]: セキュリティプロトコルが sasl_plaintext または sasl_ssl に設定されている場合、SASL および PLAIN 認証の両方がサポートされています。

アンロード - 認証

INSERT INTO FILESEXPORT
シングル Kerberosサポート予定サポート予定

ロード - その他のパラメータと機能

パラメータと機能ロード方法
Stream LoadINSERT from FILESINSERT from SELECT/VALUESBroker LoadPIPERoutine LoadSpark Load
部分更新はい (v3.0+)はい [1] (v3.3+)はい (v3.0+)N/Aはい (v3.0+)サポート予定
partial_update_modeはい (v3.1+)サポート予定はい (v3.1+)N/Aサポート予定サポート予定
COLUMNS FROM PATHN/Aはい (v3.2+)N/AはいN/AN/Aはい
timezone または セッション変数 time_zone [2]はい [3]はい [4]はい [4]はい [4]サポート予定はい [4]サポート予定
時間精度 - マイクロ秒はいはいはいはい (v3.1.11+/v3.2.6+)サポート予定はいはい
注記

[1]: v3.3 以降、StarRocks は INSERT INTO における行モードでの部分更新をサポートしています。カラムリストを指定することで可能です。

[2]: パラメータまたはセッション変数でタイムゾーンを設定すると、strftime()、alignment_timestamp()、from_unixtime() などの関数が返す結果に影響を与えます。

[3]: パラメータ timezone のみがサポートされています。

[4]: セッション変数 time_zone のみがサポートされています。

アンロード - その他のパラメータと機能

パラメータと機能INSERT INTO FILESEXPORT
target_max_file_sizeはい (v3.2+)サポート予定
single
Partitioned_by
セッション変数 time_zoneサポート予定
時間精度 - マイクロ秒サポート予定サポート予定