ロード時のデータ変換
StarRocks はロード時のデータ変換をサポートしています。
この機能は Stream Load、Broker Load、および Routine Load をサポートしていますが、Spark Load はサポートしていません。
StarRocks テーブルにデータを ロード するには、その StarRocks テーブルに対して INSERT 権限を持つユーザーである必要があります。INSERT 権限を持っていない場合は、 GRANT に記載されている手順に従って、StarRocks クラスターに接続するために使用するユーザーに INSERT 権限を付与してください。構文は GRANT INSERT ON TABLE <table_name> IN DATABASE <database_name> TO { ROLE <role_name> | USER <user_identity>} です。
このトピックでは、CSV データを例にとり、ロード時にデータを抽出および変換する方法を説明します。サポートされるデータファイル形式は、選択したロード方法によって異なります。
NOTE
CSV データの場合、UTF-8 文字列(カンマ (,) 、タブ、またはパイプ (|) など)をテキスト区切り文字として使用できますが、その長さは 50 バイトを超えないようにしてください。
シナリオ
データファイルを StarRocks テーブルにロードする際、データファイルのデータが StarRocks テーブルのデータに完全にマッピングされない場合があります。このような場合、データを StarRocks テーブルにロードする前に抽出や変換を行う必要はありません。StarRocks はロード中にデータの抽出と変換を支援します。
-
ロードする必要のない列をスキップする。
ロードする必要のない列をスキップできます。また、データファイルの列が StarRocks テーブルの列と異なる順序である場合、データファイルと StarRocks テーブルの間に列マッピングを作成できます。
-
ロードしたくない行をフィルタリングする。
StarRocks がロードしたくない行をフィルタリングする条件を指定できます。
-
元の列から新しい列を生成する。
生成列は、データファイルの元の列から計算される特別な列です。生成列を StarRocks テーブルの列にマッピングできます。
-
ファイルパスからパーティションフィールドの値を抽出する。
データファイルが Apache Hive™ から生成された場合、ファイルパスからパーティションフィールドの値を抽出できます。
データ例
-
ローカルファイルシステムにデータファイルを作成します。
a.
file1.csvという名前のデータファイルを作成します。このファイルは、ユーザー ID、ユーザーの性別、イベント日付、イベントタイプを順に表す 4 つの列で構成されています。354,female,2020-05-20,1
465,male,2020-05-21,2
576,female,2020-05-22,1
687,male,2020-05-23,2b.
file2.csvという名前のデータファイルを作成します。このファイルは、日付を表す 1 つの列のみで構成されています。2020-05-20
2020-05-21
2020-05-22
2020-05-23 -
StarRocks データベース
test_dbにテーブルを作成します。NOTE
バージョン v2.5.7 以降、StarRocks はテーブルを作成する際やパーティションを追加する際に、バケット数 (BUCKETS) を自動的に設定できます 。バケット数を手動で設定する必要はありません。詳細については、バケット数を設定する を参照してください。
a.
table1という名前のテーブルを作成します。このテーブルは、event_date、event_type、user_idの 3 つの列で構成されています。MySQL [test_db]> CREATE TABLE table1
(
`event_date` DATE COMMENT "event date",
`event_type` TINYINT COMMENT "event type",
`user_id` BIGINT COMMENT "user ID"
)
DISTRIBUTED BY HASH(user_id);b.
table2という名前のテーブルを作成します。このテーブルは、date、year、month、dayの 4 つの列で構成されています。MySQL [test_db]> CREATE TABLE table2
(
`date` DATE COMMENT "date",
`year` INT COMMENT "year",
`month` TINYINT COMMENT "month",
`day` TINYINT COMMENT "day"
)
DISTRIBUTED BY HASH(date); -
file1.csvとfile2.csvを HDFS クラスターの/user/starrocks/data/input/パスにアップロードし、file1.csvのデータを Kafka クラスターのtopic1に、file2.csvのデータをtopic2に公開します。
ロードする必要のない列をスキップする
StarRocks テーブルにロードしたいデータファイルには、StarRocks テーブルの列にマッピングできない列が含まれている場合があります。このような場合、StarRocks はデータファイルから StarRocks テーブルの列にマッ ピングできる列のみをロードすることをサポートしています。
この機能は、以下のデータソースからのデータロードをサポートしています。
-
ローカルファイルシステム
-
HDFS およびクラウドストレージ
NOTE
このセクションでは HDFS を例にとります。
-
Kafka
ほとんどの場合、CSV ファイルの列には名前が付けられていません。一部の CSV ファイルでは、最初の行が列名で構成されていますが、StarRocks は最初の行の内容を列名ではなく一般的なデータとして処理します。したがって、CSV ファイルをロードする際には、ジョブ作成文やコマンドで CSV ファイルの列を一時的に 順番に 名前を付ける必要があります。これらの一時的に名前を付けられた列は、StarRocks テーブルの列に 名前で マッピングされます。データファイルの列については、以下の点に注意してください。
-
StarRocks テーブルの列にマッピングでき、StarRocks テーブルの列の名前を使用して一時的に名前を付けられた列のデータは、直接ロードされます。
-
StarRocks テーブルの列にマッピングできない列は無視され、これらの列のデータはロードされません。
-
StarRocks テーブルの列にマッピングできるが、ジョブ作成文やコマンドで一時的に名前を付けられていない列がある場合、ロードジョブはエラーを報告します。
このセクションでは、file1.csv と table1 を例にとります。file1.csv の 4 つの列は、順に user_id