パーティション化されたマテリアライズドビューの作成
このトピックでは、さまざまなユースケースに対応するためのパーティション化されたマテリアライズドビューの作成方法を紹介します。
概要
StarRocks の非同期マテリアライズドビューは、さまざまなパーティション戦略と機能をサポートしており、次の効果を達成できます。
-
インクリメンタル構築
パーティション化されたマテリアライズドビューを作成する際、パーティションをバッチでリフレッシュするように作成タスクを設定することで、過剰なリソース消費を避けることができます。
-
インクリメンタルリフレッシュ
ベーステーブルの特定のパーティションでデータの変更を検出した場合、マテリアライズドビューの対応するパーティションのみを更新するようにリフレッシュタスクを設定できます。パーティションレベルのリフレッシュは、マテリアライズドビュー全体をリフレッシュするために使用されるリソースの無駄を大幅に防ぐことができます。
-
部分的なマテリアライゼーション
マテリアライズドビューのパーティションに TTL を設定することで、データの部分的なマテリアライゼーションを可能にします。
-
透過的 なクエリの書き換え
クエリは、更新されたマテリアライズドビューのパーティションに基づいて透過的に書き換えられます。古いと見なされるパーティションはクエリプランに関与せず、クエリはベーステーブルで実行され、データの一貫性が保証されます。
制限事項
パーティション化されたマテリアライズドビューは、パーティション化されたベーステーブル(通常はファクトテーブル)にのみ作成できます。ベーステーブルとマテリアライズドビューの間のパーティション関係をマッピングすることで、両者のシナジーを構築できます。
現在、StarRocks は次のデータソースからのテーブルに対してパーティション化されたマテリアライズドビューの構築をサポートしています。
- デフォルトカタログ内の StarRocks OLAP テーブル
- サポートされているパーティション戦略: レンジパーティション化、リストパーティション化、および式パーティション化
- パーティションキーにサポートされているデータ型: INT, DATE, DATETIME, STRING
- サポートされているテーブルタイプ: Primary Key, Duplicate Key, Aggregate Key, Unique Key
- 共有なしクラスタと共有データクラスタの両方でサポート
- Hive Catalog, Hudi Catalog, Iceberg Catalog, Paimon Catalog のテーブル
- サポートされているパーティションレベル: プライマリレベル
- パーティションキーにサポートされているデータ型: INT, DATE, DATETIME, STRING
- 非パーティション化されたベース(ファクト)テーブルに基づいてパーティション化されたマテリアライズドビューを作成することはできません。
- StarRocks OLAP テーブルの場合、ベーステーブルの隣接する2つのパーティションは連続した範囲を持つ必要があります。
- 外部カタログの多層パーティション化されたベーステーブルの場合、プライマリレベルのパーティションパスのみを使用してパーティション化されたマテリアライズドビューを作成できます。たとえば、
yyyyMMdd/hour形式でパーティション化されたテーブルの場合、yyyyMMddでパーティション化されたマテリアライズドビューのみを構築できます。 - v3.2.3 以降、StarRocks は Iceberg テーブルに対するパーティション化されたマテリアライズドビューの作成をサポートしており、マテリアライズドビューは変 換後の列でパーティション化されます。詳細は 適切なリフレッシュ戦略を選択する. を参照してください。
ユースケース
次のようなベーステーブルがあるとします。
CREATE TABLE IF NOT EXISTS par_tbl1 (
datekey DATE, -- パーティションキーとして使用される DATE 型の日付列。
k1 STRING,
v1 INT,
v2 INT
)
ENGINE=olap
PARTITION BY RANGE (datekey) (
START ("2021-01-01") END ("2021-01-04") EVERY (INTERVAL 1 DAY)
)
DISTRIBUTED BY HASH(k1);
CREATE TABLE IF NOT EXISTS par_tbl2 (
datekey STRING, -- パーティションキーとして使用される STRING 型の日付列。
k1 STRING,
v1 INT,
v2 INT
)
ENGINE=olap
PARTITION BY RANGE (str2date(datekey, '%Y-%m-%d')) (
START ("2021-01-01") END ("2021-01-04") EVERY (INTERVAL 1 DAY)
)
DISTRIBUTED BY HASH(k1);
CREATE TABLE IF NOT EXISTS par_tbl3 (
datekey_new DATE, -- par_tbl1.datekey と同等の列。
k1 STRING,
v1 INT,
v2 INT
)
ENGINE=olap
PARTITION BY RANGE (datekey_new) (
START ("2021-01-01") END ("2021-01-04") EVERY (INTERVAL 1 DAY)
)
DISTRIBUTED BY HASH(k1);
パーティションを一対一で整列
同じパーティションキーを使用して、ベーステーブルのパーティ ションと一対一で対応するマテリアライズドビューを作成できます。

-
ベーステーブルのパーティションキーが DATE または DATETIME 型の場合、マテリアライズドビューに同じパーティションキーを直接指定できます。
PARTITION BY <base_table_partitioning_column>例:
CREATE MATERIALIZED VIEW par_mv1
REFRESH ASYNC
PARTITION BY datekey
AS
SELECT
k1,
sum(v1) AS SUM,
datekey
FROM par_tbl1
GROUP BY datekey, k1; -
ベーステーブルのパーティションキーが STRING 型の場合、str2date 関数を使用して日付文字列を DATE または DATETIME 型に変換できます。
PARTITION BY str2date(<base_table_partitioning_column>, <format>)例:
CREATE MATERIALIZED VIEW par_mv2
REFRESH ASYNC
PARTITION BY str2date(datekey, '%Y-%m-%d')
AS
SELECT
k1,
sum(v1) AS SUM,
datekey
FROM par_tbl2
GROUP BY datekey, k1;
パーティションを時間粒度のロールアップで整列
パーティションキーに date_trunc 関数を使用して、ベーステーブルよりも大きなパーティション粒度を持つマテリアライズドビューを作成できます。ベーステーブルのパーティションでデータ変更が検出されると、StarRocks はマテリアライズドビューの対応するロールアップパーティションをリフレッシュします。

-
ベーステーブルのパーティションキーが DATE または DATETIME 型の場合、ベーステーブルのパーティションキーに date_trunc 関数を直接使用できます。
PARTITION BY date_trunc(<format>, <base_table_partitioning_column>)例:
CREATE MATERIALIZED VIEW par_mv3
REFRESH ASYNC
PARTITION BY date_trunc('month', datekey)
AS
SELECT
k1,
sum(v1) AS SUM,
datekey
FROM par_tbl1
GROUP BY datekey, k1; -
ベーステーブルのパーティションキーが STRING 型の場合、SELECT リストでベーステーブルのパーティションキーを DATE または DATETIME 型に変換し、エイリアスを設定して、それを date_trunc 関数で使用してマテリアライズドビューのパーティションキーを指定します。
PARTITION BY
date_trunc(<format>, <mv_partitioning_column>)
AS
SELECT
str2date(<base_table_partitioning_column>, <format>) AS <mv_partitioning_column>例:
CREATE MATERIALIZED VIEW par_mv4
REFRESH ASYNC
PARTITION BY date_trunc('month', mv_datekey)
AS
SELECT
datekey,
k1,
sum(v1) AS SUM,
str2date(datekey, '%Y-%m-%d') AS mv_datekey
FROM par_tbl2
GROUP BY datekey, k1;
カスタマイズされた時間粒度でパーティションを整列
上記のパーティションロールアップ方法は、特定の時間粒度に基づいてマテリアライズドビューをパーティション化することのみを許可し、パーティションの時間範囲をカスタマイズすることはできません。ビジネスシナリオでカスタマイズされた時間粒度を使用してパーティション化する必要がある場合、time_slice 関数を使用してパーティションの時間粒度を定義し、指定された時間粒度に基づいて指定された時間間隔の開始または終了に時間を変換できます。
SELECT リストでベーステーブルのパーティションキーに time_slice 関数を使用して新しい時間粒度(間隔)を定義し、エイリアスを設定して、それを date_trunc 関数で使用してマテリアライズドビューのパーティションキーを指定します。
PARTITION BY
date_trunc(<format>, <mv_partitioning_column>)
AS
SELECT
-- time_slice を使用できます。
time_slice(<base_table_partitioning_column>, <interval>) AS <mv_partitioning_column>
例:
CREATE MATERIALIZED VIEW par_mv5
REFRESH ASYNC
PARTITION BY date_trunc('day', mv_datekey)
AS
SELECT
k1,
sum(v1) AS SUM,
time_slice(datekey, INTERVAL 5 MINUTE) AS mv_datekey
FROM par_tbl1
GROUP BY datekey, k1;