通用监控指标
本文介绍了监控 StarRocks 的重要通用指标。
有关物化视图和存算分离集群专属监控指标,请参考对应章节:
关于为您的 StarRocks 集群设置监控报警服务的详细说明,请参阅 监控警报。
监控项说明
be_broker_count
- 单位:个
- 类型:平均值
- 描述:Broker的数量。
be_brpc_endpoint_count
- 单位:个
- 类型:平均值
- 描述:bRPC 中 StubCache 的数量。
be_bytes_read_per_second
- 单位:Byte/秒
- 类型:平均值
- 描述:BE 读取速度。
be_bytes_written_per_second
- 单位:Byte/秒
- 类型:平均值
- 描述:BE 写入速度。
be_base_compaction_bytes_per_second
- 单位:Byte/秒
- 类型:平均值
- 描述:BE 的基线合并速率。
be_cumulative_compaction_bytes_per_second
- 单位 :Byte/秒
- 类型:平均值
- 描述:BE 的增量合并速率。
be_base_compaction_rowsets_per_second
- 单位:个/秒
- 类型:平均值
- 描述:BE 的基线合并 rowsets 合并速率。
be_cumulative_compaction_rowsets_per_second
- 单位:个/秒
- 类型:平均值
- 描述:BE 的增量合并 rowsets 合并速率。
be_base_compaction_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 基线合并失败。
be_clone_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 克隆失败
be_create_rollup_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 创建物化视图失败。
be_create_tablet_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 创建 tablet 失败。
be_cumulative_compaction_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 增量合并失败。
be_delete_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 删除失败。
be_finish_task_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE task 失败。
be_publish_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 版本发布失败。
be_report_tables_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 表上报失败。
be_report_disk_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 磁盘上报失败。
be_report_tablet_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 分片上报失败。
be_report_task_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 任务上报失败。
be_schema_change_failed
- 单位:个/秒
- 类型:平均值
- 描述:BE 修改表结构失败。
be_base_compaction_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 基线合并请求。
be_clone_total_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 克隆请求。
be_create_rollup_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 创建物化视图请求。
be_create_tablet_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 创建分片请求。
be_cumulative_compaction_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 增量合并请求。
be_delete_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 删除请求。
be_finish_task_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 完成任务请求。
be_publish_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 版本发布请求。
be_report_tablets_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 分片上报 请求。
be_report_disk_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 磁盘上报请求。
be_report_tablet_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 任务上报请求。
be_report_task_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 任务上报请求。
be_schema_change_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 表结构修改请求。
be_storage_migrate_requests
- 单位:个/秒
- 类型:平均值
- 描述:BE 迁移请求。
be_fragment_endpoint_count
- 单位:个
- 类型:平均值
- 描述:BE DataStream 数量。
be_fragment_request_latency_avg
- 单位:m s
- 类型:平均值
- 描述:fragment 请求响应时间。
be_fragment_requests_per_second
- 单位:个/秒
- 类型:平均值
- 描述:fragment 请求数。
be_http_request_latency_avg
- 单位:毫秒
- 类型:平均值
- 描述:HTTP 请求响应时间。
be_http_requests_per_second
- 单位:个/秒
- 类型:平均值
- 描述:HTTP 请求数。
be_http_request_send_bytes_per_second
- 单位:Byte/秒
- 类型:平均值
- 描述:HTTP 请求发送字节数。
fe_connections_per_second
- 单位:个/秒
- 类型:平均值
- 描述:FE 的新增连接速率。
fe_connection_total
- 单位:个
- 类型:累计值
- 描述:FE 的总连接数量。
fe_edit_log_read
- 单位:个/秒
- 类型:平均值
- 描述:FE edit log 读取速率。
fe_edit_log_size_bytes
- 单位:Byte/秒
- 类型:平均值
- 描述:FE edit log 大小。
fe_edit_log_write
- 单位:Byte/秒
- 类型:平均值
- 描述:FE edit log 写入速率。
fe_checkpoint_push_per_second
- 单位:个/秒
- 类型:平均值
- 描述:FE checkpoint 数。
fe_pending_hadoop_load_job
- 单位:个
- 类型:平均值
- 描述:Pending 的 hadoop job 数量。
fe_committed_hadoop_load_job
- 单位:个
- 类型:平均值
- 描述:提交的 hadoop job 数量。
fe_loading_hadoop_load_job
- 单位:个
- 类型:平均值
- 描述:加载中的 hadoop job 数量。
fe_finished_hadoop_load_job
- 单位:个
- 类型:平均值
- 描述:完成的 hadoop job 数量。
fe_cancelled_hadoop_load_job
- 单位:个
- 类型:平均值
- 描述:取消的 hadoop job 数量。
fe_pending_insert_load_job
- 单位:个
- 类型:平均值
- 描述:Pending 的 insert job 数量。
fe_loading_insert_load_job
- 单位:个
- 类型:平均值
- 描述:提交的 insert job 数量。
fe_committed_insert_load_job
- 单位:个
- 类型:平均值
- 描述:加载中的 insert job 数量。
fe_finished_insert_load_job
- 单位:个
- 类型:平均值
- 描述:完成的 insert job 数量。
fe_cancelled_insert_load_job
- 单位:个
- 类型:平均值
- 描述:取消的 insert job 数量。
fe_pending_broker_load_job
- 单位:个
- 类型:平均值
- 描述:Pending 的 broker job 数量。
fe_loading_broker_load_job
- 单位:个
- 类型:平均值
- 描述:提交的 broker job 数量。
fe_committed_broker_load_job
- 单位:个
- 类型:平均值
- 描述:加载中的 broker job 数量。
fe_finished_broker_load_job
- 单位:个
- 类型:平均值
- 描述:完成的 broker job 数量。
fe_cancelled_broker_load_job
- 单位:个
- 类型:平均值
- 描述:取消的 broker job 数量。
fe_pending_delete_load_job
- 单位:个
- 类型:平均值
- 描述:Pending 的 delete job 数量。
fe_loading_delete_load_job
- 单位:个
- 类型:平均值
- 描述:提交的 delete job 数量。
fe_committed_delete_load_job
- 单位:个
- 类型:平均值
- 描述:加载中的 delete job 数量。
fe_finished_delete_load_job
- 单位:个
- 类型:平均值
- 描述:完成的 delete job 数量。
fe_cancelled_delete_load_job
- 单位:个
- 类型:平均值
- 描述:取消的 delete job 数量。
fe_rollup_running_alter_job
- 单位:个
- 类型:平均值
- 描述:rollup 创建中的 job 数量。
fe_schema_change_running_job
- 单位:个
- 类型:平均值
- 描述:表结构变更中的 job 数量。
cpu_util
- 单位:-
- 类型:平均值
- 描述:CPU 百分比使用率。
cpu_system
- 单位:-
- 类型:平均值
- 描述:cpu_system 百分比使用率。
cpu_user
- 单位:-
- 类型:平均值
- 描述:cpu_user 百分比使用率。
cpu_idle
- 单位:-
- 类型:平均值
- 描述:cpu_idle 百分比使用率。
cpu_guest
- 单位:-
- 类型:平均值
- 描述:cpu_guest 百分比使用率。
cpu_iowait
- 单位:-
- 类型:平均值
- 描述:cpu_iowait 百分比使用率。
cpu_irq
- 单位:-
- 类型:平均值
- 描述:cpu_irq 百分比使用率。
cpu_nice
- 单位:-
- 类型:平均值
- 描述:cpu_nice 百分比使用率。
cpu_softirq
- 单位:-
- 类型:平均值
- 描述:cpu_softirq 百分比使用率。
cpu_steal
- 单位:-
- 类型:平均值
- 描述:cpu_steal 百分比使用率。
disk_free
- 单位:Byte
- 类型:平均值
- 描述:空闲磁盘容量。
disk_io_svctm
- 单位:毫秒
- 类型:平均值
- 描述:磁盘 IO 服务时间。
disk_io_util
- 单位:-
- 类型:平均值
- 描述:磁盘百分比使用率。
disk_used
- 单位:Byte
- 类型:平均值
- 描述:已用磁盘容量。
encryption_keys_created
- 单位:个
- 类型:累计值
- 描述:加密文件时创建密钥的次数
encryption_keys_unwrapped
- 单位:个
- 类型:累计值
- 描述:解密文件时解码密钥的次数
encryption_keys_in_cache
- 单位:个
- 类型:瞬时值
- 描述:当前密钥缓存中密钥的个数
starrocks_fe_query_resource_group
- 单位:个
- 类型:累计值
- 描述:该资源组中查询任务的数量
starrocks_fe_query_resource_group_latency
- 单位:秒
- 类型:平均值
- 描述:该资源组的查询延迟百分位数
starrocks_fe_query_resource_group_err
- 单位:个
- 类型:累计值
- 描述:该资源组中报错的查询任务的数量
starrocks_fe_meta_log_count
- 单位:个
- 类型:瞬时值
- 描述:未做 Checkpoint 的 Edit Log 数量,该值在
100000以内为合理
starrocks_be_resource_group_cpu_limit_ratio
- 单位:-
- 类型:瞬时值
- 描述:该资源组 CPU 百分比配额比率的瞬时值
starrocks_be_resource_group_cpu_use_ratio
- 单位:-
- 类型:平均值
- 描述:该资源组 CPU 使用时间占所有资源组 CPU 时间的百分比
starrocks_be_resource_group_mem_limit_bytes
- 单位:Byte
- 类型:瞬时值
- 描述:该资源组内存配额比率的瞬时值
starrocks_be_resource_group_mem_allocated_bytes
- 单位:Byte
- 类型:瞬时值
- 描述:该资源组内存使用率瞬时值
starrocks_be_pipe_prepare_pool_queue_len
- 单位:个
- 类型:瞬时值
- 描述:Pipeline 准备线程池任务队列长度的瞬时值
starrocks_fe_safe_mode
- 单位:-
- 类型:瞬时值
- 描述:Safe Mode 是否被开启 。取值:
0(关闭)或1(开启)。Safe Mode 开启时,集群不再接受任何数据导入请求。
starrocks_fe_unfinished_backup_job
- 单位:个
- 类型:瞬时值
- 描述:Warehouse 下运行中的 BACKUP 任务的数量。对于存算一体集群,此项仅监控 Default Warehouse。对于存算分离集群,该值始终为
0。
starrocks_fe_unfinished_restore_job
- 单位:个
- 类型:瞬时值
- 描述:Warehouse 下运行中的 RESTORE 任务的数量。对于存算一体集群,此项仅监控 Default Warehouse。对于存算分离集群,该值始终为
0。
starrocks_fe_memory_usage
- 单位:Byte 或个
- 类型:瞬时值
- 描述:Warehouse 下各个模块内存统计信息。对于存算一体集群,此项仅监控 Default Warehouse。
starrocks_fe_unfinished_query
- 单位:个
- 类型:瞬时值
- 描述:Warehouse 下运行中的查询数量。对于存算一体集群,此项仅监控 Default Warehouse。
starrocks_fe_last_finished_job_timestamp
- 单位:毫秒
- 类型:瞬时值
- 描述:Warehouse 下最后一次查询或导入的结束时间。对于存算一体集群,此项仅监控 Default Warehouse。
starrocks_fe_query_resource_group
- 单位:个
- 类型:累计值
- 描述:Resource Group 下执行的查询总量。
starrocks_fe_query_resource_group_err
- 单位:个
- 类型:累计值
- 描述:Resource Group 下失败的查询数量。
starrocks_fe_query_resource_group_latency
- 单位:毫秒
- 类型:累计值
- 描述:Resource Group 下查询的延时统计信息。
starrocks_fe_tablet_num
- 单位:个
- 类型:瞬时值
- 描述:每个 BE 节点上的 Tablet 数量。
starrocks_fe_tablet_max_compaction_score
- 单位:个
- 类型:瞬时值
- 描述:每个 BE 节点上最高的 Compaction Score。
starrocks_fe_slow_lock_held_time_ms
- 单位:毫秒
- 类型:Summary
- 描述:检测到慢锁时追踪锁持有时间(毫秒)的直方图指标。当锁等待时间超过
slow_lock_threshold_ms配置参数时更新此指标。它追踪检测到慢锁事件时所有锁持有者中的最大锁持有时间。每个指标包括分位数值(0.75、0.95、0.98、0.99、0.999)、_sum和_count输出。注意:在高竞争情况下,此指标可能无法准确反映确切的锁持有时间,因为指标在等待时间超过阈值时更新,但持有时间可能会继续增加,直到持有者完成操作并释放锁。然而,即使发生死锁,此指标仍然可以更新。
starrocks_fe_slow_lock_wait_time_ms
- 单位:毫秒
- 类型:Summary
- 描述:检测到慢锁时追踪锁等待时间(毫秒)的直方图指标。当锁等待时间超过
slow_lock_threshold_ms配置参数时更新此指标。它准确追踪在锁竞争场景中线程等待获取锁的时间。每个指标包括分位数值(0.75、0.95、0.98、0.99、0.999)、_sum和_count输出。此指标提供精确的等待时间测量。注意:当发生死锁时无法更新此指标,因此不能用于检测死锁情况。
update_compaction_outputs_total
- 单位:个
- 描述:主键表 Compaction 时的总数量。
update_del_vector_bytes_total
- 单位:Byte
- 描述:主键表 DELETE Vector 缓存的内存成本。
push_request_duration_us
- 单位:微秒
- 描述:Spark Load 总耗时。
writable_blocks_total(已弃用)
disks_data_used_capacity
- 描述:每个磁盘(由存储路径表示)的已用容量。
query_scan_rows
- 单位:个
- 描述:扫描的总行数。
update_primary_index_num
- 单位:个
- 描述:内存中主键索引的数量。
result_buffer_block_count
- 单位:个
- 描述:结果缓存中的 Block 数。
query_scan_bytes
- 单位:Byte
- 描述:扫描的总字节数。
starrocks_be_files_scan_num_files_read
- 单位:个
- 描述:从外部存储(CSV, Parquet, ORC, JSON, Avro)读取的文件数量。标签:
file_format,scan_type。
starrocks_be_files_scan_num_bytes_read
- 单位:Byte
- 描述:从外部存储读取的总字节数。标签:
file_format,scan_type。
starrocks_be_files_scan_num_raw_rows_read
- 单位:个
- 描述:从外部存储读取的原始行总数(包括格式错误的行,过滤和谓词过滤之前)。标签:
file_format,scan_type。
starrocks_be_files_scan_num_valid_rows_read
- 单位:个
- 描述:读取的有效行数(排除格式错误的行)。标签:
file_format,scan_type。
starrocks_be_files_scan_num_rows_return
- 单位:个
- 描述:谓词过滤后返回的行数。标签:
file_format,scan_type。
disk_reads_completed
- 单位:个
- 描述:成功完成的磁盘读取次数。
query_cache_hit_count
- 单位:个
- 描述:查询命中缓存次数。
jemalloc_resident_bytes
- 单位:Byte
- 描述:Allocator 映射的物理驻留数据页 中的最大字节数,包括 Allocator 元数据、活跃分配和未使用的 Dirty Page。
blocks_open_writing(已弃用)
disk_io_time_weigthed
- 单位:毫秒
- 描述:I/O 操作的加权时间。
update_compaction_task_byte_per_second
- 单位:Byte/秒
- 描述:主键表 Compaction 任务的速率(估计值)。
blocks_open_reading(已弃用)
tablet_update_max_compaction_score
- 单位:-
- 描述:当前 BE 中主键表中各个 Tablet 的最高 Compaction Score。
segment_read
- 单位:个
- 描述:Segment 读取的总次数。
disk_io_time_ms
- 单位:毫秒
- 描述:I/O 操作的总时间。单位:毫秒。
load_mem_bytes
- 单位:Byte
- 描述:数据导入的内存成本。
delta_column_group_get_non_pk_total
- 单位:个
- 描述:获取 Delta Column Group 的总次数(非主键表)。
query_scan_bytes_per_second
- 单位:Byte/秒
- 描述:每秒扫描字节数(估计值)。
active_scan_context_count
- 单位:个
- 描述:Flink/Spark SQL 创建的扫描任务总数。
fd_num_limit
- 单位:个
- 描述:文件描述符的最大数量。
update_compaction_task_cost_time_ns
- 单位:纳秒
- 描述:主键表 Compaction 任务的总耗时。
delta_column_group_get_hit_cache
- 单位:个
- 描述:主键表中 Delta Column Group 缓存的总命中次数。
data_stream_receiver_count
- 单位:个
- 描述:在 BE 中充当 Exchange Receiver 的实例的累积数量。
bytes_written_total
- 单位:Byte
- 描述:总写入字节数(Sector Write * 512)。
transaction_streaming_load_bytes
- 单位:Byte
- 描述:通过 Stream Load 事务接口导入的总字节数。
running_cumulative_compaction_task_num
- 单位:个
- 描述:运行中的 Cumulative Compaction 任务总数。
transaction_streaming_load_requests_total
- 单位:个
- 描述:事务导入请求的总数量。
cpu
- 单位:-
- 描述:
/proc/stat返回的 CPU 使用信息。
update_del_vector_num
- 单位:个
- 描述:主键表中 DELETE Vector 缓存项的数量。
disks_avail_capacity
- 描述:磁盘的可用容量。
clone_mem_bytes
- 单位:Byte
- 描述:Tablet Clone 的内存使用量。
fragment_requests_total
- 单位:个
- 描述:在 BE 上执行的非 Pipeline Engine 的 Fragment 实例总数。
disk_write_time_ms
- 单位:毫秒
- 描述:磁盘写入的总时间。单位:毫秒。