📄️ any_value
在包含 GROUP BY 的聚合查询中,该函数用于从每个聚合分组中随机选择一行返回。
📄️ approx_count_distinct
返回类似于 COUNT(DISTINCT col) 结果的近似值。
📄️ approx_top_k
返回表达式 expr 中最常出现的 k 个项目以及每个项目出现的近似次数。
📄️ avg
用于返回选中字段的平均值。
📄️ bitmap
这里通过一个简单的示例来介绍 Bitmap 中的几个聚合函数的用法,具体的函数定义以及更多 Bitmap 函数请参考 bitmap-functions。
📄️ corr
返回两个随机变量的皮尔逊相关系数(correlation coefficient)。该函数从 2.5.10 版本开始支持,也可用作窗口函数。
📄️ count
计算总行数。
📄️ count_if
计算满足指定条件(即条件表达试的结果为 true)的记录数。
📄️ covar_pop
返回两个随机变量的总体协方差。该函数从 2.5.10 版本开始支持,也可用作窗口函数。
📄️ covar_samp
返回两个随机变量的样本协方差。该函数从 2.5.10 版本开始支持,也可用作窗口函数。
📄️ ds_hll_count_distinct
返回聚合函数的近似值,结果类似于 COUNT(DISTINCT col)。相似函数为 APPROXCOUNTDISTINCT(expr)。
📄️ group_concat
将分组中的多个非 NULL 值连接成一个字符串,参数 sep 为字符串之间的连接符,该参数可选,默认为 ,。该函数在连接时会忽略 NULL 值。
📄️ grouping
判断一个列是否为聚合列,如果是聚合列则返回 0,否则返回 1。
📄️ grouping_id
用于区分相同分组标准的分组统计结果。
📄️ hll_raw_agg
此函数为聚合函数,用于聚合 HLL 类型的字段,返回的还是 HLL 类型。
📄️ hll_union
返回一组 HLL 值的并集。
📄️ hll_union_agg
该函数将多个 HLL 类型数据合并成一个 HLL。
📄️ mann_whitney_u_test
功能
📄️ max
返回 expr 表达式的最大值。
📄️ max_by
返回与 y 的最大值相关联的 x 值。比如 SELECT maxby(subject, examresult) FROM exam; 表示返回 exam 表中考试得分最高的科目。该函数从 2.5 版本开始支持。
📄️ min
返回 expr 表达式的最小值。
📄️ min_by
返回与 y 的最小值关联的 x 值。比如 SELECT minby(subject, examresult) FROM exam; 表示返回 exam 表中考试得分最低的科目。
📄️ multi_distinct_count
返回 expr 中去除重复值后的行数,功能等同于 COUNT(DISTINCT expr)。
📄️ multi_distinct_sum
返回 expr 中去除重复值后的总和,功能等同于 sum(distinct expr)。
📄️ percentile_approx
返回第 p 个百分位点的近似值。
📄️ percentile_cont
计算精确百分位数。该函数使用连续分布模型,如果未找到与百分位完全匹配的值,则返回临近两个值的线性插值。
📄️ percentile_disc
计算百分位数。和 percentile_cont 不同的是,该函数如果未找到与百分位完全匹配的值,则默认返回临近两个值中较大的值。
📄️ percentile_disc_lc
计算百分位数。和 percentiledisc 行为一致. 但是实现算法不同 percentiledisc 需要获取所有的输入数据,通过归并排序获取百分位的值需要消耗的内存为所有输入数据的内存。而 percentiledisclc 是构建一个 key->count的一个hash表,因此当输入的基数比较低的时候即使输入的数据量很大也没有明显的内存增长。
📄️ retention
retention (留存函数)用于计算一段时间内的用户留存情况。该函数接收 1 到 31 个条件,从第一个条件开始判断事件是否满足条件,如果条件满足则输出 1,不满足则输出 0,最终返回 0 和 1 的数组。通过统计结果为 1 的数据,计算用户留存率。
📄️ std
返回 expr 表达式的标准差。从 2.5.10 版本开始,该函数也可以用作窗口函数。
📄️ stddev, stddev_pop, std
返回 expr 表达式的总体标准差。从 2.5.10 版本开始,该函数也可以用作窗口函数。
📄️ stddev_samp
返回 expr 表达式的样本标准差。从 2.5.10 版本开始,该函数也可以用作窗口函数。
📄️ sum
返回指定列所有值的总和。该函数会忽略 NULL 值,可以与 DISTINCT 运算符搭配使用。
📄️ var_samp, variance_samp
返回 expr 表达式的样本方差。从 2.5.10 版本开始,该函数也可以用作窗口函数。
📄️ variance, var_pop, variance_pop
返回表达式的总体方差。从 2.5.10 版本开始,该函数也可以用作窗口函数。
📄️ window_funnel
搜索滑动时间窗口内的事件列表,计算条件匹配的事件链里的最大连续事件数。该函数是一种漏斗函数,是比较常见的转化分析方法,用于分析用户在各阶段行为的转化率。