HLL を使用した近似的な重複排除カウント
背景
実際のシナリオでは、データ量が増えるにつれてデータの重複排除の圧力が増します。データサイズがあるレベルに達すると、正確な重複排除のコストが比較的高くなります。この場合、ユーザーは通常、計算の負荷を軽減するために近似アルゴリズムを使用します。このセクションで紹介する HyperLogLog (HLL) は、優れた空間複雑度 O(mloglogn) と時間複雑度 O(n) を持つ近似的な重複排除アルゴリズムです。さらに、計算結果の誤差率は、データセットのサイズや使用するハッシュ関数に応じて約 1% ~ 10% に制御できます。