approx_top_k

Возвращает массив приблизительно самых частых значений и их счетчиков в указанной колонке. Результирующий массив отсортирован в порядке убывания приблизительной частоты значений (не по самим значениям).

approx_top_k(N)(column)
approx_top_k(N, reserved)(column)

Эта функция не обеспечивает гарантированный результат. В определенных случаях могут возникать ошибки, и она может возвращать частые значения, которые не являются самыми частыми.

Рекомендуем использовать значение N < 10; производительность снижается при больших значениях N. Максимальное значение N = 65536.

Параметры

N — Количество элементов для возврата. Необязательный. Значение по умолчанию: 10.
reserved — Определяет, сколько ячеек зарезервировано для значений. Если uniq(column) > reserved, результат функции topK будет приблизительным. Необязательный. Значение по умолчанию: N * 3.

Аргументы

column — Значение, по которому вычисляется частота.

Пример

Запрос:

SELECT approx_top_k(2)(k)
FROM VALUES('k Char, w UInt64', ('y', 1), ('y', 1), ('x', 5), ('y', 1), ('z', 10));

Результат:

┌─approx_top_k(2)(k)────┐
│ [('y',3,0),('x',1,0)] │
└───────────────────────┘

approx_top_count

Является псевдонимом для функции approx_top_k

См. также