topK
Возвращает массив наиболее часто встречающихся значений в указанном столбце. Результирующий массив упорядочен по убыванию частоты значения (не по самим значениям).
Реализует Filtered Space-Saving алгоритм для анализа TopK, на основе reduce-and-combine алгоритма из методики Parallel Space Saving.
Функция не дает гарантированного результата. В некоторых ситуациях могут возникать ошибки, и функция возвращает частые, но не наиболее частые значения.
Рекомендуем использовать значения N < 10, при больших N снижается производительность. Максимально возможное значение N = 65536.
Аргументы
N– количество значений.x– столбец.
Пример
Возьмём набор данных OnTime и выберем 3 наиболее часто встречающихся значения в столбце AirlineID.