Перейти к основному содержимому
Перейти к основному содержимому

Проблема «too many parts»

Этот гайд является частью собрания выводов, полученных в ходе встреч сообщества. Для получения более практических решений и инсайтов вы можете просмотреть конкретные проблемы. Нужны дополнительные советы по оптимизации производительности? Ознакомьтесь с гайдом по Оптимизации производительности сообщества.

Понимание проблемы

ClickHouse выдает ошибку "Too many parts", чтобы предотвратить серьезное ухудшение производительности. Маленькие части вызывают несколько проблем: низкая производительность запросов из-за чтения и слияния большего количества файлов во время запросов, увеличение использования памяти, так как каждая часть требует метаданных в памяти, снижение эффективности сжатия, поскольку меньшие блоки данных сжимаются менее эффективно, более высокие накладные расходы на I/O из-за большего количества дескрипторов файлов и операций поиска, а также замедление фоновых слияний, что увеличивает нагрузку на планировщик слияний.

Связанные документы

Раннее распознавание проблемы

Этот запрос отслеживает фрагментацию таблиц, анализируя количество и размер частей во всех активных таблицах. Он выявляет таблицы с избыточными или слишком маленькими частями, которые могут требовать оптимизации слияния. Используйте это регулярно, чтобы выявлять проблемы с фрагментацией до того, как они повлияют на производительность запросов.

-- Challenge: Replace with your actual database and table names for production use
-- Experiment: Adjust the part count thresholds (1000, 500, 100) based on your system
SELECT 
    database,
    table,
    count() as total_parts,
    sum(rows) as total_rows,
    round(avg(rows), 0) as avg_rows_per_part,
    min(rows) as min_rows_per_part,
    max(rows) as max_rows_per_part,
    round(sum(bytes_on_disk) / 1024 / 1024, 2) as total_size_mb,
    CASE 
        WHEN count() > 1000 THEN 'CRITICAL - Too many parts (>1000)'
        WHEN count() > 500 THEN 'WARNING - Many parts (>500)'
        WHEN count() > 100 THEN 'CAUTION - Getting many parts (>100)'
        ELSE 'OK - Reasonable part count'
    END as parts_assessment,
    CASE 
        WHEN avg(rows) < 1000 THEN 'POOR - Very small parts'
        WHEN avg(rows) < 10000 THEN 'FAIR - Small parts'
        WHEN avg(rows) < 100000 THEN 'GOOD - Medium parts'
        ELSE 'EXCELLENT - Large parts'
    END as part_size_assessment
FROM system.parts
WHERE active = 1
  AND database NOT IN ('system', 'information_schema')
GROUP BY database, table
ORDER BY total_parts DESC
LIMIT 20;

Видеоресурсы