Запись Запросов в ClickHouse с использованием Данных GitHub

Этот набор данных содержит все коммиты и изменения для репозитория ClickHouse. Его можно сгенерировать с помощью встроенного инструмента git-import, который распространяется вместе с ClickHouse.

Сгенерированные данные предоставляют файл tsv для каждой из следующих таблиц:

commits - коммиты с статистикой.
file_changes - файлы, измененные в каждом коммите, с информацией об изменении и статистикой.
line_changes - каждая измененная строка в каждом измененном файле в каждом коммите с полной информацией о строке и информацией о предыдущем изменении этой строки.

По состоянию на 8 ноября 2022 года, каждый TSV имеет приблизительно следующие размеры и количество строк:

commits - 7.8M - 266,051 строк
file_changes - 53M - 266,051 строк
line_changes - 2.7G - 7,535,157 строк

Генерация данных

Это необязательно. Мы свободно распространяем данные - см. Скачать и вставить данные.

git clone git@github.com:ClickHouse/ClickHouse.git
cd ClickHouse
clickhouse git-import --skip-paths 'generated\.cpp|^(contrib|docs?|website|libs/(libcityhash|liblz4|libdivide|libvectorclass|libdouble-conversion|libcpuid|libzstd|libfarmhash|libmetrohash|libpoco|libwidechar_width))/' --skip-commits-with-messages '^Merge branch '

Это займет около 3 минут (по состоянию на 8 ноября 2022 года на MacBook Pro 2021) для завершения процесса для репозитория ClickHouse.

Полный список доступных параметров можно получить из встроенной справки инструмента.

clickhouse git-import -h

Эта справка также предоставляет DDL для каждой из вышеупомянутых таблиц, например:

CREATE TABLE git.commits
(
    hash String,
    author LowCardinality(String),
    time DateTime,
    message String,
    files_added UInt32,
    files_deleted UInt32,
    files_renamed UInt32,
    files_modified UInt32,
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

Эти запросы должны работать с любым репозиторием. Не стесняйтесь исследовать и сообщать о своих находках Некоторые ориентиры относительно времени выполнения (по состоянию на ноябрь 2022 года):

Linux - ~/clickhouse git-import - 160 минут

Скачивание и вставка данных

Следующие данные могут использоваться для воспроизведения рабочей среды. В качестве альтернативы, этот набор данных доступен на play.clickhouse.com - см. Запросы для получения дополнительных деталей.

Сгенерированные файлы для следующих репозиториев можно найти ниже:

ClickHouse (8 ноября 2022)
Linux (8 ноября 2022)

Для вставки этих данных подготовьте базу данных, выполнив следующие запросы:

DROP DATABASE IF EXISTS git;
CREATE DATABASE git;

CREATE TABLE git.commits
(
    hash String,
    author LowCardinality(String),
    time DateTime,
    message String,
    files_added UInt32,
    files_deleted UInt32,
    files_renamed UInt32,
    files_modified UInt32,
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

CREATE TABLE git.file_changes
(
    change_type Enum('Add' = 1, 'Delete' = 2, 'Modify' = 3, 'Rename' = 4, 'Copy' = 5, 'Type' = 6),
    path LowCardinality(String),
    old_path LowCardinality(String),
    file_extension LowCardinality(String),
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32,

    commit_hash String,
    author LowCardinality(String),
    time DateTime,
    commit_message String,
    commit_files_added UInt32,
    commit_files_deleted UInt32,
    commit_files_renamed UInt32,
    commit_files_modified UInt32,
    commit_lines_added UInt32,
    commit_lines_deleted UInt32,
    commit_hunks_added UInt32,
    commit_hunks_removed UInt32,
    commit_hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

CREATE TABLE git.line_changes
(
    sign Int8,
    line_number_old UInt32,
    line_number_new UInt32,
    hunk_num UInt32,
    hunk_start_line_number_old UInt32,
    hunk_start_line_number_new UInt32,
    hunk_lines_added UInt32,
    hunk_lines_deleted UInt32,
    hunk_context LowCardinality(String),
    line LowCardinality(String),
    indent UInt8,
    line_type Enum('Empty' = 0, 'Comment' = 1, 'Punct' = 2, 'Code' = 3),

    prev_commit_hash String,
    prev_author LowCardinality(String),
    prev_time DateTime,

    file_change_type Enum('Add' = 1, 'Delete' = 2, 'Modify' = 3, 'Rename' = 4, 'Copy' = 5, 'Type' = 6),
    path LowCardinality(String),
    old_path LowCardinality(String),
    file_extension LowCardinality(String),
    file_lines_added UInt32,
    file_lines_deleted UInt32,
    file_hunks_added UInt32,
    file_hunks_removed UInt32,
    file_hunks_changed UInt32,

    commit_hash String,
    author LowCardinality(String),
    time DateTime,
    commit_message String,
    commit_files_added UInt32,
    commit_files_deleted UInt32,
    commit_files_renamed UInt32,
    commit_files_modified UInt32,
    commit_lines_added UInt32,
    commit_lines_deleted UInt32,
    commit_hunks_added UInt32,
    commit_hunks_removed UInt32,
    commit_hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

Вставьте данные с помощью INSERT INTO SELECT и функции s3. Например, ниже мы вставляем файлы ClickHouse в каждую из их соответствующих таблиц:

commits

INSERT INTO git.commits SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/commits.tsv.xz', 'TSV', 'hash String,author LowCardinality(String), time DateTime, message String, files_added UInt32, files_deleted UInt32, files_renamed UInt32, files_modified UInt32, lines_added UInt32, lines_deleted UInt32, hunks_added UInt32, hunks_removed UInt32, hunks_changed UInt32')

0 rows in set. Elapsed: 1.826 sec. Processed 62.78 thousand rows, 8.50 MB (34.39 thousand rows/s., 4.66 MB/s.)

file_changes

INSERT INTO git.file_changes SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/file_changes.tsv.xz', 'TSV', 'change_type Enum(\'Add\' = 1, \'Delete\' = 2, \'Modify\' = 3, \'Rename\' = 4, \'Copy\' = 5, \'Type\' = 6), path LowCardinality(String), old_path LowCardinality(String), file_extension LowCardinality(String), lines_added UInt32, lines_deleted UInt32, hunks_added UInt32, hunks_removed UInt32, hunks_changed UInt32, commit_hash String, author LowCardinality(String), time DateTime, commit_message String, commit_files_added UInt32, commit_files_deleted UInt32, commit_files_renamed UInt32, commit_files_modified UInt32, commit_lines_added UInt32, commit_lines_deleted UInt32, commit_hunks_added UInt32, commit_hunks_removed UInt32, commit_hunks_changed UInt32')

0 rows in set. Elapsed: 2.688 sec. Processed 266.05 thousand rows, 48.30 MB (98.97 thousand rows/s., 17.97 MB/s.)

line_changes

INSERT INTO git.line_changes SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/line_changes.tsv.xz', 'TSV', '    sign Int8, line_number_old UInt32, line_number_new UInt32, hunk_num UInt32, hunk_start_line_number_old UInt32, hunk_start_line_number_new UInt32, hunk_lines_added UInt32,\n    hunk_lines_deleted UInt32, hunk_context LowCardinality(String), line LowCardinality(String), indent UInt8, line_type Enum(\'Empty\' = 0, \'Comment\' = 1, \'Punct\' = 2, \'Code\' = 3), prev_commit_hash String, prev_author LowCardinality(String), prev_time DateTime, file_change_type Enum(\'Add\' = 1, \'Delete\' = 2, \'Modify\' = 3, \'Rename\' = 4, \'Copy\' = 5, \'Type\' = 6),\n    path LowCardinality(String), old_path LowCardinality(String), file_extension LowCardinality(String), file_lines_added UInt32, file_lines_deleted UInt32, file_hunks_added UInt32, file_hunks_removed UInt32, file_hunks_changed UInt32, commit_hash String,\n    author LowCardinality(String), time DateTime, commit_message String, commit_files_added UInt32, commit_files_deleted UInt32, commit_files_renamed UInt32, commit_files_modified UInt32, commit_lines_added UInt32, commit_lines_deleted UInt32, commit_hunks_added UInt32, commit_hunks_removed UInt32, commit_hunks_changed UInt32')

0 rows in set. Elapsed: 50.535 sec. Processed 7.54 million rows, 2.09 GB (149.11 thousand rows/s., 41.40 MB/s.)

Запросы

Инструмент предлагает несколько запросов через свой вывод справки. Мы ответили на них, а также добавили некоторые дополнительные вопросы, представляющие интерес. Эти запросы имеют примерно возрастающую сложность по сравнению с произвольным порядком инструмента.

Этот набор данных доступен на play.clickhouse.com в базах данных git_clickhouse. Мы предоставляем ссылку на эту среду для всех запросов, адаптируя имя базы данных по мере необходимости. Обратите внимание, что результаты игры могут отличаться от тех, которые представлены здесь, из-за различий во времени сбора данных.

История одного файла

Самый простой из запросов. Здесь мы рассматриваем все сообщения коммитов для StorageReplicatedMergeTree.cpp. Поскольку они, вероятно, более интересны, мы сортируем по самым последним сообщениям сначала.

Генерация данных​

Скачивание и вставка данных​

Запросы​

История одного файла​

Найти текущие активные файлы​

Список файлов с наибольшим количеством изменений​

В какой день недели обычно происходят коммиты?​

История подпапки/файла - количество строк, коммитов и авторов с течением времени​

Список файлов с максимальным числом авторов​

Самые старые строки кода в репозитории​

Файлы с самой длинной историей​

Распределение участников в отношении документации и кода за месяц​

Авторы с самым разнообразным вкладом​

Любимые файлы автора​

Самые большие файлы с наименьшим количеством авторов​

Распределение коммитов и строк кода по времени; по дням недели, по авторам; для конкретных подпапок​

Матрица авторов, показывающая, какие авторы, как правило, переписывают код других авторов​

Кто автор с наибольшим процентом вклада по дням недели?​

Распределение возраста кода по репозиторию​

Какой процент кода для автора был удален другими авторами?​

Список файлов, которые переписывались наибольшее количество раз?​

В какой день недели код имеет наибольшую вероятность остаться в репозитории?​

Файлы, отсортированные по среднему возрасту кода​

Кто более склонен писать больше тестов / CPP кода / комментариев?​

Как изменяются коммиты автора со временем в отношении процента кода/комментариев?​

Какое среднее время до переписывания кода и медиана (период полураспада кода)?​

Какое худшее время для написания кода с точки зрения того, что код имеет наибольшую вероятность быть переписанным?​

Чей код самый «липкий»?​

Наибольшее количество последовательных дней коммитов автора​

История коммитов построчно для файла​

Неразрешенные вопросы​

Git blame​

Генерация данных

Скачивание и вставка данных

Запросы

История одного файла

Найти текущие активные файлы

Список файлов с наибольшим количеством изменений

В какой день недели обычно происходят коммиты?

История подпапки/файла - количество строк, коммитов и авторов с течением времени

Список файлов с максимальным числом авторов

Самые старые строки кода в репозитории

Файлы с самой длинной историей

Распределение участников в отношении документации и кода за месяц

Авторы с самым разнообразным вкладом

Любимые файлы автора

Самые большие файлы с наименьшим количеством авторов

Распределение коммитов и строк кода по времени; по дням недели, по авторам; для конкретных подпапок

Матрица авторов, показывающая, какие авторы, как правило, переписывают код других авторов

Кто автор с наибольшим процентом вклада по дням недели?

Распределение возраста кода по репозиторию

Какой процент кода для автора был удален другими авторами?

Список файлов, которые переписывались наибольшее количество раз?

В какой день недели код имеет наибольшую вероятность остаться в репозитории?

Файлы, отсортированные по среднему возрасту кода

Кто более склонен писать больше тестов / CPP кода / комментариев?

Как изменяются коммиты автора со временем в отношении процента кода/комментариев?

Какое среднее время до переписывания кода и медиана (период полураспада кода)?

Какое худшее время для написания кода с точки зрения того, что код имеет наибольшую вероятность быть переписанным?

Чей код самый «липкий»?

Наибольшее количество последовательных дней коммитов автора

История коммитов построчно для файла

Неразрешенные вопросы

Git blame