Движок таблиц PostgreSQL
The PostgreSQL engine позволяет выполнять запросы SELECT
и INSERT
к данным, хранящимся на удаленном сервере PostgreSQL.
В настоящее время поддерживаются только версии PostgreSQL 12 и выше.
Пользователям ClickHouse Cloud рекомендуется использовать ClickPipes для потоковой передачи данных из Postgres в ClickHouse. Это нативно поддерживает высокопроизводительную вставку, обеспечивая при этом разделение обязанностей с возможностью масштабирования приема данных и ресурсов кластера независимо.
Создание таблицы
Смотрите подробное описание запроса CREATE TABLE.
Структура таблицы может отличаться от структуры оригинальной таблицы PostgreSQL:
- Имена колонок должны совпадать с оригинальными именами колонок в таблице PostgreSQL, но вы можете использовать только часть из этих колонок и в любом порядке.
- Типы колонок могут отличаться от тех, что в оригинальной таблице PostgreSQL. ClickHouse пытается преобразовать значения в типы данных ClickHouse.
- Параметр external_table_functions_use_nulls определяет, как обрабатывать Nullable колонки. Значение по умолчанию: 1. Если 0, табличная функция не создает Nullable колонки и вставляет значения по умолчанию вместо null. Это также применяется к NULL значениям внутри массивов.
Параметры движка
host:port
— адрес сервера PostgreSQL.database
— имя удаленной базы данных.table
— имя удаленной таблицы.user
— пользователь PostgreSQL.password
— пароль пользователя.schema
— нестандартная схема таблицы. Необязательно.on_conflict
— стратегия разрешения конфликтов. Пример:ON CONFLICT DO NOTHING
. Необязательно. Обратите внимание: добавление этой опции сделает вставку менее эффективной.
Рекомендуется использовать именованные коллекции (доступны с версии 21.11) для производственной среды. Вот пример:
Некоторые параметры могут быть переопределены аргументами ключ-значение:
Подробности реализации
Запросы SELECT
на стороне PostgreSQL выполняются как COPY (SELECT ...) TO STDOUT
внутри транзакции PostgreSQL только для чтения с коммитом после каждого запроса SELECT
.
Простые условия WHERE
, такие как =
, !=
, >
, >=
, <
, <=
и IN
, выполняются на сервере PostgreSQL.
Все соединения, агрегации, сортировки, условия IN [ array ]
и ограничение выборки LIMIT
выполняются в ClickHouse только после завершения запроса к PostgreSQL.
Запросы INSERT
на стороне PostgreSQL выполняются как COPY "table_name" (field1, field2, ... fieldN) FROM STDIN
внутри транзакции PostgreSQL с автоматическим коммитом после каждого оператора INSERT
.
Типы Array
в PostgreSQL преобразуются в массивы ClickHouse.
Будьте осторожны - в PostgreSQL данные массива, созданные как type_name[]
, могут содержать многомерные массивы разных размеров в разных строках одной и той же колонки. Но в ClickHouse разрешено иметь только многомерные массивы с одинаковым количеством измерений во всех строках одной и той же колонки.
Поддерживаются несколько реплик, которые должны быть перечислены через |
. Например:
Поддерживается приоритет реплик для источника словаря PostgreSQL. Чем больше число в карте, тем меньше приоритет. Самый высокий приоритет — 0
.
В приведенном ниже примере реплика example01-1
имеет наивысший приоритет:
Пример использования
Таблица в PostgreSQL
Создание таблицы в ClickHouse и подключение к таблице PostgreSQL, созданной выше
В этом примере используется движок таблиц PostgreSQL для подключения таблицы ClickHouse к таблице PostgreSQL и использования как операторов SELECT, так и INSERT к базе данных PostgreSQL:
Вставка первоначальных данных из таблицы PostgreSQL в таблицу ClickHouse, с использованием запроса SELECT
Табличная функция postgresql копирует данные из PostgreSQL в ClickHouse, что часто используется для улучшения производительности запросов данных путем их запроса или анализа в ClickHouse, а не в PostgreSQL, или также может использоваться для миграции данных из PostgreSQL в ClickHouse. Поскольку мы будем копировать данные из PostgreSQL в ClickHouse, мы используем движок таблиц MergeTree в ClickHouse и называем его postgresql_copy:
Вставка инкрементальных данных из таблицы PostgreSQL в таблицу ClickHouse
Если затем выполняется постоянная синхронизация между таблицей PostgreSQL и таблицей ClickHouse после первоначальной вставки, вы можете использовать условие WHERE в ClickHouse для вставки только данных, добавленных в PostgreSQL на основе отметки времени или уникального идентификатора последовательности.
Это потребует отслеживания максимального ID или отметки времени, ранее добавленного, например:
Затем вставка значений из таблицы PostgreSQL, превышающих максимум
Выборка данных из результирующей таблицы ClickHouse
Использование нестандартной схемы
Смотрите также