Перейти к основному содержимому
Перейти к основному содержимому

Интеграция Azure Synapse с ClickHouse

Azure Synapse — это интегрированная аналитическая служба, которая объединяет большие данные, Data Science и хранилища для обеспечения быстрой обработки больших объемов данных. Внутри Synapse кластеры Spark предоставляют по требованию масштабируемые Apache Spark кластеры, которые позволяют пользователям выполнять сложные преобразования данных, машинное обучение и интеграцию с внешними системами.

В этой статье показано, как интегрировать ClickHouse Spark connector при работе с Apache Spark в Azure Synapse.

Добавление зависимостей коннектора

Azure Synapse поддерживает три уровня обслуживания пакетов:

  1. Пакеты по умолчанию
  2. Уровень пула Spark
  3. Уровень сессии

Следуйте руководству по управлению библиотеками для пулов Apache Spark и добавьте следующие необходимые зависимости в ваше Spark приложение:

Пожалуйста, посетите нашу матрицу совместимости Spark Connector, чтобы понять, какие версии подходят вашим потребностям.

Добавление ClickHouse в качестве каталога

Существует несколько способов добавить конфигурации Spark в вашу сессию:

  • Пользовательский файл конфигурации, который будет загружен с вашей сессией
  • Добавление конфигураций через интерфейс Azure Synapse
  • Добавление конфигураций в вашем блокноте Synapse

Следуйте руководству по управлению конфигурацией Apache Spark и добавьте необходимые конфигурации Spark для коннектора.

Например, вы можете настроить вашу Spark сессию в вашем блокноте с помощью этих настроек:

%%configure -f
{
    "conf": {
        "spark.sql.catalog.clickhouse": "com.clickhouse.spark.ClickHouseCatalog",
        "spark.sql.catalog.clickhouse.host": "<clickhouse host>",
        "spark.sql.catalog.clickhouse.protocol": "https",
        "spark.sql.catalog.clickhouse.http_port": "<port>",
        "spark.sql.catalog.clickhouse.user": "<username>",
        "spark.sql.catalog.clickhouse.password": "password",
        "spark.sql.catalog.clickhouse.database": "default"
    }
}

Убедитесь, что это будет в первой ячейке следующим образом:

Настройка конфигураций Spark через блокнот

Пожалуйста, посетите страницу конфигураций ClickHouse Spark для дополнительных настроек.

к сведению

При работе с ClickHouse Cloud убедитесь, что установлены обязательные настройки Spark.

Проверка настройки

Чтобы убедиться, что зависимости и конфигурации установлены успешно, посетите Spark UI вашей сессии и перейдите на вкладку Environment. Там найдите ваши настройки, связанные с ClickHouse:

Проверка настроек ClickHouse с помощью Spark UI

Дополнительные ресурсы