Интеграция Azure Synapse с ClickHouse
Azure Synapse — это интегрированная аналитическая служба, которая объединяет большие данные, Data Science и хранилища для обеспечения быстрой обработки больших объемов данных. Внутри Synapse кластеры Spark предоставляют по требованию масштабируемые Apache Spark кластеры, которые позволяют пользователям выполнять сложные преобразования данных, машинное обучение и интеграцию с внешними системами.
В этой статье показано, как интегрировать ClickHouse Spark connector при работе с Apache Spark в Azure Synapse.
Добавление зависимостей коннектора
Azure Synapse поддерживает три уровня обслуживания пакетов:
- Пакеты по умолчанию
- Уровень пула Spark
- Уровень сессии
Следуйте руководству по управлению библиотеками для пулов Apache Spark и добавьте следующие необходимые зависимости в ваше Spark приложение:
clickhouse-spark-runtime-{spark_version}_{scala_version}-{connector_version}.jar
- официальный mavenclickhouse-jdbc-{java_client_version}-all.jar
- официальный maven
Пожалуйста, посетите нашу матрицу совместимости Spark Connector, чтобы понять, какие версии подходят вашим потребностям.
Добавление ClickHouse в качестве каталога
Существует несколько способов добавить конфигурации Spark в вашу сессию:
- Пользовательский файл конфигурации, который будет загружен с вашей сессией
- Добавление конфигураций через интерфейс Azure Synapse
- Добавление конфигураций в вашем блокноте Synapse
Следуйте руководству по управлению конфигурацией Apache Spark и добавьте необходимые конфигурации Spark для коннектора.
Например, вы можете настроить вашу Spark сессию в вашем блокноте с помощью этих настроек:
Убедитесь, что это будет в первой ячейке следующим образом:

Пожалуйста, посетите страницу конфигураций ClickHouse Spark для дополнительных настроек.
При работе с ClickHouse Cloud убедитесь, что установлены обязательные настройки Spark.
Проверка настройки
Чтобы убедиться, что зависимости и конфигурации установлены успешно, посетите Spark UI вашей сессии и перейдите на вкладку Environment
. Там найдите ваши настройки, связанные с ClickHouse:
