Москва
Полная занятость
Разрабатывать и сопровождать ETL процессы и инженерию данных на базе Spark как основного движка обработки и загрузки данных.
Настраивать интеграции источников данных: подключение по JDBC к базам и стендбаям, а также стриминговые интеграции через Kafka, работу с топиками и JSON.
Разрабатывать и поддерживать оркестрацию процессов в Airflow (DAG’и), используя Python в связке со Spark.
Работать с большими объемами данных (от десятков тысяч строк до сотен миллионов и миллиардов), решать задачи оптимизации обработки.
Разрабатывать и обслуживать слой данных на S3 и MinIO: работа с файловой системой, компрессией, охлаждением данных, обслуживанием и пересозданием таблиц, понимание партиционирования и форматов (в т.ч. JSON).
Участвовать в алгоритмизации и оптимизации хранения и обработки данных в объектном хранилище (S3/MinIO) с учетом особенностей, отличных от классических реляционных СУБД вроде Greenplum.
Опыт работы в области ETL и Data разработки.
Уверенная работа с S3, опыт работы с MinIO.
Опыт работы с MinIO.
Уверенная работа со Spark.
Понимание табличного формата Iceberg.
Опыт интеграций с Kafka, умение работать с форматом JSON.
Навыки разработки DAG’ов в Airflow.
Владение Python на уровне для написания ETL процессов и служебного кода.
Опыт работы с JDBC подключениями к БД и источникам данных.
Опыт работы с ClickHouse (в том числе в окружении Arenadata ClickHouse).
Компания Tera Integro — это ex-Teradata Россия.
Teradata, по сути, придумала и реализовала программно-аппаратные решения для аналитической обработки больших объёмов данных, работающих на группе серверов, до того как появились темы типа Hadoop, BigData и т.п. Команда TI, таким образом, изначально состояла из специалистов, которые накопили много опыта построения решений для аналитических систем – BigData, DataLake, Хранилища данных.
После ухода западных вендоров с продуктами для анализа данных (Teradata, Oracle Exadata, SAP Hana, Vertica и т.п.) критичным стал переход на доступные альтернативные open source продукты - включая Greenplum, Clickhouse и Hadoop. Команды TI также переключили фокус на использование open source продуктов, адаптируя свой опыта использования MPP Teradata на эти технологии.
Основные направления деятельности компании — разработка, внедрение и сопровождение аналитических хранилищ данных на базе технологий open source.
Сегодня Tera Integro работает и с “ванильными” версиями, и с продуктами Arenadata. Мы являемся дружественной компанией-интегратором данному большому вендору и входим с ним в один холдинг (ГС-Инвест).
Собственный продукт.
Помимо исторического направления - консалтинга и интеграционных проектов в части аналитических систем - компания накопила много опыта по управлению и эксплуатации систем, что позволяет развивать отдельное направление продуктовой разработки. В частности, разработка продуктов для интеграции open source технологий с системами централизованного сбора логов / метрик мониторинга / событий аудита, а также "оцифровка" опыта и знаний команд для проведения глубокого анализ состояния Greenplum и ClickHouse с выявлением проблем и выдачей рекомендаций по исправлению выявленных проблем и оптимизации работы системы.
Сегодня Tera Integro включает команды:
Культура компании сформировалась на основе многолетнего опыта работы в компании лидере на мировом ИТ рынке: