Middle Big Data Developer, Medical Data Technologies

Наш клиент специализируется на обработке и анализе данных в области биотехнологий. Специалисты DataArt разрабатывают платформу для сбора данных из множества внутренних источников для четырех десятков клиентов со всего мира. Цель проекта — создать цельный конвейер данных для автоматизации и унификации рабочего процесса.
Ядро платформы — Hadoop Ecosystem и Spark. Они используются для загрузки, хранения и обработки больших данных в режиме реального времени. В верхнем сегменте этих данных создается BI-слой для расширенного бизнес-анализа.
При этом мы берем специалистов не в проект, а в одну из компаний DataArt. Если проект закончился, или вам стало некомфортно в нем работать, можно обсудить с менеджерами переход в другой проект.

Обязательные требования

  • Хорошее знание Java или Scala.
  • Знание стека Hadoop (HDFS, Yarn, MapReduce, Hive, Oozie).
  • Опыт работы с экосистемой Spark (Spark Core, Spark SQL).
  • Знание NoSQL, опыт работы с любой из популярных баз данных NoSQL.
  • Опыт создания пользовательских решений ETL.
  • Опыт создания масштабируемых высокопроизводительных распределенных систем.
  • Опыт работы в среде на базе Linux.
  • Разговорный английский.

Будет плюсом

  • Опыт использования Docker.
  • Опыт DevOps с Public Clouds (любой из популярных, например: AWS, GCP).

Условия,
социальный пакет,
особенности нашей культуры

Работа в DataArt