Head of Data Infra (GigaChat) в Сбер - Facancy

Head of Data Infra (GigaChat) в Сбер

21 мая 2026
Москва

В Сбер требуется Head of Data Infra(GigaChat), который умеет строить стабильную инженерную функцию: принимать архитектурные решения, выстраивать процессы совместной работы с командами данных и research, развивать инженеров и обеспечивать, чтобы внутренние заказчики получали инструменты и данные в нужные сроки.

 

GigaChat — мультимодальная модель, которая работает с текстом, аудио, изображениями и видео. Команда ML-инженеров отвечает за весь технический слой, который обеспечивает её развитие: пайплайны обработки и синтеза данных по всем модальностям, обёрнутые в надёжные сервисы; хранение и версионирование терабайт датасетов; хостинг reward-моделей и инфраструктуру для online RL; инструменты оценки и валидации. Это фундамент, на котором стоит вся работа с данными в цикле разработки GigaChat. Мы строим инфраструктуру, без которой данные для обучения моделей просто не появятся.

 

Задачи:

  • Развить команду и выстроить направление (возглавить команду ML-инженеров, специализирующихся на инфраструктуре данных и MLOps. Усилить техническую экспертизу команды, повысить скорость разработки и надёжность инфраструктуры. Выстроить взаимодействие с командами данных, research и model training).
  • Выстроить платформу хранения и обработки больших данных (проектировать и масштабировать инфраструктуру хранения датасетов — терабайты и петабайты данных по всем модальностям: текст, аудио, изображения, видео. Организовать работу с YTsaurus (YT): таблицы, операции, MapReduce-пайплайны, версионирование датасетов на масштабе production. Выстраивать надёжные пайплайны очистки, фильтрации, дедупликации и нормализации данных с учётом специфики каждой модальности. Обеспечивать воспроизводимость и прозрачность: версионирование датасетов, документация состава, источников и ограничений).
  • Упаковать пайплайны генерации данных в сервисы (превращать ad-hoc-пайплайны генерации данных в надёжные, масштабируемые сервисы с понятным API — для текстовых, аудио-, визуальных и видеоданных. Строить инфраструктуру синтеза данных как набор переиспользуемых компонентов: генерация, аугментация, верификация синтетических примеров. Выстраивать процессы, при которых новый тип данных можно «поставить на конвейер» быстро, без перестройки всей системы с нуля. Делать так, чтобы команды данных были независимы от ручных операций и могли масштабировать производство датасетов самостоятельно. Обеспечивать SLA на поставку данных: предсказуемые сроки, мониторинг состояния пайплайнов, алертинг на сбои).
  • Обеспечить инфраструктуру для online RL и reward-моделей (разворачивать и поддерживать хостинг reward-моделей для использования в online RL и GRPO — стабильно, с низкой латентностью, под нагрузкой. Строить инфраструктуру для сбора и обработки rollout data, trajectory data и reward-сигналов в реальном времени. Обеспечивать надёжность и масштабируемость контуров online RL: от сбора данных до их передачи в обучение. Ускорять цикл «гипотеза → данные → обучение → оценка» — так, чтобы от идеи до результата проходили дни, а не недели).
  • Построить инструменты валидации и оценки моделей (разрабатывать инструменты для валидации качества моделей и автоматического контроля качества данных. Создавать benchmark-наборы и метрики, которые действительно предсказывают поведение модели в production. Автоматизировать бенчмаркинг и анализ деградаций так, чтобы просадка качества обнаруживалась быстро и объяснялась через данные. Организовать трекинг экспериментов, версионирование данных и моделей, мониторинг результатов).
  • Развивать MLOps и инфраструктуру экспериментов (поддерживать инфраструктуру для хостинга и использования open-source-моделей (Llama, Qwen, Mistral и др.) внутри пайплайнов генерации данных. Выстраивать процессы проведения экспериментов с LoRA, QLoRA и SFT в рамках исследований данных).

 

Требования:

  • Опыт руководства командой ML-инженеров или data engineering от 2–3 лет.
  • Сильный технический бэкграунд: Python, опыт построения production-grade-пайплайнов обработки данных.
  • Опыт работы с большими объёмами данных и распределёнными системами хранения и обработки (YT, Spark, Hadoop или аналоги).
  • Умение проектировать и поддерживать сервисы с требованиями к надёжности, latency и масштабируемости.
  • Понимание полного цикла работы с данными для обучения моделей: сбор, очистка, валидация, синтез, версионирование.
  • Опыт работы с LLM — как open source (Llama, Mistral, Qwen), так и проприетарными (GPT, Claude, Gemini).
  • Понимание подходов к post-training: SFT, DPO, reward modeling, online RL.
  • Умение работать с внутренними заказчиками: переводить их потребности в инженерные задачи, выстраивать предсказуемый процесс поставки.
  • Умение принимать архитектурные решения и строить инфраструктуру, которая не становится узким местом при росте.
  • Умение работать на стыке engineering, research и data.

 

Будет плюсом:

  • Опыт работы с YTsaurus: таблицы, операции, пайплайны на MapReduce.
  • Опыт построения сервисов для хостинга моделей с требованиями к latency и надёжности (vLLM, TGI и аналоги).
  • Опыт построения инфраструктуры для online RL: rollout data, reward inference, training loops.
  • Опыт работы с verl, llm-foundry или другими фреймворками для обучения LLM.
  • Опыт работы с системами версионирования данных и экспериментов (DVC, MLflow, W&B).
  • Опыт развёртывания и мониторинга ML-моделей в production.
  • Опыт работы с фреймворками для агентов и RAG (LangChain, LangGraph и аналоги).

 

Компания предлагает:

  • Крупнейшее DS&AI community — более 600 DS-специалистов банка.
  • Дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира.
  • Возможность выбрать удобный формат работы: гибрид или офис.
  • Комфортный современный офис: ст. м. Кутузовская, пр. Кутузовский, 32.
  • Ежегодный пересмотр зарплаты, годовая премия.
  • Корпоративный спортзал и зоны отдыха.
  • Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
  • Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
  • Ипотека выгоднее до 7% для каждого сотрудника.
  • Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнёров.
  • Вознаграждение за рекомендацию друзей в команду Сбера.
Откликнуться

Чтобы откликнуться на вакансию - необходимо подписаться на наш сервис