Head of Data Infra (GigaChat) в Сбер

В Сбер требуется Head of Data Infra(GigaChat), который умеет строить стабильную инженерную функцию: принимать архитектурные решения, выстраивать процессы совместной работы с командами данных и research, развивать инженеров и обеспечивать, чтобы внутренние заказчики получали инструменты и данные в нужные сроки.

GigaChat — мультимодальная модель, которая работает с текстом, аудио, изображениями и видео. Команда ML-инженеров отвечает за весь технический слой, который обеспечивает её развитие: пайплайны обработки и синтеза данных по всем модальностям, обёрнутые в надёжные сервисы; хранение и версионирование терабайт датасетов; хостинг reward-моделей и инфраструктуру для online RL; инструменты оценки и валидации. Это фундамент, на котором стоит вся работа с данными в цикле разработки GigaChat. Мы строим инфраструктуру, без которой данные для обучения моделей просто не появятся.

Задачи:

Развить команду и выстроить направление (возглавить команду ML-инженеров, специализирующихся на инфраструктуре данных и MLOps. Усилить техническую экспертизу команды, повысить скорость разработки и надёжность инфраструктуры. Выстроить взаимодействие с командами данных, research и model training).
Выстроить платформу хранения и обработки больших данных (проектировать и масштабировать инфраструктуру хранения датасетов — терабайты и петабайты данных по всем модальностям: текст, аудио, изображения, видео. Организовать работу с YTsaurus (YT): таблицы, операции, MapReduce-пайплайны, версионирование датасетов на масштабе production. Выстраивать надёжные пайплайны очистки, фильтрации, дедупликации и нормализации данных с учётом специфики каждой модальности. Обеспечивать воспроизводимость и прозрачность: версионирование датасетов, документация состава, источников и ограничений).
Упаковать пайплайны генерации данных в сервисы (превращать ad-hoc-пайплайны генерации данных в надёжные, масштабируемые сервисы с понятным API — для текстовых, аудио-, визуальных и видеоданных. Строить инфраструктуру синтеза данных как набор переиспользуемых компонентов: генерация, аугментация, верификация синтетических примеров. Выстраивать процессы, при которых новый тип данных можно «поставить на конвейер» быстро, без перестройки всей системы с нуля. Делать так, чтобы команды данных были независимы от ручных операций и могли масштабировать производство датасетов самостоятельно. Обеспечивать SLA на поставку данных: предсказуемые сроки, мониторинг состояния пайплайнов, алертинг на сбои).
Обеспечить инфраструктуру для online RL и reward-моделей (разворачивать и поддерживать хостинг reward-моделей для использования в online RL и GRPO — стабильно, с низкой латентностью, под нагрузкой. Строить инфраструктуру для сбора и обработки rollout data, trajectory data и reward-сигналов в реальном времени. Обеспечивать надёжность и масштабируемость контуров online RL: от сбора данных до их передачи в обучение. Ускорять цикл «гипотеза → данные → обучение → оценка» — так, чтобы от идеи до результата проходили дни, а не недели).
Построить инструменты валидации и оценки моделей (разрабатывать инструменты для валидации качества моделей и автоматического контроля качества данных. Создавать benchmark-наборы и метрики, которые действительно предсказывают поведение модели в production. Автоматизировать бенчмаркинг и анализ деградаций так, чтобы просадка качества обнаруживалась быстро и объяснялась через данные. Организовать трекинг экспериментов, версионирование данных и моделей, мониторинг результатов).
Развивать MLOps и инфраструктуру экспериментов (поддерживать инфраструктуру для хостинга и использования open-source-моделей (Llama, Qwen, Mistral и др.) внутри пайплайнов генерации данных. Выстраивать процессы проведения экспериментов с LoRA, QLoRA и SFT в рамках исследований данных).

Требования:

Опыт руководства командой ML-инженеров или data engineering от 2–3 лет.
Сильный технический бэкграунд: Python, опыт построения production-grade-пайплайнов обработки данных.
Опыт работы с большими объёмами данных и распределёнными системами хранения и обработки (YT, Spark, Hadoop или аналоги).
Умение проектировать и поддерживать сервисы с требованиями к надёжности, latency и масштабируемости.
Понимание полного цикла работы с данными для обучения моделей: сбор, очистка, валидация, синтез, версионирование.
Опыт работы с LLM — как open source (Llama, Mistral, Qwen), так и проприетарными (GPT, Claude, Gemini).
Понимание подходов к post-training: SFT, DPO, reward modeling, online RL.
Умение работать с внутренними заказчиками: переводить их потребности в инженерные задачи, выстраивать предсказуемый процесс поставки.
Умение принимать архитектурные решения и строить инфраструктуру, которая не становится узким местом при росте.
Умение работать на стыке engineering, research и data.

Будет плюсом:

Опыт работы с YTsaurus: таблицы, операции, пайплайны на MapReduce.
Опыт построения сервисов для хостинга моделей с требованиями к latency и надёжности (vLLM, TGI и аналоги).
Опыт построения инфраструктуры для online RL: rollout data, reward inference, training loops.
Опыт работы с verl, llm-foundry или другими фреймворками для обучения LLM.
Опыт работы с системами версионирования данных и экспериментов (DVC, MLflow, W&B).
Опыт развёртывания и мониторинга ML-моделей в production.
Опыт работы с фреймворками для агентов и RAG (LangChain, LangGraph и аналоги).

Компания предлагает:

Крупнейшее DS&AI community — более 600 DS-специалистов банка.
Дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира.
Возможность выбрать удобный формат работы: гибрид или офис.
Комфортный современный офис: ст. м. Кутузовская, пр. Кутузовский, 32.
Ежегодный пересмотр зарплаты, годовая премия.
Корпоративный спортзал и зоны отдыха.
Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
Ипотека выгоднее до 7% для каждого сотрудника.
Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнёров.
Вознаграждение за рекомендацию друзей в команду Сбера.

Head of Data Infra (GigaChat) в Сбер

Данная вакансия, к сожалению, уже не актуальна.

Чтобы откликнуться на вакансию - необходимо подписаться на наш сервис