В Сбер требуется Head of Data Infra(GigaChat), который умеет строить стабильную инженерную функцию: принимать архитектурные решения, выстраивать процессы совместной работы с командами данных и research, развивать инженеров и обеспечивать, чтобы внутренние заказчики получали инструменты и данные в нужные сроки.
GigaChat — мультимодальная модель, которая работает с текстом, аудио, изображениями и видео. Команда ML-инженеров отвечает за весь технический слой, который обеспечивает её развитие: пайплайны обработки и синтеза данных по всем модальностям, обёрнутые в надёжные сервисы; хранение и версионирование терабайт датасетов; хостинг reward-моделей и инфраструктуру для online RL; инструменты оценки и валидации. Это фундамент, на котором стоит вся работа с данными в цикле разработки GigaChat. Мы строим инфраструктуру, без которой данные для обучения моделей просто не появятся.
Задачи:
- Развить команду и выстроить направление (возглавить команду ML-инженеров, специализирующихся на инфраструктуре данных и MLOps. Усилить техническую экспертизу команды, повысить скорость разработки и надёжность инфраструктуры. Выстроить взаимодействие с командами данных, research и model training).
- Выстроить платформу хранения и обработки больших данных (проектировать и масштабировать инфраструктуру хранения датасетов — терабайты и петабайты данных по всем модальностям: текст, аудио, изображения, видео. Организовать работу с YTsaurus (YT): таблицы, операции, MapReduce-пайплайны, версионирование датасетов на масштабе production. Выстраивать надёжные пайплайны очистки, фильтрации, дедупликации и нормализации данных с учётом специфики каждой модальности. Обеспечивать воспроизводимость и прозрачность: версионирование датасетов, документация состава, источников и ограничений).
- Упаковать пайплайны генерации данных в сервисы (превращать ad-hoc-пайплайны генерации данных в надёжные, масштабируемые сервисы с понятным API — для текстовых, аудио-, визуальных и видеоданных. Строить инфраструктуру синтеза данных как набор переиспользуемых компонентов: генерация, аугментация, верификация синтетических примеров. Выстраивать процессы, при которых новый тип данных можно «поставить на конвейер» быстро, без перестройки всей системы с нуля. Делать так, чтобы команды данных были независимы от ручных операций и могли масштабировать производство датасетов самостоятельно. Обеспечивать SLA на поставку данных: предсказуемые сроки, мониторинг состояния пайплайнов, алертинг на сбои).
- Обеспечить инфраструктуру для online RL и reward-моделей (разворачивать и поддерживать хостинг reward-моделей для использования в online RL и GRPO — стабильно, с низкой латентностью, под нагрузкой. Строить инфраструктуру для сбора и обработки rollout data, trajectory data и reward-сигналов в реальном времени. Обеспечивать надёжность и масштабируемость контуров online RL: от сбора данных до их передачи в обучение. Ускорять цикл «гипотеза → данные → обучение → оценка» — так, чтобы от идеи до результата проходили дни, а не недели).
- Построить инструменты валидации и оценки моделей (разрабатывать инструменты для валидации качества моделей и автоматического контроля качества данных. Создавать benchmark-наборы и метрики, которые действительно предсказывают поведение модели в production. Автоматизировать бенчмаркинг и анализ деградаций так, чтобы просадка качества обнаруживалась быстро и объяснялась через данные. Организовать трекинг экспериментов, версионирование данных и моделей, мониторинг результатов).
- Развивать MLOps и инфраструктуру экспериментов (поддерживать инфраструктуру для хостинга и использования open-source-моделей (Llama, Qwen, Mistral и др.) внутри пайплайнов генерации данных. Выстраивать процессы проведения экспериментов с LoRA, QLoRA и SFT в рамках исследований данных).
Требования:
- Опыт руководства командой ML-инженеров или data engineering от 2–3 лет.
- Сильный технический бэкграунд: Python, опыт построения production-grade-пайплайнов обработки данных.
- Опыт работы с большими объёмами данных и распределёнными системами хранения и обработки (YT, Spark, Hadoop или аналоги).
- Умение проектировать и поддерживать сервисы с требованиями к надёжности, latency и масштабируемости.
- Понимание полного цикла работы с данными для обучения моделей: сбор, очистка, валидация, синтез, версионирование.
- Опыт работы с LLM — как open source (Llama, Mistral, Qwen), так и проприетарными (GPT, Claude, Gemini).
- Понимание подходов к post-training: SFT, DPO, reward modeling, online RL.
- Умение работать с внутренними заказчиками: переводить их потребности в инженерные задачи, выстраивать предсказуемый процесс поставки.
- Умение принимать архитектурные решения и строить инфраструктуру, которая не становится узким местом при росте.
- Умение работать на стыке engineering, research и data.
Будет плюсом:
- Опыт работы с YTsaurus: таблицы, операции, пайплайны на MapReduce.
- Опыт построения сервисов для хостинга моделей с требованиями к latency и надёжности (vLLM, TGI и аналоги).
- Опыт построения инфраструктуры для online RL: rollout data, reward inference, training loops.
- Опыт работы с verl, llm-foundry или другими фреймворками для обучения LLM.
- Опыт работы с системами версионирования данных и экспериментов (DVC, MLflow, W&B).
- Опыт развёртывания и мониторинга ML-моделей в production.
- Опыт работы с фреймворками для агентов и RAG (LangChain, LangGraph и аналоги).
Компания предлагает:
- Крупнейшее DS&AI community — более 600 DS-специалистов банка.
- Дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира.
- Возможность выбрать удобный формат работы: гибрид или офис.
- Комфортный современный офис: ст. м. Кутузовская, пр. Кутузовский, 32.
- Ежегодный пересмотр зарплаты, годовая премия.
- Корпоративный спортзал и зоны отдыха.
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
- Ипотека выгоднее до 7% для каждого сотрудника.
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнёров.
- Вознаграждение за рекомендацию друзей в команду Сбера.