AI Dev Day: как бигтех измеряет эффективность AI в разработке
15 марта 2026 года Яндекс провёл второй AI Dev Day — митап про реальный опыт внедрения AI-инструментов в процессы разработки. На сцену вышли представители Яндекса, Авито, Озона, Т-Банка, Сбера и Яндекс Go. Рассказываем главное.
1. AI-продуктивность в Яндексе — Андрей Попов
- 57% инженеров используют AI-инструменты (в бэке/фронте/мобайле — 60–75%), DAU 36%
- Сгенерированный код: 23% в агентском режиме, 30% включая саджесты
- Суммарная экономия: ~42 000 часов/месяц ≈ 2% от общего времени (самооценка сотрудников — 30%, но это завышение)
- Цель на 2026: вырасти до 10% экономии
- Фокус сместился с ассистентов на агентский режим: агент решает задачу, человек подключается по необходимости — аналогия с «disengagement rate» у автономных автомобилей
- 90%+ инфраструктуры покрыто MCP-серверами (35+ стабильных); топовые: работа с трекером, поиск, работа с данными
- Поиск информации: агент сокращает время на глубокое исследование с 20 до 2 минут
- Вывод по рынку труда: профессии не исчезают, а сливаются — инженер без специализации уже закрывает задачи смежников
2. Внедрение GenAI в Авито — Александр Лукьянченко (CTO Architecture & Tech Platform)
- Главный инсайт: ускорение всего цикла разработки (def cycle time) — лишь 4–5% в лучших командах; сам кодинг — только 32% времени инженера
- Файнтюнинг открытых моделей не оправдал себя — внешние SOTA-модели с контекстом дают лучший результат
- Главный фреймворк измерения: adoption → AI-assisted PRs → cycle time
- Подход: выбрать небольшую группу команд со 100% adoption, проводить «ретроспективы от агентов», итерировать по бенчмарку
- Бенчмарк SVE (специфика Авито): ~29% задач решается автономно
- Агенты хорошо справляются с автотестами, атомарной рутиной, декомпозицией, code review (20–40% изменений по комментариям агента vs 65–70% у человека)
3. Кодовые ассистенты в Озоне — Александр Лукьянов (ML-платформа)
- 1100 разработчиков/день используют агентский ассистент, 25–30% ежедневно
- Переход с continue + DeepSeek на Minimax + OpenCode/Cline дал резкий скачок adoption
- Code review: ~1500 проектов подключено, до 1000 ревью/день
- Модели обновляются за дни, не месяцы — через абстрактные «сценарные роуты» без переконфигурации
- Внешние модели (Claude, GPT) дают лучший результат на сложных задачах, но широко не раздаются из-за рисков утечки кода
4. Измерение AI в SDLC — Анна Громова (Т-Банк)
- Фреймворк: DORA + SPACE + DX → единое «дерево метрик» для оценки поставки кода и комфорта разработчика
- AI-ассистент в IDE: adoption 50% от IT-сотрудников, 70–75% от тех, кто коммитит в GitLab
- Снижение медианного merge time на 12%, у «амбассадоров» (100% adoption) — на 30% за год
- Генерация юнит-тестов выросла в 4 раза, доля запросов на тесты — 12%
- Ключевой вывод: AI не заменяет перестройку процессов — если есть узкое горлышко в CI/CD или code review, AI просто сдвигает его дальше
5. Яндекс Code Assistant — Сергей Бульдяев
- Форк open-source агента с ключевыми доработками: бесшовная авторизация, доступ к актуальным моделям в один клик, MCP по клику, маркетплейс пресетов (аналог «линтеров для агентов»)
- Главный вызов — adoption: скепсис преодолели через воркшопы на 1000+ инженеров на реальных задачах
- YQL-агент: основная проблема — модели не знают YQL → решение через валидационный датасет (не LLM-as-judge) и примеры тулколинга в системном промпте
6. AID — AI for Designers в Сбере — Максим Шведенко
- Мультиагентная система: три агента (Support, Reviewer, Generator) на единой базе знаний по дизайн-системе — замкнутый контур качества
- Проблема до: ревью одного экрана — 30 мин–2 часа, исправление замечаний — 8 часов, новый экран — 16+ часов
- Генератор: BТ → формализация → JSON-спецификация → рендер компонентов в Figma/React из дизайн-системы
- Ревьюер режет макет на слои, каждый тип проверки — отдельный агент с выжатым контекстом
7. SRE + AI в Яндекс Go — Александр Фишер
- SRE GPT — мультиагентная система для разбора инцидентов: закрывает почти 100% из 400 инцидентов/день (раньше ~99% не анализировались вообще)
- Экономия: 30 мин × 400 инцидентов = ~200 часов/день только на постмортемы
- Точность нахождения root cause: ~40–44% — общемировой бенчмарк (Microsoft, Meta, Google)
- Промпты на русском языке в SRE-теме не работают: нет устойчивой терминологии → перешли на английский
- Пререквизиты: собственное облако, observability-платформа, каталог сервисов, граф зависимостей, аудит событий
Общие выводы
Все компании сходятся в нескольких точках:
- Adoption — самый сложный этап. Технология работает, но без обучения, воркшопов и понятных политик безопасности люди просто не начинают использовать инструменты.
- Агентский режим важнее автодополнения. Реальный эффект даёт не саджест в IDE, а агент, который самостоятельно закрывает задачи.
- Измерять надо правильно. Adoption и «количество сгенерированного кода» — не метрики бизнеса. Важны cycle time, merge time, change fail rate.
- MCP стал стандартом. Все команды строят инфраструктуру контекста через MCP-серверы.
- SOTA-модели выигрывают у файнтюна. Инвестировать в дообучение открытых моделей невыгодно — внешние модели с контекстом дают лучший результат.