AI Dev Day: как бигтех измеряет эффективность AI в разработке

15 марта 2026 года Яндекс провёл второй AI Dev Day — митап про реальный опыт внедрения AI-инструментов в процессы разработки. На сцену вышли представители Яндекса, Авито, Озона, Т-Банка, Сбера и Яндекс Go. Рассказываем главное.

1. AI-продуктивность в Яндексе — Андрей Попов

57% инженеров используют AI-инструменты (в бэке/фронте/мобайле — 60–75%), DAU 36%
Сгенерированный код: 23% в агентском режиме, 30% включая саджесты
Суммарная экономия: ~42 000 часов/месяц ≈ 2% от общего времени (самооценка сотрудников — 30%, но это завышение)
Цель на 2026: вырасти до 10% экономии
Фокус сместился с ассистентов на агентский режим: агент решает задачу, человек подключается по необходимости — аналогия с «disengagement rate» у автономных автомобилей
90%+ инфраструктуры покрыто MCP-серверами (35+ стабильных); топовые: работа с трекером, поиск, работа с данными
Поиск информации: агент сокращает время на глубокое исследование с 20 до 2 минут
Вывод по рынку труда: профессии не исчезают, а сливаются — инженер без специализации уже закрывает задачи смежников

2. Внедрение GenAI в Авито — Александр Лукьянченко (CTO Architecture & Tech Platform)

Главный инсайт: ускорение всего цикла разработки (def cycle time) — лишь 4–5% в лучших командах; сам кодинг — только 32% времени инженера
Файнтюнинг открытых моделей не оправдал себя — внешние SOTA-модели с контекстом дают лучший результат
Главный фреймворк измерения: adoption → AI-assisted PRs → cycle time
Подход: выбрать небольшую группу команд со 100% adoption, проводить «ретроспективы от агентов», итерировать по бенчмарку
Бенчмарк SVE (специфика Авито): ~29% задач решается автономно
Агенты хорошо справляются с автотестами, атомарной рутиной, декомпозицией, code review (20–40% изменений по комментариям агента vs 65–70% у человека)

3. Кодовые ассистенты в Озоне — Александр Лукьянов (ML-платформа)

1100 разработчиков/день используют агентский ассистент, 25–30% ежедневно
Переход с continue + DeepSeek на Minimax + OpenCode/Cline дал резкий скачок adoption
Code review: ~1500 проектов подключено, до 1000 ревью/день
Модели обновляются за дни, не месяцы — через абстрактные «сценарные роуты» без переконфигурации
Внешние модели (Claude, GPT) дают лучший результат на сложных задачах, но широко не раздаются из-за рисков утечки кода

4. Измерение AI в SDLC — Анна Громова (Т-Банк)

Фреймворк: DORA + SPACE + DX → единое «дерево метрик» для оценки поставки кода и комфорта разработчика
AI-ассистент в IDE: adoption 50% от IT-сотрудников, 70–75% от тех, кто коммитит в GitLab
Снижение медианного merge time на 12%, у «амбассадоров» (100% adoption) — на 30% за год
Генерация юнит-тестов выросла в 4 раза, доля запросов на тесты — 12%
Ключевой вывод: AI не заменяет перестройку процессов — если есть узкое горлышко в CI/CD или code review, AI просто сдвигает его дальше

5. Яндекс Code Assistant — Сергей Бульдяев

Форк open-source агента с ключевыми доработками: бесшовная авторизация, доступ к актуальным моделям в один клик, MCP по клику, маркетплейс пресетов (аналог «линтеров для агентов»)
Главный вызов — adoption: скепсис преодолели через воркшопы на 1000+ инженеров на реальных задачах
YQL-агент: основная проблема — модели не знают YQL → решение через валидационный датасет (не LLM-as-judge) и примеры тулколинга в системном промпте

6. AID — AI for Designers в Сбере — Максим Шведенко

Мультиагентная система: три агента (Support, Reviewer, Generator) на единой базе знаний по дизайн-системе — замкнутый контур качества
Проблема до: ревью одного экрана — 30 мин–2 часа, исправление замечаний — 8 часов, новый экран — 16+ часов
Генератор: BТ → формализация → JSON-спецификация → рендер компонентов в Figma/React из дизайн-системы
Ревьюер режет макет на слои, каждый тип проверки — отдельный агент с выжатым контекстом

7. SRE + AI в Яндекс Go — Александр Фишер

SRE GPT — мультиагентная система для разбора инцидентов: закрывает почти 100% из 400 инцидентов/день (раньше ~99% не анализировались вообще)
Экономия: 30 мин × 400 инцидентов = ~200 часов/день только на постмортемы
Точность нахождения root cause: ~40–44% — общемировой бенчмарк (Microsoft, Meta, Google)
Промпты на русском языке в SRE-теме не работают: нет устойчивой терминологии → перешли на английский
Пререквизиты: собственное облако, observability-платформа, каталог сервисов, граф зависимостей, аудит событий

Общие выводы

Все компании сходятся в нескольких точках:

Adoption — самый сложный этап. Технология работает, но без обучения, воркшопов и понятных политик безопасности люди просто не начинают использовать инструменты.
Агентский режим важнее автодополнения. Реальный эффект даёт не саджест в IDE, а агент, который самостоятельно закрывает задачи.
Измерять надо правильно. Adoption и «количество сгенерированного кода» — не метрики бизнеса. Важны cycle time, merge time, change fail rate.
MCP стал стандартом. Все команды строят инфраструктуру контекста через MCP-серверы.
SOTA-модели выигрывают у файнтюна. Инвестировать в дообучение открытых моделей невыгодно — внешние модели с контекстом дают лучший результат.

AI Dev Day: как бигтех измеряет эффективность AI в разработке — итоги митапа Яндекса

AI Dev Day: как бигтех измеряет эффективность AI в разработке

1. AI-продуктивность в Яндексе — Андрей Попов

2. Внедрение GenAI в Авито — Александр Лукьянченко (CTO Architecture & Tech Platform)

3. Кодовые ассистенты в Озоне — Александр Лукьянов (ML-платформа)

4. Измерение AI в SDLC — Анна Громова (Т-Банк)

5. Яндекс Code Assistant — Сергей Бульдяев

6. AID — AI for Designers в Сбере — Максим Шведенко

7. SRE + AI в Яндекс Go — Александр Фишер

Общие выводы

Комментарии (0)

Похожие статьи

Мультиагентные системы ИИ: как Claude Code, Cursor и AI-агенты меняют работу, бизнес и профессии в 2026 году

Кейсы применения ИИ агентов в бизнесе: реальный опыт компаний в 2026 году

Дайджест новостей ИИ: апрель 2026 — всё главное за неделю

Есть предложение?