AI Dev Day: как бигтех измеряет эффективность AI в разработке — итоги митапа Яндекса

AI
разработка
LLM
агенты
продуктивность

AI Dev Day: как бигтех измеряет эффективность AI в разработке

15 марта 2026 года Яндекс провёл второй AI Dev Day — митап про реальный опыт внедрения AI-инструментов в процессы разработки. На сцену вышли представители Яндекса, Авито, Озона, Т-Банка, Сбера и Яндекс Go. Рассказываем главное.


1. AI-продуктивность в Яндексе — Андрей Попов

  • 57% инженеров используют AI-инструменты (в бэке/фронте/мобайле — 60–75%), DAU 36%
  • Сгенерированный код: 23% в агентском режиме, 30% включая саджесты
  • Суммарная экономия: ~42 000 часов/месяц ≈ 2% от общего времени (самооценка сотрудников — 30%, но это завышение)
  • Цель на 2026: вырасти до 10% экономии
  • Фокус сместился с ассистентов на агентский режим: агент решает задачу, человек подключается по необходимости — аналогия с «disengagement rate» у автономных автомобилей
  • 90%+ инфраструктуры покрыто MCP-серверами (35+ стабильных); топовые: работа с трекером, поиск, работа с данными
  • Поиск информации: агент сокращает время на глубокое исследование с 20 до 2 минут
  • Вывод по рынку труда: профессии не исчезают, а сливаются — инженер без специализации уже закрывает задачи смежников

2. Внедрение GenAI в Авито — Александр Лукьянченко (CTO Architecture & Tech Platform)

  • Главный инсайт: ускорение всего цикла разработки (def cycle time) — лишь 4–5% в лучших командах; сам кодинг — только 32% времени инженера
  • Файнтюнинг открытых моделей не оправдал себя — внешние SOTA-модели с контекстом дают лучший результат
  • Главный фреймворк измерения: adoption → AI-assisted PRs → cycle time
  • Подход: выбрать небольшую группу команд со 100% adoption, проводить «ретроспективы от агентов», итерировать по бенчмарку
  • Бенчмарк SVE (специфика Авито): ~29% задач решается автономно
  • Агенты хорошо справляются с автотестами, атомарной рутиной, декомпозицией, code review (20–40% изменений по комментариям агента vs 65–70% у человека)

3. Кодовые ассистенты в Озоне — Александр Лукьянов (ML-платформа)

  • 1100 разработчиков/день используют агентский ассистент, 25–30% ежедневно
  • Переход с continue + DeepSeek на Minimax + OpenCode/Cline дал резкий скачок adoption
  • Code review: ~1500 проектов подключено, до 1000 ревью/день
  • Модели обновляются за дни, не месяцы — через абстрактные «сценарные роуты» без переконфигурации
  • Внешние модели (Claude, GPT) дают лучший результат на сложных задачах, но широко не раздаются из-за рисков утечки кода

4. Измерение AI в SDLC — Анна Громова (Т-Банк)

  • Фреймворк: DORA + SPACE + DX → единое «дерево метрик» для оценки поставки кода и комфорта разработчика
  • AI-ассистент в IDE: adoption 50% от IT-сотрудников, 70–75% от тех, кто коммитит в GitLab
  • Снижение медианного merge time на 12%, у «амбассадоров» (100% adoption) — на 30% за год
  • Генерация юнит-тестов выросла в 4 раза, доля запросов на тесты — 12%
  • Ключевой вывод: AI не заменяет перестройку процессов — если есть узкое горлышко в CI/CD или code review, AI просто сдвигает его дальше

5. Яндекс Code Assistant — Сергей Бульдяев

  • Форк open-source агента с ключевыми доработками: бесшовная авторизация, доступ к актуальным моделям в один клик, MCP по клику, маркетплейс пресетов (аналог «линтеров для агентов»)
  • Главный вызов — adoption: скепсис преодолели через воркшопы на 1000+ инженеров на реальных задачах
  • YQL-агент: основная проблема — модели не знают YQL → решение через валидационный датасет (не LLM-as-judge) и примеры тулколинга в системном промпте

6. AID — AI for Designers в Сбере — Максим Шведенко

  • Мультиагентная система: три агента (Support, Reviewer, Generator) на единой базе знаний по дизайн-системе — замкнутый контур качества
  • Проблема до: ревью одного экрана — 30 мин–2 часа, исправление замечаний — 8 часов, новый экран — 16+ часов
  • Генератор: BТ → формализация → JSON-спецификация → рендер компонентов в Figma/React из дизайн-системы
  • Ревьюер режет макет на слои, каждый тип проверки — отдельный агент с выжатым контекстом

7. SRE + AI в Яндекс Go — Александр Фишер

  • SRE GPT — мультиагентная система для разбора инцидентов: закрывает почти 100% из 400 инцидентов/день (раньше ~99% не анализировались вообще)
  • Экономия: 30 мин × 400 инцидентов = ~200 часов/день только на постмортемы
  • Точность нахождения root cause: ~40–44% — общемировой бенчмарк (Microsoft, Meta, Google)
  • Промпты на русском языке в SRE-теме не работают: нет устойчивой терминологии → перешли на английский
  • Пререквизиты: собственное облако, observability-платформа, каталог сервисов, граф зависимостей, аудит событий

Общие выводы

Все компании сходятся в нескольких точках:

  1. Adoption — самый сложный этап. Технология работает, но без обучения, воркшопов и понятных политик безопасности люди просто не начинают использовать инструменты.
  2. Агентский режим важнее автодополнения. Реальный эффект даёт не саджест в IDE, а агент, который самостоятельно закрывает задачи.
  3. Измерять надо правильно. Adoption и «количество сгенерированного кода» — не метрики бизнеса. Важны cycle time, merge time, change fail rate.
  4. MCP стал стандартом. Все команды строят инфраструктуру контекста через MCP-серверы.
  5. SOTA-модели выигрывают у файнтюна. Инвестировать в дообучение открытых моделей невыгодно — внешние модели с контекстом дают лучший результат.

← Все статьи

Комментарии (0)

Пока нет комментариев. Будьте первым!

Оставить комментарий
Регистрация не требуется

Оставьте заявку,
чтобы обсудить проект

Напишите ваш вопрос, не забудьте указать телефон. Мы перезвоним и все расскажем.

Отправляя заявку, вы соглашаетесь с политикой конфиденциальности

Контакты

Москва

Работаем по всей России
и миру (онлайн)

+7 (999) 760-24-41

Ежедневно с 9:00 до 21:00

lamooof@gmail.com

По вопросам сотрудничества

Есть предложение?

Напишите нам в мессенджеры

© 2025 AI студия Владимира Ломтева