Глоссарий: Основные термины
LLM и базовые понятия
LLM (Large Language Model) — большая языковая модель, которая умеет понимать и генерировать текст, опираясь на закономерности в огромных наборах данных.
Токен — минимальная единица текста для модели. Это не всегда слово: токеном может быть часть слова, знак препинания или целое короткое слово.
Контекстное окно — объём текста, который модель может "удерживать в памяти" в рамках одного запроса. Актуальный размер контекста 200тыс-1млн токенов. ВАЖНО: вместе с ростом контекста, качество ответов начинает падать. Внимание модели больше сконцентрировано в начале и конце с просадкой в середине. Выходное окно токенов: 32тыс-64тыс токенов.
Промпт — инструкция или запрос, который пользователь отправляет модели.
Inference — процесс запуска модели для получения ответа.
Параметры модели — внутренние численные веса, в которых "зашиты" знания и закономерности, выученные при обучении.
Pretraining — предварительное обучение модели на больших массивах текста, когда она учится предсказывать следующий токен.
Fine-tuning — дополнительная настройка модели на специальном наборе данных под задачу, стиль или домен.
Embedding — числовое представление текста, в котором похожие по смыслу фрагменты находятся близко друг к другу.
Температура — параметр генерации: чем выше, тем ответ обычно более разнообразный и менее предсказуемый; чем ниже, тем более стабильный и прямой.
Hallucination / галлюцинация — ситуация, когда модель уверенно сообщает неверную или выдуманную информацию.
Техники промптинга
Few-shot prompting — способ работы с моделью, когда в промпт добавляют несколько примеров желаемого ответа.
Zero-shot — когда модель решает задачу без примеров, только по инструкции.
Chain-of-thought — пошаговое рассуждение модели. На практике часто важно не само длинное рассуждение, а хорошо структурированный ответ.
Архитектура
Transformer — архитектура нейросети, на которой основано большинство современных LLM.
Attention — механизм, который помогает модели понимать, какие части текста важны в текущем контексте.
RAG и агенты
RAG (Retrieval-Augmented Generation) — подход, при котором модель сначала получает внешние данные из базы знаний или поиска, а потом формирует ответ на их основе.
AI-агент — система на базе модели, которая не только отвечает текстом, но и может планировать шаги, использовать инструменты, обращаться к данным и выполнять действия.
Tool use / вызов инструментов — способность агента пользоваться внешними средствами: поиском, калькулятором, API, календарем, почтой, базой данных.
Function calling — формат, в котором модель не просто пишет текст, а выбирает структуру вызова нужного инструмента с аргументами.
Компоненты агентов
Planner — компонент агента, который решает, какие шаги нужны для достижения цели.
Executor — компонент, который выполняет выбранные шаги и вызывает инструменты.
Observation — результат действия агента: например, ответ API, результат поиска, состояние базы данных.
Action — конкретное действие агента: сделать запрос, прочитать файл, отправить письмо, пересчитать данные.
Память
Memory / память агента — механизм сохранения информации между шагами или сессиями.
Short-term memory — краткосрочная память в рамках текущей задачи или диалога.
Long-term memory — долговременная память о предпочтениях, фактах или прошлых действиях пользователя.
Подходы и паттерны
ReAct — подход, где модель чередует рассуждение и действия: подумать → вызвать инструмент → посмотреть результат → продолжить.
Multi-agent system — система, где несколько агентов с разными ролями работают вместе.
Supervisor agent — агент-координатор, который распределяет задачи между другими агентами.
Critic / reviewer — агент или этап проверки, который оценивает качество промежуточного результата.
Workflow — заранее заданная последовательность шагов, которую агент выполняет.
Orchestration — управление несколькими моделями, агентами, инструментами и шагами в одном процессе.
Guardrails — ограничения и правила, которые не дают агенту выходить за рамки допустимого поведения.
Метрики и оценка
Evaluation / evals — тесты и метрики для проверки качества модели или агента.
Latency — задержка между запросом и ответом.
Cost per token — стоимость обработки входных и выходных токенов.
Rate limit — ограничение на число запросов за определённое время.
Alignment — насколько поведение модели соответствует намерениям разработчиков и ожиданиям пользователя.
Безопасность
Prompt injection — попытка через входные данные подсунуть модели вредную инструкцию и изменить ее поведение.
Инструменты и протоколы
SOTA — state of the art — лучшее на сегодня решение.
MCP (Model Context Protocol) — открытый протокол, который стандартизирует, как AI-приложение подключается к внешним данным и инструментам: файлам, базам данных, API, поиску и другим системам.
Skill — переиспользуемый пакет инструкций и ресурсов для конкретного типа задач.
Hook — обработчик события или точка расширения в жизненном цикле агента. Hook позволяет выполнить дополнительную логику "до", "после" или "во время" какого-то шага — например, перед вызовом инструмента, после получения результата, при handoff между агентами или при завершении run.
Code execution — режим, в котором модель не только пишет текст, но и запускает код в изолированной среде, чтобы посчитать что-то, обработать данные, построить график, преобразовать файл или проверить гипотезу.