ADR-022 (блокер): OpenClaw — выбор технологии для AI-агента
Решено 2026-05-13 — см. Решение
Блокирует BR 6.3
Без выбора технологии не можем стартовать реализацию агента к 29.05.2026.
Контекст
В BR 6.3 описан AI-агент, который слушает голос гостя и сам управляет POS-кассой для приёма заказа. Демо-сценарий 3 показа 29.05.
Жёсткое ограничение от бизнеса: не используем Claude API напрямую (платим за каждый токен — дорого при масштабировании). Нужна дешёвая или локальная альтернатива, которая даёт сравнимое качество для целевой задачи (парсинг русского голосового заказа из 3–7 позиций).
Что нужно от агента
- Распознавать русскую речь (STT) с приемлемой точностью на бытовых терминах общепита («латте на овсяном», «бургер без лука», «два пончика»)
- Парсить намерение: извлекать позиции, количество, модификаторы из текста
- Выполнять действия: добавлять позиции в открытый заказ POS
- (Желательно) визуально демонстрировать процесс на экране кассы для эффекта «AI работает за меня»
Варианты
Вариант A — STT + локальный LLM + tool-calling
Стек: Whisper (local) → LLM (Llama 3.1 8B / Qwen 2.5 7B) → API POS-а.
Плюсы:
- Полностью локально → 0 ₽ за запрос после деплоя
- Простая отладка
- Малый размер моделей — поднимется на 1× GPU 16 ГБ VRAM
- Tool-calling работает чисто через JSON
- Никаких юридических сложностей
Минусы:
- Нет «эффекта курсора» — заказы добавляются по API, гость видит как корзина наполняется, но не видит как «AI кликает»
- Visual storytelling слабее
- Качество русского STT у Whisper.cpp — приемлемое, но не идеальное
Вариант B — Локальный VLM + computer-use эмуляция
Стек: Whisper → VLM (LLaVA / Qwen-VL / InternVL) → скриншот POS → анализ → команда «click x, y» → программный курсор.
Плюсы:
- Полный «эффект курсора» — гость видит как AI движет мышью и кликает
- Универсально — работает на любом POS без API
- Wow-эффект для демо
Минусы:
- VLM требует мощного GPU (LLaVA 13B на FP16 — это ~26 ГБ VRAM, как минимум 1× A100 или 2× RTX 4090)
- Latency 2–5 секунд на каждый клик — может тормозить флоу
- Точность VLM на сложных интерфейсах не гарантирована — нужны тесты
- Сложная инфра — нужен скриншот-stream, программный курсор-контроллер
Вариант C — Готовый продукт OpenClaw
Стек: существующий продукт «OpenClaw» (если есть).
Плюсы:
- Готовое решение, не делаем своё
- Возможно дешевле собственного
Минусы:
- Существует ли такой продукт? Неизвестно. Нужно проверить.
- Зависимость от внешнего вендора
- Возможно несовместимость с нашими требованиями (RU-язык, локальный деплой, ToS банка)
Что нужно для решения
- Проверить существование «OpenClaw» как реального продукта (или это рабочее название нашего агента?)
- Получить ответ от пользователя: какой вариант приоритетен по эффекту демо
- Получить от инфры: какое GPU-железо есть/будет, какой бюджет
- Тест Whisper.cpp на RU-фразах общепита (демо-фразы)
- Тест VLM на скриншотах нашего POS (1 day-spike)
Открытые вопросы
- Что такое OpenClaw — конкретный продукт или название нашего собственного агента?
- Каков бюджет на GPU-сервер на проде?
- Нужен ли «эффект курсора» для демо, или достаточно видеть как корзина наполняется?
- STT — Whisper или Yandex SpeechKit (платный, но качественный)?