ADR-022 (блокер): OpenClaw — выбор технологии для AI-агента

Решено 2026-05-13 — см. Решение

Блокирует BR 6.3

Без выбора технологии не можем стартовать реализацию агента к 29.05.2026.

Контекст

В BR 6.3 описан AI-агент, который слушает голос гостя и сам управляет POS-кассой для приёма заказа. Демо-сценарий 3 показа 29.05.

Жёсткое ограничение от бизнеса: не используем Claude API напрямую (платим за каждый токен — дорого при масштабировании). Нужна дешёвая или локальная альтернатива, которая даёт сравнимое качество для целевой задачи (парсинг русского голосового заказа из 3–7 позиций).

Что нужно от агента

  1. Распознавать русскую речь (STT) с приемлемой точностью на бытовых терминах общепита («латте на овсяном», «бургер без лука», «два пончика»)
  2. Парсить намерение: извлекать позиции, количество, модификаторы из текста
  3. Выполнять действия: добавлять позиции в открытый заказ POS
  4. (Желательно) визуально демонстрировать процесс на экране кассы для эффекта «AI работает за меня»

Варианты

Вариант A — STT + локальный LLM + tool-calling

Стек: Whisper (local) → LLM (Llama 3.1 8B / Qwen 2.5 7B) → API POS-а.

Плюсы:

  • Полностью локально → 0 ₽ за запрос после деплоя
  • Простая отладка
  • Малый размер моделей — поднимется на 1× GPU 16 ГБ VRAM
  • Tool-calling работает чисто через JSON
  • Никаких юридических сложностей

Минусы:

  • Нет «эффекта курсора» — заказы добавляются по API, гость видит как корзина наполняется, но не видит как «AI кликает»
  • Visual storytelling слабее
  • Качество русского STT у Whisper.cpp — приемлемое, но не идеальное

Вариант B — Локальный VLM + computer-use эмуляция

Стек: Whisper → VLM (LLaVA / Qwen-VL / InternVL) → скриншот POS → анализ → команда «click x, y» → программный курсор.

Плюсы:

  • Полный «эффект курсора» — гость видит как AI движет мышью и кликает
  • Универсально — работает на любом POS без API
  • Wow-эффект для демо

Минусы:

  • VLM требует мощного GPU (LLaVA 13B на FP16 — это ~26 ГБ VRAM, как минимум 1× A100 или 2× RTX 4090)
  • Latency 2–5 секунд на каждый клик — может тормозить флоу
  • Точность VLM на сложных интерфейсах не гарантирована — нужны тесты
  • Сложная инфра — нужен скриншот-stream, программный курсор-контроллер

Вариант C — Готовый продукт OpenClaw

Стек: существующий продукт «OpenClaw» (если есть).

Плюсы:

  • Готовое решение, не делаем своё
  • Возможно дешевле собственного

Минусы:

  • Существует ли такой продукт? Неизвестно. Нужно проверить.
  • Зависимость от внешнего вендора
  • Возможно несовместимость с нашими требованиями (RU-язык, локальный деплой, ToS банка)

Что нужно для решения

  • Проверить существование «OpenClaw» как реального продукта (или это рабочее название нашего агента?)
  • Получить ответ от пользователя: какой вариант приоритетен по эффекту демо
  • Получить от инфры: какое GPU-железо есть/будет, какой бюджет
  • Тест Whisper.cpp на RU-фразах общепита (демо-фразы)
  • Тест VLM на скриншотах нашего POS (1 day-spike)

Открытые вопросы

  1. Что такое OpenClaw — конкретный продукт или название нашего собственного агента?
  2. Каков бюджет на GPU-сервер на проде?
  3. Нужен ли «эффект курсора» для демо, или достаточно видеть как корзина наполняется?
  4. STT — Whisper или Yandex SpeechKit (платный, но качественный)?

Ссылки