ADR-022 (блокер): OpenClaw — выбор технологии для AI-агента

Решено 2026-05-13 — см. Решение

Блокирует BR 6.3

Без выбора технологии не можем стартовать реализацию агента к 29.05.2026.

Контекст

В BR 6.3 описан AI-агент, который слушает голос гостя и сам управляет POS-кассой для приёма заказа. Демо-сценарий 3 показа 29.05.

Жёсткое ограничение от бизнеса: не используем Claude API напрямую (платим за каждый токен — дорого при масштабировании). Нужна дешёвая или локальная альтернатива, которая даёт сравнимое качество для целевой задачи (парсинг русского голосового заказа из 3–7 позиций).

Что нужно от агента

Распознавать русскую речь (STT) с приемлемой точностью на бытовых терминах общепита («латте на овсяном», «бургер без лука», «два пончика»)
Парсить намерение: извлекать позиции, количество, модификаторы из текста
Выполнять действия: добавлять позиции в открытый заказ POS
(Желательно) визуально демонстрировать процесс на экране кассы для эффекта «AI работает за меня»

Варианты

Вариант A — STT + локальный LLM + tool-calling

Стек: Whisper (local) → LLM (Llama 3.1 8B / Qwen 2.5 7B) → API POS-а.

Плюсы:

Полностью локально → 0 ₽ за запрос после деплоя
Простая отладка
Малый размер моделей — поднимется на 1× GPU 16 ГБ VRAM
Tool-calling работает чисто через JSON
Никаких юридических сложностей

Минусы:

Нет «эффекта курсора» — заказы добавляются по API, гость видит как корзина наполняется, но не видит как «AI кликает»
Visual storytelling слабее
Качество русского STT у Whisper.cpp — приемлемое, но не идеальное

Вариант B — Локальный VLM + computer-use эмуляция

Стек: Whisper → VLM (LLaVA / Qwen-VL / InternVL) → скриншот POS → анализ → команда «click x, y» → программный курсор.

Плюсы:

Полный «эффект курсора» — гость видит как AI движет мышью и кликает
Универсально — работает на любом POS без API
Wow-эффект для демо

Минусы:

VLM требует мощного GPU (LLaVA 13B на FP16 — это ~26 ГБ VRAM, как минимум 1× A100 или 2× RTX 4090)
Latency 2–5 секунд на каждый клик — может тормозить флоу
Точность VLM на сложных интерфейсах не гарантирована — нужны тесты
Сложная инфра — нужен скриншот-stream, программный курсор-контроллер

Вариант C — Готовый продукт OpenClaw

Стек: существующий продукт «OpenClaw» (если есть).

Плюсы:

Готовое решение, не делаем своё
Возможно дешевле собственного

Минусы:

Существует ли такой продукт? Неизвестно. Нужно проверить.
Зависимость от внешнего вендора
Возможно несовместимость с нашими требованиями (RU-язык, локальный деплой, ToS банка)

Что нужно для решения

Проверить существование «OpenClaw» как реального продукта (или это рабочее название нашего агента?)
Получить ответ от пользователя: какой вариант приоритетен по эффекту демо
Получить от инфры: какое GPU-железо есть/будет, какой бюджет
Тест Whisper.cpp на RU-фразах общепита (демо-фразы)
Тест VLM на скриншотах нашего POS (1 day-spike)

Открытые вопросы

Что такое OpenClaw — конкретный продукт или название нашего собственного агента?
Каков бюджет на GPU-сервер на проде?
Нужен ли «эффект курсора» для демо, или достаточно видеть как корзина наполняется?
STT — Whisper или Yandex SpeechKit (платный, но качественный)?

Ссылки

BR 6.3
Решение
HTML-демо
Workflow — формат ADR-блокеров

ERP Platform Docs

Проводник

Проблема

ADR-022 (блокер): OpenClaw — выбор технологии для AI-агента

Контекст

Что нужно от агента

Варианты

Вариант A — STT + локальный LLM + tool-calling

Вариант B — Локальный VLM + computer-use эмуляция

Вариант C — Готовый продукт OpenClaw

Что нужно для решения

Открытые вопросы

Ссылки

Вид графа

Оглавление

Обратные ссылки