Нейросеть для поддержки клиентов — это большая языковая модель (LLM), встроенная в вашу службу поддержки через API: она отвечает на типовые вопросы в чат-боте, готовит черновики ответов оператору, ищет нужный фрагмент в базе знаний (RAG), классифицирует входящие тикеты и определяет их срочность. Простые повторяющиеся обращения ИИ закрывает сам, сложные и чувствительные — эскалирует живому оператору с уже подготовленным контекстом. Для массового потока берут дешёвые модели (DeepSeek V4 Pro, Qwen 3.6 Plus, Claude Haiku 4.5), для разбора нестандартных и спорных кейсов — флагманы (Claude Sonnet 4.6, GPT-5.5). Всё подключается через один OpenAI-совместимый API, оплачивается в рублях на юрлицо с закрывающими документами.
Это инженерный гайд для команд поддержки и разработчиков, которые их обслуживают. Разберём, какие именно задачи поддержки закрывает ИИ, как устроен чат-бот поддержки, как он отвечает по вашей базе знаний без выдумок, как автоматически сортировать и приоритизировать тикеты, дадим рабочий код для подключения по API, посчитаем стоимость в рублях под реальный поток обращений и отдельно разберём контроль качества и эскалацию — потому что ИИ в поддержке усиливает команду, а не отменяет её. Важная рамка с самого начала: нейросеть не должна молча решать вопросы о возвратах денег, юридических спорах, здоровье или безопасности — такие кейсы всегда уходят человеку. Цены — из нашего каталога на 2026-05-29, по курсу ЦБ 71.668 ₽/$, без наценки на токены.
Какие задачи поддержки закрывает нейросеть
ИИ в поддержке — это не один «бот вместо людей», а набор отдельных функций, которые встраиваются в разные точки процесса. Полезно сразу разделить их, потому что под каждую подбирается своя модель и свой уровень автономии.
- Чат-бот первой линии. Отвечает на типовые вопросы в виджете на сайте, в Telegram, в приложении: «как сменить тариф», «где мой заказ», «как сбросить пароль». Закрывает самый массовый и однообразный поток, до которого у операторов вечно не доходят руки.
- Авто-ответы и черновики оператору. ИИ не отвечает клиенту напрямую, а готовит черновик ответа, который оператор вычитывает и отправляет. Это снимает «синдром чистого листа» и ускоряет первую линию в разы, оставляя контроль за человеком.
- Ответы по базе знаний (RAG). Бот отвечает не из «общих знаний» модели, а строго по вашим статьям, инструкциям и регламентам. Это ключевой механизм против выдумок — разберём его отдельно ниже.
- Триаж и классификация тикетов. Входящее обращение автоматически получает категорию (биллинг, технический сбой, возврат, жалоба), приоритет и нужный отдел. Маршрутизация перестаёт быть ручной.
- Контроль тона и переписывание. ИИ переводит резкий черновик оператора в вежливую формулировку, выдерживает единый стиль бренда, адаптирует ответ под канал (короче для SMS, формальнее для email).
- Суммаризация диалога. Длинная переписка сворачивается в короткую сводку для оператора, на которого эскалировали тикет, или для следующей смены. Человек включается в контекст за секунды, а не читает простыню сообщений.

Объединяет эти задачи одно: ни одна из них не требует обучать собственную модель. Вы берёте готовую LLM по API и встраиваете её в нужную точку процесса. Базовую механику чат-бота — историю диалога, системный промпт, выбор транспорта — мы подробно разобрали в гайде про то, как сделать чат-бота на нейросети через API; здесь сосредоточимся именно на специфике поддержки.
Чат-бот поддержки: как он устроен
Чат-бот поддержки отличается от «болталки» общего назначения тремя вещами: жёстким системным промптом с правилами эскалации, доступом к базе знаний и понятием «не знаю, передаю человеку». Технически это всё тот же вызов chat/completions с массивом сообщений, но поведение задаётся куда строже.
Системный промпт бота поддержки — это, по сути, его должностная инструкция. В нём прописывают роль, тон, границы компетенции и, главное, условия эскалации:
SYSTEM_PROMPT = """Ты ассистент службы поддержки сервиса «Пример».
Отвечай вежливо, кратко, на русском языке.
Правила:
- Отвечай ТОЛЬКО на вопросы о продукте, опираясь на переданный
контекст из базы знаний. Не выдумывай факты, цены и условия.
- Если в контексте нет ответа — честно скажи, что уточнишь у коллег,
и пометь обращение для эскалации. НЕ придумывай ответ.
- Вопросы о возврате денег, претензиях, договорах, безопасности
и здоровье ВСЕГДА передавай оператору, не решай сам.
- Не обещай сроки и компенсации, которых нет в регламенте.
"""Ключевая строка здесь — запрет выдумывать и обязанность честно эскалировать. Бот поддержки, который уверенно сочиняет несуществующую процедуру возврата, опаснее, чем отсутствие бота: он создаёт ложные обещания, за которые потом отвечает компания. Поэтому хороший бот поддержки чаще говорит «передам коллеге», чем плохой.
Поток одного обращения в боте поддержки выглядит так:
- Клиент пишет вопрос в виджет, Telegram или приложение.
- Бэкенд ищет в базе знаний релевантные фрагменты по смыслу (RAG, см. ниже) и подкладывает их в промпт.
- Модель формулирует ответ строго по найденному контексту — или возвращает сигнал «нет ответа».
- Развилка: если бот уверенно ответил по базе — отдаём ответ клиенту; если контекста не нашлось или вопрос чувствительный — эскалируем на оператора, приложив историю диалога и краткую сводку.
- Оператор получает уже подготовленный контекст и закрывает сложный кейс.

Эта развилка на шаге 4 — сердце надёжной поддержки на ИИ. Бот не пытается ответить любой ценой; он либо отвечает по проверенным данным, либо честно отдаёт вопрос человеку. Именно так достигается баланс: массовый поток разгружается автоматикой, а качество и ответственность по сложным кейсам остаются за командой.
Ответы на основе базы знаний (RAG)
Главная проблема LLM в поддержке — модель «из коробки» не знает ваших тарифов, регламентов и особенностей продукта, а если её спросить напрямую, она может уверенно выдумать ответ. Решение называется RAG (Retrieval-Augmented Generation) — «генерация с подмешиванием найденного». Идея: перед тем как ответить, система находит в вашей базе знаний релевантные фрагменты и кладёт их прямо в промпт. Модель отвечает не «из головы», а по конкретным статьям.
Схема RAG для поддержки состоит из двух фаз.
Фаза 1 — индексация базы знаний (один раз, заранее):
- Статьи, инструкции, FAQ, регламенты режутся на смысловые фрагменты — чанки по 200–800 токенов (обычно абзац).
- Каждый чанк превращается в вектор-эмбеддинг — список чисел, отражающий смысл текста.
- Векторы вместе с исходным текстом складываются в векторную базу (pgvector, Qdrant, Chroma) или, для небольшой базы, просто в память.
Фаза 2 — ответ на обращение (на каждый вопрос):
- Вопрос клиента превращается в вектор той же моделью-эмбеддером.
- Векторная база находит топ-K фрагментов, ближайших по смыслу к вопросу (обычно K = 3–6).
- Найденные фрагменты вставляются в системный промпт: «ответь, используя только эти данные».
- Чат-модель формулирует ответ строго по подложенному контексту.
Тонкость, на которой держится всё: эмбеддер и чат-модель — разные модели, работающие в паре. Эмбеддер (text-embedding-3-small) ищет нужные куски базы, а чат-модель (claude-sonnet-4.6, gpt-5.5) формулирует из них человеческий ответ. Обе доступны через один и тот же API — меняется только значение model. Семантический поиск находит правильную статью, даже если клиент написал «не приходит письмо подтверждения», а статья называется «проблемы с доставкой email» — общих слов нет, но смысл близкий.

Почему RAG для поддержки практически обязателен:
- Ответы всегда актуальны. Поменяли тариф или регламент — обновили статью в базе, и бот сразу отвечает по-новому. Дообучать модель не нужно.
- Меньше выдумок. Когда модель отвечает по подложенному тексту, а не «по памяти», риск галлюцинаций резко падает. А если в базе ответа нет — бот честно эскалирует.
- Прозрачность. Можно показать оператору и клиенту, из какой именно статьи взят ответ, — это упрощает проверку.
Механику RAG, чанкинг, выбор модели эмбеддингов и рабочий код мы детально разобрали в отдельном материале — embeddings API в России: векторный поиск и RAG. Хорошая новость по бюджету: эмбеддинги несопоставимо дешевле генерации (порядка 1–2 ₽ за миллион токенов), поэтому индексация даже большой базы знаний стоит копейки, а основной счёт формирует чат-модель.
Триаж и классификация тикетов
До того как тикет дойдёт до ответа, его нужно правильно разложить: определить тему, срочность и отдел. Раньше это делал оператор первой линии вручную; LLM делает это за доли секунды и почти бесплатно. Это, пожалуй, самый недооценённый и при этом самый выгодный сценарий ИИ в поддержке, потому что классификация — дешёвая задача (короткий вход, короткий выход), а пользы много.
Триаж удобно делать запросом со структурированным выходом — просим модель вернуть строго JSON, который ваш код сразу разложит по полям:
from openai import OpenAI
client = OpenAI(
api_key="prm-xxxxxxxxxxxx",
base_url="https://api.promptra.ru/v1",
)
TRIAGE_PROMPT = """Классифицируй обращение в поддержку.
Верни СТРОГО JSON без пояснений:
{
"category": "биллинг | технический сбой | возврат | жалоба | вопрос о продукте | прочее",
"priority": "низкий | средний | высокий | критический",
"sentiment": "позитивный | нейтральный | негативный",
"needs_human": true | false
}
Ставь needs_human=true для возвратов, жалоб, юридических и
чувствительных тем. priority=критический — для потери данных,
безопасности, недоступности сервиса."""
def triage(ticket_text: str) -> dict:
response = client.chat.completions.create(
model="anthropic/claude-haiku-4.5", # дешёвая модель — классификации хватает
messages=[
{"role": "system", "content": TRIAGE_PROMPT},
{"role": "user", "content": ticket_text},
],
temperature=0, # детерминированный результат
response_format={"type": "json_object"},
)
import json
return json.loads(response.choices[0].message.content)
result = triage("Третий день не приходят уведомления, и списали деньги дважды!")
# {'category': 'биллинг', 'priority': 'высокий',
# 'sentiment': 'негативный', 'needs_human': True}Что даёт такой триаж на практике:
- Автомаршрутизация. Поле
categoryотправляет тикет сразу в нужный отдел, без ручной сортировки. - Приоритизация очереди.
priorityподнимает критические обращения наверх — клиент с потерей данных не ждёт в общей очереди за вопросом «как поменять аватарку». - Раннее предупреждение о негативе.
sentimentподсвечивает раздражённых клиентов, чтобы оператор подошёл к ним аккуратнее или подключился руководитель. - Правильная развилка человек/бот. Поле
needs_human— это и есть тот самый предохранитель: чувствительные темы сразу уходят к оператору, минуя авто-ответ.
Для классификации и триажа берут самые дешёвые модели — claude-haiku-4.5, deepseek-v4-pro, qwen3.6-plus. Задача простая, объём большой, и платить флагманские деньги за раскладку тикетов по полкам нет смысла. Параметр temperature=0 делает результат детерминированным: на один и тот же тикет — одна и та же категория, что важно для стабильной маршрутизации.
Как подключить нейросеть к поддержке по API
Все описанные функции — чат-бот, авто-ответы, RAG, триаж — это вызовы одного OpenAI-совместимого эндпоинта. Если у вас уже есть код на официальном SDK OpenAI, меняется только base_url и идентификатор модели. Эндпоинт: https://api.promptra.ru/v1.
Установка библиотеки:
pip install openaiАвто-ответ по базе знаний с эскалацией (Python)
Соберём ядро бота поддержки: ищем контекст в базе (здесь — упрощённо, без векторной БД), генерируем ответ и обрабатываем случай «ответа нет».
from openai import OpenAI
client = OpenAI(
api_key="prm-xxxxxxxxxxxx",
base_url="https://api.promptra.ru/v1",
)
SYSTEM_PROMPT = """Ты ассистент поддержки. Отвечай вежливо и кратко,
по-русски, ТОЛЬКО на основе переданного контекста из базы знаний.
Если в контексте нет ответа — верни ровно строку ESCALATE и ничего
больше. Не выдумывай факты, цены и сроки."""
def answer_support(question: str, kb_context: str) -> dict:
response = client.chat.completions.create(
model="anthropic/claude-sonnet-4.6", # качество ответа клиенту важно
messages=[
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "system", "content": f"Контекст из базы знаний:\n{kb_context}"},
{"role": "user", "content": question},
],
temperature=0.3, # низкая температура — меньше отсебятины
)
answer = response.choices[0].message.content.strip
if answer == "ESCALATE" or not kb_context.strip:
return {"action": "escalate", "draft": None}
return {"action": "reply", "draft": answer}
# kb_context приходит из RAG-поиска по векторной базе (см. раздел про RAG)
result = answer_support(
"Как изменить тариф?",
kb_context="Сменить тариф можно в разделе Биллинг, изменения вступают в силу сразу.",
)
print(result) # {'action': 'reply', 'draft': 'Тариф меняется в разделе Биллинг...'}Логика проста: модель либо отвечает по контексту, либо возвращает маркер ESCALATE, по которому ваш код передаёт обращение оператору. Это и есть техническая реализация развилки человек/бот.
Тот же код — любая модель
Поскольку эндпоинт OpenAI-совместимый, переключение модели — это одна строка model. Под разные задачи поддержки берут разные модели одним и тем же кодом:
# Триаж и классификация — дёшево
model = "anthropic/claude-haiku-4.5"
# Массовые типовые ответы — дешевле некуда
model = "deepseek/deepseek-v4-pro"
# Ответ клиенту, где важно качество и тон
model = "anthropic/claude-sonnet-4.6"
# Разбор сложной жалобы, спорный кейс
model = "openai/gpt-5.5"
response = client.chat.completions.create(model=model, messages=messages)Проверка одним curl
Убедиться, что ключ и эндпоинт живые, можно без SDK:
curl https://api.promptra.ru/v1/chat/completions \
-H "Authorization: Bearer prm-xxxxxxxxxxxx" \
-H "Content-Type: application/json" \
-d '{
"model": "anthropic/claude-haiku-4.5",
"messages": [{"role": "user", "content": "Ответь одной фразой: бот поддержки работает?"}]
}'Если в ответе пришёл JSON с полем content — всё в порядке. Подробный разбор подключения и миграции SDK — на странице ChatGPT API в России.
Цена нейросети для поддержки в рублях
Посчитаем расход на реальном потоке обращений. Стоимость поддержки на ИИ зависит от объёма и от того, какие модели вы поставите на какие задачи. Цены ниже — из нашего каталога на 2026-05-29, рубли за 1 млн токенов, по курсу ЦБ 71.668 ₽/$, без наценки на токены.
| Модель | Вход, ₽/1М | Выход, ₽/1М | Контекст | Роль в поддержке |
|---|---|---|---|---|
| Claude Haiku 4.5 | 70 | 350 | 200K | Триаж, классификация, простые ответы |
| Qwen 3.6 Plus | 20 | 130 | 1M | Массовые ответы, многоязычие |
| DeepSeek V4 Pro | 30 | 60 | 1M | Самый дешёвый под объём |
| GPT-5.4 Mini | 50 | 320 | 400K | Дешёвый GPT для автоматизации |
| Claude Sonnet 4.6 | 210 | 1070 | 1M | Ответ клиенту, баланс качества и цены |
| GPT-5.5 | 350 | 2150 | 1.05M | Разбор сложных и спорных кейсов |
Отдельно про DeepSeek V4 Pro: цена 30/60 ₽ — это промо-тариф со скидкой 75%, который действует до 2026-05-31. После окончания акции базовая ставка будет примерно вчетверо выше (около 120/240 ₽ за миллион). Если строите массового бота на нём — закладывайте базовую цену в расчёты заранее.
Теперь конкретный сценарий. Допустим, служба поддержки получает 2000 обращений в день. Из них примерно 70% — типовые вопросы, которые закрывает бот по базе знаний; 30% эскалируются на оператора. Прикинем расход на ИИ-часть.
- Триаж всех 2000 обращений. Вход ~150 токенов, выход ~40 токенов на тикет. За день: ~0.3M вход + ~0.08M выход. На
claude-haiku-4.5это копейки. - Авто-ответы по базе (1400 тикетов/день). В промпт идёт вопрос плюс найденный контекст (~700 токенов вход), ответ ~150 токенов выход. За день: ~0.98M вход + ~0.21M выход.
Сложим за месяц (30 дней). Триаж: ~9M вход + ~2.4M выход. Авто-ответы: ~29.4M вход + ~6.3M выход. Стоимость по каталогу:
| Часть | Модель | Вход | Выход | Итого/мес |
|---|---|---|---|---|
| Триаж всех тикетов | Claude Haiku 4.5 | ~630 ₽ | ~840 ₽ | ~1 470 ₽ |
| Авто-ответы по базе | DeepSeek V4 Pro (промо) | ~882 ₽ | ~378 ₽ | ~1 260 ₽ |
| Авто-ответы по базе | Claude Sonnet 4.6 | ~6 174 ₽ | ~6 741 ₽ | ~12 915 ₽ |
Картина наглядная: триаж 60 000 тикетов в месяц стоит порядка полутора тысяч рублей. Авто-ответы на дешёвой модели — ещё около тысячи; на качественном Sonnet, если ставите его на прямое общение с клиентом, — порядка 13 000 ₽. Даже верхний вариант — это несопоставимо дешевле одного оператора первой линии на том же потоке. Эмбеддинги для RAG-поиска сюда почти не добавляют (индексация базы знаний — единицы рублей).
Главный рычаг экономии — двухуровневая схема: дешёвая модель (DeepSeek, Qwen, Haiku) тащит массовый поток и триаж, а флагман (Sonnet, GPT-5.5) подключается только на сложных и спорных кейсах. Поскольку модель меняется одной строкой model, маршрутизация по сложности реализуется тривиально, а общий счёт падает в разы. Полную методику снижения расходов под разные сценарии мы разбираем в сравнении топ-5 LLM 2026.
К токенам добавляется сервисная комиссия 5% — она удерживается один раз при пополнении баланса (за работу сервиса, эквайринг, биллинг), а не с каждого токена. На сами цены токенов наценки нет — они 1-в-1 с провайдером по курсу ЦБ.
Контроль качества и эскалация
Самая частая ошибка при внедрении ИИ в поддержку — отдать боту всё и надеяться, что он разберётся. Так нельзя. Нейросеть для поддержки клиентов отлично закрывает массовый предсказуемый поток, но в спорных, эмоциональных и юридически значимых ситуациях нужен человек. Хорошая система строится вокруг честных границ автономии.
Что бот может решать сам:
- Типовые вопросы с однозначным ответом из базы знаний (где статус заказа, как сменить тариф, как настроить функцию).
- Триаж, классификация и маршрутизация (это вообще не общение с клиентом).
- Черновики ответов для оператора — человек всё равно проверяет перед отправкой.
Что всегда уходит человеку:
- Возвраты денег, компенсации, перерасчёты, всё, что касается финансов клиента.
- Жалобы, претензии, конфликтные и эмоционально заряженные обращения.
- Юридические вопросы, договоры, персональные данные сверх необходимого.
- Темы здоровья и безопасности.
- Любой случай, где в базе знаний нет уверенного ответа.
Технически граница реализуется тремя предохранителями, которые мы уже показали в коде:
- Поле
needs_humanв триаже — чувствительная категория сразу помечается на эскалацию, не доходя до авто-ответа. - Маркер
ESCALATE— если модель не нашла ответ в контексте, она честно отдаёт вопрос человеку вместо того, чтобы выдумывать. - Режим черновика — на ответственных направлениях бот не пишет клиенту, а готовит черновик оператору. Контроль остаётся за человеком при сохранении скорости.
Что ещё стоит держать под контролем в проде:
- Логируйте всё. Сохраняйте вопрос, найденный контекст, ответ бота и расход токенов (
response.usage). Это нужно и для разбора жалоб, и для улучшения базы знаний: вопросы, на которые бот не нашёл ответ, — это прямой список статей, которых не хватает. - Низкая температура. Для поддержки ставьте
temperature0–0.3: ответы стабильнее и ближе к фактам, меньше «творчества». - Плавный запуск. Сначала включите ИИ только в режиме черновиков для операторов и понаблюдайте качество на реальных диалогах. Затем выводите на автоответ самые простые и безопасные категории. Не наоборот.
- Передача контекста при эскалации. Когда бот отдаёт диалог человеку, прикладывайте краткую сводку переписки (суммаризация — отдельный дешёвый запрос). Оператор включается в контекст за секунды.
Главная мысль: ИИ в поддержке — это усилитель команды, а не её замена. Он снимает рутину, ускоряет первую линию и поднимает критичные обращения наверх, освобождая операторов для тех кейсов, где действительно нужен человек. Обещать, что нейросеть полностью заменит службу поддержки, — значит подставить и клиентов, и компанию.
Оплата нейросети для поддержки на юрлицо в рублях
Для пет-проекта вопрос оплаты не стоит. Но служба поддержки — это всегда рабочий процесс компании, и расходы на LLM API нужно проводить по бухгалтерии. Прямой доступ к OpenAI, Anthropic и Google из России для этого не подходит: оплата идёт через зарубежные карты без нормальных закрывающих документов, а аккаунты нестабильны.
Через Promptra оплата идёт на юр.лицо — российское юр.лицо — в рублях, с полным пакетом закрывающих документов через ЭДО: договор-оферта, счёт, акт, счёт-фактура, УПД. Документооборот ведём через операторов ЭДО (Диадок, СБИС), так что закрывающие автоматически попадают в вашу учётную систему. Расходы на ИИ-поддержку корректно учитываются как услуги, без серых схем. Доступ работает из России без VPN: запрос уходит на эндпоинт агрегатора, а он связывается с провайдером со своей стороны — туннелировать трафик не нужно. Подробно про документы и легальность — в материале легально ли использовать AI API на юрлицо.
С технической стороны это ничего не меняет: тот же OpenAI-совместимый API, тот же код, одна строка base_url. Вы получаете предсказуемый доступ к моделям и нормальные документы для бухгалтерии.
FAQ
Что такое нейросеть для поддержки клиентов?
Это большая языковая модель (LLM), встроенная в службу поддержки через API. Она выполняет несколько функций: отвечает на типовые вопросы в чат-боте, готовит черновики ответов оператору, ищет нужный фрагмент в базе знаний через RAG, классифицирует и приоритизирует входящие тикеты, контролирует тон. Простые повторяющиеся обращения ИИ закрывает сам, а сложные, спорные и чувствительные (возвраты, жалобы, юридические вопросы) эскалирует живому оператору. Обучать собственную модель не нужно — берётся готовая LLM по API.
Какая нейросеть лучше для службы поддержки?
Зависит от задачи. Для триажа и классификации тикетов — дешёвые модели: Claude Haiku 4.5 (70/350 ₽ за 1М), DeepSeek V4 Pro (30/60 ₽) или Qwen 3.6 Plus (20/130 ₽), задача простая. Для прямых ответов клиенту, где важны качество и тон, — Claude Sonnet 4.6 (210/1070 ₽). Для разбора сложных и спорных кейсов — флагман GPT-5.5 (350/2150 ₽) или Claude Opus 4.7. Оптимальная схема — двухуровневая: дешёвая модель на массовый поток, флагман точечно на сложное.
Как чат-бот поддержки отвечает по нашей базе знаний без выдумок?
Через механизм RAG (Retrieval-Augmented Generation). База знаний заранее режется на фрагменты и превращается в векторы-эмбеддинги. Когда приходит вопрос, система находит по смыслу самые близкие фрагменты и подкладывает их в промпт модели с инструкцией «отвечай только по этим данным». Модель формулирует ответ из проверенного контекста, а не из «общих знаний», — поэтому выдумок резко меньше. Если подходящего фрагмента в базе нет, бот честно эскалирует вопрос оператору. Подробно механика разобрана в нашем гайде по embeddings и RAG.
Заменит ли нейросеть службу поддержки полностью?
Нет, и обещать это некорректно. ИИ закрывает массовый предсказуемый поток (типовые вопросы, триаж, черновики) и сильно разгружает первую линию, но в спорных, эмоциональных и юридически значимых ситуациях нужен человек. Возвраты денег, жалобы, конфликты, юридические вопросы, темы здоровья и безопасности всегда должны уходить оператору. Правильная роль ИИ — усилитель команды: он снимает рутину и освобождает операторов для кейсов, где действительно важен человек.
Сколько стоит нейросеть для поддержки в рублях?
Платите только за токены, без наценки, по курсу ЦБ. Для потока 2000 обращений в день триаж всех тикетов на Claude Haiku 4.5 обходится примерно в 1 500 ₽ в месяц; авто-ответы по базе знаний на дешёвой модели (DeepSeek) — около 1 300 ₽, а на качественном Claude Sonnet 4.6 — порядка 13 000 ₽ в месяц. Эмбеддинги для RAG добавляют единицы рублей. Точные цифры зависят от длины обращений и ответов; сервисная комиссия 5% берётся только при пополнении баланса.
Как подключить нейросеть к поддержке по API?
Все функции (чат-бот, авто-ответы, триаж, RAG) — это вызовы одного OpenAI-совместимого эндпоинта https://api.promptra.ru/v1. В коде на официальном SDK OpenAI меняется только base_url и идентификатор модели. Системный промпт задаёт роль бота и правила эскалации, RAG подкладывает контекст из базы знаний, триаж возвращает структурированный JSON с категорией и приоритетом. Рабочие примеры на Python и проверка через curl приведены выше. Чтобы сменить модель под задачу, меняется одна строка model.
Если хотите обсудить подключение ИИ к вашей поддержке, подобрать модели под поток обращений или посчитать стоимость под конкретный сценарий — напишите команде Promptra напрямую в Telegram: promptra.ru. Не маркетингу и не саппорту первой линии, а живому человеку — вопрос с выбором моделей и расчётом бюджета обычно решается за один разговор.
{/* pillar-backlink:auto */} > 📚 Главный гайд по теме: Нейросеть для бизнеса: 18 задач и какие модели брать — связанные материалы и обзор всей категории.
