Гайды29 мая 2026 г.13 мин чтения

Нейросеть для озвучки текста: синтез речи (TTS)

Нейросеть для озвучки текста: какие сервисы синтеза речи (TTS) озвучивают текст голосом — ElevenLabs, Google, Yandex — и как через LLM по API в рублях готовить сценарии, тексты и SSML-разметку под озвучку.

Схема пайплайна озвучки: сценарий и текст от LLM по API уходят в сервис синтеза речи (TTS), на выходе готовый голос

Нейросеть для озвучки текста — это сервис синтеза речи (TTS, text-to-speech), который принимает написанный текст и возвращает аудиофайл с человеческим голосом: дикторская начитка, голос ассистента, реплики персонажа. Сам голос синтезируют специализированные TTS-сервисы — ElevenLabs, Google Cloud Text-to-Speech, Yandex SpeechKit, Microsoft Azure, OpenAI. Текстовые LLM (Claude, GPT, Gemini) голосом не озвучивают, но именно они закрывают соседнюю и не менее важную часть работы: пишут сами сценарии и тексты под начитку, адаптируют их под устную речь, проставляют тайм-коды и размечают паузы/интонации для TTS. Эту текстовую часть удобно автоматизировать через один OpenAI-совместимый API с оплатой в рублях — а готовый текст вы отдаёте в сервис озвучки.

Этот гайд — про обе половины задачи. Сначала обзорно разберём, какие нейросети озвучивают текст и как устроен процесс «текст → голос», со ссылками на первоисточники. Затем — про практичную часть, которую закрывает Promptra: генерация сценариев, адаптация текста под речь и разметка для синтеза речи через LLM по API. Будет код, цены в рублях по нашему каталогу (1-в-1 с провайдером по курсу ЦБ, 71.668 ₽/$ на 2026-05-27) и честное разграничение: что делает TTS-сервис, а что — текстовая модель. Тон — инженерный, на цифрах, без маркетинга.

Важное разграничение: что озвучивает голосом, а что — пишет текст

Чтобы не было путаницы, зафиксируем сразу. В пайплайне озвучки работают два разных класса нейросетей:

Аудиомодели (синтез речи, TTS). Принимают на вход готовый текст и параметры голоса, на выходе дают звук — речь конкретным голосом с интонацией. Это ElevenLabs, Google TTS, Yandex SpeechKit и подобные. Они живут в отдельных специализированных сервисах со своими интерфейсами и API.
Текстовые LLM (подготовка текста под озвучку). Принимают задание словами, на выходе дают текст: сценарий ролика, дикторскую начитку, адаптацию книжного текста под устную речь, разметку пауз и ударений. Это Claude, GPT-5.5, Gemini и другие модели из каталога Promptra.

Promptra — это агрегатор доступа к текстовым LLM (а также к моделям картинок и видео). В каталоге Promptra нет модели синтеза речи, и мы не заявляем, что озвучиваем текст голосом. Зато текстовая часть пайплайна озвучки — сценарий, начитка, адаптация, разметка — закрывается через тот же API, что и любая другая генерация текста: один base_url, один ключ, оплата в рублях на юр.лицо. Дальше готовый текст вы относите в ElevenLabs или SpeechKit и получаете голос.

Эта связка логична: сильная языковая модель пишет складный текст под начитку и грамотно адаптирует его под устную речь (раскрывает сокращения, переписывает длинные конструкции, расставляет паузы) куда лучше, чем сырой исходник, который вы скопировали из статьи. Сервис синтеза речи при этом занимается своим делом — превращает подготовленный текст в звук.

Две колонки разграничения: слева TTS-сервисы ElevenLabs, Google, Yandex синтезируют голос; справа текстовые LLM Claude, GPT, Gemini пишут сценарий, адаптируют текст под речь и размечают паузы; стрелка от текста к голосу

Какие нейросети озвучивают текст: обзор TTS-сервисов

Рынок синтеза речи в 2026 году — это несколько зрелых сервисов, каждый со своей специализацией. Все они работают как отдельные продукты со своими тарифами и (у части) API. Ниже — обзорная карта; цены и условия меняются, поэтому актуальные смотрите на официальных сайтах.

ElevenLabs

ElevenLabs — пожалуй, самый известный сервис реалистичной озвучки текста. Силён естественной интонацией, эмоциональной речью, клонированием голоса и поддержкой множества языков, включая русский. Стал фактическим синонимом «нейросети для озвучки» в продакшене роликов, аудиокниг и дубляжа. Подробности и условия — на официальном сайте elevenlabs.io.

Google Cloud Text-to-Speech

Google Cloud Text-to-Speech — облачный TTS от Google с большим набором голосов и языков, поддержкой SSML-разметки и нейросетевыми голосами WaveNet. Удобен, когда озвучка встраивается в продукт или облачную инфраструктуру. Документация — на cloud.google.com.

Yandex SpeechKit

Yandex SpeechKit — синтез речи от Яндекса с сильными русскими голосами и поддержкой SSML. Естественный выбор, когда нужен качественный русскоязычный диктор и российская облачная инфраструктура. Сайт — yandex.cloud.

Microsoft Azure AI Speech

Azure AI Speech (ранее Cognitive Services Speech) — корпоративный TTS от Microsoft с нейроголосами, тонкой настройкой стиля речи через SSML и поддержкой кастомных голосов. Документация — на azure.microsoft.com.

OpenAI Audio (TTS)

У OpenAI есть отдельные модели синтеза речи в составе аудио-API — они озвучивают текст несколькими готовыми голосами. Удобно, когда вы уже работаете в экосистеме OpenAI. Описание — в документации platform.openai.com.

Сервис	Сильная сторона	Русский голос	Где смотреть
ElevenLabs	Реалистичность, эмоции, клонирование	Да	elevenlabs.io
Google Cloud TTS	Много голосов и языков, SSML	Да	cloud.google.com
Yandex SpeechKit	Сильные русские голоса, SSML	Да	yandex.cloud
Azure AI Speech	Корпоративный, стили речи, SSML	Да	azure.microsoft.com
OpenAI Audio	Простой API, готовые голоса	Да	platform.openai.com

Общий принцип у всех один: качество озвучки сильно зависит от того, насколько хорошо подготовлен текст на входе — раскрыты ли сокращения, расставлены ли паузы, адаптирован ли он под произнесение вслух. Именно поэтому подготовка текста — отдельный и важный этап, и его удобно автоматизировать языковой моделью.

Как устроен процесс: от текста к голосу

Озвучка текста нейросетью — это конвейер из нескольких шагов, и только один из них (сам синтез голоса) выполняет TTS-сервис. Остальное — текстовая работа.

Идея и формат. Что озвучиваем: рекламный ролик, обучающее видео, аудиокнига, голосовое меню IVR, реплики персонажа. На этом шаге формулируется задача словами.
Сценарий или текст начитки. Если готового текста нет — его надо написать: сценарий ролика, дикторскую начитку, реплики. Это чистая текстовая генерация — работа для LLM.
Адаптация под устную речь. Текст, написанный для чтения глазами, плохо звучит вслух: длинные предложения, аббревиатуры, цифры, формулы. LLM переписывает его под произнесение — короткие фразы, раскрытые сокращения, читаемые числа.
Разметка для синтеза (SSML, паузы, ударения). Сервисы синтеза речи принимают разметку SSML: паузы, темп, акценты, иногда ударения в сложных словах. LLM может проставить эту разметку по тексту.
Синтез голоса. Подготовленный текст (часто уже в SSML) уходит в ElevenLabs / Google / SpeechKit — и сервис генерирует аудио. Этот шаг выполняет TTS-модель, не LLM.
Тайм-коды и постобработка. Для видео нужна синхронизация: разбивка на реплики с таймингом, субтитры под озвучку. Снова текстовая работа — её удобно поручить LLM.

Из шести шагов четыре (2, 3, 4, 6) — это работа с текстом, и все они закрываются одной языковой моделью через API. TTS-сервис отвечает только за шаг 5. Поэтому для конвейерной, регулярной озвучки текстовый API — это рабочая лошадка подготовки и пост-обработки вокруг сервиса синтеза речи.

Горизонтальный флоучарт пайплайна озвучки из шести шагов: идея и формат, сценарий, адаптация под речь, разметка SSML, синтез голоса, тайм-коды; шаги 2, 3, 4, 6 помечены как работа LLM терракотовым, шаг 5 — работа TTS-сервиса

Что удобно делать через LLM по API

Теперь конкретика по той части, которую закрывает Promptra. Через текстовый API одной языковой моделью готовятся четыре вещи вокруг озвучки.

Сценарии и тексты под начитку

LLM пишет дикторский текст под заданный формат, хронометраж и тон: сценарий рекламного ролика на 30 секунд, закадровый текст к обучающему видео, приветствие для голосового меню. Можно задать длину (под нужное время звучания), стиль (официальный, дружелюбный), целевую аудиторию. Claude и GPT-5.5 дают самые естественные тексты на русском; для массового потока подойдут модели подешевле.

Адаптация текста под устную речь

Главная боль при озвучке готового текста — он написан для глаз, а не для ушей. LLM переписывает исходник под произнесение вслух: разбивает длинные предложения, раскрывает аббревиатуры («ООО» → «общество с ограниченной ответственностью», если так нужно), приводит числа и даты к читаемому виду («2026 г.» → «две тысячи двадцать шестой год»), убирает то, что нельзя произнести (ссылки, скобочные уточнения). На выходе — текст, который TTS прочитает естественно.

Разметка SSML и пауз

Сервисы синтеза речи (Google, Yandex, Azure) принимают разметку SSML — стандарт, которым задают паузы, темп, акценты, иногда ударения в омографах. LLM проставляет эту разметку по тексту: вставляет паузу <break> между смысловыми блоками, помечает важные слова, при необходимости задаёт произношение сложных терминов. Это снимает рутину ручной разметки длинных текстов.

Тайм-коды и субтитры

Для видео LLM режет текст на реплики с таймингом под раскадровку, готовит субтитры под озвучку, сводит длительность фраз с длиной сцен. Удобно, когда озвучка идёт в монтаж и нужна синхронизация голоса с картинкой.

Код: готовим текст под озвучку через API

Все эти задачи — обычная генерация текста по OpenAI-совместимому API. Endpoint Promptra: https://api.promptra.ru/v1. Пример на Python — пишем дикторский текст и сразу адаптируем его под устную речь:

from openai import OpenAI

client = OpenAI(
 api_key="prm-xxxxxxxxxxxx",
 base_url="https://api.promptra.ru/v1",
)

system = (
 "Ты сценарист озвучки. Пишешь дикторский текст на русском под начитку. "
 "Короткие фразы, естественная устная речь. Раскрывай сокращения и "
 "аббревиатуры, числа пиши словами. Не используй ссылки и скобки — "
 "их нельзя произнести. Уложись примерно в 30 секунд звучания."
)

brief = (
 "Рекламный ролик кофейни у дома. Тон тёплый, дружелюбный. "
 "Призыв: зайти на чашку кофе по дороге на работу."
)

response = client.chat.completions.create(
 model="anthropic/claude-sonnet-4.6",
 messages=[
 {"role": "system", "content": system},
 {"role": "user", "content": brief},
 ],
 temperature=0.7,
)

print(response.choices[0].message.content)

Чтобы сменить модель — поменяйте строку model. Идентификаторы из каталога: anthropic/claude-opus-4.7, anthropic/claude-sonnet-4.6, openai/gpt-5.5, openai/gpt-5.4, google/gemini-3.1-pro-preview, deepseek/deepseek-v4-pro, z-ai/glm-5.1, qwen/qwen3.6-plus. Остальной код не трогается.

Отдельная частая задача — проставить SSML-разметку по готовому тексту, чтобы TTS читал с правильными паузами. Пример на Node.js:

import OpenAI from "openai";

const client = new OpenAI({
 apiKey: process.env.PROMPTRA_API_KEY,
 baseURL: "https://api.promptra.ru/v1",
});

const res = await client.chat.completions.create({
 model: "openai/gpt-5.4",
 messages: [
 {
 role: "system",
 content:
 "Ты редактор озвучки. Оберни текст в SSML для синтеза речи. " +
 "Ставь паузы тегом break между смысловыми блоками, выделяй " +
 "ключевые слова через emphasis. Верни только валидный SSML.",
 },
 {
 role: "user",
 content: "Добро пожаловать. Нажмите один для поддержки, два для продаж.",
 },
 ],
 temperature: 0.3,
});

console.log(res.choices[0].message.content);

В ответе придёт разметка вроде <speak>Добро пожаловать. <break time="400ms"/> Нажмите <emphasis>один</emphasis> для поддержки…</speak> — её можно отдать в Google TTS, Yandex SpeechKit или Azure. Проверить, что ключ и endpoint живые, можно одним curl без SDK:

curl https://api.promptra.ru/v1/chat/completions \
 -H "Authorization: Bearer prm-xxxxxxxxxxxx" \
 -H "Content-Type: application/json" \
 -d '{
 "model": "deepseek/deepseek-v4-pro",
 "messages": [{"role": "user", "content": "Перепиши под озвучку: ООО приняло решение в 2026 г."}]
 }'

Если в ответе пришёл JSON с полем content — всё работает. Подробный разбор миграции на разных языках — в гайде про подключение ChatGPT по API в России. Общие приёмы и режимы текстовой генерации мы разбирали в материале про нейросеть для генерации текста — там же про температуру, роли и борьбу с галлюцинациями.

Схема: что делает LLM в озвучке — четыре подписанных блока (сценарий и текст, адаптация под устную речь, разметка SSML и паузы, тайм-коды и субтитры) с примерами вывода для каждого

Цена текстовой части в рублях

Сразу оговорка: за сам синтез голоса платит TTS-сервис (ElevenLabs, Google, SpeechKit и др.) по своим тарифам — это не часть Promptra. Здесь речь только о стоимости текстовой части (сценарий, адаптация, SSML-разметка, тайм-коды) через наш API.

Вы платите за токены — отдельно за вход (бриф или исходный текст) и отдельно за выход (готовый текст под озвучку). Для коротких роликов и реплик выход небольшой, поэтому подготовка выходит очень дёшево; для длинных текстов (аудиокниги, лонгриды) основной объём — это вход. Цены — вербатим из нашего каталога, вход/выход за 1 млн токенов.

Модель	Вход, ₽	Выход, ₽	Когда брать для озвучки
Claude Opus 4.7	350	1790	Сложные сценарии, художественная начитка
Claude Sonnet 4.6	210	1070	Дефолт: сценарии, адаптация, баланс
GPT-5.5	350	2150	Креатив, нестандартные форматы
GPT-5.4	170	1070	Рутинная подготовка дешевле флагмана
Gemini 3.1 Pro	140	860	Длинные тексты, аудиокниги, пакетная адаптация
Gemini 3.5 Flash	100	640	Дешёвая массовая SSML-разметка
GLM 5.1	100	310	Структурный текст, бюджет
Qwen 3.6 Plus	20	130	Массовый объём реплик и разметки
DeepSeek V4 Pro	30	60	Поток сценариев и адаптаций за копейки

Несколько уточнений к таблице:

Сервисная комиссия 5% берётся отдельно — только при пополнении баланса, не от токенов. На саму генерацию текста наценки нет.
DeepSeek 30/60 ₽ — это промо-цена со скидкой −75%, действующая до 2026-05-31; после окончания базовая ставка вырастет примерно вчетверо (ориентировочно до 120/240 ₽, производная оценка от каталожных USD). Подробности — в разборе DeepSeek V4 Pro API за рубли.
Для длинных текстов под озвучку (адаптация книги, лонгрида) выгоден длинный контекст и дешёвый вход — здесь хорошо ложится Gemini 3.1 Pro с контекстом около 1M токенов.
Все цифры — из каталога на дату публикации; актуальные значения всегда на странице тарифов.

Грубый расчёт для интуиции: сценарий 30-секундного ролика — это примерно 100 токенов брифа на вход и около 200 токенов текста на выход. На Sonnet 4.6 это доли рубля за ролик, на DeepSeek — сотые доли копейки. Адаптация под озвучку и SSML-разметка целой главы аудиокниги (скажем, 5000 слов ≈ 8000 токенов на вход и столько же на выход) на Gemini 3.1 Pro — это единицы рублей. То есть текстовая часть пайплайна озвучки практически бесплатна — основной бюджет уходит в TTS-сервис на сам синтез голоса, который обычно тарифицируется за символы или минуты звучания.

Сценарии: где это окупается

Видео и YouTube

Закадровая озвучка обучающих роликов, обзоров, новостных нарезок. Связка работает так: LLM по теме пишет дикторский сценарий под нужный хронометраж и адаптирует его под устную речь → TTS-сервис озвучивает голосом диктора → LLM же режет текст на субтитры с тайм-кодами. Поскольку текстовая часть стоит копейки, можно быстро перебирать варианты сценария и сразу готовить субтитры. Это родственно генерации видео по API: и сценарий, и озвучка, и субтитры готовятся вокруг медиа-сервиса через один и тот же текстовый API.

Подкасты и аудиокниги

Перевод текста в аудиоформат: статьи в подкаст, книги в аудиокниги, рассылки в голосовой дайджест. Здесь критична адаптация под устную речь и расстановка пауз на длинных текстах — ровно то, в чём сильны LLM с длинным контекстом. LLM проходит по тексту главами, переписывает книжные конструкции под произнесение и проставляет SSML, а TTS превращает результат в начитку. Если исходник на иностранном языке, его можно сначала перевести нейросетью на том же API, а затем озвучить.

IVR и голосовые меню

Голосовые приветствия, меню колл-центра, автоответчики. Тексты короткие, но их много и они часто меняются (акции, режим работы, новые пункты меню). LLM генерирует реплики по шаблону и сразу оборачивает их в SSML с правильными паузами, чтобы меню звучало внятно, а TTS озвучивает их единым голосом. Удобно, когда меню большое и его надо держать актуальным.

Обучение и e-learning

Озвучка курсов, лекций, инструкций. LLM переписывает учебные материалы (часто сухие и перегруженные терминами) в дикторский текст: раскрывает аббревиатуры, разбивает сложные предложения, добавляет связки. Затем TTS озвучивает, а LLM готовит текстовую версию и субтитры для доступности. На потоке модулей текстовая подготовка масштабируется пакетно и почти ничего не стоит.

Оплата на юрлицо в рублях

Если подготовка текстов и сценариев под озвучку нужна команде или компании, важен не только сам API, но и то, как за него платить. Прямая оплата OpenAI, Anthropic или Google из России для юрлица упирается в две проблемы: эти сервисы не работают с российскими картами и реквизитами, а платёж за рубеж без правильно оформленных документов сложно принять к учёту.

Через Promptra текстовая генерация оплачивается на российское юрлицо — оплата в рублях по договору, полный пакет закрывающих документов. На каждое пополнение баланса выдаются договор-оферта, счёт, акт, счёт-фактура и УПД; документооборот ведётся через ЭДО (Диадок, СБИС), поэтому документы автоматически попадают в учётную систему. Расходы на генерацию текста через API корректно учитываются как услуги. Цены на токены — 1-в-1 с провайдером по курсу ЦБ, сервисная комиссия 5% удерживается только при пополнении баланса. VPN при этом не нужен: запросы уходят на endpoint агрегатора, а он сам связывается с провайдером. Подробно про документы и легальность — в посте легально ли использовать AI API на юрлицо.

Ещё раз про границу: оплата на стороне Promptra покрывает только текстовую часть (сценарии, адаптация, SSML, тайм-коды). За доступ к самим TTS-сервисам (ElevenLabs, Yandex SpeechKit и т.д.) вы платите им напрямую по их условиям — это отдельная история, не входящая в наш каталог. Российские сервисы вроде SpeechKit принимают рублёвую оплату от юрлица напрямую; зарубежные (ElevenLabs, OpenAI Audio) — по своим правилам.

FAQ

Озвучивает ли Promptra текст голосом?

Нет. Promptra — это агрегатор доступа к текстовым LLM (а также к моделям картинок и видео), и модели синтеза речи в каталоге нет. Сам голос синтезируют специализированные TTS-сервисы — ElevenLabs, Google Cloud Text-to-Speech, Yandex SpeechKit, Microsoft Azure, OpenAI Audio. Через Promptra по API удобно готовить текстовую часть пайплайна озвучки: писать сценарии и дикторские тексты, адаптировать их под устную речь, проставлять SSML-разметку и тайм-коды. Готовый текст вы отдаёте в TTS-сервис, и он озвучивает его голосом.

Какая нейросеть лучше всего озвучивает текст?

Среди сервисов синтеза речи самый известный по реалистичности и эмоциям — ElevenLabs; для русского голоса сильны Yandex SpeechKit и Google Cloud TTS, для корпоративных задач — Microsoft Azure AI Speech. Условия и качество меняются, актуальное смотрите на их официальных сайтах. А вот текст под озвучку (сценарий, адаптацию, разметку) лучше всего готовят текстовые модели — Claude Opus 4.7 и GPT-5.5 дают самый естественный дикторский текст на русском, и их можно подключить по API в рублях.

Можно ли через API получить готовый аудиофайл с озвучкой?

Нет — модели в каталоге Promptra возвращают текст, а не звук. Аудиофайл с голосом вы получаете в TTS-сервисе (ElevenLabs, SpeechKit и др.), куда передаёте подготовленный текст. Promptra закрывает шаги до синтеза: через OpenAI-совместимый endpoint https://api.promptra.ru/v1 любая текстовая модель напишет сценарий, перепишет исходник под устную речь и проставит SSML-разметку с паузами. Дальше этот текст или SSML вы отправляете в сервис озвучки.

Что такое SSML и зачем он нужен для синтеза речи?

SSML (Speech Synthesis Markup Language) — это разметка, которой управляют синтезом речи: паузы, темп, акценты, иногда произношение и ударения в сложных словах. Сервисы Google TTS, Yandex SpeechKit и Azure принимают SSML на вход и читают текст с учётом этой разметки — так озвучка звучит естественнее, чем при чтении «как есть». Размечать длинный текст вручную утомительно, поэтому разметку удобно поручить LLM: модель проставит паузы <break> между блоками и выделит ключевые слова. Пример кода приведён выше.

Сколько стоит подготовить текст под озвучку через API?

Очень дёшево: сценарий короткого ролика — это около 100 токенов входа и ~200 токенов выхода, то есть доли рубля на Claude Sonnet 4.6 и сотые доли копейки на DeepSeek. Адаптация и SSML-разметка целой главы аудиокниги — единицы рублей даже на флагмане. Выходные токены по каталогу: DeepSeek — 60 ₽ за 1М, Qwen — 130 ₽, GLM 5.1 — 310 ₽, Gemini 3.5 Flash — 640 ₽, Gemini 3.1 Pro — 860 ₽, Sonnet/GPT-5.4 — 1070 ₽, Opus — 1790 ₽, GPT-5.5 — 2150 ₽. За сам синтез голоса платит TTS-сервис по своим тарифам (обычно за символы или минуты звучания) — это не входит в Promptra.

Можно ли оплатить подготовку текстов для озвучки от юрлица с документами?

Да. Оплата идёт на юр.лицо российское юр.лицо, полный пакет закрывающих документов через ЭДО. На каждое пополнение баланса выдаются договор-оферта, счёт, акт, счёт-фактура и УПД (Диадок или СБИС). Расходы на текстовую генерацию через API корректно принимаются к учёту как услуги. Цены на токены — 1-в-1 с провайдером по курсу ЦБ, сервисная комиссия 5% берётся только при пополнении баланса, VPN не требуется. Доступ к самим TTS-сервисам оплачивается им напрямую: российский SpeechKit принимает рублёвую оплату от юрлица, зарубежные — по своим правилам.

Если нужно собрать пайплайн «сценарий и SSML через API → сервис озвучки» или посчитать стоимость текстовой подготовки под ваш объём (видео, подкасты, IVR, обучение) — напишите команде Promptra напрямую в Telegram: promptra.ru. Не маркетингу и не боту, а живому человеку — подбор модели и расчёт бюджета обычно решается за один разговор. Какую текстовую модель выбрать в принципе — см. обзор топ-5 LLM 2026. А если перед озвучкой нужно расшифровать существующую запись в текст — это разбирает гайд про нейросеть для транскрибации.

{/* pillar-backlink:auto */} > 📚 Главный гайд по теме: Нейросеть для бизнеса: 18 задач и какие модели брать — связанные материалы и обзор всей категории.