Модели28 мая 2026 г.16 мин чтения

Gemini 3.1 Pro API в России: 1M контекст, цена, подключение

Gemini 3 Pro API из России: цена в рублях по курсу ЦБ, контекст 1M токенов, аудио на входе, подключение в две строки через OpenAI-совместимый base_url.

Схема одного запроса в Gemini 3.1 Pro: широкая входная воронка из трёх потоков — звуковая волна, прямоугольник изображения и блок текста — сходятся в крупный центральный узел-маршрутизатор, из которого выходит единственная тонкая линия ответа, всё в терракотово-кремовой палитре, редакторская векторная инфографика без подписей и цифр

Подключить Gemini 3.1 Pro из России можно через API-агрегатор с рублёвой оплатой и OpenAI-совместимым endpoint — без VPN, без зарубежной карты, без аккаунта в Google AI Studio. В каталоге Promptra флагман Google называется Gemini 3.1 Pro Preview и стоит $2 за 1M входных токенов и $12 за 1M выходных — по курсу ЦБ на 2026-05-27 (71.668 ₽/$) это 140 ₽ и 860 ₽ соответственно, один-в-один с прайсом Google, без наценки на токены. Окно контекста — 1 048 576 токенов (округлённо 1M), максимальный ответ — 65 536 токенов, на вход модель принимает текст, изображения и аудио. Меняется только base_url — код на openai SDK переписывать не нужно.

Это пост про то, как именно подключить Gemini 3 Pro API из России в мае 2026: сколько он стоит в рублях относительно конкурирующих флагманов, зачем нужен контекст в миллион токенов и мультимодальный вход с аудио, какой код достаточно поменять в две строки, и в каких сценариях имеет смысл взять более дешёвые Gemini 3.5 Flash или 3.1 Flash Lite вместо Pro. Все цифры — из нашего каталога и с официального прайса Google Gemini API. По состоянию на 2026-05-28.

Почему Gemini-доступ в РФ — отдельная боль

OpenAI и Anthropic в русскоязычных обзорах разобраны вдоль и поперёк: про обход блокировок ChatGPT написаны десятки статей, агрегаторы наперебой продают GPT и Claude. А вот Google Gemini у российских посредников системно недопредставлен. Причин несколько, и они технические, а не маркетинговые.

Во-первых, у Google другой формат API. Нативный Gemini API — это не OpenAI Chat Completions, а собственная схема с полями contents, parts, generationConfig. Агрегатору, чтобы пробросить Gemini в привычный для разработчиков OpenAI-совместимый интерфейс, нужно написать слой трансляции запросов и ответов в обе стороны. Не все хотят этим заниматься, когда GPT и Claude изначально ближе к их роутеру.

Во-вторых, мультимодальность Gemini сложнее в проксировании. Передача аудио и изображений на вход — это не просто текстовый JSON: нужно корректно обрабатывать загрузку файлов, base64-инлайны, лимиты на размер. Текстовый прокси написать проще, чем мультимодальный.

В-третьих, Google активнее меняет линейку. За короткий срок вышли Gemini 2.5 Pro, затем 3.1 Pro Preview, 3.5 Flash, 3.1 Flash Lite — превью-версии переименовываются, прайс пересматривается. Агрегатору приходится постоянно догонять каталог.

Итог для разработчика в России: формально Gemini «есть у всех», но найти Pro-версию с честной ценой, рабочим аудио-входом и полным окном контекста — задача нетривиальная. Прямой путь через Google AI Studio закрыт: Россия не входит в список регионов, где доступен Gemini API, регистрация с российского IP и номера не проходит, оплата российской картой невозможна. Поэтому предсказуемый канал для команды — агрегатор-посредник с юр.лицом в РФ.

Карта недопредставленности Google среди трёх провайдеров: три вертикальные колонки разной плотности заполнения — две густо забиты повторяющимися квадратиками-сервисами, третья почти пустая с единичными элементами и подсвечена терракотой как пробел на рынке, минималистичная редакторская инфографика без текста и чисел

Что такое Gemini 3.1 Pro и для чего он

Gemini 3.1 Pro Preview — это флагманская reasoning-модель Google текущего поколения. В нашем каталоге она помечена как флагман и описана так: «Pro-версия Gemini 3.1. Сильный reasoning, мультимодал с аудио». Три характеристики делают её отдельным инструментом, а не просто «ещё одной большой LLM».

Окно контекста 1M токенов. Модель держит в одном запросе до 1 048 576 входных токенов. В практическом измерении это примерно 700–800 тысяч слов русского текста, или несколько крупных PDF целиком, или большая кодовая база, или многочасовая стенограмма. Контекст такого размера снимает целый класс архитектурных костылей: для многих задач вам не нужен векторный поиск и RAG-пайплайн — можно просто положить весь корпус в промпт и спросить.

Мультимодальный вход, включая аудио. В отличие от большинства флагманов, у которых на вход идут только текст и изображения, Gemini 3.1 Pro принимает ещё и звук. В полях каталога перечислены audio, image, text. Это значит, что одним запросом можно отправить аудиозапись звонка, картинку и текстовую инструкцию — и получить связный ответ, который учитывает всё сразу. Для задач транскрипции, анализа созвонов, обработки голосовых заметок это убирает отдельный STT-шаг.

Выход до 65 536 токенов. Максимальная длина ответа — 65K токенов. Этого хватает на развёрнутый технический документ, большой кусок сгенерированного кода или подробный разбор за один проход.

Где Gemini 3.1 Pro действительно силён по сравнению с альтернативами — это задачи, где одновременно нужны и большой контекст, и низкая цена за токен, и мультимодальность. Если вы платите за вход миллион токенов на каждый запрос, разница между 140 ₽ и 350 ₽ за этот миллион (как у флагманов OpenAI и Anthropic) превращается в принципиально разный счёт в конце месяца.

Что важно знать про статус Preview

Слово «Preview» в названии — это формулировка Google, а не дефект. Превью-версии Gemini полностью работоспособны для продакшена, но Google оставляет за собой право менять поведение и в какой-то момент выпустить «стабильный» алиас под другим идентификатором. Практический вывод: фиксируйте идентификатор модели в конфиге (а не хардкодьте в десяти местах), чтобы при смене алиаса поменять одну строку. Это общая гигиена для любых preview-моделей, не только Google.

Цена Gemini 3 Pro в рублях

Главная причина смотреть в сторону Gemini среди флагманов — цена за токен. Google держит Pro-версию заметно дешевле, чем OpenAI и Anthropic держат свои топовые модели. Считаем в рублях по официальному курсу ЦБ РФ на 2026-05-27: 1 USD = 71.668 ₽. Цены 1-в-1 с прайсом провайдера, без наценки на токены.

Модель	Вход $/1M	Выход $/1M	Вход ₽/1M	Выход ₽/1M	Контекст
Gemini 3.1 Pro Preview	$2.00	$12.00	140 ₽	860 ₽	1M
Gemini 3.5 Flash	$1.50	$9.00	100 ₽	640 ₽	1M
Gemini 3.1 Flash Lite Preview	$0.25	$1.50	10 ₽	100 ₽	1M

Цифры по всем трём моделям — из нашего каталога, источник цены — официальная страница Google Gemini API pricing. Рублёвые значения округлены до 10 ₽ вниз (правило каталога). В линейке Google также есть стабильный Gemini 2.5 Pro с тем же окном 1M — его берут, когда нужна не превью-, а зафиксированная версия.

Тарификация зависит от длины контекста

Важный нюанс, который легко пропустить: у Gemini 3.1 Pro цена за токен зависит от длины контекста запроса. В каталоге это зафиксировано пометкой «тарифицируется по длине окна контекста». Логика, которую Google применяет к линейке Gemini Pro: короткие запросы идут по базовой ставке, а очень длинные (когда вы реально утилизируете большое окно) могут считаться по повышенному тарифу. Базовая ставка, которую мы публикуем — $2/$12, действует на основном диапазоне длин.

Что из этого следует практически:

Для большинства рабочих запросов (промпты в десятки–сотни тысяч токенов) вы платите по базовой ставке.
Если вы систематически набиваете окно под завязку — близко к миллиону токенов на каждый запрос — проверьте на актуальной странице прайса Google, какой тариф применяется к вашему диапазону, и заложите запас в смету.
Точные пороги тарифных ступеней Google публикует на своей странице и периодически пересматривает — мы не выдумываем эти числа, а отсылаем к первоисточнику.

Принцип тарификации по длине контекста: горизонтальная полоса-шкала ширины запроса разбита на сегменты возрастающей высоты слева направо, как ступенчатый график, переход между двумя ставками отмечен сменой плотности заливки на терракоту, редакторская векторная диаграмма без подписей и цифр

Как считается реальный счёт

Возьмём типичный сценарий: ассистент, который на каждый запрос читает большой документ (200K токенов на вход) и пишет развёрнутый ответ (3K токенов на выход). Миллион таких запросов в месяц.

Вход: 200 000 × 1 000 000 × 140 ₽ / 1 000 000 = 28 000 000 ₽ на токенах входа
Выход: 3 000 × 1 000 000 × 860 ₽ / 1 000 000 = 2 580 000 ₽ на токенах выхода
Итого по токенам: ≈ 30 580 000 ₽

Те же миллион запросов на флагмане OpenAI (GPT-5.5, 350 ₽ вход / 2150 ₽ выход) обошлись бы в 200 000 × 350 = 70 000 000 ₽ входа плюс 3 000 × 2150 = 6 450 000 ₽ выхода ≈ 76 450 000 ₽ — почти в 2.5 раза дороже на том же объёме. Именно дешёвый вход делает Gemini Pro рациональным выбором для нагрузок, где на каждый запрос приходится много контекста.

Сверх токенов у нас единственное добавление — сервисная комиссия 5%, и она берётся только при пополнении баланса, не от токенов. То есть на стоимость самих запросов комиссия не накручивается: вы доплачиваете 5% один раз, когда заносите деньги, за работу сервиса (эквайринг, биллинг, поддержку, документы).

Как подключить Gemini 3.1 Pro через OpenAI-совместимый API

Самый практичный способ работать с Gemini из России — не нативный Google SDK, а OpenAI-совместимый endpoint. Promptra принимает запросы в формате OpenAI Chat Completions и сам транслирует их в Gemini. Это значит, что весь существующий код на openai SDK работает без переписывания — меняется только base_url и идентификатор модели.

Python:

from openai import OpenAI

client = OpenAI(
    api_key="prm-xxxxxxxxxxxx",
    base_url="https://api.promptra.ru/v1",
)

response = client.chat.completions.create(
    model="google/gemini-3.1-pro-preview",
    messages=[
        {"role": "user", "content": "Сравни два подхода к кэшированию и выбери лучший для high-RPS API"},
    ],
)
print(response.choices[0].message.content)

Node.js:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.PROMPTRA_API_KEY,
  baseURL: "https://api.promptra.ru/v1",
});

const response = await client.chat.completions.create({
  model: "google/gemini-3.1-pro-preview",
  messages: [
    { role: "user", content: "Разбери архитектуру и предложи рефакторинг" },
  ],
});

console.log(response.choices[0].message.content);

Если вы раньше ходили в Google напрямую через google-generativeai, миграция выглядит так: убираете зависимость от нативного SDK, ставите openai, меняете формат вызова на Chat Completions. Поля contents/parts Google заменяются привычным массивом messages. Один раз переписали — дальше любая модель из каталога (GPT, Claude, DeepSeek, другие Gemini) доступна через тот же клиент сменой строки model.

Хранить base_url в окружении

Хорошая практика для продакшена — держать base_url в переменной окружения, а не в коде. Тогда при необходимости (тест другого провайдера, fallback) вы меняете одну переменную без передеплоя:

import os
from openai import OpenAI

# .env: OPENAI_BASE_URL=https://api.promptra.ru/v1
client = OpenAI(
    api_key=os.environ["OPENAI_API_KEY"],
    base_url=os.environ["OPENAI_BASE_URL"],
)

Передача изображения и аудио на вход

Поскольку Gemini 3.1 Pro принимает мультимодальный вход, картинку можно передать прямо в сообщении через стандартный OpenAI-совместимый формат image_url (включая data-URL с base64):

response = client.chat.completions.create(
    model="google/gemini-3.1-pro-preview",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Что не так на этой схеме архитектуры?"},
                {"type": "image_url", "image_url": {"url": "data:image/png;base64,iVBORw0KG..."}},
            ],
        },
    ],
)

Для аудио-входа формат передачи зависит от того, как именно прокинут мультимодальный канал — это лучше уточнить под конкретную задачу (длина записи, формат файла, инлайн или загрузка). Если у вас сценарий с обработкой звонков или голосовых — напишите команде, подскажем рабочий способ передачи аудио в Gemini 3.1 Pro через наш endpoint.

Схема drop-in замены: слева блок старого клиента с толстой стрелкой, упирающейся в перечёркнутую стену-блокировку, справа тот же блок, но одна короткая линия с подсвеченным терракотой узлом-перенаправлением огибает стену и доходит до цели, концепция «меняем одну точку маршрута», редакторская инфографика без текста

Когда брать Pro, а когда Flash или Flash Lite

Gemini 3.1 Pro — не всегда правильный выбор. Google держит линейку из трёх уровней, и для значительной части задач более дешёвые модели дают такой же результат за меньшие деньги. Разберём по сценариям.

Модель	Вход ₽/1M	Выход ₽/1M	Когда брать
Gemini 3.1 Pro Preview	140 ₽	860 ₽	Сложный reasoning, аудио на входе, ответственные задачи
Gemini 3.5 Flash	100 ₽	640 ₽	Высокий RPS, чат-нагрузка, баланс цены и качества
Gemini 3.1 Flash Lite Preview	10 ₽	100 ₽	Массовая дешёвая обработка, классификация, простые ответы

Берите Gemini 3.1 Pro, когда задача требует глубокого reasoning (анализ кода, многошаговая логика, ответственные решения), когда нужен мультимодальный вход с аудио, или когда цена ошибки выше, чем разница в стоимости токенов. Pro — это «думающая» модель для случаев, где качество важнее минимальной цены.

Берите Gemini 3.5 Flash, когда у вас высокий поток запросов и нужен баланс. По цене это 100/640 ₽ против 140/860 ₽ у Pro — заметно дешевле и при этом полноценный мультимодальный Gemini с тем же окном контекста 1M и выходом до 65K. Для чат-ботов, customer support, потоковой суммаризации Flash обычно достаточно. Это рабочая лошадка линейки.

Берите Gemini 3.1 Flash Lite, когда объём огромный, а каждый отдельный запрос простой: классификация тикетов, разметка, извлечение полей, короткие ответы по шаблону. При 10/100 ₽ за миллион это самый дешёвый Gemini — на массовых однотипных задачах разница с Pro по счёту достигает порядка величины. Брать Pro на классификацию писем — это переплата в десятки раз без выигрыша в качестве на такой задаче.

Простое правило: начните с самой дешёвой модели, которая справляется с задачей на ваших данных, и поднимайтесь по уровням только если качество не устраивает. Дефолт «берём флагман на всё» — это технический долг, который тихо копится в счёте. Подробный разбор того, какая модель под какой сценарий окупается, мы собрали в обзоре топ-5 LLM 2026 года.

Gemini 3.1 Pro против Claude Opus 4.7 и GPT-5.5 для длинного контекста

Отдельный вопрос — выбор внутри лиги флагманов с большим окном контекста. Все три топовые модели держат около миллиона токенов, но различаются ценой за этот объём и нюансами. Считаем в рублях по курсу ЦБ (71.668 ₽/$).

Модель	Вход ₽/1M	Выход ₽/1M	Контекст	Макс. выход	Нюанс
Gemini 3.1 Pro Preview	140 ₽	860 ₽	1M	65 536	аудио на входе; тариф зависит от длины контекста
Claude Opus 4.7	350 ₽	1790 ₽	1M	128 000	новый токенайзер: до +35% токенов на тот же текст
GPT-5.5	350 ₽	2150 ₽	1.05M	128 000	вход более 272K токенов считается по 2× / выход 1.5×

Цены — из каталога, источники: Google, Anthropic, OpenAI. Что отсюда читается для long-context-сценариев:

Gemini 3.1 Pro — самый дешёвый вход в этой лиге. 140 ₽ за миллион входных токенов против 350 ₽ у обоих конкурентов. Когда вы кладёте в контекст большие документы на каждый запрос (а именно в этом смысл миллионного окна), вход доминирует в счёте — и здесь Gemini выигрывает в 2.5 раза. Плюс единственный из трёх принимает аудио на вход.

У Claude Opus 4.7 — ловушка токенайзера. Anthropic в этой версии сменил токенайзер, и по документации он может расходовать до 35% больше токенов на тот же текст. То есть к номинальной цене 350/1790 ₽ нужно мысленно прибавлять надбавку за «распухание» текста в токенах — реальный счёт на одинаковом корпусе будет выше, чем кажется по прайсу. Opus 4.7 при этом считается сильнейшим для сложного кода и агентов — но за это вы платите и ценой, и токенайзером.

У GPT-5.5 — порог удвоения цены на длинном входе. Официальная пометка OpenAI: когда вход в сессии превышает 272K токенов, входные токены тарифицируются по 2×, а выходные по 1.5× — на всю сессию. Это бьёт ровно по тому сценарию, ради которого берут миллионное окно. Если вы планируете реально заполнять контекст за 272K, эффективная цена GPT-5.5 уходит сильно выше базовых 350/2150 ₽.

Вывод для long-context: если задача — «много контекста на каждый запрос за разумные деньги», Gemini 3.1 Pro обычно рациональнее обоих конкурентов по совокупности цены и поведения на длинных запросах. Если же ключевое — максимальное качество reasoning на сложном коде и агентах любой ценой, в эту нишу чаще берут Claude Opus 4.7. Развёрнутое сравнение трёх флагманов по бенчмаркам и сценариям — в материале Claude vs GPT vs Gemini 2026.

Сравнение трёх флагманов по стоимости длинного контекста: три вертикальных столбца разной высоты, самый низкий подсвечен терракотой, у двух более высоких сверху надстроены полупрозрачные надбавочные сегменты как символ скрытых доплат, чистая редакторская столбчатая диаграмма без подписей и чисел

Лимиты, контекст и что важно учесть

Несколько технических моментов для продакшена:

Окно 1 048 576 токенов — это вход. Не путайте с максимальным выходом: ответ ограничен 65 536 токенами. Нужен очень длинный результат — собирайте из нескольких проходов.
Один длинный контекст не всегда лучше. Чем больше кладёте в окно, тем дороже запрос (и тем выше шанс попасть в повышенную тарифную ступень). Если из стотысячного документа реально нужны три абзаца — дешевле и точнее сначала сузить контекст.
Тариф зависит от длины контекста — закладывайте запас в смету, если систематически работаете близко к миллиону токенов на запрос. Базовая ставка $2/$12 действует на основном диапазоне; точные ступени — на странице Google.

И отдельно — про юридическую сторону, потому что бухгалтер не пропустит расход без документов. Оплата Gemini API через Promptra идёт на юр.лицо ООО «ТРАФИК АГРЕГАТОР» (ИНН 9707022118) рублёвой платёжкой с расчётного счёта. На услуги выдаётся полный пакет закрывающих документов — договор-оферта, счёт, акт, счёт-фактура, УПД — через ЭДО (Диадок, СБИС, Контур). Валютный контроль не нужен: это рублёвый договор с резидентом РФ. Что именно и как принимается к учёту при работе с зарубежными LLM через российское юр.лицо — разбираем в материале легально ли использовать AI API на юр.лицо.

FAQ

Сколько стоит Gemini 3 Pro API в рублях?

Gemini 3.1 Pro Preview в каталоге Promptra стоит 140 ₽ за 1M входных токенов и 860 ₽ за 1M выходных — это $2 и $12 по курсу ЦБ на 2026-05-27 (71.668 ₽/$), один-в-один с официальным прайсом Google, без наценки на токены. Сервисная комиссия 5% берётся отдельно только при пополнении баланса, не от токенов. Учтите, что тариф зависит от длины контекста: на очень длинных запросах ставка может быть выше базовой.

Как подключить Gemini API из России без VPN?

Через API-агрегатор с OpenAI-совместимым endpoint. Вы регистрируетесь на стороне посредника, получаете ключ, меняете в своём коде base_url на https://api.promptra.ru/v1 и указываете модель google/gemini-3.1-pro-preview. VPN, зарубежная карта и аккаунт в Google AI Studio не нужны — запрос уходит на российский endpoint, а трансляция в Gemini происходит на стороне сервиса. Существующий код на openai SDK переписывать не надо.

Чем Gemini 3.1 Pro отличается от 3.5 Flash и 3.1 Flash Lite?

Pro — самая «думающая» модель линейки для сложного reasoning и единственная с аудио на входе, цена 140/860 ₽ за миллион. Flash дешевле (100/640 ₽), это полноценный мультимодальный Gemini с тем же окном 1M — рабочая лошадка для высокого RPS и чат-нагрузки. Flash Lite самый дешёвый (10/100 ₽), его берут на массовую простую обработку: классификацию, разметку, извлечение полей. Правило — начинать с самой дешёвой модели, которая справляется, и подниматься выше только при нехватке качества.

Какой контекст у Gemini 3.1 Pro?

Окно контекста — 1 048 576 входных токенов (округлённо 1M), это примерно 700–800 тысяч слов русского текста. Максимальная длина ответа — 65 536 токенов. На вход модель принимает текст, изображения и аудио.

Gemini 3.1 Pro или Claude Opus 4.7 для длинного контекста?

Если важна цена при большом контексте на каждый запрос — обычно выгоднее Gemini 3.1 Pro: 140 ₽ за миллион входных токенов против 350 ₽ у Opus 4.7, плюс у Opus новый токенайзер, который может расходовать до +35% токенов на тот же текст. Если ключевое — максимальное качество reasoning на сложном коде и агентах, в эту нишу чаще берут Claude Opus 4.7. Подробное сравнение — в материале о трёх флагманах.

Можно ли получить закрывающие документы при оплате Gemini API?

Да. Оплата идёт на юр.лицо ООО «ТРАФИК АГРЕГАТОР» (ИНН 9707022118) рублёвой платёжкой с расчётного счёта. На услуги выдаётся полный пакет закрывающих документов — договор-оферта, счёт, акт, счёт-фактура, УПД — через ЭДО (Диадок, СБИС, Контур). Валютный контроль не требуется, так как это рублёвый договор с резидентом РФ.

Что делать дальше

Если вам нужен предсказуемый доступ к Gemini 3.1 Pro из России — с рублёвой оплатой по курсу ЦБ, окном контекста в миллион токенов, аудио на входе и закрывающими документами — подключение занимает столько же, сколько смена двух строк в коде: api_key и base_url. Дальше любая модель Google (Pro, Flash, Flash Lite) доступна через тот же OpenAI-совместимый клиент.

Если стек сложнее — мультимодальный пайплайн с аудио, выбор между Pro и Flash под вашу нагрузку, расчёт экономики на длинном контексте — напишите CEO Promptra напрямую в Telegram: @nesterov_av. Поможем подобрать модель и посчитать стоимость под конкретную задачу.

Promptra

Готовы попробовать Promptra?

Один API-ключ ко всем флагманским LLM. Оплата на юр.лицо, цены в рублях по курсу ЦБ. Тестовые токены бесплатно.

Promptra

Готовы попробовать Promptra?

Один API-ключ ко всем флагманским LLM. Оплата на юр.лицо, цены в рублях по курсу ЦБ. Тестовые токены бесплатно.