LLM (large language model, «большая языковая модель») — это нейросеть, обученная на гигантском объёме текста и умеющая работать со словами: отвечать на вопросы, писать и редактировать, переводить, суммировать, объяснять и писать код. «Большая» — потому что в ней десятки и сотни миллиардов настраиваемых параметров, а обучали её на триллионах единиц текста. Работает она по одному простому принципу: предсказывает следующий «кусочек слова» (токен) по всему, что было сказано раньше, и так слово за словом собирает ответ. На LLM построены ChatGPT (модели GPT от OpenAI), Claude от Anthropic, Gemini от Google и DeepSeek. Бизнес использует их не через веб-чат, а через API — программный интерфейс, который встраивает модель прямо в продукт.
Запрос «что такое LLM» вводят всё чаще: аббревиатура мелькает в новостях, вакансиях и презентациях, а внятного объяснения без формул и хайпа найти трудно. Эта статья — спокойный разбор на состояние 2026-05-29. Что такое большая языковая модель и откуда взялось название, как она «понимает» текст и генерирует ответ (токены, контекст, обучение против применения — без матана), что LLM реально умеет и где предсказуемо ошибается, какие конкретные модели стоят за громкими именами, чем LLM отличается от чат-бота и от «искусственного интеллекта» вообще, и как подключить модель в свой код через API за рубли. Без «раскрытия потенциала» — только по делу.
LLM — это частный, но самый заметный сегодня вид нейросетей. Если нужно общее введение в нейросети как технологию (что такое нейрон, веса, чем они отличаются от обычной программы) — оно в отдельном материале что такое нейросеть простыми словами. Здесь же мы фокусируемся именно на языковых моделях: что в них особенного и почему вокруг них в 2026 году крутится столько денег и инженерных решений.
Что такое LLM простыми словами
Большая языковая модель — это программа, которая научилась предсказывать текст. Звучит скромно, но за этим стоит мощный эффект. Представьте человека, который прочитал почти весь интернет, миллионы книг, всю техническую документацию и огромные массивы кода — и научился безошибочно угадывать, какое слово логично идёт следующим в любой фразе. Чтобы угадывать хорошо, ему пришлось поневоле «усвоить» грамматику, факты, стиль, логику рассуждений и то, как устроены инструкции. Примерно это и есть LLM: предсказатель следующего слова, который ради точности предсказания впитал знания о мире. Подробнее — детальный head-to-head флагманов с бенчмарками.
Аббревиатура расшифровывается как Large Language Model — «большая языковая модель». Разберём по словам. *Language model* (языковая модель) — это класс моделей, которые оценивают вероятность последовательностей слов; они существуют десятилетиями, например в подсказках на клавиатуре телефона. *Large* (большая) — ключевое слово 2020-х: современные модели на порядки крупнее прежних. Размер измеряют в параметрах — это настраиваемые внутренние числа (по сути «ручки громкости»), в которых хранится всё, что модель знает. У флагманов их сотни миллиардов. Именно скачок масштаба превратил скромные языковые модели прошлого в системы, которые пишут связные тексты и работающий код.
Полезная аналогия — автодополнение, доведённое до предела. Когда телефон предлагает закончить слово, он использует крошечную языковую модель. LLM — это то же самое автодополнение, но настолько большое и обученное на таком объёме текста, что оно может «дописать» не слово, а целую статью, ответ на вопрос, перевод или программу. Разница не в принципе, а в масштабе — и масштаб здесь меняет качество скачкообразно.
Ещё одно слово, которое стоит сразу прояснить — обучение. LLM никто не программирует пошагово, как обычное приложение. Её *тренируют*: показывают огромный корпус текста и заставляют снова и снова предсказывать пропущенные или следующие фрагменты, постепенно подстраивая параметры так, чтобы предсказания становились точнее. Знания модель извлекает из данных сама — разработчик задаёт лишь архитектуру и процедуру обучения. Поэтому LLM хороша там, где правило сформулировать словами трудно: что делает текст «вежливым», как переформулировать абзац проще, что отличает грамотный код от ошибочного.
Как работает LLM: токены, контекст, предсказание
Чтобы понимать новости про LLM и осмысленно считать стоимость API, достаточно разобраться в трёх понятиях: токены, контекст и предсказание следующего токена. Никакой математики — только интуиция.
Токены — «кусочки слов»
Модель не видит буквы и не видит целые слова в привычном смысле. Перед обработкой текст режется на токены — это короткие фрагменты: целое частое слово, часть длинного слова, знак препинания, пробел. В среднем для русского текста один токен — это примерно 2–3 символа, для английского — около 4. Грубая прикидка: 1000 токенов — это примерно 700–750 слов обычного текста (для английского больше, для русского меньше, потому что кириллица «дороже» в токенах).
Зачем это знать обычному человеку? Затем, что токены — это единица, за которую берут деньги. API-провайдеры тарифицируют не символы и не запросы, а именно токены, причём отдельно входные (ваш запрос) и отдельно выходные (ответ модели), и выходные почти всегда дороже. Поэтому длинный ответ стоит больше короткого, а текст на русском «съедает» больше токенов, чем тот же смысл на английском. Когда в каталоге написано «350 / 2150 ₽ за 1М токенов», это значит: миллион входных токенов стоит 350 ₽, миллион выходных — 2150 ₽.
Контекст — «оперативная память» модели
Контекстное окно (context window) — это сколько токенов модель может удерживать «перед глазами» за один запрос: и ваш ввод, и историю диалога, и приложенные документы, и собственный формируемый ответ. Всё это должно поместиться в окно. У флагманов 2026 года окно — около миллиона токенов (примерно 700 тысяч слов): туда влезает толстая книга или кодовая база целиком.
Важно понять, что у модели нет постоянной памяти между запросами. Она не «помнит» вчерашний разговор сам по себе — иллюзию памяти в чате создаёт то, что интерфейс при каждом сообщении заново отправляет модели всю историю диалога. Как только история перестаёт помещаться в контекстное окно, самое старое начинает «забываться». Отсюда практическое следствие: чем длиннее диалог или документ, тем больше токенов уходит в каждый запрос — и тем дороже он обходится.
Предсказание следующего токена
Теперь главное — как именно рождается ответ. LLM не пишет предложение целиком и не «думает» наперёд в человеческом смысле. Она берёт весь контекст и предсказывает один следующий токен — самый вероятный по статистике обученной модели. Затем приписывает этот токен к тексту и предсказывает следующий, уже с учётом только что добавленного. И так, токен за токеном, пока ответ не закончится. Связный абзац — это результат тысяч таких микро-предсказаний подряд.
Из этого вытекает несколько неочевидных, но практически важных свойств. Во-первых, ответ генерируется постепенно — поэтому в чатах текст «печатается» слева направо, а не появляется целиком. Во-вторых, у модели есть «градус случайности» (его регулируют параметром температуры): при нуле она почти всегда выбирает самый вероятный токен и отвечает предсказуемо, при высоком значении — допускает менее вероятные варианты и звучит креативнее, но менее стабильно. В-третьих — и это критично — модель выбирает наиболее вероятное, а не гарантированно правильное. К последствиям этого вернёмся в разделе про ошибки.

Обучение против применения
Полезно различать две фазы жизни модели — они происходят в разное время и стоят несопоставимо по-разному.
Обучение (training) — самая дорогая и долгая фаза. Модель многократно прогоняют через гигантский корпус текста; на каждом фрагменте она предсказывает продолжение, предсказание сравнивают с реальным текстом, измеряют ошибку и чуть-чуть подкручивают параметры в сторону меньшей ошибки. Цикл повторяется триллионы раз. Обучение крупной LLM идёт неделями на тысячах специализированных видеокарт (GPU) и стоит миллионы долларов — поэтому большие модели тренируют единицы компаний, а пользуются ими все.
Применение (inference) — это то, что происходит, когда вы задаёте вопрос готовой модели. Параметры уже зафиксированы, модель ничего не доучивает «на лету» — она просто прогоняет ваш запрос через себя и выдаёт ответ. Это быстро и дёшево относительно обучения. Когда вы платите за API, вы платите именно за inference: за обработку ваших конкретных токенов, а не за то, что модель когда-то обучили. Из-за этого свойства важно ещё одно: «знания» модели зафиксированы на момент окончания обучения. О событиях после этой даты она знает только то, что вы сами передадите ей в контекст.
Что LLM умеет и где ошибается
LLM — это не магия и не оракул. У неё есть чёткий профиль сильных сторон и предсказуемых слабостей. Зная их, вы получаете от модели пользу и не наступаете на типовые грабли.
Что большие языковые модели делают хорошо:
- Работа с текстом: написать, переписать в нужном тоне, сократить, исправить, структурировать. Это их родная задача.
- Ответы на вопросы и объяснения: разъяснить тему, разобрать сложный текст, ответить по сути.
- Перевод и суммаризация: перевести между языками, ужать договор на сотню страниц до выжимки.
- Извлечение и классификация: вытащить поля из счёта или анкеты, разложить обращения по темам, определить тональность отзыва.
- Код: дописать функцию, найти ошибку, объяснить чужой проект, написать тесты. Это один из самых сильных и зрелых сценариев.
- Следование инструкциям и формату: выдать ответ строго по заданной структуре (список, таблица, JSON) — что и делает их пригодными для встраивания в продукты.
Где LLM предсказуемо ошибается:
- Галлюцинации. Главное, что нужно знать. Поскольку модель выдаёт статистически вероятный ответ, она может уверенно сформулировать факт, которого не существует: выдумать цитату, ссылку, цифру, статью закона. Это называют галлюцинацией, и звучит она так же убедительно, как верный ответ. Поэтому ответы по важным вопросам — юридическим, медицинским, финансовым — нужно перепроверять у первоисточника.
- Свежие события. Модель знает мир только до конца своего обучения; о том, что случилось позже, она не в курсе, если вы не передали данные в запрос.
- Точная арифметика и счёт. Модель «прикидывает» вероятное число, а не вычисляет его строго, и на многошаговых расчётах ошибается. Помогает просьба рассуждать пошагово или подключение калькулятора как инструмента.
- Отсутствие настоящего понимания. LLM оперирует статистикой языка, а не смыслом в человеческом смысле. Она может выглядеть рассуждающей, но это не гарантирует логической безошибочности.
- Зависимость от формулировки. Один и тот же вопрос, заданный по-разному, даёт ответы разного качества. Это отдельный навык — промпт-инжиниринг, разобранный в гайде промпт-инжиниринг: как писать промпты.
Вывод простой: LLM — сильный помощник для черновиков, обработки текста, кода и рутины, но не источник истины. Ответственные команды строят процессы так, чтобы человек проверял критичное, а модель снимала рутинную нагрузку.
Примеры LLM: GPT, Claude, Gemini, DeepSeek
За громкими названиями стоят конкретные семейства моделей от конкретных компаний. Вот основные игроки на май 2026 — кто их делает и в чём профиль каждого.
- GPT (OpenAI). Самая известная линейка — именно на моделях GPT работает ChatGPT. Флагман на май 2026 — GPT-5.5: сильный универсал с упором на сложные рассуждения и код, контекст около 1.05 млн токенов.
- Claude (Anthropic). Семейство Claude ценят за качество работы с кодом, длинными документами и аккуратность ответов. Старший — Claude Opus 4.7 (сложный код, агенты, долгие рассуждения), сбалансированный рабочий — Claude Sonnet 4.6.
- Gemini (Google). Линейка Gemini сильна мультимодальностью — принимает не только текст, но и изображения, и аудио. Gemini 3.1 Pro даёт контекст около 1 млн токенов и привлекательную цену.
- DeepSeek (DeepSeek). Открытая по весам модель из Китая, известная очень низкой ценой при сильных результатах в коде и математической логике. DeepSeek V4 Pro — характерный представитель «дешёвого эшелона».
Это не весь рынок: есть Qwen от Alibaba, GLM от Z.ai, Kimi от Moonshot, Mistral и другие. Но именно GPT, Claude, Gemini и DeepSeek чаще всего фигурируют в разговорах об LLM. Важная характеристика, по которой их сравнивают помимо качества — цена за токены, и она различается между моделями в десятки раз. Сравните стоимость 1 млн токенов вход/выход (цены каталога Promptra, 1-в-1 с провайдером по курсу ЦБ на 27.05.2026, 71.668 ₽/$):
| Модель (LLM) | Кто делает | Вход ₽ / 1М | Выход ₽ / 1М | Контекст |
|---|---|---|---|---|
| GPT-5.5 | OpenAI | 350 | 2150 | около 1.05М |
| Claude Opus 4.7 | Anthropic | 350 | 1790 | около 1М |
| Claude Sonnet 4.6 | Anthropic | 210 | 1070 | около 1М |
| Gemini 3.1 Pro | 140 | 860 | около 1М | |
| Deepseek V4 Pro | DeepSeek | 30 | 60 | около 1М |
Разрыв между выходом флагмана (GPT-5.5, 2150 ₽) и недорогой модели (Deepseek V4 Pro, 60 ₽) — больше чем в тридцать раз. У Deepseek V4 Pro в каталоге действует промо −75% до 31.05.2026 (30 / 60 ₽); базовый тариф после окончания промо — около 120 / 240 ₽ (производная ставка от USD ≈ $1.74/$3.48). Практический смысл: дорогой флагман берут под задачи, где цена ошибки высока, дешёвую модель — под массовый однотипный поток. Зрелые команды комбинируют обе. Какую модель под какую задачу — разобрано в обзоре топ-5 LLM 2026. У Claude Opus 4.7 есть отдельная техническая особенность: новый токенайзер может расходовать до 35% больше токенов на тот же текст — это стоит учитывать в расчёте бюджета.

Чем LLM отличается от чат-бота и от ИИ
Вокруг LLM много путаницы в терминах. Разведём три понятия, которые постоянно смешивают: «искусственный интеллект», «LLM» и «чат-бот». Они находятся на разных уровнях, и понимать иерархию полезно, чтобы не покупать «ИИ», когда вам нужна конкретная модель, и наоборот.
Искусственный интеллект (ИИ) — это широкий зонтичный термин для любых систем, которые имитируют интеллектуальное поведение. Под ним умещается многое: и системы правил, и классическое машинное обучение, и нейросети. LLM — это лишь один из инструментов внутри ИИ, пусть сейчас и самый громкий. То есть всякая LLM относится к ИИ, но далеко не всякий ИИ — это LLM.
LLM — конкретный вид нейросетей, заточенный под текст. Это «движок»: набор обученных параметров, который по входному тексту порождает выходной. Сам по себе движок — не приложение; чтобы им пользоваться, нужна оболочка вокруг него.
Чат-бот — это интерфейс поверх модели, а не сама модель. ChatGPT — это продукт-чат от OpenAI, удобная оболочка вокруг моделей GPT; Claude — чат от Anthropic поверх моделей Claude. Когда вы пишете сообщение в чат, оболочка добавляет к нему историю диалога и системные инструкции, отправляет всё это в модель, получает сгенерированный текст и показывает вам. Различать модель и продукт-чат важно по практической причине: к модели можно обращаться не только через красивый веб-чат, но и через API — напрямую из своего кода. Именно это нужно бизнесу.
Зафиксируем разницу между похожими словами коротко:
- ИИ (искусственный интеллект) — зонтичный термин для всего, что имитирует интеллект.
- Нейросеть — метод машинного обучения; один из инструментов ИИ.
- LLM — вид нейросетей для работы с текстом (движок).
- GPT / Claude / Gemini / DeepSeek — конкретные семейства LLM от разных компаний.
- ChatGPT — продукт-чат (интерфейс) поверх моделей GPT, не сама модель.
- API — способ обращаться к модели из своего кода, минуя веб-чат.

Как использовать LLM через API
Веб-чат — это для человека и разовых задач. Если же языковая модель нужна внутри продукта, в автоматизации или для команды, путь один — API (application programming interface, программный интерфейс). Через API нейросеть становится частью вашего приложения: срабатывает автоматически на каждый заказ, обращение, загруженный документ — без человека в цикле. И платите вы только за фактический объём токенов, а не фиксированную подписку.
Технически это обычный HTTP-запрос: ваше приложение отправляет на адрес (endpoint) имя модели и текст запроса, а в ответ приходит сгенерированный текст. Большинство провайдеров и агрегаторов используют OpenAI-совместимый формат, поэтому код выглядит одинаково независимо от того, какую модель вы вызываете — меняется по сути одна строка с именем модели.
Минимальный пример вызова LLM на Python — он же показывает, насколько это просто:
from openai import OpenAI
client = OpenAI(
base_url="https://api.promptra.ru/v1",
api_key="PROMPTRA_API_KEY",
)
resp = client.chat.completions.create(
model="openai/gpt-5.5", # или anthropic/claude-sonnet-4.6, google/gemini-3.1-pro-preview
messages=[
{"role": "user", "content": "Объясни, что такое LLM, в двух предложениях"}
],
)
print(resp.choices[0].message.content)Чтобы переключиться на другую модель — флагман или дешёвую под массовый поток — меняется только строка model. Остальной код прежний. То же самое работает в Node.js, Go и любом языке, где есть OpenAI SDK. Проверить подключение можно даже без кода, одним запросом через curl:
curl https://api.promptra.ru/v1/chat/completions \
-H "Authorization: Bearer $PROMPTRA_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek/deepseek-v4-pro",
"messages": [{"role": "user", "content": "Привет одним словом"}]
}'Для разработчиков в России есть нюанс, не связанный с самой технологией: напрямую оплатить зарубежного провайдера (OpenAI, Anthropic, Google) карты российских банков не позволяют, а серые схемы ненадёжны и не дают документов для бухгалтерии. Сами модели и их API при этом работают — упирается всё именно в платёж. Чистое решение для бизнеса — подключаться к зарубежным LLM через российский агрегатор: один API-ключ сразу ко всем моделям, оплата в рублях на юр.лицо, цена на токены 1-в-1 с провайдером по курсу ЦБ, без VPN.
С бухгалтерской стороны это выглядит так: российская компания заключает договор-оферту с агрегатором-резидентом РФ, оплачивает счёт в рублях с расчётного счёта и получает закрывающие документы. У Promptra это оплата в рублях по договору, полный пакет закрывающих документов (Диадок, СБИС, 1С-ЭДО) — договор-оферта, счёт, акт, счёт-фактура, УПД. Цена на токены — без наценки, 1-в-1 с провайдером по курсу ЦБ; сервисная комиссия 5% берётся только при пополнении баланса, а не с каждого запроса. Если хотите начать с самой популярной линейки, посмотрите страницу ChatGPT (GPT) API за рубли.
FAQ
Что такое LLM простыми словами?
LLM (large language model, большая языковая модель) — это нейросеть, обученная на огромном объёме текста и умеющая работать со словами: отвечать на вопросы, писать, переводить, суммировать, писать код. Ответ она генерирует, предсказывая следующий кусочек слова (токен) по предыдущему контексту, и так слово за словом. «Большая» означает, что в ней сотни миллиардов настраиваемых параметров. На LLM построены ChatGPT, Claude, Gemini и DeepSeek.
Чем LLM отличается от нейросети и от искусственного интеллекта?
Искусственный интеллект (ИИ) — широкий термин для любых систем, имитирующих интеллект. Нейросеть — один из методов внутри ИИ. LLM — частный вид нейросетей, заточенный под текст. То есть всякая LLM — это нейросеть и относится к ИИ, но не всякая нейросеть — LLM (бывают нейросети для картинок, видео, звука) и не всякий ИИ — нейросеть.
Что такое токены и контекст в LLM?
Токен — это «кусочек слова», на которые модель режет текст перед обработкой (целое частое слово, часть длинного слова, знак препинания). Тысяча токенов — это примерно 700–750 слов. Контекст (контекстное окно) — это сколько токенов модель может удерживать за один запрос: ваш ввод, история диалога, документы и сам ответ. У флагманов 2026 года окно — около миллиона токенов. API-провайдеры берут плату именно за токены, отдельно за входные и выходные.
Может ли LLM ошибаться или выдумывать факты?
Да. LLM выдаёт статистически наиболее вероятный ответ, а не гарантированно верный. Она может уверенно сформулировать несуществующий факт, цитату или цифру — это называют галлюцинацией, и звучит она так же убедительно, как правда. Поэтому ответы по важным вопросам (право, медицина, финансы) нужно перепроверять у первоисточника. LLM — сильный помощник, но не источник истины.
Чем LLM отличается от чат-бота вроде ChatGPT?
LLM — это сама модель, «движок» из обученных параметров. Чат-бот (ChatGPT, например) — это интерфейс поверх модели: оболочка, которая принимает ваше сообщение, добавляет историю диалога и системные инструкции, отправляет всё в модель и показывает ответ. ChatGPT работает на моделях GPT, но не равен им: к той же модели можно обращаться напрямую через API, минуя веб-чат. Бизнесу обычно нужен именно API.
Сколько стоит пользоваться LLM через API?
Зависит от модели и объёма: провайдеры берут плату за токены — отдельно за входные, отдельно за выходные. Разброс большой. В каталоге Promptra (цены 1-в-1 с провайдером по курсу ЦБ, 71.668 ₽/$) за 1 млн токенов вход/выход: Gemini 3.1 Pro — 140 / 860 ₽, Claude Sonnet 4.6 — 210 / 1070 ₽, GPT-5.5 — 350 / 2150 ₽, Deepseek V4 Pro — 30 / 60 ₽. Сервисная комиссия 5% берётся только при пополнении баланса. На разных моделях один и тот же сценарий различается по цене в десятки раз, поэтому выбор модели под задачу так же важен, как сам факт подключения.
LLM — это, если убрать хайп, нейросеть, которая научилась предсказывать текст и за счёт масштаба обучения умеет писать, отвечать, переводить и программировать. Работает она на токенах и контексте, ошибается предсказуемо (главное — галлюцинации), а применить её в продукте или бизнесе можно через API в рублях с закрывающими документами. Если хотите подобрать модель под вашу задачу, посчитать стоимость в рублях и подключиться без VPN — напишите команде в promptra.ru, разберём ваш сценарий.
Источники
Цены на модели — из каталога Promptra (1-в-1 с провайдером по курсу ЦБ РФ на 27.05.2026, 71.668 ₽/$); первоисточники можно перепроверить:
- OpenAI API Pricing — GPT-5.5 и линейка OpenAI.
- Anthropic Platform Pricing — Claude Opus 4.7, Sonnet 4.6.
- Google Gemini API Pricing — Gemini 3.1 Pro.
- DeepSeek API Pricing — Deepseek V4 Pro и промо-условия.
- Курс ЦБ РФ на 27.05.2026 — 71.668 ₽/USD, cbr.ru.
