В конце 2025 года NVIDIA представила семейство Nemotron 3 — открытые языковые модели нового поколения, заточенные под агентные сценарии и высокую пропускную способность. В отличие от классических Transformer-моделей, Nemotron 3 построены на гибридной архитектуре Mamba-Transformer MoE (Mixture of Experts), что позволяет им обрабатывать до миллиона токенов контекста, при этом активируя лишь малую долю параметров на каждом шаге.
Главное для нас: все три варианта семейства доступны бесплатно на OpenRouter — без кредитной карты, с нулевой стоимостью за токен. Это делает Nemotron 3 одним из самых мощных бесплатных инструментов для разработчиков в 2026 году.
:free (например, nvidia/nemotron-3-super-120b:free).
Совместим с любым OpenAI-совместимым клиентом — Cursor, VS Code, Cline, Open WebUI и другими.
Семейство Nemotron 3: три модели на все случаи
NVIDIA выпустила три варианта, каждый из которых решает свою задачу. Общий знаменатель — архитектура Mamba-Transformer MoE: слои Mamba (state-space model) обеспечивают линейную сложность по длине последовательности, а слои Transformer подключаются для задач, требующих точного внимания (attention). Sparse MoE активирует только часть экспертов, снижая вычислительную нагрузку в 8–10 раз по сравнению с dense-моделями аналогичного размера.
| Характеристика | Nano 30B | Super 120B | Nano Omni 30B |
|---|---|---|---|
| Всего параметров | 30 млрд | 120 млрд | 30 млрд |
| Активных параметров | 3.6 млрд | 12 млрд | 3 млрд |
| Контекст | 1M токенов | 1M токенов | 1M токенов |
| Архитектура | Mamba-Transformer MoE | LatentMoE + Transformer | Mamba-Transformer MoE |
| Модальности | Только текст | Только текст | Текст, изображение, видео, аудио |
| Дата релиза | Декабрь 2025 | Март 2026 | Апрель 2026 |
| Цена на OpenRouter | Бесплатно (:free) | Бесплатно (:free) | Бесплатно (:free) |
| Лицензия | Open (Apache-подобная) | Open (Apache-подобная) | Open (Apache-подобная) |
Nemotron 3 Nano (30B / 3.6B active)
Самая лёгкая модель семейства, оптимизированная под низкую задержку и агентные задачи. Несмотря на 30 миллиардов общих параметров, на каждом шаге инференса активируются всего 3.6 миллиарда — это обеспечивает скорость отклика, сопоставимую с моделями размером 3–4B, при качестве, значительно превышающем их возможности.
Nano отлично подходит для:
- Быстрого автодополнения кода (Cursor, Cline)
- Чат-ботов с требованием низкой задержки (<200 мс первый токен)
- Агентных цепочек, где модель вызывается десятки раз подряд
- Суммаризации и извлечения данных из длинных документов (до 1M токенов)
Nemotron 3 Super (120B / 12B active)
Флагман семейства. 120 миллиардов параметров с LatentMoE — усовершенствованной системой маршрутизации экспертов, которая динамически выбирает оптимальный набор из 12 млрд активных параметров для каждого запроса. Это делает Super сравнимым по качеству с моделями класса GPT-4o и Claude 3.5 Sonnet, но при значительно меньших вычислительных затратах.
Super — оптимальный выбор для:
- Сложного программирования (отладка, рефакторинг, генерация целых модулей)
- Многоэтапного рассуждения (математика, логика, научные задачи)
- Мультиагентных систем, где один мощный агент координирует работу нескольких Nano-агентов
- Анализа длинных кодовых баз (весь репозиторий целиком в контексте)
Nemotron 3 Nano Omni (30B / 3B active)
Мультимодальная версия Nano, способная принимать на вход текст, изображения, видео и аудио. Работает как универсальный «суб-агент восприятия» — вы скармливаете ему скриншот, запись экрана или голосовое сообщение, а он возвращает структурированный текстовый ответ.
Omni идеален для:
- Анализа скриншотов UI (поиск багов, описание интерфейса)
- Транскрибации и суммаризации аудио/видео
- Визуальных цепочек: «посмотри на это изображение и напиши код»
- Мультимодальных RAG-пайплайнов
Бенчмарки: как Nemotron 3 выступает против конкурентов
Ниже — сводная таблица результатов на ключевых бенчмарках. Для сравнения взяты популярные бесплатные и платные модели аналогичного класса. Данные взяты из официальных технических отчётов NVIDIA и независимых тестов на OpenRouter.
| Бенчмарк | Nemotron 3 Super | Llama 3.3 70B | Qwen 2.5 72B | GPT-4o mini |
|---|---|---|---|---|
| MMLU (знания) | 82.4% | 79.1% | 81.3% | 82.0% |
| GPQA Diamond (наука) | ~80% | 50.7% | 49.0% | 53.6% |
| HumanEval (код) | 79.3% | 77.4% | 78.1% | 87.2% |
| SWE-Bench Verified | ~60.5% | — | — | 33.2% |
| Контекст | 1M | 128k | 128k | 128k |
| Цена (OpenRouter) | Бесплатно | Бесплатно | Бесплатно | Платно |
Скорость инференса
Благодаря Mamba-слоям и разреженной активации экспертов, Nemotron 3 значительно быстрее dense-моделей того же класса:
| Модель | Токенов/сек (output) | TTFT (время до первого токена) |
|---|---|---|
| Nemotron 3 Nano | ~180 tok/s | ~100 мс |
| Nemotron 3 Super | ~85 tok/s | ~250 мс |
| Llama 3.3 70B | ~45 tok/s | ~400 мс |
| Qwen 2.5 72B | ~40 tok/s | ~450 мс |
Nemotron 3 Nano генерирует текст почти в 4 раза быстрее, чем Llama 3.3 70B, при сопоставимом качестве. Для агентных цепочек, где модель вызывается последовательно десятки раз, это даёт колоссальное ускорение общего workflow.
Архитектура: почему Mamba + Transformer + MoE
Классические Transformer-модели масштабируются квадратично по длине контекста: при удвоении входной последовательности затраты на self-attention растут в 4 раза. Для контекста в миллион токенов это делает чистый Transformer непрактичным.
NVIDIA решила проблему тремя инновациями одновременно:
- Mamba-слои (State Space Model) — обрабатывают последовательность за линейное время O(n), «запоминая» контекст через скрытое состояние. Идеальны для длинных документов и кодовых баз.
- Transformer-слои — вставлены между блоками Mamba для задач, где важно точное позиционное внимание (например, синтаксис кода или математические выкладки).
- MoE (Mixture of Experts) — каждый слой содержит множество «экспертных» подсетей, но маршрутизатор активирует только 2–4 из них на каждый токен. Это позволяет модели с 120B параметрами работать с вычислительной нагрузкой 12B-модели.
Дополнительно, все модели семейства обучены с технологией Multi-Token Prediction (MTP) — модель предсказывает несколько следующих токенов за один проход, что действует как встроенное speculative decoding и ускоряет генерацию на 30–50% без потери качества.
Реальные кейсы использования
Кейс 1: Автодополнение кода в Cursor
Разработчик подключил Nemotron 3 Nano через OpenRouter к редактору Cursor как модель по умолчанию для автодополнения. Результат: задержка первого предложения составила 80–120 мс (против 300–400 мс у Llama 3.3 70B), при этом качество предложений было сопоставимым. За счёт скорости продуктивность выросла — меньше ожидания, больше принятых сниппетов в потоке.
// Конфиг для Cursor / Continue (.continue/config.json)
{
"models": [{
"title": "Nemotron 3 Nano (free)",
"provider": "openrouter",
"model": "nvidia/nemotron-3-nano-30b:free",
"apiKey": "YOUR_OPENROUTER_KEY"
}]
}
Кейс 2: Анализ целого репозитория одним промптом
Команда из трёх разработчиков использовала Nemotron 3 Super для review целого монорепозитория (~800k токенов). Модель получила весь код в одном контекстном окне, после чего:
- Нашла 3 неочевидных бага в обработке edge-кейсов
- Предложила рефакторинг дублирующегося кода между сервисами
- Составила документацию для 12 недокументированных API-эндпоинтов
Миллионный контекст позволил не разбивать код на фрагменты и не терять межмодульные связи — модель видела всю картину целиком.
Кейс 3: Мультимодальный баг-репорт через Omni
QA-инженер скармливал Nemotron 3 Nano Omni скриншоты и короткие видео-записи экрана с багами. Модель автоматически:
- Описывала визуальное поведение бага
- Определяла затронутый компонент UI
- Предлагала шаги для воспроизведения
- Генерировала структурированный тикет в формате Jira/Linear
Время на создание одного баг-репорта сократилось с 10–15 минут до 30 секунд.
Ограничения и нюансы
Несмотря на впечатляющие характеристики, у Nemotron 3 есть ограничения, о которых стоит знать:
- Rate limits на free-тиере: OpenRouter ограничивает бесплатное использование ~20 запросов в минуту и ~200 запросов в день. Для production-нагрузок лучше использовать платный тариф или self-host.
- Данные могут использоваться для обучения: на бесплатном тиере провайдеры могут использовать ваши запросы для улучшения моделей. Не отправляйте чувствительные данные.
- Кодинг: не GPT-4o уровень: хотя Super показывает хорошие результаты на HumanEval, на реальных задачах сложного рефакторинга GPT-4o и Claude 3.5 Sonnet всё ещё точнее в edge-кейсах.
- Мультимодальность Omni: качество анализа видео уступает специализированным моделям (Gemini Pro, GPT-4o Vision), но для базовых задач — более чем достаточно.
Как подключить через API
Nemotron 3 полностью совместим с OpenAI API. Вот минимальный пример на Python:
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="YOUR_OPENROUTER_KEY",
)
# Nemotron 3 Super — для сложных задач
response = client.chat.completions.create(
model="nvidia/nemotron-3-super-120b:free",
messages=[
{"role": "system", "content": "Ты опытный Python-разработчик."},
{"role": "user", "content": "Напиши async веб-скрапер с retry и rate limiting."}
],
temperature=0.3
)
print(response.choices[0].message.content)
Для TypeScript / Node.js (например, в вашем Bun-проекте):
const res = await fetch("https://openrouter.ai/api/v1/chat/completions", {
method: "POST",
headers: {
"Authorization": "Bearer YOUR_OPENROUTER_KEY",
"Content-Type": "application/json",
},
body: JSON.stringify({
model: "nvidia/nemotron-3-nano-30b:free",
messages: [{ role: "user", content: "Привет!" }],
}),
});
const data = await res.json();
console.log(data.choices[0].message.content);
Итого: кому подходит Nemotron 3
| Задача | Рекомендуемая модель | Почему |
|---|---|---|
| Автодополнение кода | Nano 30B | Минимальная задержка, хорошее качество |
| Код-ревью, рефакторинг | Super 120B | Глубокое понимание контекста, 1M окно |
| Анализ изображений/видео | Nano Omni | Мультимодальный вход, быстрый ответ |
| Чат-бот для саппорта | Nano 30B | Быстрый, дешёвый, достаточно умный |
| Научные/математические задачи | Super 120B | GPQA ~80%, сильное рассуждение |
| Агентные цепочки | Nano + Super | Nano для быстрых шагов, Super для финального решения |
Nemotron 3 — это, пожалуй, лучшее, что случилось с бесплатными LLM в 2026 году. Миллионный контекст, агентная архитектура, мультимодальность — и всё это за ноль рублей через OpenRouter. Если вы ещё не попробовали — самое время.