Обзор NVIDIA Nemotron 3: бесплатная модель на OpenRouter

В конце 2025 года NVIDIA представила семейство Nemotron 3 — открытые языковые модели нового поколения, заточенные под агентные сценарии и высокую пропускную способность. В отличие от классических Transformer-моделей, Nemotron 3 построены на гибридной архитектуре Mamba-Transformer MoE (Mixture of Experts), что позволяет им обрабатывать до миллиона токенов контекста, при этом активируя лишь малую долю параметров на каждом шаге.

Главное для нас: все три варианта семейства доступны бесплатно на OpenRouter — без кредитной карты, с нулевой стоимостью за токен. Это делает Nemotron 3 одним из самых мощных бесплатных инструментов для разработчиков в 2026 году.

💡

Как подключить: зарегистрируйтесь на openrouter.ai, получите API-ключ и используйте модели с суффиксом :free (например, nvidia/nemotron-3-super-120b:free). Совместим с любым OpenAI-совместимым клиентом — Cursor, VS Code, Cline, Open WebUI и другими.

Семейство Nemotron 3: три модели на все случаи

NVIDIA выпустила три варианта, каждый из которых решает свою задачу. Общий знаменатель — архитектура Mamba-Transformer MoE: слои Mamba (state-space model) обеспечивают линейную сложность по длине последовательности, а слои Transformer подключаются для задач, требующих точного внимания (attention). Sparse MoE активирует только часть экспертов, снижая вычислительную нагрузку в 8–10 раз по сравнению с dense-моделями аналогичного размера.

Характеристика	Nano 30B	Super 120B	Nano Omni 30B
Всего параметров	30 млрд	120 млрд	30 млрд
Активных параметров	3.6 млрд	12 млрд	3 млрд
Контекст	1M токенов	1M токенов	1M токенов
Архитектура	Mamba-Transformer MoE	LatentMoE + Transformer	Mamba-Transformer MoE
Модальности	Только текст	Только текст	Текст, изображение, видео, аудио
Дата релиза	Декабрь 2025	Март 2026	Апрель 2026
Цена на OpenRouter	Бесплатно (:free)	Бесплатно (:free)	Бесплатно (:free)
Лицензия	Open (Apache-подобная)	Open (Apache-подобная)	Open (Apache-подобная)

Nemotron 3 Nano (30B / 3.6B active)

Самая лёгкая модель семейства, оптимизированная под низкую задержку и агентные задачи. Несмотря на 30 миллиардов общих параметров, на каждом шаге инференса активируются всего 3.6 миллиарда — это обеспечивает скорость отклика, сопоставимую с моделями размером 3–4B, при качестве, значительно превышающем их возможности.

Nano отлично подходит для:

Быстрого автодополнения кода (Cursor, Cline)
Чат-ботов с требованием низкой задержки (<200 мс первый токен)
Агентных цепочек, где модель вызывается десятки раз подряд
Суммаризации и извлечения данных из длинных документов (до 1M токенов)

Nemotron 3 Super (120B / 12B active)

Флагман семейства. 120 миллиардов параметров с LatentMoE — усовершенствованной системой маршрутизации экспертов, которая динамически выбирает оптимальный набор из 12 млрд активных параметров для каждого запроса. Это делает Super сравнимым по качеству с моделями класса GPT-4o и Claude 3.5 Sonnet, но при значительно меньших вычислительных затратах.

Super — оптимальный выбор для:

Сложного программирования (отладка, рефакторинг, генерация целых модулей)
Многоэтапного рассуждения (математика, логика, научные задачи)
Мультиагентных систем, где один мощный агент координирует работу нескольких Nano-агентов
Анализа длинных кодовых баз (весь репозиторий целиком в контексте)

Nemotron 3 Nano Omni (30B / 3B active)

Мультимодальная версия Nano, способная принимать на вход текст, изображения, видео и аудио. Работает как универсальный «суб-агент восприятия» — вы скармливаете ему скриншот, запись экрана или голосовое сообщение, а он возвращает структурированный текстовый ответ.

Omni идеален для:

Анализа скриншотов UI (поиск багов, описание интерфейса)
Транскрибации и суммаризации аудио/видео
Визуальных цепочек: «посмотри на это изображение и напиши код»
Мультимодальных RAG-пайплайнов

Бенчмарки: как Nemotron 3 выступает против конкурентов

Ниже — сводная таблица результатов на ключевых бенчмарках. Для сравнения взяты популярные бесплатные и платные модели аналогичного класса. Данные взяты из официальных технических отчётов NVIDIA и независимых тестов на OpenRouter.

Бенчмарк	Nemotron 3 Super	Llama 3.3 70B	Qwen 2.5 72B	GPT-4o mini
MMLU (знания)	82.4%	79.1%	81.3%	82.0%
GPQA Diamond (наука)	~80%	50.7%	49.0%	53.6%
HumanEval (код)	79.3%	77.4%	78.1%	87.2%
SWE-Bench Verified	~60.5%	—	—	33.2%
Контекст	1M	128k	128k	128k
Цена (OpenRouter)	Бесплатно	Бесплатно	Бесплатно	Платно

🏆

Ключевой результат: Nemotron 3 Super показывает ~60.5% на SWE-Bench Verified — бенчмарке, где модель должна самостоятельно найти и исправить реальный баг в GitHub-репозитории. Для бесплатной модели это выдающийся результат, сравнимый с коммерческими решениями.

Скорость инференса

Благодаря Mamba-слоям и разреженной активации экспертов, Nemotron 3 значительно быстрее dense-моделей того же класса:

Модель	Токенов/сек (output)	TTFT (время до первого токена)
Nemotron 3 Nano	~180 tok/s	~100 мс
Nemotron 3 Super	~85 tok/s	~250 мс
Llama 3.3 70B	~45 tok/s	~400 мс
Qwen 2.5 72B	~40 tok/s	~450 мс

Nemotron 3 Nano генерирует текст почти в 4 раза быстрее, чем Llama 3.3 70B, при сопоставимом качестве. Для агентных цепочек, где модель вызывается последовательно десятки раз, это даёт колоссальное ускорение общего workflow.

Архитектура: почему Mamba + Transformer + MoE

Классические Transformer-модели масштабируются квадратично по длине контекста: при удвоении входной последовательности затраты на self-attention растут в 4 раза. Для контекста в миллион токенов это делает чистый Transformer непрактичным.

NVIDIA решила проблему тремя инновациями одновременно:

Mamba-слои (State Space Model) — обрабатывают последовательность за линейное время O(n), «запоминая» контекст через скрытое состояние. Идеальны для длинных документов и кодовых баз.
Transformer-слои — вставлены между блоками Mamba для задач, где важно точное позиционное внимание (например, синтаксис кода или математические выкладки).
MoE (Mixture of Experts) — каждый слой содержит множество «экспертных» подсетей, но маршрутизатор активирует только 2–4 из них на каждый токен. Это позволяет модели с 120B параметрами работать с вычислительной нагрузкой 12B-модели.

Дополнительно, все модели семейства обучены с технологией Multi-Token Prediction (MTP) — модель предсказывает несколько следующих токенов за один проход, что действует как встроенное speculative decoding и ускоряет генерацию на 30–50% без потери качества.

Реальные кейсы использования

Кейс 1: Автодополнение кода в Cursor

Разработчик подключил Nemotron 3 Nano через OpenRouter к редактору Cursor как модель по умолчанию для автодополнения. Результат: задержка первого предложения составила 80–120 мс (против 300–400 мс у Llama 3.3 70B), при этом качество предложений было сопоставимым. За счёт скорости продуктивность выросла — меньше ожидания, больше принятых сниппетов в потоке.

// Конфиг для Cursor / Continue (.continue/config.json)
{
  "models": [{
    "title": "Nemotron 3 Nano (free)",
    "provider": "openrouter",
    "model": "nvidia/nemotron-3-nano-30b:free",
    "apiKey": "YOUR_OPENROUTER_KEY"
  }]
}

Кейс 2: Анализ целого репозитория одним промптом

Команда из трёх разработчиков использовала Nemotron 3 Super для review целого монорепозитория (~800k токенов). Модель получила весь код в одном контекстном окне, после чего:

Нашла 3 неочевидных бага в обработке edge-кейсов
Предложила рефакторинг дублирующегося кода между сервисами
Составила документацию для 12 недокументированных API-эндпоинтов

Миллионный контекст позволил не разбивать код на фрагменты и не терять межмодульные связи — модель видела всю картину целиком.

Кейс 3: Мультимодальный баг-репорт через Omni

QA-инженер скармливал Nemotron 3 Nano Omni скриншоты и короткие видео-записи экрана с багами. Модель автоматически:

Описывала визуальное поведение бага
Определяла затронутый компонент UI
Предлагала шаги для воспроизведения
Генерировала структурированный тикет в формате Jira/Linear

Время на создание одного баг-репорта сократилось с 10–15 минут до 30 секунд.

Ограничения и нюансы

Несмотря на впечатляющие характеристики, у Nemotron 3 есть ограничения, о которых стоит знать:

Rate limits на free-тиере: OpenRouter ограничивает бесплатное использование ~20 запросов в минуту и ~200 запросов в день. Для production-нагрузок лучше использовать платный тариф или self-host.
Данные могут использоваться для обучения: на бесплатном тиере провайдеры могут использовать ваши запросы для улучшения моделей. Не отправляйте чувствительные данные.
Кодинг: не GPT-4o уровень: хотя Super показывает хорошие результаты на HumanEval, на реальных задачах сложного рефакторинга GPT-4o и Claude 3.5 Sonnet всё ещё точнее в edge-кейсах.
Мультимодальность Omni: качество анализа видео уступает специализированным моделям (Gemini Pro, GPT-4o Vision), но для базовых задач — более чем достаточно.

Как подключить через API

Nemotron 3 полностью совместим с OpenAI API. Вот минимальный пример на Python:

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="YOUR_OPENROUTER_KEY",
)

# Nemotron 3 Super — для сложных задач
response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b:free",
    messages=[
        {"role": "system", "content": "Ты опытный Python-разработчик."},
        {"role": "user", "content": "Напиши async веб-скрапер с retry и rate limiting."}
    ],
    temperature=0.3
)

print(response.choices[0].message.content)

Для TypeScript / Node.js (например, в вашем Bun-проекте):

const res = await fetch("https://openrouter.ai/api/v1/chat/completions", {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_OPENROUTER_KEY",
    "Content-Type": "application/json",
  },
  body: JSON.stringify({
    model: "nvidia/nemotron-3-nano-30b:free",
    messages: [{ role: "user", content: "Привет!" }],
  }),
});

const data = await res.json();
console.log(data.choices[0].message.content);

Итого: кому подходит Nemotron 3

Задача	Рекомендуемая модель	Почему
Автодополнение кода	Nano 30B	Минимальная задержка, хорошее качество
Код-ревью, рефакторинг	Super 120B	Глубокое понимание контекста, 1M окно
Анализ изображений/видео	Nano Omni	Мультимодальный вход, быстрый ответ
Чат-бот для саппорта	Nano 30B	Быстрый, дешёвый, достаточно умный
Научные/математические задачи	Super 120B	GPQA ~80%, сильное рассуждение
Агентные цепочки	Nano + Super	Nano для быстрых шагов, Super для финального решения

Nemotron 3 — это, пожалуй, лучшее, что случилось с бесплатными LLM в 2026 году. Миллионный контекст, агентная архитектура, мультимодальность — и всё это за ноль рублей через OpenRouter. Если вы ещё не попробовали — самое время.

🚀

Следите за обновлениями: наш бот @freellms_bot отслеживает появление новых бесплатных моделей и промо-акций в реальном времени. Как только NVIDIA или другой провайдер выпустит что-то интересное — вы узнаете первыми.