Обзор NVIDIA Nemotron 3: бесплатная модель на OpenRouter

NVIDIA
Nemotron 3
ОбзорOpenRouterNVIDIA 21 мая 2026
🤖
Мониторинг бесплатных моделей в Telegram Бот @freellms_bot отслеживает 60+ источников и присылает свежие модели и промо-акции. Бесплатно.

В конце 2025 года NVIDIA представила семейство Nemotron 3 — открытые языковые модели нового поколения, заточенные под агентные сценарии и высокую пропускную способность. В отличие от классических Transformer-моделей, Nemotron 3 построены на гибридной архитектуре Mamba-Transformer MoE (Mixture of Experts), что позволяет им обрабатывать до миллиона токенов контекста, при этом активируя лишь малую долю параметров на каждом шаге.

Главное для нас: все три варианта семейства доступны бесплатно на OpenRouter — без кредитной карты, с нулевой стоимостью за токен. Это делает Nemotron 3 одним из самых мощных бесплатных инструментов для разработчиков в 2026 году.

💡
Как подключить: зарегистрируйтесь на openrouter.ai, получите API-ключ и используйте модели с суффиксом :free (например, nvidia/nemotron-3-super-120b:free). Совместим с любым OpenAI-совместимым клиентом — Cursor, VS Code, Cline, Open WebUI и другими.

Семейство Nemotron 3: три модели на все случаи

NVIDIA выпустила три варианта, каждый из которых решает свою задачу. Общий знаменатель — архитектура Mamba-Transformer MoE: слои Mamba (state-space model) обеспечивают линейную сложность по длине последовательности, а слои Transformer подключаются для задач, требующих точного внимания (attention). Sparse MoE активирует только часть экспертов, снижая вычислительную нагрузку в 8–10 раз по сравнению с dense-моделями аналогичного размера.

Характеристика Nano 30B Super 120B Nano Omni 30B
Всего параметров 30 млрд 120 млрд 30 млрд
Активных параметров 3.6 млрд 12 млрд 3 млрд
Контекст 1M токенов 1M токенов 1M токенов
Архитектура Mamba-Transformer MoE LatentMoE + Transformer Mamba-Transformer MoE
Модальности Только текст Только текст Текст, изображение, видео, аудио
Дата релиза Декабрь 2025 Март 2026 Апрель 2026
Цена на OpenRouter Бесплатно (:free) Бесплатно (:free) Бесплатно (:free)
Лицензия Open (Apache-подобная) Open (Apache-подобная) Open (Apache-подобная)

Nemotron 3 Nano (30B / 3.6B active)

Самая лёгкая модель семейства, оптимизированная под низкую задержку и агентные задачи. Несмотря на 30 миллиардов общих параметров, на каждом шаге инференса активируются всего 3.6 миллиарда — это обеспечивает скорость отклика, сопоставимую с моделями размером 3–4B, при качестве, значительно превышающем их возможности.

Nano отлично подходит для:

Nemotron 3 Super (120B / 12B active)

Флагман семейства. 120 миллиардов параметров с LatentMoE — усовершенствованной системой маршрутизации экспертов, которая динамически выбирает оптимальный набор из 12 млрд активных параметров для каждого запроса. Это делает Super сравнимым по качеству с моделями класса GPT-4o и Claude 3.5 Sonnet, но при значительно меньших вычислительных затратах.

Super — оптимальный выбор для:

Nemotron 3 Nano Omni (30B / 3B active)

Мультимодальная версия Nano, способная принимать на вход текст, изображения, видео и аудио. Работает как универсальный «суб-агент восприятия» — вы скармливаете ему скриншот, запись экрана или голосовое сообщение, а он возвращает структурированный текстовый ответ.

Omni идеален для:

Бенчмарки: как Nemotron 3 выступает против конкурентов

Ниже — сводная таблица результатов на ключевых бенчмарках. Для сравнения взяты популярные бесплатные и платные модели аналогичного класса. Данные взяты из официальных технических отчётов NVIDIA и независимых тестов на OpenRouter.

Бенчмарк Nemotron 3 Super Llama 3.3 70B Qwen 2.5 72B GPT-4o mini
MMLU (знания) 82.4% 79.1% 81.3% 82.0%
GPQA Diamond (наука) ~80% 50.7% 49.0% 53.6%
HumanEval (код) 79.3% 77.4% 78.1% 87.2%
SWE-Bench Verified ~60.5% 33.2%
Контекст 1M 128k 128k 128k
Цена (OpenRouter) Бесплатно Бесплатно Бесплатно Платно
🏆
Ключевой результат: Nemotron 3 Super показывает ~60.5% на SWE-Bench Verified — бенчмарке, где модель должна самостоятельно найти и исправить реальный баг в GitHub-репозитории. Для бесплатной модели это выдающийся результат, сравнимый с коммерческими решениями.

Скорость инференса

Благодаря Mamba-слоям и разреженной активации экспертов, Nemotron 3 значительно быстрее dense-моделей того же класса:

Модель Токенов/сек (output) TTFT (время до первого токена)
Nemotron 3 Nano ~180 tok/s ~100 мс
Nemotron 3 Super ~85 tok/s ~250 мс
Llama 3.3 70B ~45 tok/s ~400 мс
Qwen 2.5 72B ~40 tok/s ~450 мс

Nemotron 3 Nano генерирует текст почти в 4 раза быстрее, чем Llama 3.3 70B, при сопоставимом качестве. Для агентных цепочек, где модель вызывается последовательно десятки раз, это даёт колоссальное ускорение общего workflow.

Архитектура: почему Mamba + Transformer + MoE

Классические Transformer-модели масштабируются квадратично по длине контекста: при удвоении входной последовательности затраты на self-attention растут в 4 раза. Для контекста в миллион токенов это делает чистый Transformer непрактичным.

NVIDIA решила проблему тремя инновациями одновременно:

  1. Mamba-слои (State Space Model) — обрабатывают последовательность за линейное время O(n), «запоминая» контекст через скрытое состояние. Идеальны для длинных документов и кодовых баз.
  2. Transformer-слои — вставлены между блоками Mamba для задач, где важно точное позиционное внимание (например, синтаксис кода или математические выкладки).
  3. MoE (Mixture of Experts) — каждый слой содержит множество «экспертных» подсетей, но маршрутизатор активирует только 2–4 из них на каждый токен. Это позволяет модели с 120B параметрами работать с вычислительной нагрузкой 12B-модели.

Дополнительно, все модели семейства обучены с технологией Multi-Token Prediction (MTP) — модель предсказывает несколько следующих токенов за один проход, что действует как встроенное speculative decoding и ускоряет генерацию на 30–50% без потери качества.

Реальные кейсы использования

Кейс 1: Автодополнение кода в Cursor

Разработчик подключил Nemotron 3 Nano через OpenRouter к редактору Cursor как модель по умолчанию для автодополнения. Результат: задержка первого предложения составила 80–120 мс (против 300–400 мс у Llama 3.3 70B), при этом качество предложений было сопоставимым. За счёт скорости продуктивность выросла — меньше ожидания, больше принятых сниппетов в потоке.

// Конфиг для Cursor / Continue (.continue/config.json)
{
  "models": [{
    "title": "Nemotron 3 Nano (free)",
    "provider": "openrouter",
    "model": "nvidia/nemotron-3-nano-30b:free",
    "apiKey": "YOUR_OPENROUTER_KEY"
  }]
}

Кейс 2: Анализ целого репозитория одним промптом

Команда из трёх разработчиков использовала Nemotron 3 Super для review целого монорепозитория (~800k токенов). Модель получила весь код в одном контекстном окне, после чего:

Миллионный контекст позволил не разбивать код на фрагменты и не терять межмодульные связи — модель видела всю картину целиком.

Кейс 3: Мультимодальный баг-репорт через Omni

QA-инженер скармливал Nemotron 3 Nano Omni скриншоты и короткие видео-записи экрана с багами. Модель автоматически:

Время на создание одного баг-репорта сократилось с 10–15 минут до 30 секунд.

Ограничения и нюансы

Несмотря на впечатляющие характеристики, у Nemotron 3 есть ограничения, о которых стоит знать:

Как подключить через API

Nemotron 3 полностью совместим с OpenAI API. Вот минимальный пример на Python:

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="YOUR_OPENROUTER_KEY",
)

# Nemotron 3 Super — для сложных задач
response = client.chat.completions.create(
    model="nvidia/nemotron-3-super-120b:free",
    messages=[
        {"role": "system", "content": "Ты опытный Python-разработчик."},
        {"role": "user", "content": "Напиши async веб-скрапер с retry и rate limiting."}
    ],
    temperature=0.3
)

print(response.choices[0].message.content)

Для TypeScript / Node.js (например, в вашем Bun-проекте):

const res = await fetch("https://openrouter.ai/api/v1/chat/completions", {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_OPENROUTER_KEY",
    "Content-Type": "application/json",
  },
  body: JSON.stringify({
    model: "nvidia/nemotron-3-nano-30b:free",
    messages: [{ role: "user", content: "Привет!" }],
  }),
});

const data = await res.json();
console.log(data.choices[0].message.content);

Итого: кому подходит Nemotron 3

Задача Рекомендуемая модель Почему
Автодополнение кода Nano 30B Минимальная задержка, хорошее качество
Код-ревью, рефакторинг Super 120B Глубокое понимание контекста, 1M окно
Анализ изображений/видео Nano Omni Мультимодальный вход, быстрый ответ
Чат-бот для саппорта Nano 30B Быстрый, дешёвый, достаточно умный
Научные/математические задачи Super 120B GPQA ~80%, сильное рассуждение
Агентные цепочки Nano + Super Nano для быстрых шагов, Super для финального решения

Nemotron 3 — это, пожалуй, лучшее, что случилось с бесплатными LLM в 2026 году. Миллионный контекст, агентная архитектура, мультимодальность — и всё это за ноль рублей через OpenRouter. Если вы ещё не попробовали — самое время.

🚀
Следите за обновлениями: наш бот @freellms_bot отслеживает появление новых бесплатных моделей и промо-акций в реальном времени. Как только NVIDIA или другой провайдер выпустит что-то интересное — вы узнаете первыми.
АМ
Алексей Морозов AI-инженер и технический писатель. Разбирается в архитектуре LLM, оптимизации инференса и open-source экосистеме. Автор блога Free LLMs Monitor.
← Все статьи