Midjourney и другие нейросети обработки изображений - страница 1167

 

Паранормальное явление. Новая часть.

//нейросеть

 

Vitaliy Kuznetsov #

Отличные видосы публикуете, спасибо!

 

В ноябре вышла модель Nanbeige4-3B-25-11 (а 6 декабря они выложили статью об обучении на arxiv). Её размер всего лишь 3 миллиарда параметров. Это почти в 100 раз меньше, чем GPT-4, и даже меньше, чем большинство открытых моделей. Но вот парадокс: на тестах она достигает показателей выше, чем модели в 10 раз больше, а на бенчмарке WritingBench и вовсе держится на уровне проприетарных моделей занимая место между Gemini-2.5-Pro и Deepseek-R1-0528.

https://habr.com/ru/articles/981120/
Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры
Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры
  • 2025.12.27
  • habr.com
В ноябре вышла модель Nanbeige4-3B-25-11 (а 6 декабря они выложили статью об обучении на arxiv). Её размер всего лишь 3 миллиарда параметров. Это почти в 100 раз меньше, чем GPT-4, и даже меньше, чем большинство открытых моделей. Но вот парадокс: на тестах она достигает показателей выше , чем модели в 10 раз больше, а на бенчмарке WritingBench...
 
Rorschach #:
Nanbeige4-3B-25-11
И где её посмотреть? На вскидку в поиске только восхваляющие статьи.
 
Alexandr Saprykin #:
Nanbeige

Попробуйте в LMStudio. Но чуда не ждите. Если 3B работает как 30B, то это просто прогресс маленьких моделей, но им далеко до старших.


 

OpenAI планируют выпустить новый инструмент через день


Перевод:

Завтра мы проводим конференцию для разработчиков программного обеспечения в OpenAL.

Нам нужна обратная связь, поскольку мы начинаем создавать инструменты нового поколения.

Это эксперимент и первая попытка в новом формате - мы проведем прямую трансляцию обсуждения на YouTube в 16:00 по североамериканскому времени.

Задавайте вопросы здесь, и мы ответим на столько, на сколько сможем!

 
Alexandr Saprykin #:
И где её посмотреть? На вскидку в поиске только восхваляющие статьи.
https://huggingface.co/mradermacher/Nanbeige4-3B-Thinking-2511-GGUF

Маленькая модель, спокойно поставится даже на смартфон, токенов 8-9 в секунду
 

Qwen3-Max-Thinking: Новая флагманская reasoning-модель от Alibaba с продвинутым Thinking-режимом


//текст Grok4.1 на базе оф.новости https://qwen.ai/blog?id=qwen3-max-thinking

Alibaba Cloud представила Qwen3-Max-Thinking — топовую модель серии Qwen с улучшенным режимом глубокого мышления и адаптивными инструментами. Модель ориентирована на сложный reasoning, агентные задачи и снижение галлюцинаций.

Технические особенности

  • Thinking Mode: Многораундовый test-time scaling с механизмом "experience-cumulative" (итеративная само-рефлексия и накопление опыта). Позволяет масштабировать вычисления для лучшего качества без роста базовых параметров.
  • Адаптивные инструменты: Автономный выбор и использование встроенных tools — Search (реал-тайм информация), Memory (персонализация) и Code Interpreter (выполнение кода).
  • Дообучение: Значительные ресурсы на RL для фактичности, следования инструкциям, alignment и agent-возможностей.
  • Параметры и предобучение: Не раскрыты публично (в отличие от предыдущих Qwen).

Работа с кодом

  • Встроенный Code Interpreter позволяет выполнять код напрямую в чате для решения вычислительных и программистских задач.
  • LiveCodeBench v6: 85.9% (с scaling до 91.4%).
  • SWE-Bench Verified (реальные GitHub-issues): 75.3%.
  • Модель эффективно справляется с агентным кодингом и сложными задачами разработки.

Сравнение с топами

Qwen3-Max-Thinking показывает результаты на уровне GPT-5.2-Thinking, Claude-Opus-4.5 и Gemini 3 Pro по 19 бенчмаркам:

  • Math/Reasoning: HMMT Feb 2025 — 98.0%, IMOAnswerBench — 83.9% (с scaling до 91.5%).
  • Agentic: Tau² Bench — 82.1%, HLE с tools — 49.8% (лучше GPT-5.2-Thinking).
  • Coding: SWE Verified — 75.3% (чуть ниже Claude-Opus-4.5 80.9% и GPT-5.2 80.0%).
  • General: Arena-Hard v2 — 90.2% (значительно выше GPT-5.2). В многих задачах с test-time scaling обходит Gemini 3 Pro и DeepSeek V3.2.

Модель доступна прямо сейчас:

  • В Qwen Chat: chat.qwen.ai (с tools и Thinking Mode).
  • Через API Alibaba Cloud (модель qwen3-max-2026-01-23, совместима с OpenAI и Anthropic SDK).

Это один из самых сильных открытых (по доступу) frontier-релизів начала 2026 — особенно круто выглядят агентные возможности и tool-use. Китайский AI продолжает теснить закрытые топы! 🚀

//Поскольку это очень мощный релиз для кода, то в больших проектах всегда просите писать что на что поменять, не просите написать весь код, т.к. это часто приводит к галлюцинациям (сужу по другим ИИ-чатам). Полученную инструкцию копируйте через кнопку в чате и вставляйте в Visual Studio Code, плагин BlackBox, модель Grok-fast-code, он справится с внесением правок без галлюцинаций. Вариант с плагином Cline работает лучше, но у меня скрыли возможность использовать бесплатные ИИ, может Вам повезёт дольше пользоваться бесплатно. Полученный вариант кидаете обратно в чат с промптом "Так правильно?". Через 2-3 запроса создавайте новый чат с новым файлом и т.д., связка железобетонно работает лучше, чем просто чат.

//Если найдёте агента с бесплатным QwenMax (или GLM 4.7) для VSC, то напишите

 
Отзыв простого юзера:

По состоянию на сегодня в контексте здешнего программирования первое место делят между собой Gemini и Claude. 

Самые заковыристые с преподвыподвертом запросы кодировали без ошибок.

Но иногда китайцы делают лучше, какие-то конкретные (небольшие) промты. Большинство запросов, всё же, за американцами.
 
Ivan Butko #:
По состоянию на сегодня в контексте здешнего программирования первое место делят между собой Gemini и Claude. 
Желательно всегда уточнять язык, о котором речь. А то в Питоне многие хороши, а с MQL5 проблемы.