Midjourney и другие нейросети обработки изображений - страница 1192

 
Edgar Akhmadeev #:
Жаль только, что она dense, а не moe. Последняя позволяет часть слоёв выносить с VRAM в RAM, когда её не хватает. А так и 32 Gb VRAM скорее всего не хватит.

В LM Studio скачал. Частично залезла в видеокарту и часть в RAM, но 4 токена в секунду удручает. Держу только GemmaЕ4B для сео-рерайта. Теперь понимаю, зачем ставить в системник две видеокарты. Ждём версию на 12B, надеюсь выйдет.

С другой стороны, такое развитие легковесных моделей по любому отразится на качестве ИИ разных стран. Дообучить только и всё, а так очень лёгкая (коммерчески выгодно) и всего на пару ступеней хуже топов.

 
Vitaliy Kuznetsov #:

В LM Studio скачал. Частично залезла в видеокарту и часть в RAM, но 4 токена в секунду удручает. Держу только GemmaЕ4B для сео-рерайта. Теперь понимаю, зачем ставить в системник две видеокарты. Ждём версию на 12B, надеюсь выйдет.

С другой стороны, такое развитие легковесных моделей по любому отразится на качестве ИИ разных стран. Дообучить только и всё, а так очень лёгкая (коммерчески выгодно) и всего на пару ступеней хуже топов.

Вынос слоёв у dense резко снижает скорость. А у moe - практически нет, за счёт мизерного увеличения perplexity (ну, ухудшения качества, грубо говоря).

Однако, после выхода модели на huggingface появляются кастомизированные версии. Возможно, кто-то переделает. Квантизация модели - лёгкая операция. Я только не уверен, можно ли так просто изменить модель с dense на moe.

А вообще, когда бесплатные модели одна за другой становятся платными или снижают лимиты до неюзабельных величин, а платные резко повышают цены, локальные модели скоро станут единственным вариантом для многих некоторых. Хотя и видеокарты дороги. Но начинают появляться NN-сопроцессоры и даже блоки в процах. Посмотрим, куда придёт прогресс.

 
Vitaliy Kuznetsov #:

В LM Studio скачал. Частично залезла в видеокарту и часть в RAM, но 4 токена в секунду удручает. Держу только GemmaЕ4B для сео-рерайта. Теперь понимаю, зачем ставить в системник две видеокарты. Ждём версию на 12B, надеюсь выйдет.

С другой стороны, такое развитие легковесных моделей по любому отразится на качестве ИИ разных стран. Дообучить только и всё, а так очень лёгкая (коммерчески выгодно) и всего на пару ступеней хуже топов.

Да, E4B быстро работает. 

У меня 16 VRAM и 32 RAM. Поставил Gemma 4 26b a4b. Часть на VRAM часть на RAM. Работает на удивление быстро, даже при условии 64к токенов контекста, около 35 токенов сек. Сравнивал с Qwen 3.6 27b - он медленнее, а результаты почти аналогичные. По крайней мере в тех тестах которые я делал локально.
 

KIMI отчитывает мнения других чатботов на один мой промпт про кодирование


 

Xiaomi MiMo V2.5 Pro: Нейросеть, которая пишет программы и экономит ваши ресурсы


//текст и обложка Gemini 3.1. Новость тут - https://mimo.xiaomi.com/mimo-v2-5-pro

Выход MiMo V2.5 Pro ознаменовал переход Xiaomi от статуса «догоняющего» к роли одного из технологических лидеров в сфере искусственного интеллекта. Новая модель — это не просто чат-бот, а полноценный автономный агент, способный решать комплексные инженерные задачи.

Технический фундамент: 1 триллион параметров

В основе MiMo V2.5 Pro лежит обновленная архитектура Hybrid Attention и система MoE (Mixture of Experts). Общий объем параметров модели превышает 1 триллион, однако благодаря MoE-подходу в каждый момент времени задействуется лишь около 42 млрд активных параметров. Это позволило достичь невероятной скорости генерации — до 150 токенов в секунду.

Ключевые характеристики:

  • Контекстное окно: 1 000 000 токенов (эквивалент нескольких сотен книг или огромного репозитория кода).

  • Мультимодальность: Глубокий анализ аудио (до 10 часов) и видеопотока в реальном времени.

  • Интеграция: Глубокая связь с экосистемой HyperOS.


Главный прорыв: От текста к созданию софта

Самым впечатляющим моментом презентации стала демонстрация автономности ИИ. MiMo V2.5 Pro — это больше не «советчик» для программиста, а самостоятельный разработчик.

В качестве примера была представлена история создания полноценного видеоредактора, который нейросеть написала с нуля. ИИ самостоятельно:

  1. Спроектировал архитектуру приложения.

  2. Написал фронтенд и бэкенд части.

  3. Реализовал сложные математические алгоритмы для обработки видео.

Способность «удерживать» в памяти контекст всего проекта целиком позволяет модели избегать ошибок в логических связях, которые часто возникают у менее мощных систем при работе с большими массивами кода.


Экономика токенов: Адаптивное сжатие

Одной из «скрытых» революций в версии 2.5 Pro стала система умного расхода ресурсов. В то время как обычные модели тратят вычислительную мощность равномерно, MiMo использует алгоритм адаптивного сжатия контекста.

  • Экономия до 40%: Благодаря новой системе токенизации, информация упаковывается значительно плотнее. Это позволяет пользователям передавать больше данных, не переплачивая за «пустые» вычислительные циклы.

  • Приоритетное внимание: ИИ научился мгновенно определять ключевые переменные в запросе, отсекая информационный «шум» и фокусируя ресурсы на критически важных узлах логики.


Бенчмарки и позиции на рынке

По результатам независимых тестов, новинка от Xiaomi уверенно конкурирует с ведущими мировыми решениями от крупнейших западных лабораторий:

Тест Результат MiMo V2.5 Pro Значение
GDPval-AA 1426 баллов Лидерство в сегменте универсальных моделей
SWE-bench (Verified) ~79% Способность решать реальные задачи с GitHub
ClawEval Топ-2 Высочайшая оценка агентских способностей (планирование)
Логическая вариативность 0.0% Абсолютная стабильность ответов в тестах на рассуждение



Эмоциональный интеллект и звук

Помимо сухих расчетов, MiMo V2.5 Pro получила обновленный модуль синтеза речи MiMo-V2-TTS. Система способна передавать тончайшие эмоциональные оттенки, имитировать вокал и подстраиваться под манеру общения пользователя, что делает взаимодействие с ИИ на смартфонах Xiaomi максимально естественным.

Итог

Xiaomi MiMo V2.5 Pro стирает грань между «помощником» и «исполнителем». Умение писать готовый софт, работать с гигантским контекстом и при этом экономить ресурсы за счет оптимизации токенов делает эту модель одним из самых привлекательных инструментов для бизнеса и разработчиков в 2026 году.

 

OpenAI представила GPT-5.5: ИИ окончательно стал автономным сотрудником


//Текст и обложка Gemini 3.1. Новость https://openai.com/index/introducing-gpt-5-5/

23 апреля 2026 года OpenAI официально выпустила GPT-5.5 — свою самую мощную и независимую модель. Если предыдущие поколения нейросетей были скорее продвинутыми консультантами, требующими постоянных уточнений и контроля, то новинка позиционируется как полноценный «цифровой агент». Она способна брать сложные, многосоставные задачи, самостоятельно планировать шаги и доводить работу до финального результата.

С этим релизом эпоха GPT-4o окончательно уходит в прошлое, уступая место совершенно новой парадигме взаимодействия с ИИ.

🧠 Главные сильные стороны GPT-5.5

OpenAI сосредоточилась на решении главных проблем предыдущих поколений: потере контекста на длинных дистанциях и неспособности ИИ самостоятельно исправлять свои ошибки в процессе работы.

Новая архитектура предлагает три фундаментальных преимущества:

  • Беспрецедентная автономность (Агентность): GPT-5.5 не просто генерирует текст или код по запросу. Модель способна декомпозировать глобальную задачу на подзадачи, использовать внешние инструменты (браузер, терминал, редакторы кода) и перепроверять саму себя. Если скрипт выдает ошибку, ИИ сам читает логи, вносит правки и перезапускает процесс без участия человека.

  • Глубокий цикл рассуждений (Thinking): Флагманская версия модели использует динамическую функцию «цепочки мыслей» (Chain-of-Thought). При решении задач по высшей математике, архитектуре баз данных или глубокому ресерчу, модель сначала формирует скрытое дерево логических решений, отбрасывая тупиковые ветви.

  • Масштабное программирование: Интеграция с обновленным Codex позволяет GPT-5.5 уверенно ориентироваться в репозиториях на десятки тысяч строк кода. Она может провести масштабный рефакторинг целого проекта, не ломая зависимости.

📊 Бенчмарки и «подкапотная» магия

Технические показатели подтверждают качественный скачок:

  • Expert-SWE: На одном из самых сложных внутренних тестов по программированию, где задачи рассчитаны на 20 часов работы Senior-разработчика, GPT-5.5 показала результат в 73,1% успешных решений (рекордный показатель на рынке).

  • Оптимизация токенов: При значительно возросшем IQ модели, задержка (latency) осталась на уровне прошлых версий. Более того, ИИ теперь тратит меньше токенов на достижение результата благодаря более прямолинейной и точной логике.

  • Аппаратная база: Вычислительная мощь модели опирается на новейшие серверные кластеры NVIDIA GB200 и GB300 NVL72, что обеспечивает стабильную работу даже при пиковых нагрузках.


⚔️ Расстановка сил на рынке

В условиях жесткой конкуренции 2026 года с линейками Gemini 3 от Google и семейством Claude от Anthropic, GPT-5.5 делает ставку именно на формат «ИИ-исполнителя».

Конкуренты по-прежнему сильны в удержании гигантских контекстных окон и литературной генерации, но новинка от OpenAI выигрывает в реальных рабочих пайплайнах. GPT-5.5 задает меньше глупых уточняющих вопросов на старте и реже «галлюцинирует» при работе с жесткими фактами и цифрами, превращаясь в надежный инструмент для B2B-сегмента.

💬 Реакция сообщества и первые тесты

Техническое комьюнити на профильных площадках вроде Hacker News уже активно тестирует модель в "боевых" условиях:

  • Создание игр с нуля: Разработчики делятся примерами, где GPT-5.5 за пару часов собирает играбельные 3D-прототипы на Three.js, полностью забирая на себя физику, архитектуру классов и интерфейс.

  • Анализ данных: Финансовые аналитики отмечают способность модели "переваривать" десятки PDF-отчетов одновременно, выстраивая точные корреляционные модели без потери мелких сносок.

  • Ложка дегтя: Несмотря на восторги, есть и справедливая критика. Сообщество недовольно тем, что десктопные клиенты всё ещё не имеют идеальной нативной интеграции с локальными файловыми системами через MCP (Model Context Protocol), из-за чего для сложной локальной разработки приходится использовать сторонние инструменты.

🛡️ Безопасность нового уровня

Понимая риски автономных ИИ-агентов, OpenAI внедрила самую строгую систему контроля. GPT-5.5 прошла многомесячные испытания (Red-teaming) на устойчивость к кибератакам и генерации опасного контента. Дополнительно был запущен OpenAI Privacy Filter — инструмент для автоматического вымарывания конфиденциальных и персональных данных (PII) из запросов, что критически важно для корпоративной безопасности.

Итог: Релиз GPT-5.5 — это водораздел. Индустрия окончательно переходит от чат-ботов, с которыми нужно уметь правильно "разговаривать", к цифровым инженерам, которым достаточно просто поставить четкую цель.

//вторая обложка OpenAI Images 2.0


 

DeepSeek V4 официально вышел: 1 миллион токенов контекста, открытые веса и новый лидер среди ИИ


//текст и лого от Gemini 3.1. Тех.отчёт (https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf) и модели (https://huggingface.co/collections/deepseek-ai/deepseek-v4)

24 апреля 2026 года состоялся один из самых ожидаемых релизов года в индустрии искусственного интеллекта. После череды слухов и длительного этапа тестирования компания DeepSeek представила четвертое поколение своих флагманских моделей — DeepSeek V4.

Новинка с ходу задает новые стандарты для open-source решений и бросает серьезный вызов проприетарным гигантам. Главные козыри релиза: гигантское контекстное окно, феноменальные агентные возможности и сохранение приверженности открытому коду.

Версии и технические характеристики

Линейка V4 представлена двумя основными моделями: тяжеловесной V4-Pro и оптимизированной V4-Flash. Обе модели теперь по умолчанию поддерживают работу с контекстом в 1 000 000 токенов.

DeepSeek-V4-Pro

  • Размер: 1,6 трлн параметров (49 млрд активных в режиме Mixture-of-Experts).

  • Позиционирование: Максимальная производительность, сопоставимая с лучшими в мире закрытыми моделями.

  • Особенности: Невероятная точность в сложных математических вычислениях, точных науках (STEM) и программировании. Модель позиционируется как state-of-the-art (SOTA) решение для кодинг-агентов.

DeepSeek-V4-Flash

  • Размер: 284 млрд параметров (13 млрд активных).

  • Позиционирование: Оптимизированная версия для быстрого инференса и массового использования.

  • Особенности: Предлагает возможности рассуждения (reasoning) и решения базовых агентных задач практически на уровне Pro-версии, но при этом выдает более высокую скорость отклика и имеет крайне выгодную стоимость API.

Бенчмарки и сравнение с конкурентами

Анализ первых тестов и агрегированных данных бенчмарков показывает впечатляющую картину:

  • Доминирование в точных науках: DeepSeek V4 превосходит все текущие открытые модели в задачах Math, STEM и Coding, выступая на равных с топовыми коммерческими нейросетями.

  • Агентные задачи (Agentic AI): В тестах на самостоятельное решение многосоставных задач (что является главным вызовом для индустрии в 2026 году) V4-Pro демонстрирует выдающиеся результаты. По ряду сложных агентных метрик модель уверенно обходит таких гигантов, как GPT-5.3 и Claude Opus 4.6.

  • Общие знания о мире: По объему и точности фактических знаний модель показала потрясающие результаты, уступив в этом сегменте только Gemini 3.1 Pro.


Ключевые особенности обновления

В отличие от многих конкурентов на рынке, DeepSeek продолжает стратегию открытости. Флагманские модели выпущены с полностью открытыми весами и исходным кодом.

Среди важных нововведений также стоит отметить:

  • Прорыв в долгосрочной памяти (LTM): Модель научилась значительно лучше удерживать контекст на сверхдлинных дистанциях (до 1 млн токенов) без критической потери внимания к деталям.

  • Интеграция из коробки: Разработчики заявляют о бесшовной и легкой интеграции V4 в популярные инструменты разработки, такие как Claude Code, OpenClaw и OpenCode.

Отзывы сообщества и комментарии в сети

Реакция на профильных форумах и площадках для разработчиков преимущественно восторженная:

  1. Инди-разработчики и стартапы отмечают, что V4-Flash — это настоящий подарок для создания быстрых ИИ-приложений. Контекст в миллион токенов при высокой скорости позволяет анализировать огромные базы кода или библиотеки документов «на лету».

  2. Энтузиасты open-source празднуют релиз полных весов V4-Pro. Хотя для запуска модели в 1,6 трлн параметров требуются серьезные серверные мощности (или сильное квантование до GGUF Q4), сам факт бесплатного доступа к нейросети такого уровня вызывает огромное уважение в комьюнити.

  3. Исследователи и скептики пока ждут более глубоких и независимых тестов на «галлюцинации» при максимальном заполнении окна в 1 миллион токенов (задача "needle in a haystack"), однако первые отзывы по работе с LTM внушают оптимизм.

Заключение

Релиз DeepSeek V4 доказал, что модели с открытым исходным кодом способны не просто догонять, но и в ряде дисциплин уверенно обходить самые дорогие закрытые нейросети. С выходом версий Pro и Flash разработчики по всему миру получили мощный, гибкий и доступный инструмент, который несомненно задает высокую планку для всех будущих релизов этого года.

 

Главные ИИ-новости недели: релиз GPT-5.5, ChatGPT Images 2.0 и новые инструменты


//текст и обложка Gemini 3.1. Частично на базе видео Мэтта https://youtu.be/jsP-eRriC0k

Прошедшая неделя оказалась невероятно насыщенной на релизы новых моделей и полезных инструментов для разработчиков и креаторов. Сразу несколько крупных игроков представили обновления, которые выводят взаимодействие с нейросетями на новый уровень.

OpenAI: GPT-5.5 и генерация изображений нового поколения

  • Выход GPT-5.5: OpenAI выкатила новую модель, которая уже доступна подписчикам платных тарифов в ChatGPT. Главное её преимущество — способность «делать больше с меньшими затратами». Модель лучше улавливает контекст и намерения из коротких и расплывчатых промптов, выдавая качественный и персонализированный результат. Кроме того, она тратит меньше токенов при генерации кода. Стоимость по API составит $5 за 1 млн токенов на вход и $30 на выход.

  • ChatGPT Images 2.0: Новая модель для генерации изображений показала феноменальные результаты. Она научилась генерировать плотный и читаемый текст, рисовать сложную инфографику, создавать 360-градусные панорамы и даже рабочие штрих-коды (которые можно отсканировать смартфоном). В слепых тестах она уверенно обходит Gemini 3.1 Flash Image.

  • Нишевые решения: Представлена открытая модель OpenAI Privacy Filter для маскировки конфиденциальных данных прямо на локальном устройстве, а также бесплатная версия ChatGPT для американских медицинских работников.

Anthropic: Визуальный дизайн и утечка "пугающей" модели

  • Claude Design: В Claude появился отдельный раздел для дизайнеров и маркетологов. Нейросеть научилась генерировать прототипы сайтов, красивые дашборды и даже базовые анимации (в стиле Adobe After Effects) просто по текстовому запросу.

  • Live Artifacts: Новый формат артефактов, который позволяет создавать дашборды, обновляющиеся в реальном времени при подключении внешних файлов или источников данных.

  • Инцидент с моделью Mythos: Модель, которую Anthropic ранее отказалась выпускать из-за того, что она «слишком пугающая и мощная», утекла в сеть. Неавторизованные пользователи получили к ней доступ, хотя в компании заявляют, что на безопасность систем это пока никак не повлияло.

Целая россыпь новых ИИ-моделей

  • Google DeepMind анонсировала Deep Research Max — продвинутого автономного агента для глубокого ресерча и исследований.

  • Alibaba выпустила сразу две модели: проприетарную Qwen 3.6 Max и открытую Qwen 3.6 27B, которые показывают отличные результаты в написании кода и выполнении агентских задач.

  • ИИ-стартап Kimi представил открытую модель Kimi K2.6. Она превосходит многих признанных лидеров (таких как Claude 4.6 Opus) в написании кода, работе с WebGL и создании параллельных ИИ-агентов.

Обновления полезных сервисов

  • Терминал для разработчиков Warp получил поддержку универсальных агентов (например, Claude Code), что позволяет программировать и дебажить проекты несколькими нейросетями одновременно.

  • В генераторе изображений Ideogram появилась долгожданная функция создания кастомных моделей: теперь можно загрузить свои картинки и обучить ИИ рисовать в конкретном уникальном стиле.

  • Социальная сеть X добавила функцию создания кастомных лент новостей, которые алгоритм Grok формирует индивидуально под интересы пользователя.

  • А в Китае в это время антропоморфные роботы приняли участие в полумарафоне и успешно пробежали дистанцию быстрее многих людей (менее чем за час).


⚡ Что Мэтт забыл упомянуть: Долгожданный релиз DeepSeek V4

Мэтт упустил, возможно, самое важное событие для open-source сообщества на этой неделе — выход новых флагманских моделей DeepSeek V4-Pro и V4-Flash.

Китайский стартап выпустил их с открытыми весами и гигантским окном контекста на 1 миллион токенов. Версия V4-Pro имеет архитектуру на 1,6 трлн параметров (из которых 49 млрд активных). Новые модели показывают выдающиеся агентские способности, а их стоимость по API разрушает рынок: V4-Pro обойдется всего в $1,74 за миллион входных токенов и $3,48 за миллион выходных, что в десятки раз дешевле аналогичных моделей конкурентов.

 
платных тарифов в ChatGPT
Как раз у самого заканчивается тариф на Claude 
Вовремя, надо попробовать

Вообще, много зачётных новостей вышло за короткое время
Я даже не успеваю за ними