Midjourney и другие нейросети обработки изображений - страница 1192
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Жаль только, что она dense, а не moe. Последняя позволяет часть слоёв выносить с VRAM в RAM, когда её не хватает. А так и 32 Gb VRAM скорее всего не хватит.
В LM Studio скачал. Частично залезла в видеокарту и часть в RAM, но 4 токена в секунду удручает. Держу только GemmaЕ4B для сео-рерайта. Теперь понимаю, зачем ставить в системник две видеокарты. Ждём версию на 12B, надеюсь выйдет.
С другой стороны, такое развитие легковесных моделей по любому отразится на качестве ИИ разных стран. Дообучить только и всё, а так очень лёгкая (коммерчески выгодно) и всего на пару ступеней хуже топов.
В LM Studio скачал. Частично залезла в видеокарту и часть в RAM, но 4 токена в секунду удручает. Держу только GemmaЕ4B для сео-рерайта. Теперь понимаю, зачем ставить в системник две видеокарты. Ждём версию на 12B, надеюсь выйдет.
С другой стороны, такое развитие легковесных моделей по любому отразится на качестве ИИ разных стран. Дообучить только и всё, а так очень лёгкая (коммерчески выгодно) и всего на пару ступеней хуже топов.
Вынос слоёв у dense резко снижает скорость. А у moe - практически нет, за счёт мизерного увеличения perplexity (ну, ухудшения качества, грубо говоря).
Однако, после выхода модели на huggingface появляются кастомизированные версии. Возможно, кто-то переделает. Квантизация модели - лёгкая операция. Я только не уверен, можно ли так просто изменить модель с dense на moe.
А вообще, когда бесплатные модели одна за другой становятся платными или снижают лимиты до неюзабельных величин, а платные резко повышают цены, локальные модели скоро станут единственным вариантом для многих некоторых. Хотя и видеокарты дороги. Но начинают появляться NN-сопроцессоры и даже блоки в процах. Посмотрим, куда придёт прогресс.
В LM Studio скачал. Частично залезла в видеокарту и часть в RAM, но 4 токена в секунду удручает. Держу только GemmaЕ4B для сео-рерайта. Теперь понимаю, зачем ставить в системник две видеокарты. Ждём версию на 12B, надеюсь выйдет.
С другой стороны, такое развитие легковесных моделей по любому отразится на качестве ИИ разных стран. Дообучить только и всё, а так очень лёгкая (коммерчески выгодно) и всего на пару ступеней хуже топов.
У меня 16 VRAM и 32 RAM. Поставил Gemma 4 26b a4b. Часть на VRAM часть на RAM. Работает на удивление быстро, даже при условии 64к токенов контекста, около 35 токенов сек. Сравнивал с Qwen 3.6 27b - он медленнее, а результаты почти аналогичные. По крайней мере в тех тестах которые я делал локально.
KIMI отчитывает мнения других чатботов на один мой промпт про кодирование

Xiaomi MiMo V2.5 Pro: Нейросеть, которая пишет программы и экономит ваши ресурсы
//текст и обложка Gemini 3.1. Новость тут - https://mimo.xiaomi.com/mimo-v2-5-pro
Выход MiMo V2.5 Pro ознаменовал переход Xiaomi от статуса «догоняющего» к роли одного из технологических лидеров в сфере искусственного интеллекта. Новая модель — это не просто чат-бот, а полноценный автономный агент, способный решать комплексные инженерные задачи.
Технический фундамент: 1 триллион параметров
В основе MiMo V2.5 Pro лежит обновленная архитектура Hybrid Attention и система MoE (Mixture of Experts). Общий объем параметров модели превышает 1 триллион, однако благодаря MoE-подходу в каждый момент времени задействуется лишь около 42 млрд активных параметров. Это позволило достичь невероятной скорости генерации — до 150 токенов в секунду.
Ключевые характеристики:
Контекстное окно: 1 000 000 токенов (эквивалент нескольких сотен книг или огромного репозитория кода).
Мультимодальность: Глубокий анализ аудио (до 10 часов) и видеопотока в реальном времени.
Интеграция: Глубокая связь с экосистемой HyperOS.
Главный прорыв: От текста к созданию софта
Самым впечатляющим моментом презентации стала демонстрация автономности ИИ. MiMo V2.5 Pro — это больше не «советчик» для программиста, а самостоятельный разработчик.
В качестве примера была представлена история создания полноценного видеоредактора, который нейросеть написала с нуля. ИИ самостоятельно:
Спроектировал архитектуру приложения.
Написал фронтенд и бэкенд части.
Реализовал сложные математические алгоритмы для обработки видео.
Способность «удерживать» в памяти контекст всего проекта целиком позволяет модели избегать ошибок в логических связях, которые часто возникают у менее мощных систем при работе с большими массивами кода.
Экономика токенов: Адаптивное сжатие
Одной из «скрытых» революций в версии 2.5 Pro стала система умного расхода ресурсов. В то время как обычные модели тратят вычислительную мощность равномерно, MiMo использует алгоритм адаптивного сжатия контекста.
Экономия до 40%: Благодаря новой системе токенизации, информация упаковывается значительно плотнее. Это позволяет пользователям передавать больше данных, не переплачивая за «пустые» вычислительные циклы.
Приоритетное внимание: ИИ научился мгновенно определять ключевые переменные в запросе, отсекая информационный «шум» и фокусируя ресурсы на критически важных узлах логики.
Бенчмарки и позиции на рынке
По результатам независимых тестов, новинка от Xiaomi уверенно конкурирует с ведущими мировыми решениями от крупнейших западных лабораторий:
Эмоциональный интеллект и звук
Помимо сухих расчетов, MiMo V2.5 Pro получила обновленный модуль синтеза речи MiMo-V2-TTS. Система способна передавать тончайшие эмоциональные оттенки, имитировать вокал и подстраиваться под манеру общения пользователя, что делает взаимодействие с ИИ на смартфонах Xiaomi максимально естественным.
Итог
Xiaomi MiMo V2.5 Pro стирает грань между «помощником» и «исполнителем». Умение писать готовый софт, работать с гигантским контекстом и при этом экономить ресурсы за счет оптимизации токенов делает эту модель одним из самых привлекательных инструментов для бизнеса и разработчиков в 2026 году.
OpenAI представила GPT-5.5: ИИ окончательно стал автономным сотрудником
//Текст и обложка Gemini 3.1. Новость https://openai.com/index/introducing-gpt-5-5/
23 апреля 2026 года OpenAI официально выпустила GPT-5.5 — свою самую мощную и независимую модель. Если предыдущие поколения нейросетей были скорее продвинутыми консультантами, требующими постоянных уточнений и контроля, то новинка позиционируется как полноценный «цифровой агент». Она способна брать сложные, многосоставные задачи, самостоятельно планировать шаги и доводить работу до финального результата.
С этим релизом эпоха GPT-4o окончательно уходит в прошлое, уступая место совершенно новой парадигме взаимодействия с ИИ.
🧠 Главные сильные стороны GPT-5.5
OpenAI сосредоточилась на решении главных проблем предыдущих поколений: потере контекста на длинных дистанциях и неспособности ИИ самостоятельно исправлять свои ошибки в процессе работы.
Новая архитектура предлагает три фундаментальных преимущества:
Беспрецедентная автономность (Агентность): GPT-5.5 не просто генерирует текст или код по запросу. Модель способна декомпозировать глобальную задачу на подзадачи, использовать внешние инструменты (браузер, терминал, редакторы кода) и перепроверять саму себя. Если скрипт выдает ошибку, ИИ сам читает логи, вносит правки и перезапускает процесс без участия человека.
Глубокий цикл рассуждений (Thinking): Флагманская версия модели использует динамическую функцию «цепочки мыслей» (Chain-of-Thought). При решении задач по высшей математике, архитектуре баз данных или глубокому ресерчу, модель сначала формирует скрытое дерево логических решений, отбрасывая тупиковые ветви.
Масштабное программирование: Интеграция с обновленным Codex позволяет GPT-5.5 уверенно ориентироваться в репозиториях на десятки тысяч строк кода. Она может провести масштабный рефакторинг целого проекта, не ломая зависимости.
📊 Бенчмарки и «подкапотная» магия
Технические показатели подтверждают качественный скачок:
Expert-SWE: На одном из самых сложных внутренних тестов по программированию, где задачи рассчитаны на 20 часов работы Senior-разработчика, GPT-5.5 показала результат в 73,1% успешных решений (рекордный показатель на рынке).
Оптимизация токенов: При значительно возросшем IQ модели, задержка (latency) осталась на уровне прошлых версий. Более того, ИИ теперь тратит меньше токенов на достижение результата благодаря более прямолинейной и точной логике.
Аппаратная база: Вычислительная мощь модели опирается на новейшие серверные кластеры NVIDIA GB200 и GB300 NVL72, что обеспечивает стабильную работу даже при пиковых нагрузках.
⚔️ Расстановка сил на рынке
В условиях жесткой конкуренции 2026 года с линейками Gemini 3 от Google и семейством Claude от Anthropic, GPT-5.5 делает ставку именно на формат «ИИ-исполнителя».
Конкуренты по-прежнему сильны в удержании гигантских контекстных окон и литературной генерации, но новинка от OpenAI выигрывает в реальных рабочих пайплайнах. GPT-5.5 задает меньше глупых уточняющих вопросов на старте и реже «галлюцинирует» при работе с жесткими фактами и цифрами, превращаясь в надежный инструмент для B2B-сегмента.
💬 Реакция сообщества и первые тесты
Техническое комьюнити на профильных площадках вроде Hacker News уже активно тестирует модель в "боевых" условиях:
Создание игр с нуля: Разработчики делятся примерами, где GPT-5.5 за пару часов собирает играбельные 3D-прототипы на Three.js, полностью забирая на себя физику, архитектуру классов и интерфейс.
Анализ данных: Финансовые аналитики отмечают способность модели "переваривать" десятки PDF-отчетов одновременно, выстраивая точные корреляционные модели без потери мелких сносок.
Ложка дегтя: Несмотря на восторги, есть и справедливая критика. Сообщество недовольно тем, что десктопные клиенты всё ещё не имеют идеальной нативной интеграции с локальными файловыми системами через MCP (Model Context Protocol), из-за чего для сложной локальной разработки приходится использовать сторонние инструменты.
🛡️ Безопасность нового уровня
Понимая риски автономных ИИ-агентов, OpenAI внедрила самую строгую систему контроля. GPT-5.5 прошла многомесячные испытания (Red-teaming) на устойчивость к кибератакам и генерации опасного контента. Дополнительно был запущен OpenAI Privacy Filter — инструмент для автоматического вымарывания конфиденциальных и персональных данных (PII) из запросов, что критически важно для корпоративной безопасности.
Итог: Релиз GPT-5.5 — это водораздел. Индустрия окончательно переходит от чат-ботов, с которыми нужно уметь правильно "разговаривать", к цифровым инженерам, которым достаточно просто поставить четкую цель.
//вторая обложка OpenAI Images 2.0
DeepSeek V4 официально вышел: 1 миллион токенов контекста, открытые веса и новый лидер среди ИИ
//текст и лого от Gemini 3.1. Тех.отчёт (https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf) и модели (https://huggingface.co/collections/deepseek-ai/deepseek-v4)
24 апреля 2026 года состоялся один из самых ожидаемых релизов года в индустрии искусственного интеллекта. После череды слухов и длительного этапа тестирования компания DeepSeek представила четвертое поколение своих флагманских моделей — DeepSeek V4.
Новинка с ходу задает новые стандарты для open-source решений и бросает серьезный вызов проприетарным гигантам. Главные козыри релиза: гигантское контекстное окно, феноменальные агентные возможности и сохранение приверженности открытому коду.
Версии и технические характеристики
Линейка V4 представлена двумя основными моделями: тяжеловесной V4-Pro и оптимизированной V4-Flash. Обе модели теперь по умолчанию поддерживают работу с контекстом в 1 000 000 токенов.
DeepSeek-V4-Pro
Размер: 1,6 трлн параметров (49 млрд активных в режиме Mixture-of-Experts).
Позиционирование: Максимальная производительность, сопоставимая с лучшими в мире закрытыми моделями.
Особенности: Невероятная точность в сложных математических вычислениях, точных науках (STEM) и программировании. Модель позиционируется как state-of-the-art (SOTA) решение для кодинг-агентов.
DeepSeek-V4-Flash
Размер: 284 млрд параметров (13 млрд активных).
Позиционирование: Оптимизированная версия для быстрого инференса и массового использования.
Особенности: Предлагает возможности рассуждения (reasoning) и решения базовых агентных задач практически на уровне Pro-версии, но при этом выдает более высокую скорость отклика и имеет крайне выгодную стоимость API.
Бенчмарки и сравнение с конкурентами
Анализ первых тестов и агрегированных данных бенчмарков показывает впечатляющую картину:
Доминирование в точных науках: DeepSeek V4 превосходит все текущие открытые модели в задачах Math, STEM и Coding, выступая на равных с топовыми коммерческими нейросетями.
Агентные задачи (Agentic AI): В тестах на самостоятельное решение многосоставных задач (что является главным вызовом для индустрии в 2026 году) V4-Pro демонстрирует выдающиеся результаты. По ряду сложных агентных метрик модель уверенно обходит таких гигантов, как GPT-5.3 и Claude Opus 4.6.
Общие знания о мире: По объему и точности фактических знаний модель показала потрясающие результаты, уступив в этом сегменте только Gemini 3.1 Pro.
Ключевые особенности обновления
В отличие от многих конкурентов на рынке, DeepSeek продолжает стратегию открытости. Флагманские модели выпущены с полностью открытыми весами и исходным кодом.
Среди важных нововведений также стоит отметить:
Прорыв в долгосрочной памяти (LTM): Модель научилась значительно лучше удерживать контекст на сверхдлинных дистанциях (до 1 млн токенов) без критической потери внимания к деталям.
Интеграция из коробки: Разработчики заявляют о бесшовной и легкой интеграции V4 в популярные инструменты разработки, такие как Claude Code, OpenClaw и OpenCode.
Отзывы сообщества и комментарии в сети
Реакция на профильных форумах и площадках для разработчиков преимущественно восторженная:
Инди-разработчики и стартапы отмечают, что V4-Flash — это настоящий подарок для создания быстрых ИИ-приложений. Контекст в миллион токенов при высокой скорости позволяет анализировать огромные базы кода или библиотеки документов «на лету».
Энтузиасты open-source празднуют релиз полных весов V4-Pro. Хотя для запуска модели в 1,6 трлн параметров требуются серьезные серверные мощности (или сильное квантование до GGUF Q4), сам факт бесплатного доступа к нейросети такого уровня вызывает огромное уважение в комьюнити.
Исследователи и скептики пока ждут более глубоких и независимых тестов на «галлюцинации» при максимальном заполнении окна в 1 миллион токенов (задача "needle in a haystack"), однако первые отзывы по работе с LTM внушают оптимизм.
Заключение
Релиз DeepSeek V4 доказал, что модели с открытым исходным кодом способны не просто догонять, но и в ряде дисциплин уверенно обходить самые дорогие закрытые нейросети. С выходом версий Pro и Flash разработчики по всему миру получили мощный, гибкий и доступный инструмент, который несомненно задает высокую планку для всех будущих релизов этого года.
Главные ИИ-новости недели: релиз GPT-5.5, ChatGPT Images 2.0 и новые инструменты
//текст и обложка Gemini 3.1. Частично на базе видео Мэтта https://youtu.be/jsP-eRriC0k
Прошедшая неделя оказалась невероятно насыщенной на релизы новых моделей и полезных инструментов для разработчиков и креаторов. Сразу несколько крупных игроков представили обновления, которые выводят взаимодействие с нейросетями на новый уровень.
OpenAI: GPT-5.5 и генерация изображений нового поколения
Выход GPT-5.5: OpenAI выкатила новую модель, которая уже доступна подписчикам платных тарифов в ChatGPT. Главное её преимущество — способность «делать больше с меньшими затратами». Модель лучше улавливает контекст и намерения из коротких и расплывчатых промптов, выдавая качественный и персонализированный результат. Кроме того, она тратит меньше токенов при генерации кода. Стоимость по API составит $5 за 1 млн токенов на вход и $30 на выход.
ChatGPT Images 2.0: Новая модель для генерации изображений показала феноменальные результаты. Она научилась генерировать плотный и читаемый текст, рисовать сложную инфографику, создавать 360-градусные панорамы и даже рабочие штрих-коды (которые можно отсканировать смартфоном). В слепых тестах она уверенно обходит Gemini 3.1 Flash Image.
Нишевые решения: Представлена открытая модель OpenAI Privacy Filter для маскировки конфиденциальных данных прямо на локальном устройстве, а также бесплатная версия ChatGPT для американских медицинских работников.
Anthropic: Визуальный дизайн и утечка "пугающей" модели
Claude Design: В Claude появился отдельный раздел для дизайнеров и маркетологов. Нейросеть научилась генерировать прототипы сайтов, красивые дашборды и даже базовые анимации (в стиле Adobe After Effects) просто по текстовому запросу.
Live Artifacts: Новый формат артефактов, который позволяет создавать дашборды, обновляющиеся в реальном времени при подключении внешних файлов или источников данных.
Инцидент с моделью Mythos: Модель, которую Anthropic ранее отказалась выпускать из-за того, что она «слишком пугающая и мощная», утекла в сеть. Неавторизованные пользователи получили к ней доступ, хотя в компании заявляют, что на безопасность систем это пока никак не повлияло.
Целая россыпь новых ИИ-моделей
Google DeepMind анонсировала Deep Research Max — продвинутого автономного агента для глубокого ресерча и исследований.
Alibaba выпустила сразу две модели: проприетарную Qwen 3.6 Max и открытую Qwen 3.6 27B, которые показывают отличные результаты в написании кода и выполнении агентских задач.
ИИ-стартап Kimi представил открытую модель Kimi K2.6. Она превосходит многих признанных лидеров (таких как Claude 4.6 Opus) в написании кода, работе с WebGL и создании параллельных ИИ-агентов.
Обновления полезных сервисов
Терминал для разработчиков Warp получил поддержку универсальных агентов (например, Claude Code), что позволяет программировать и дебажить проекты несколькими нейросетями одновременно.
В генераторе изображений Ideogram появилась долгожданная функция создания кастомных моделей: теперь можно загрузить свои картинки и обучить ИИ рисовать в конкретном уникальном стиле.
Социальная сеть X добавила функцию создания кастомных лент новостей, которые алгоритм Grok формирует индивидуально под интересы пользователя.
А в Китае в это время антропоморфные роботы приняли участие в полумарафоне и успешно пробежали дистанцию быстрее многих людей (менее чем за час).
⚡ Что Мэтт забыл упомянуть: Долгожданный релиз DeepSeek V4
Мэтт упустил, возможно, самое важное событие для open-source сообщества на этой неделе — выход новых флагманских моделей DeepSeek V4-Pro и V4-Flash.
Китайский стартап выпустил их с открытыми весами и гигантским окном контекста на 1 миллион токенов. Версия V4-Pro имеет архитектуру на 1,6 трлн параметров (из которых 49 млрд активных). Новые модели показывают выдающиеся агентские способности, а их стоимость по API разрушает рынок: V4-Pro обойдется всего в $1,74 за миллион входных токенов и $3,48 за миллион выходных, что в десятки раз дешевле аналогичных моделей конкурентов.
Вовремя, надо попробовать
Вообще, много зачётных новостей вышло за короткое время
Я даже не успеваю за ними