Midjourney и другие нейросети обработки изображений - страница 1183
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Копилот умеет рисовать. Не знал
MiniMax M2.7: Новая ступень эволюции нейросетей для разработчиков
//текст Gemini
Китайская ИИ-лаборатория MiniMax выпустила новую версию своей большой языковой модели — MiniMax M2.7. Обновление уже активно тестируется сообществом разработчиков и демонстрирует впечатляющие результаты, особенно в задачах написания кода и работы с RAG-системами (генерацией, дополненной поиском).
Ключевые особенности модели
Высокая производительность в программировании: В профильных бенчмарках (например, SWE-bench Pro) модель показывает результаты на уровне топовых коммерческих решений вроде Claude 4.6 Sonnet.
Скорость и эффективность: На локальных сборках M2.7 выдает отличную скорость (более 110 токенов в секунду на мощных системах), избегая при этом лишней «воды» при генерации кода.
Оптимизация для локального запуска: Несмотря на внушительный размер (предположительно, это архитектура Mixture-of-Experts объемом около 1 триллиона параметров), модель хорошо поддается квантованию. В 4-битном формате её можно запустить на серверах со 150–200 ГБ видеопамяти.
Качественная работа с инструментами: Модель отлично справляется с вызовом внешних функций (tool use), что делает её надежным выбором для построения сложных ИИ-агентов.
Текущие ограничения
На данный момент MiniMax M2.7 работает исключительно с текстом и программным кодом. В отличие от некоторых конкурентов, эта версия пока не поддерживает мультимодальный ввод — обработка изображений и аудио недоступна. Однако ожидается, что разработчики могут добавить эти функции в будущих обновлениях.
Релиз M2.7 подтверждает устойчивый тренд на создание сверхмощных открытых моделей, способных на равных конкурировать с закрытыми коммерческими флагманами и популярными западными разработками.
Unitree As2 — новая робособака, которая уже ближе к промышленному стандарту
//Текст ChatGPT. Собака тут - https://www.unitree.com/As2
Китайская компания Unitree Robotics представила новую модель четвероногого робота — Unitree As2. И если предыдущие версии были больше про демонстрацию технологий и исследовательские задачи, то As2 — это уже шаг в сторону реального промышленного применения.
Что это за робот
Unitree As2 — это компактная, но мощная робособака весом около 18 кг, ориентированная не на игрушки или обучение, а на работу в реальных условиях: стройки, инспекции, логистика, охрана.
По габаритам он близок к популярной модели Go2, но по заявлению производителя, его динамика примерно в 2 раза выше.
Ключевые характеристики
Скорость: более 5 м/с (≈ 18 км/ч)
Крутящий момент суставов: до 90 Н·м
Вес: около 18 кг
Грузоподъёмность:
до 65 кг в статике
~15 кг при движении
Автономность:
более 4 часов без нагрузки
до ~2.5 часов с грузом
Проходимость:
ступени до 25 см
уклоны до 40°
Защита: IP54 (дождь, пыль)
Проще говоря: это уже не «игрушка с ногами», а полноценная мобильная платформа.
Интеллект и начинка
As2 — это не просто механика. Внутри:
8-ядерный процессор
LiDAR + камеры
система автономной навигации
интеллектуальное следование за человеком
поддержка AI-моделей и внешних вычислительных модулей (например, Jetson)
Плюс важный момент — открытая платформа для разработки. Это значит, что его можно кастомизировать под свои задачи: от охраны до полностью автономных систем.
Где он реально нужен
Вот где такие роботы начинают приносить деньги, а не просто «вау-эффект»:
1. Инспекция и мониторинг
Заводы, энергетика, трубопроводы — там, где человеку опасно или дорого.
2. Логистика на сложной местности
Перенос грузов по лестницам, стройплощадкам, карьерам.
3. Охрана и патрулирование
С камерами, датчиками и ИИ — круглосуточно и без усталости.
4. Научные и военные задачи
Разведка, тестирование ИИ, автономные системы.
Главное отличие от прошлых моделей
Если сравнивать с тем же Go2:
в разы выше мощность
реально полезная грузоподъёмность
ориентация на бизнес, а не энтузиастов
По сути, As2 — это переход от «робота ради демонстрации» к роботу как инструменту.
Вывод
Unitree As2 — это показатель того, куда движется вся индустрия:
👉 компактные
👉 автономные
👉 достаточно мощные, чтобы заменить человека в ряде задач
И главное — такие роботы уже выходят из лабораторий в реальный сектор.
Если тренд сохранится, ближайшие 3–5 лет мы увидим их повсеместно: от складов до городских служб.
Xiaomi представила MiMo-V2: Загадочный "Hunter Alpha" раскрыт, и он наступает на пятки лидерам
//текст Gemini
Компания Xiaomi официально анонсировала новое поколение своих нейросетей — MiMo-V2. Главной сенсацией стал флагманский лонг-контекст ИИ MiMo-V2-Pro, который до релиза анонимно тестировался на платформах для разработчиков под кодовым именем Hunter Alpha. Модель успела обработать более триллиона токенов в рамках тестов и занять первые строчки в профильных рейтингах.
Что вошло в линейку MiMo-V2?
Релиз включает три основные модели, закрывающие полный спектр задач — от работы с кодом до генерации голоса:
MiMo-V2-Pro: Флагманская модель для сложной логики, программирования и работы AI-агентов.
MiMo-V2-Omni: Мультимодальная модель для глубокого понимания визуального контента.
MiMo-V2-TTS: Продвинутый голосовой движок с тонкой настройкой интонаций (поддерживает реалистичные вздохи, паузы и смену эмоций).
Характеристики и бенчмарки MiMo-V2-Pro
Флагман построен на гибридной архитектуре Mixture-of-Experts (MoE). Общий объем составляет около 1 триллиона параметров, из которых при генерации активны 42 млрд. Модель поддерживает огромное окно контекста — до 1 миллиона токенов.
За счет использования технологии Multi-Token Prediction (MTP) Xiaomi удалось добиться высочайшей скорости выдачи при низких затратах на инференс.
Как модель показывает себя в тестах: По данным авторитетного рейтинга Artificial Analysis Intelligence Index, MiMo-V2-Pro сходу ворвался в топ-8 самых умных мировых моделей.
Программирование: Превосходит показатели Claude 4.6 Sonnet.
Агентные задачи: В тестах ClawEval (использование внешних инструментов, браузера и автономная работа) модель демонстрирует результаты, вплотную приближенные к мощностям Claude 4.6 Opus и GPT-5.2.
По сути, Xiaomi создали не просто очередного «чат-бота», а полноценный «мозг» для автономных систем и агентов-разработчиков.
Цены и доступность
Xiaomi применяет агрессивную ценовую политику, предлагая тарифы в несколько раз ниже конкурентов. Стоимость для контекста до 256K токенов:
Input: $1 за 1 млн токенов.
Output: $3 за 1 млн токенов.
Кеширование (чтение): $0.20 за 1 млн токенов (запись в кеш на данный момент полностью бесплатна).
API уже открыто глобально. Отличная новость для разработчиков: Xiaomi запартнерилась с создателями популярных AI-фреймворков и инструментов, включая Cline, OpenClaw и Blackbox. В первую неделю после релиза доступ через них предоставляется бесплатно.
Официальные ссылки
Официальный портал проекта: mimo.xiaomi.com
Платформа для разработчиков и получение API: platform.xiaomimimo.com
Cursor выпустила Composer 2: собственную модель передового уровня для кодирования, которая быстрее, умнее и дешевле топовых конкурентов
//текст Grok 4.2
Сегодня, 19 марта 2026 года, Cursor официально представила Composer 2 — третье поколение своей собственной агентной модели, полностью заточенной под реальные задачи разработки прямо в IDE. Это не просто обновление, а серьёзный прорыв: модель показывает результаты на уровне лучших frontier-моделей, справляется с задачами на сотни шагов и стоит в разы дешевле аналогов от Anthropic и OpenAI.
Что нового в Composer 2
Бенчмарки
Сравнение с топовыми моделями для кодирования
Composer 2 — оптимальный баланс интеллекта, скорости и цены.
Цена за миллион токенов:
Для сравнения:
Быстрая версия Composer 2 всё равно заметно дешевле аналогичных быстрых режимов конкурентов при сопоставимом или лучшем качестве именно в агентных задачах внутри IDE. В плане Cursor Pro (20 $/мес) даётся щедрый лимит из отдельного пула. На командах — прямые цены по API.
Первые отзывы (уже через несколько часов после релиза)
Модель вышла буквально сегодня, но разработчики уже активно делятся впечатлениями:
Пользователи особенно хвалят соотношение цена/качество на длинных задачах и удобство внутри полноценной IDE с несколькими агентами и браузером.
Стоит ли переходить?
Если вы уже пользуетесь Cursor — однозначно да. Просто выберите Composer 2 в выпадающем списке моделей (быстрая версия включена по умолчанию). Тем, кто сейчас на Claude Code, GitHub Copilot или аналогах, Composer 2 даёт преимущество именно в скорости, цене и глубокой интеграции.
Ссылки для теста:
Cursor продолжает доказывать, что своя модель + глубокая интеграция в IDE — это будущее разработки. Ждём первых крупных кейсов! Если уже попробовали — пишите в комментариях, как оно работает. 🚀
Microsoft представила MAI-Image-2: новый ИИ-генератор изображений
//текст Gemini. Новость тут https://microsoft.ai/news/introducing-mai-image-2/
Команда Microsoft по разработке сверхразума под руководством Мустафы Сулеймана выпустила MAI-Image-2 — обновленную нейросеть, преобразующую текстовые запросы в высококачественные изображения. Новинка уже начала интегрироваться в экосистему продуктов компании и демонстрирует значительный прогресс по сравнению со своей предшественницей.
Ключевые особенности MAI-Image-2 По заявлениям разработчиков, модель создавалась в тесном сотрудничестве с профессиональными фотографами, дизайнерами и художниками. Главные преимущества генератора:
Высокая реалистичность: нейросеть отлично справляется с естественным освещением, сложной игрой теней и точной передачей оттенков кожи.
Работа с текстом: MAI-Image-2 способна корректно и без искажений отрисовывать типографику прямо на изображениях. Это делает её удобным инструментом для создания читаемых постеров, диаграмм и инфографики.
Универсальность: ИИ успешно генерирует как детализированные макроснимки (например, радужку глаза), так и масштабные, сюрреалистичные или природные сцены.
Позиции на рынке и конкуренция Первая версия фирменного генератора (MAI-Image-1), выпущенная в октябре 2025 года, не вызвала большого резонанса и находилась лишь на 9-й строчке профильных рейтингов. MAI-Image-2 совершила заметный скачок: модель с ходу заняла третье место в престижном лидерборде Arena.ai. Пока генератор уступает признанным лидерам индустрии — GPT-Image-1.5 от OpenAI и Nano Banana 2 от Google, однако Microsoft не скрывает планов продолжать активную борьбу за первенство в этой сфере.
https://arena.ai/leaderboard/text-to-image?rankBy=labs
Где попробовать? На данный момент MAI-Image-2 доступна для тестирования в MAI Playground (доступ зависит от региона), а также постепенно внедряется в Copilot и Bing Image Creator. Доступ к API пока открыт только для ограниченного числа корпоративных клиентов, но в скором времени появится для всех разработчиков через платформу Microsoft Foundry. Информацию о стоимости API, технических характеристиках и базах данных для обучения компания пока не раскрывает.
Итоги недели в ИИ: GPT-5.4 mini, революция агентов, анонсы NVIDIA и конкурент Midjourney от Microsoft
//текст и картинка Gemini 3.1. Информация частично переработана с нескольких источников, включая видео Мэтта.
Минувшая неделя оказалась невероятно насыщенной на события в мире искусственного интеллекта. Выход новых компактных моделей, прорывы в генеративном визуале, развитие автономных ИИ-агентов и крупные анонсы от гигантов индустрии — всё самое важное мы собрали в большом итоговом дайджесте.
🧠 Новые модели и архитектуры нейросетей
GPT-5.4 mini и nano от OpenAI: Выпущены компактные версии флагманской модели, заточенные под скорость и снижение затрат. Модель mini отлично справляется с кодом и работает вдвое быстрее предшественника, а nano предлагает экстремально низкую цену ($0,20 за 1 млн токенов) — идеальное решение для маршрутизации и базовых задач в ИИ-агентах.
1 миллион токенов контекста у Claude: Anthropic расширила окно контекста до 1 млн токенов для моделей Opus 4.6 и Sonnet. Теперь в нейросеть можно загружать колоссальные массивы данных или целые кодовые базы за один раз.
Mistral Small 4: Выпущена открытая MoE-модель на 119B параметров с окном контекста 256k. Она объединяет в себе работу с кодом, зрением и инструкциями, хотя в независимых бенчмарках пока слегка уступает конкурентам от Qwen.
MiniMax M2.7: Разработчики представили проприетарную «саморазвивающуюся» модель для ИИ-агентов. Она способна автономно брать на себя от 30% до 50% задач по собственному дебаггингу и написанию кода.
Mamba 3: Состоялся релиз новой open-source архитектуры State Space Model (SSM). В отличие от классических трансформеров, она не перечитывает весь контекст заново, что позволяет сохранять высокую скорость работы при очень длинных диалогах.
Cursor Composer 2: Авторы популярной IDE выкатили собственную модель для программирования. На бенчмарках она держится на уровне GPT-5.4 и Opus 4.6, но обходится разработчикам значительно дешевле.
🎨 Генеративный визуал и дизайн
Midjourney V8 Alpha: Запущена ранняя альфа-версия. Обещано ускорение генерации в 4–5 раз и нативное разрешение 2K. Однако пока тестеры отмечают проблемы с анатомией и артефактами — модель явно недотренирована.
Microsoft MAI-Image-2: Мощный и неожиданный релиз. Новая модель от Microsoft делает ставку на фотореализм, кинематографичное освещение, физику воды и микродетали. Она также великолепно генерирует текст на изображениях, составляя серьёзнейшую конкуренцию Midjourney.
Runway Characters: Появилась возможность создавать реалистичные видео-аватары по одной фотографии. Персонажи могут общаться с пользователями в реальном времени с идеальным липсинком — готовое решение для техподдержки и маркетинга.
Google Stitch: Обновлённый инструмент для ИИ-дизайна (из-за которого упали акции Figma). Нейросеть генерирует целые UI-прототипы и дизайн-системы по тексту или скриншоту с возможностью последующего экспорта.
🔧 ИИ-агенты и экосистемы
Full-stack разработка в Google AI Studio: Google превратила платформу в среду для «вайбкодинга». Теперь ИИ-агент может по одному промпту собрать фронтенд, подключить базу данных Firebase и развернуть готовое приложение прямо из браузера.
Персонализация Gemini: Google начала открывать доступ к функции Personal Intelligence для бесплатных пользователей. Теперь Gemini может анализировать ваши Gmail, Google Docs и Календарь для более точных и персонализированных ответов.
Развитие фоновых агентов для ПК: В Claude Cowork добавили функцию Dispatch — это фоновый агент, которому можно непрерывно поручать задачи.
NVIDIA Nemo Claw: NVIDIA выпустила безопасную «обёртку» для установки популярных агентов (вроде OpenClaw) в одну команду. Она добавляет дополнительные слои безопасности и приватности для запуска агентов на локальных машинах.
🧩 Индустрия, железо и общество
Громкие анонсы NVIDIA GTC: Дженсен Хуанг представил технологию DLSS 5 для генерации графики в играх, анонсировал дата-центры для космоса (Space 1 Vera Rubin) и спрогнозировал достижение продаж чипов на сумму в 1 триллион долларов к 2027 году.
Свои чипы от Tesla: Илон Маск анонсировал строительство собственного частного завода Tesla Terafab за $25 млрд для снижения зависимости от монополии TSMC.
Роботакси и данные для ИИ: Uber инвестирует $1.25 млрд в стартап Rivian для развертывания сети из 10 000 автономных машин. Тем временем DoorDash запустила программу AI Tasks — теперь людям будут платить за видеосъемку повседневных задач, чтобы собирать физические данные для обучения ИИ.
ИИ и рынок труда: Андрей Карпаты (Andrej Karpathy) опубликовал удобный визуализатор рынка труда США. Данные показывают падение спроса на офисных клерков и кассиров, но стабильный рост потребности в разработчиках, тестировщиках и профессиях физического труда.
Немного курьезов: В Китае энтузиасты массово автоматизируют разведение омаров с помощью агентов OpenClaw; один стартап платит людям по $100 в час за агрессивные диалоги и буллинг ИИ (для стресс-тестов); а в Макао робота задержали за то, что он напугал пенсионерку.
Сбер выпустил GigaChat 3.1: открытые веса, долгосрочная память и новые рекорды в бенчмарках
//текст и обложка Gemini 3.1
Сбер представил масштабное обновление своего семейства моделей искусственного интеллекта — GigaChat 3.1. Главным событием стал выход флагманских нейросетей с открытыми весами по лицензии MIT. Это позволяет разработчикам и бизнесу абсолютно свободно разворачивать ИИ на своих серверах, дообучать его под корпоративные данные и использовать в коммерческих продуктах.
Какие модели вошли в релиз?
На странице официальной коллекции ai-sage на Hugging Face опубликованы две новые MoE-модели (Mixture of Experts). Обе доступны как в классическом формате bf16 , так и в оптимизированных квантованных версиях GGUF :
GigaChat 3.1 Ultra (702B-A36B) — тяжеловесный флагман с 702 млрд параметров (36 млрд активных параметров при генерации). Модель предназначена для сложных вычислений, глубокого анализа, написания кода и продвинутого логического рассуждения.
GigaChat 3.1 Lightning (10B-A1.8B) — легкая и эффективная модель на 10 млрд параметров (1.8 млрд активных). Отличный выбор для запуска на локальном оборудовании и решения базовых задач с высокой скоростью.
Что нового в GigaChat 3.1?
Помимо обновления архитектуры, кардинально улучшился пользовательский опыт во взаимодействии с чат-ботом:
Долгосрочная память. Ассистент научился запоминать факты о пользователе (профессию, хобби, вкусы, информацию о питомцах) между сессиями. Это делает общение более персонализированным. Данные синхронизируются через Сбер ID между веб-версией, мобильными приложениями и Telegram-ботом.
Поиск в интернете. Нейросеть теперь может самостоятельно искать актуальную информацию в сети в реальном времени, если того требует запрос пользователя.
Умный голосовой режим. В мобильных приложениях появился полноценный голосовой диалог: ИИ можно перебивать, просить уточнить детали или резко менять тему разговора. При этом в чате сохраняется полная текстовая расшифровка.
Двойное ускорение. Скорость генерации ответов выросла в два раза по сравнению с предыдущими версиями. Кроме того, тестировать и проверять программный код теперь можно прямо в интерфейсе чата.
Бенчмарки и производительность
По внутренним оценкам Сбера, новая модель показывает выдающиеся результаты. В задачах на русском языке, математике и общих рассуждениях GigaChat 3.1 Ultra превосходит такие сильные открытые решения, как DeepSeek V3.1 и Qwen3-235B, а также оставляет далеко позади предыдущее поколение GigaChat 2 Max.
Мозг как система с нейроагентами. Инструкция по оптимизации
//Обложка Gemini 3.1. Текст Grok 4.20 на основе авторских мыслей и наблюдений. Некоторые вещи воспринимайте как метафору. Не смотря на это, Grok подогнал много научно обоснованного, что подтвердили другие ИИ при анализе текста. Написано в развлекательных целях, не является руководством или любым иным обучающим материалом.
Представьте, что ваш мозг — это не один большой компьютер, а целая команда умных помощников. Одни работают в фоновом режиме, другие отвечают мгновенно, а третьи следят за тем, чтобы ничего не сломалось. Учёные называют это многоагентной системой (multi-agent system): мозг состоит из множества «нейроагентов» — небольших подсистем, которые решают задачи параллельно. Каждый такой агент тратит ограниченное количество «токенов» — это ментальная энергия, глюкоза и нейромедиаторы вроде дофамина и ацетилхолина.
Если понимать мозг именно так, то становится понятно, почему иногда мы выгораем, а иногда идеи приходят сами собой во сне. В этой статье мы разберём, как устроена эта система, где её лимиты и как её оптимизировать, чтобы цели достигались легко, а не превращались в бесконечный цикл усталости.
1. Как работают нейроагенты: фоновый режим и быстрые ответы
Мозг постоянно запускает фоновые агенты — они решают задачи, даже когда вы думаете о другом. Классический пример: учёный долго бьётся над сложной проблемой, а решение приходит во сне. Это не магия. Агент принял задачу, крутил её в фоне (в так называемой сети режима по умолчанию мозга), а потом выдал готовый результат.
Есть и быстрые мини-агенты. Они отвечают «не подумав» — например, когда вы автоматически реагируете на вопрос или ситуацию. Потом, уже вечером, вы вдруг понимаете: «Надо было сказать по-другому!» Это работает как двухуровневая система: одна часть выдаёт быстрый ответ, вторая — более глубокий — проверяет его позже.
А ещё мозг имеет жёсткие ограничения по «кадрам». Если вы внимательно смотрите на большой быстро движущийся объект (например, проезжающий поезд или волну), картинка может начать дёргаться, как будто видео тормозит. Это не глаза виноваты — это зрительная кора мозга не успевает обработать всё в высоком разрешении. Она экономит токены и пропускает кадры. То же самое происходит с мыслями: слишком сложная задача сразу перегружает систему.
2. Почему большие цели иногда «ломают» нас
Когда вы ставите очень большую цель, фоновые агенты начинают её активно «пинать»: напоминают, вызывают беспокойство, жгут энергию. Но если у мозга не хватает нужных навыков, цель не решается — она просто крутится в цикле. Это как слабая модель искусственного интеллекта: сколько ни думай, математику высокого уровня она не потянет.
Результат? Хроническая усталость, прокрастинация или даже «спасительная» болезнь — организм буквально выключает человека, чтобы дать отдых. Это негативная сторона.
Хорошая новость: мозг может держать цель в фоне годами. Человек повесил фото большого дома как мечту — и через двадцать лет купил именно его, хотя уже и забыл про картинку. Фоновый агент работал тихо, но постоянно.
3. Как правильно ставить запросы, чтобы агенты помогали, а не вредили
Главное правило — не просто мечтать, а использовать проверенный метод WOOP (Желание — Результат — Препятствие — План). Он защищает от разочарования и запускает агентов эффективно:
Такой подход превращает расплывчатую мечту в работающую задачу. Фоновые агенты теперь не просто жгут токены — они ищут реальные пути.
4. Счётчик токенов: как понять, сколько энергии уходит на задачу
Мозг — не бесконечный процессор. Вот простые сигналы перегрузки:
Одновременно можно держать в фоне 1–2 сложные задачи. Всё остальное — в очередь. Ведите простой дневник вечером: «Какая задача сколько энергии забрала?» Через неделю вы начнёте видеть, какие цели полезны, а какие только жгут ресурсы.
5. Самое важное: прокачивайте навыки, чтобы агенты стали «сильными»
Вот ключевой момент. Даже самые мотивированные фоновые агенты ничего не сделают, если у вас нет нужных навыков. Слабая «базовая модель» мозга (мало проложенных нейронных путей) — и цель превращается в вечный цикл. Сильная модель — и задача решается быстро и с минимальными затратами энергии.
Решение — осознанная практика (deliberate practice). Это не просто повторение, а:
Пример: хотите свой бизнес? Сначала прокачайте три навыка: умение считать деньги, вести переговоры и управлять временем. Через 4–8 недель фоновые агенты перестанут «пинать» — они начнут помогать, потому что теперь у мозга есть инструменты.
Ещё приёмы ускорения:
6. Биологические лайфхаки: как быстро восполнять токены
7. Практическая инструкция на каждый день
Заключение: почему это работает для всех
Мозг — удивительная система. Если относиться к нему как к команде нейроагентов с ограниченным бюджетом, то жизнь становится проще и эффективнее. Вы перестаёте тратить силы на бесполезные циклы и начинаете направлять энергию туда, где она приносит результат.
Начните с малого: сегодня вечером выберите одну цель, прогоните её через WOOP и запишите три навыка, которые нужно прокачать в первую очередь. Уже через пару недель вы почувствуете, как фоновые агенты работают на вас, а не против.
Ваш мозг уже умеет всё это. Нужно только дать ему правильную инструкцию. Удачи в оптимизации — и пусть токены всегда будут в плюсе!