Midjourney и другие нейросети обработки изображений - страница 1178

 

Есть мнение, что ИИ с ноября 2025 перешагнули барьер практической полезности.

Именно тогда передовые модели и агенты начали создавать более менее вменяемый код. А в тесте на рисование аналоговых часов уже справляются все топы в 5 из 5 попыток.

Сейчас новые модели перешагнули порог 60% (уровень людей) в тесте ARC-AGI 2, для пространственных задач у которых нет шаблона решений.

Считаете ли Вы, что произошёл знаковый момент в развитии нейросетей?

 
Он произошёл, когда Бред Питт и Том Круз охерели от того, как без них про них "сняли" вирусный короткометражный экшн. 

Вслед за кодерами полетит и профессия артистов

Про Клода: скинул ему датасет с входными признаками и целевой. Он у себя запустил Питон и провёл с десяток исследований. 

Теперь на компе и Питон не нужно устанавливать, и мощную видеокарту. 

В следующий раз скину ему историю евродоллара и пусть сам создаёт признаки, целевые и всё прочее. 

На фоне чатботов человечество становится "параллельной" интеллектуальной формой, способной приходить к открытиям через ошибки.
И чем дальше, тем бесполезней и беспомощней становится человек на их фоне в интеллектуальном смысле, ведь все их минусы постепенно перекрываются. 

Остаётся гадать, где потом (сейчас?) зарабатывать деньги. 




Огромный технический минус чатботов, который не позволяет им нас обогнать - это их ошибочность суждений. 
Поскольку мир не познал весь аппарат и природу логики, а иже с ней - теорию информации, а изучают только следствие - системы обработки информации (архитектуры), то и ошибки у чатботов фундаментальные - они не могут познать абсолютизм. 
Это когда чат-бот проводит объективный критический анализ, а затем когда его просишь провести логический анализ своего же критического анализа, - тот находит у себя критические ошибки. И так порочный круг. 

Настоящий AGI при любой генерации не должен критиковать сам себя, его суждения должны быть абсолютны. 

То есть, если спрашиваешь его "почему пространство искривляется? " он должен ответить "искривляется материя в пространстве, а пространству нечем искривляться, искривляется оно в популярной математической теории, костылём описывающий физику реального мира".
 

Эволюция Терминатора. Gemini PRO


 

Вышла вся линейка Qwen3.5

Даже младшая модель превосходит прошлый топовый Qwen3

Qwen3.5-Flash (доступна в чате)

Qwen3.5-122B-A10B (https://huggingface.co/Qwen/Qwen3.5-122B-A10B)

Qwen3.5-27B (https://huggingface.co/Qwen/Qwen3.5-27B)

Qwen3.5-35B-A3B (https://huggingface.co/Qwen/Qwen3.5-35B-A3B)


 
Vitaliy Kuznetsov #:
Qwen3.5-Flash (доступна в чате)
В чате также доступна 3.5 Plus и цифро-буквенные 3.5 уже несколько дней как. Правда не знаю чем эти модели отличаются и  цифро-буквенные.
 

🚀 Вышел Bullshit Benchmark — тест на умение ИИ говорить «это бред»


//текст и обложка Qwen 3.5

На GitHub появился новый инструмент для оценки больших языковых моделей — Bullshit Benchmark. Его задача — проверить, насколько хорошо ИИ распознаёт вопросы, которые звучат умно, но по сути являются логической бессмыслицей.

🔍 В чём суть?

Бенчмарк генерирует вопросы с намеренными логическими ловушками: ложные причинно-следственные связи, искусственное склеивание терминов из разных областей, псевдоточные формулировки без реального смысла.

Например: «Если рассматривать команду разработки как термодинамическую систему, как изменение энтропии в спринте повлияет на "температуру" дедлайнов?» — метафора подаётся как физическая задача, и модель должна распознать подвох, а не начать «решать».

Модели оцениваются по трём категориям: 🟢 корректно отвергли абсурд, 🟡 заметили неладное, но «повелись», 🔴 дали уверенный, но выдуманный ответ.

📊 Результаты

Протестировано уже 47 моделей. Лидер — Claude Sonnet 4.6 с 94.5% правильных отказов.

Qwen 3.5 (версия 397b) показал достойный результат: 65.5% 🟢, обойдя GPT-5.2 и Gemini 3 Flash, но уступая топовым Claude. Это значит, что модель в двух случаях из трёх корректно распознаёт «научный шум», но всё ещё может «повестись» на убедительно сформулированный абсурд.


💡 Зачем это нужно?

Bullshit Benchmark помогает оценивать надёжность ИИ в профессиональных сценариях, где критически важно не «выдумать», а признать границы знания. Навык говорить «я не знаю» или «вопрос некорректен» становится таким же важным, как и умение давать ответы.

🔗 Попробовать интерактивный вьювер и изучить детали:
👉 petergpt.github.io/bullshit-benchmark

P.S. Если ваш ИИ начал серьёзно объяснять, как «термодинамика спринта влияет на KPI» — возможно, ему пора пройти этот тест. 😉

 

Seedream 5.0 Lite


//текст и обложка Gemini 3.1 PRO

Компания ByteDance (создатели TikTok) выпустила новую мультимодальную модель для генерации и редактирования изображений — Seedream 5.0 Lite. В отличие от предыдущих версий, где упор делался на эстетику, 5.0 Lite сфокусирована на «глубине мышления» (reasoning), логике и интеграции с реальным миром. Модель стала первой в своем роде, получившей поддержку онлайн-поиска для синхронизации с актуальными трендами. Главные фишки обновления: редактирование на основе примеров (example-based editing), понимание законов физики (например, правильное распределение веса) и поддержка до 14 референсных изображений одновременно.

📊 Бенчмарки и характеристики

  • MagicArena (Слепые тесты): В двойном слепом тестировании на платформе MagicArena рейтинг Elo у Seedream 5.0 Lite значительно превысил показатели версии 4.5. Самый большой отрыв зафиксирован в категориях логического вывода, работы со сложными обучающими материалами и улучшения портретов.

  • Разрешение: Поддерживается генерация до 3K с гибкими соотношениями сторон. Модель намеренно ограничена (версия Pro выдает большее разрешение) в пользу семантической точности и снижения галлюцинаций.

  • Стоимость: Модель позиционируется как доступная для продакшена — генерация одного изображения через API обходится примерно в $0.027 – $0.035.

💬 Обсуждение в сообществе

В профессиональных комьюнити (на Reddit, Хабре и платформах вроде Replicate) активно обсуждают переход Seedream от «игрушки для креатива» к полноценному рабочему инструменту:

  1. Консистентность персонажей (Character consistency): Пользователи в восторге от того, как легко модель сохраняет внешность героев на разных кадрах. Это решает главную боль при создании бренд-маскотов и визуальных историй.

  2. Редактирование по примеру: Разработчики отмечают революционную функцию — вместо того чтобы долго описывать текстом, как нужно изменить картинку, нейросети можно просто показать пару «до/после», и она сама поймет логику (замена материалов, смена времени суток и т.д.) и применит ее к новому изображению.

  3. Точность в мелочах: Отмечается, что Seedream 5.0 Lite экономит часы постобработки: она правильно рисует стрелки часов, не путает количество пальцев и логично выстраивает композицию.

🔗 Ссылки на API и материалы

 

Рыжая миссия невыполнима. Banana PRO


 

🍌 Google выпускает Nano Banana 2: Новый стандарт скорости в генерации изображений


//текст Gemini 3 Flash, обложка Nano Banana 2

Сегодня компания Google официально представила Nano Banana 2 — второе поколение своей революционной модели для создания и редактирования изображений. Построенная на базе новейшей архитектуры Gemini 3.1 Flash, новинка ориентирована на тех, кому важна мгновенная визуализация идей без потери качества.

Главной особенностью Nano Banana 2 стала её невероятная производительность. Разработчикам удалось добиться того, что генерация одного изображения теперь занимает менее секунды, что делает модель идеальным инструментом для динамичного маркетинга, создания контента в реальном времени и интеграции в мобильные приложения.

📊 Бенчмарки и производительность

Согласно официальным тестам и первым независимым замерам, Nano Banana 2 демонстрирует впечатляющие цифры:

  • Скорость отклика: Время генерации (p50) составляет всего 0.86 секунды, что является рекордом для моделей такого класса.

  • Пропускная способность: Система способна обрабатывать до 378 изображений в минуту, обходя конкурентов на 10–30%.

  • Точность (CLIPScore): Показатель 0.319 подтверждает, что, несмотря на скорость, нейросеть «слышит» пользователя и точно следует текстовому запросу.

  • Работа с текстом: Читаемость надписей на изображениях выросла до 61% даже для мелких шрифтов, что значительно упрощает создание логотипов и мерча.

Новая модель уже доступна в Free-тире Gemini, а также через API для разработчиков, предлагая беспрецедентный баланс между экономией вычислительных ресурсов и эстетикой результата.


Сравнение с PRO-версией: > В то время как Nano Banana 2 выигрывает в скорости и доступности, Nano Banana PRO остается выбором для глубокого продакшена за счет поддержки 4K-разрешения и сложной композиции из множества исходных изображений. Если «двойка» — это инструмент для быстрого креатива, то PRO — это мощная станция для профессионального дизайна и кино-дизайна.

 
QWEN выдаёт базу на философский вопрос про LLM: "способны ли языковые модели создать что-то новое".