Midjourney и другие нейросети обработки изображений - страница 1191

 
Гемини лучше меня знает
 

Право на ошибку: почему ИИ «галлюцинирует» и действительно ли человек точнее?


//текст и обложка Gemini 3.1

Промпт: Привет. Предлагаю написать статью для сайта про галлюцинации ИИ. Откуда взялись и главное - сравниваем с человеком (желательно с примерным соотношением и процентами). Понятное дело, что слово "галлюцинации" прикрепилось к ИИ и стало иметь негативный окрас, но как по мне - даже научные статьи от человека порой предвзятые, имеют "комические" выводы, а когда человек что-то вспоминает, то естественно будет много несостыковок. Конечно, все мы ждём, что машина не будет ошибаться, но так ли чаще она ошибается, нежели человек?

Отличный угол для материала. Мы действительно склонны прощать человеку его когнитивные искажения, потому что это наша природа, но требуем от нейросетей безупречной, калькуляторной точности. Сравнение генеративного ИИ с человеческим мозгом в контексте ошибок — это глубокая и очень справедливая тема для техноблога.

Ниже представлен готовый черновик статьи, разбитый на смысловые блоки для удобной публикации.


Когда мы слышим слово «галлюцинация» в контексте искусственного интеллекта, оно почти всегда несет негативный окрас. Кажется, что машина сломалась, выдала бред или намеренно нас обманула. Мы ждем от алгоритмов абсолютной, стерильной точности, забывая о главном: генеративный ИИ создавался по образу и подобию человеческого мышления. А человеку свойственно ошибаться, додумывать и свято верить в собственную неправоту.

Давайте разберемся, откуда берутся ИИ-галлюцинации, и, что более важно, сравним их с нашими собственными когнитивными сбоями. Спойлер: статистика может вас удивить.

Откуда берутся галлюцинации ИИ?

Чтобы понять причину, нужно избавиться от главного заблуждения: ИИ — это не база данных. Когда вы задаете вопрос, нейросеть не лезет в условную папку на жестком диске за готовым ответом. Она генерирует текст на лету, предсказывая каждое следующее слово (токен) на основе вероятностей, заложенных в ее миллиардах параметров.

Современные флагманские модели, будь то GPT-4 от OpenAI, Claude от Anthropic, Gemini от Google или Qwen от Alibaba, обладают колоссальным объемом «знаний». Но когда информации по узкой теме не хватает, или контекст слишком запутан, механизм предсказания дает сбой. ИИ собирает статистически вероятный, грамматически безупречный, но фактически неверный ответ. Это и есть галлюцинация. Машина не лжет — она просто «творчески домысливает» недостающие детали. Точно так же, как это делает наш мозг.

Человек vs. Машина: битва заблуждений

Если мы обвиняем ИИ в придумывании фактов, давайте посмотрим на эталон — человека.

  • Ложные воспоминания. Человеческая память — это не видеорегистратор. Это процесс реконструкции. Каждый раз, когда мы что-то вспоминаем, мозг заново «собирает» сцену из фрагментов, часто заполняя пробелы выдуманными, но логичными деталями. Исследования показывают, что показания очевидцев (казалось бы, самый надежный источник) содержат критические ошибки в 30–40% случаев.

  • Предвзятость в науке. Вы упомянули научные статьи, и это в яблочко. Даже академическая среда не защищена от «галлюцинаций». В науке существует так называемый кризис воспроизводимости. Масштабные проверки показывают, что от 30% до 60% (в зависимости от дисциплины, особенно в психологии и медицине) опубликованных и отрецензированных научных исследований невозможно повторить с теми же результатами. Человеческий фактор, подгонка данных под желаемый вывод и банальные ошибки приводят к тому, что наука тоже «галлюцинирует».

  • Профессиональные ошибки. В медицинской диагностике врачи ошибаются в 10–15% сложных случаев. Человек устает, отвлекается, подвергается эмоциям.

Кто ошибается чаще? (Соотношение и проценты)

Сравнить человека и ИИ напрямую сложно, так как они решают разные задачи, но если свести данные к работе с информацией, картина выглядит так:

Параметр оценки Топовые ИИ-модели Человек-эксперт Обычный человек
Уровень фактических ошибок (Галлюцинаций) 3% – 8% (при сложных запросах) 1% – 5% (в своей узкой нише) 15% – 30% (при пересказе фактов)
Природа ошибки Логически связная выдумка (уверенность в неверном факте) Когнитивное искажение, усталость, предвзятость Эффект Манделы, забывчивость, эмоции
Скорость исправления Мгновенно (при указании на ошибку) Медленно (требуется преодолеть эго) Зависит от упрямства

Примечание: При использовании архитектуры RAG (когда ИИ ищет данные в предоставленных ему проверенных документах перед ответом), уровень галлюцинаций у передовых моделей снижается до 1-2%, что делает их точнее среднестатистического человека в задачах поиска информации.

Вывод: смена парадигмы

Негативный окрас слова «галлюцинация» по отношению к ИИ возник из-за наших обманутых ожиданий. Мы привыкли, что калькулятор всегда выдает точный результат. Но генеративные нейросети — это не калькуляторы. Это синтезаторы смыслов.

Способность ИИ галлюцинировать — это обратная сторона его способности к творчеству, написанию кода, генерации идей и адаптации к контексту. Если бы модели жестко ограничивали только стопроцентными фактами, они бы потеряли гибкость и не смогли бы вести диалог.

ИИ ошибается реже, чем некомпетентный человек, и чуть чаще, чем узконаправленный эксперт (и этот разрыв стремительно сокращается). Возможно, нам стоит перестать требовать от машин божественной непогрешимости и начать относиться к ним как к невероятно начитанным, креативным, но все же «живым» собеседникам, чьи слова иногда стоит проверять. В конце концов, именно так мы общаемся друг с другом.

 

Moonshot AI представила Kimi K2.6: Новый стандарт для открытых ИИ-моделей в кодинге и автономных агентах


//текст и обложка Gemini 3.1. Официальная новость тут - https://www.kimi.com/blog/kimi-k2-6

Китайская компания Moonshot AI анонсировала выпуск своей новой открытой мультимодальной модели Kimi K2.6. Веса модели уже опубликованы на платформе Hugging Face, а сама она доступна через официальный сайт Kimi.com, мобильное приложение, API и ИИ-ассистент Kimi Code.

Kimi K2.6 делает качественный скачок в решении «долгих» и сложных задач программирования (long-horizon coding), оркестрации роев агентов (Agent Swarms) и создании проактивных автономных систем. Ниже представлен подробный разбор возможностей, бенчмарков и отзывов на новую модель.


🚀 Ключевые нововведения и возможности

1. Продвинутый кодинг и решение «долгих» задач (Long-Horizon Coding) Модель демонстрирует невероятные способности к обобщению при работе с различными языками (Rust, Go, Python, Zig) и задачами (фронтенд, DevOps, оптимизация производительности). Способность K2.6 удерживать контекст и планировать действия на множество шагов вперед привела к впечатляющим результатам во внутренних тестах:

  • Оптимизация движка: Kimi K2.6 автономно провела рефакторинг 8-летнего open-source финансового движка. Проанализировав flame-графы (графики профилирования), модель изменила более 4000 строк кода за 13 часов работы, что привело к росту пропускной способности на 185%.

  • Локальный инференс: Модель успешно загрузила и развернула Qwen3.5 на Mac, написав оптимизированный код на нишевом языке Zig. За 14 итераций и более 4000 вызовов инструментов она добилась скорости генерации на 20% выше, чем у популярного решения LM Studio.

2. Дизайн, управляемый кодом (Coding-Driven Design) Kimi K2.6 способна превращать простые текстовые запросы в полноценные пользовательские интерфейсы. Модель не просто пишет код для верстки, но и интегрирует сложную анимацию, настраивает аутентификацию, подключает базы данных для простых full-stack приложений, а также самостоятельно вызывает инструменты генерации изображений и видео для наполнения сайтов визуальным контентом.


3. Масштабируемые «Рои Агентов» (Agent Swarms, Elevated) Если предыдущая версия поддерживала до 100 субагентов, то архитектура K2.6 может динамически управлять 300 субагентами, выполняющими до 4000 скоординированных шагов параллельно. Система способна анализировать сотни документов, извлекать из них паттерны и превращать в переиспользуемые «Навыки» (Skills) — например, для создания презентаций в стиле McKinsey или написания научных статей с датасетами и графиками.

4. Проактивные агенты и «Claw Groups» Kimi K2.6 умеет работать в фоновом режиме 24/7, не требуя постоянного контроля человека. В ходе одного из тестов агент на базе K2.6 в течение 5 дней автономно управлял мониторингом серверов и реагированием на инциденты. Также была представлена концепция Claw Groups — экосистема, в которой люди и различные специализированные ИИ-агенты работают в едином виртуальном пространстве как полноценные коллеги, обмениваясь промежуточными результатами.


📊 Бенчмарки: На уровне лидеров индустрии

В синтетических и реальных тестах Kimi K2.6 показывает результаты, сопоставимые или превосходящие флагманские закрытые модели, такие как GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro.

  • SWE-Bench Pro (кодинг): 58.6% (у GPT-5.4 — 57.7%, у Claude Opus 4.6 — 53.4%).

  • Terminal-Bench 2.0: 66.7% (обходит GPT-5.4 и Claude 4.6).

  • AIME 2026 (сложная математика): 96.4%.

  • MathVision с использованием Python (зрение): 93.2% (уверенно обходит конкурентов).

  • LiveCodeBench (v6): 89.6%.

Все тесты проводились с включенным режимом «размышления» (thinking mode).



💬 Отзывы сообщества и партнеров

Партнеры Moonshot AI, получившие ранний доступ к модели, остались под впечатлением от ее стабильности:

  • Vercel отмечает улучшение результатов генерации кода на фреймворке Next.js более чем на 50% по сравнению с версией K2.5, называя модель одной из лучших на платформе.

  • Представители Ollama заявили, что «Kimi K2.6 поднимает планку для open-source моделей, особенно в кодинге и для агентских инструментов».

Реакция независимых пользователей: На Reddit и YouTube разработчики активно тестируют новинку (минимальная подписка на сервисы Moonshot стоит около $19/мес). Пользователи отмечают, что Kimi K2.6 превосходно держит контекст даже после 100+ сообщений в чате. Некоторые тестировщики заявляют, что в задачах веб-разработки K2.6 быстрее и эффективнее, чем Claude 4.6, и успешно справляется со сложными проектами «под ключ», такими как создание 3D-графики (например, интерактивного аквариума) или браузерных игр. Единственный отмечаемый минус — высокая прожорливость модели к токенам при выполнении агентских задач.


📝 Заключение

Выпуск Kimi K2.6 от Moonshot AI — это не просто очередное обновление весов, а серьезная заявка на лидерство в сфере open-source ИИ. Ориентация на глубокое, долгосрочное планирование, способность автономно использовать инструменты и управлять целыми «роями» субагентов делает K2.6 мощнейшим инструментом для разработчиков, дата-саентистов и бизнеса. С учетом того, что модель поставляется с открытыми весами, она открывает огромные перспективы для создания независимых и надежных ИИ-систем в 2026 году.

 

Вышел Qwen 3.6 Max Preview: Новый флагман от Alibaba с фокусом на агентов и программирование


//текст и обложка Gemini 3.1. Официальная новость тут - https://qwen.ai/blog?id=qwen3.6-max-preview

//новая модель уже доступна в чате https://chat.qwen.ai

Команда Qwen (Alibaba Cloud) представила раннюю превью-версию своей новой флагманской ИИ-модели — Qwen3.6-Max-Preview. Новинка выпущена вслед за версией Qwen3.6-Plus и позиционируется как более умное и точное решение с акцентом на выполнение сложных агентных задач. Модель доступна для тестирования в Qwen Studio и через API (Alibaba Cloud Model Studio). В отличие от многих других разработок семейства, Max-версия остается проприетарной (закрытой) моделью.

Главные нововведения и возможности

  • Улучшенное программирование и агентность (Agentic Coding): По заявлениям разработчиков, модель стала значительно лучше справляться с автономным написанием кода и решением многошаговых задач.

  • Расширенные знания о мире и следование инструкциям: Заметно улучшилась база общих знаний и способность ИИ точно соблюдать заданные форматы (например, при вызове внешних инструментов).

  • Функция preserve_thinking: В API добавлена поддержка сохранения «цепочки мыслей» (thinking content) из всех предыдущих шагов диалога, что критически важно для корректной работы автономных ИИ-агентов, которым требуется сохранять контекст своих рассуждений.

Бенчмарки и тесты

Разработчики заявляют о серьезном скачке производительности по сравнению с Qwen3.6-Plus. В официальном блоге приводятся следующие метрики:

  • Агентное программирование: SkillsBench (+9.9 баллов), SciCode (+6.3), NL2Repo (+5.0) и Terminal-Bench 2.0 (+3.8). Также отмечаются топовые результаты в престижном тесте SWE-bench Pro.

  • Общие знания: SuperGPQA (+2.3) и QwenChineseBench (+5.3).

  • Выполнение инструкций: ToolcallFormatIFBench (+2.8).

Независимые тестировщики и профильные блогеры отмечают, что новинка уверенно конкурирует с передовыми флагманами, такими как Claude 4.5 Opus и GLM 5.1. На данный момент сообщается, что Qwen 3.6 Max имеет наивысший балл (52) в индексе AA-Intelligence среди всех существующих китайских моделей.


Отзывы сообщества и первые впечатления

Релиз вызвал живое обсуждение на профильных площадках, таких как Reddit (в частности, в сообществе r/LocalLLaMA) и на YouTube. Впечатления пользователей разделились:

  • Сильные стороны: Энтузиасты хвалят модель за впечатляющие результаты в агентных сценариях. Возможность превзойти актуальные флагманы в тестах вроде SWE-bench вызывает у многих восторг, а саму модель называют одним из самых интересных релизов апреля.

  • Критика закрытости: Главным разочарованием стало отсутствие открытых весов (open source). Модель нельзя развернуть локально, что расстраивает многих разработчиков, привыкших к открытой политике предыдущих небольших релизов Qwen.

  • Скептицизм к синтетическим тестам: Некоторые пользователи отмечают, что в реальных сценариях (например, при работе со сложной математикой или кодом на Rust) ИИ всё ещё может допускать ошибки или «галлюцинировать» уверенными, но неверными ответами. Часть аудитории считает, что бенчмарки стали слишком легко поддаваться накрутке. Также пользователей удивило, что версия Max пока заявлена только для работы с текстом (наблюдается отсутствие полноценной мультимодальности).

Итог

Qwen3.6-Max-Preview — это мощная заявка на лидерство в сегменте топовых проприетарных моделей. Она предлагает передовые инструменты для создателей ИИ-агентов и разработчиков. Однако статус «Preview» говорит сам за себя: модель все еще находится в стадии активной доработки, и команде предстоит исправить текущие шероховатости на пути к полноценному и стабильному релизу.

 

Разное. Миджорни


 

OpenAI представила ChatGPT Images 2.0: Революция в генерации текста на изображениях и ответ конкурентам


//текст и обложка Gemini 3.1. Модель доступна в ChatGPT. Официальная новость тут - https://openai.com/index/introducing-chatgpt-images-2-0/

Введение OpenAI официально выпустила масштабное обновление своего генератора изображений — ChatGPT Images 2.0. Новая модель, которая ранее тайно тестировалась на независимых площадках под кодовым названием «duct tape» («скотч»), призвана изменить подход к созданию визуального контента. Теперь нейросеть умеет безупречно работать с текстом, интерфейсами и инфографикой, бросая серьезный вызов конкурентам, в первую очередь — новым моделям от Google.

Главные нововведения и возможности

ChatGPT Images 2.0 (доступная разработчикам через API как gpt-image-2 ) значительно превосходит предыдущие версии. Как заявляют в OpenAI, «изображения — это язык, а не декорация». Модель получила ряд уникальных функций:

  • Безупречный текст на любых языках: Главным прорывом стала способность нейросети генерировать длинные блоки текста, мелкую типографику и иконки без искажений и «галлюцинаций». Более того, Images 2.0 является «полиглотом» и поддерживает не только латиницу, но и языки со сложной письменностью (японский, корейский, китайский, хинди, бенгальский).

  • Сложные интерфейсы и макеты: Модель идеально подходит для профессиональных задач. Она способна с высокой точностью создавать макеты пользовательских интерфейсов (UI), скриншоты операционных систем (например, окон macOS), научные диаграммы, графики, презентации и архитектурные поэтажные планы.

  • Гибкие форматы и высокое разрешение: Поддерживается генерация в разрешении до 2K с широким диапазоном соотношений сторон — от ультраширокого 3:1 до вытянутого вертикального 1:3.

  • Композиция и ракурсы: Нейросеть научилась создавать сетки изображений (image grids) и листы персонажей (character sheets) с разных ракурсов, а также применять продвинутое редактирование к загруженным пользовательским файлам.

Две версии: Instant и Thinking

Для удовлетворения разных потребностей OpenAI разделила модель на два режима:

  1. Images 2.0 Instant: Быстрая базовая версия для мгновенного создания изображений, которая уже доступна пользователям бесплатных тарифов.

  2. Images 2.0 Thinking: Продвинутая версия с функцией предварительного «размышления». Этот режим использует логические цепочки (reasoning), мультивывод и, что самое удивительное, умеет самостоятельно выполнять поиск в интернете (Web Search), встраивая актуальные данные и факты прямо в создаваемую инфографику. Доступ к «думающей» модели имеют только подписчики платных тарифов (Plus, Pro и Business).

Конкуренция и бенчмарки

Выпуск Images 2.0 стал прямым и агрессивным ответом на недавний релиз линейки Google Gemini Nano Banana 2 (также известной как Gemini 3.1 Flash Image).

В ходе закрытых тестов на платформе LM Arena новая модель OpenAI стабильно демонстрировала превосходство над аналогами в точности следования сложным промптам. Если раньше генераторы спотыкались на требованиях вроде «помести этот конкретный текст в левый нижний угол на синем фоне», то Images 2.0 справляется с плотными композициями и тонкими стилистическими ограничениями практически безошибочно.

Смена стратегии компании

Ради развития Images 2.0 компания OpenAI пошла на серьезную реструктуризацию своей продуктовой линейки. По сообщениям в СМИ, компания свернула (shut down) свой нашумевший видеогенератор Sora, чтобы сосредоточить вычислительные мощности на более востребованных и монетизируемых инструментах для бизнеса. Статистика говорит сама за себя: на сегодняшний день сотни миллионов пользователей ChatGPT генерируют более 1 миллиарда изображений каждую неделю.

Отзывы пользователей и доступность

Обновление уже развертывается для всех пользователей ChatGPT и ИИ-помощника для программистов Codex.

Первые отзывы экспертов, IT-изданий и тестировщиков исключительно позитивные. Обозреватели профильных ресурсов (таких как VentureBeat и ZDNET) отмечают, что Images 2.0 наконец-то делает генеративный ИИ по-настоящему полезным инструментом для разработчиков (создание мокапов), дизайнеров, ученых и преподавателей. Единственным ограничением пока остается генерация чрезмерно плотных и повторяющихся текстур, где изредка может требоваться ручная корректировка, но в остальном релиз называют «огромным скачком» индустрии.

Примеры:

 

Тест Images 2.0 в ChatGPT

1. Нарисуй комплекс упражнений йоги с гантелями

2. Создай инфографику на русском языке, стилизованную под наскальную живопись древнего Египта. На живописи будут формулы и текстовое описание различий языка программирования MQL4 и MQL5


 
Vitaliy Kuznetsov #:

Тест Images 2.0 в ChatGPT

Всё же сильная модель. Крайний тест на сегодня.

Промпт. Нарисуй emojI-пак с кабибарой/муравьедом в стиле чиби с разными эмоциями. Не менее 16. Формат 16к9

// парадоксальный отрыв в Арене


 

Qwen3.6-27B: Как новая компактная нейросеть превзошла гигантов


//ну что за новость. Реально прорыв локального ИИ для кодинга. Текст и обложка Gemini 3.1. Официальная информация в блоге https://qwen.ai/blog?id=qwen3.6-27b

Команда Qwen (Alibaba Cloud) анонсировала выпуск новой open-source модели — Qwen3.6-27B. Несмотря на свои относительно скромные размеры в 27 миллиардов параметров, эта плотная (dense) мультимодальная нейросеть уже наделала много шума в сообществе разработчиков. Релиз наглядно доказывает, что грамотная оптимизация архитектуры способна бить грубую вычислительную силу.

Бенчмарки: Давид против Голиафа

Главная сенсация релиза заключается в том, что Qwen3.6-27B обходит своего предшественника-гиганта — Qwen3.5-397B-A17B — в ключевых бенчмарках, особенно в задачах программирования. Модель, чей общий объем параметров почти в 15 раз меньше (27 млрд против 397 млрд), демонстрирует флагманский уровень «агентного кодинга» (agentic coding).

Это означает, что нейросеть не просто пишет разрозненные сниппеты, а способна автономно решать сложные задачи разработки: планировать архитектуру, анализировать контекст и самостоятельно исправлять ошибки.


Что под капотом: архитектура и возможности

Модель распространяется по открытой лицензии Apache 2.0, что полностью снимает ограничения на коммерческое использование.

Среди главных технических особенностей:

  • Окно контекста на 262 000 токенов. Этого достаточно, чтобы загружать в модель целые кодовые базы, техническую документацию или объемные книги.

  • MTP (Multi-Token Prediction). Поддержка предсказания сразу нескольких токенов «из коробки», что значительно снижает задержку (latency) при генерации ответа. Нейросеть печатает текст и код очень быстро.

  • Продвинутое внимание. В модели используется технология gated delta networks hybrid attention — механизм, который ранее применялся в огромных MoE-моделях компании, а теперь успешно адаптирован для плотной архитектуры.

Мультимодальность и «режимы мышления»

Qwen3.6-27B является нативно мультимодальной. Она изначально обучена понимать не только текст, но и изображения, а также видео.

Еще одна интересная особенность релиза — поддержка как режима глубокого рассуждения (thinking mode), так и мгновенного ответа (non-thinking mode) в рамках одного унифицированного чекпоинта (весов). Разработчикам не нужно скачивать разные версии модели под разные задачи.

Интеграция с ИИ-агентами

Создатели сделали серьезную ставку на экосистему агентов. Модель глубоко оптимизирована для работы в терминале и бесшовно интегрируется с популярными решениями:

  • Qwen Code — собственный open-source агент для терминала, специально заточенный под семейство моделей Qwen.

  • OpenClaw (ранее Moltbot) — популярный ИИ-кодер для локального развертывания.

  • Сторонние инструменты вроде Claude Code.

Отзывы в сети и реакция сообщества

На профильных форумах разработчиков и платформе HuggingFace пользователи делятся первыми результатами тестов, и большинство отзывов носят восторженный характер.

Главный тезис сообщества: 27 миллиардов параметров — это именно тот масштаб, который был так нужен для локального развертывания. Компактный размер позволяет комфортно запускать модель на потребительском железе (например, на нескольких обычных видеокартах) или недорогих серверах, получая при этом качество логики и кода, которое раньше было доступно только гигантским моделям на сотни миллиардов параметров.

Заключение

Выпуск Qwen3.6-27B — важный шаг в развитии генеративного ИИ. Тренд на эффективность и компактность продолжает приносить плоды. Для независимых разработчиков и бизнеса это мощнейший инструмент: бесплатный, быстрый, мультимодальный и невероятно умный для своей «весовой категории».

 
Vitaliy Kuznetsov #:
Qwen3.6-27B: Как новая компактная нейросеть превзошла гигантов
Жаль только, что она dense, а не moe. Последняя позволяет часть слоёв выносить с VRAM в RAM, когда её не хватает. А так и 32 Gb VRAM скорее всего не хватит.