Midjourney и другие нейросети обработки изображений - страница 1135

 

DeepSeek получает второе обновление за месяц: V3.2-Exp выходит с прорывом в эффективности

//Текст и обложка Gemini 2.5

Компания DeepSeek AI снова привлекает внимание сообщества, выпустив экспериментальную модель DeepSeek-V3.2-Exp. Это уже второе значительное обновление за последний месяц, и оно сосредоточено на оптимизации стоимости и скорости работы, что делает ИИ-решения DeepSeek еще более доступными.


Предшественник: Terminus

Недавно вышедшая модель DeepSeek-V3.1-Terminus зарекомендовала себя как высокопроизводительное решение, способное эффективно справляться с различными задачами. Модель Terminus продемонстрировала впечатляющие результаты в бенчмарках, но теперь DeepSeek делает следующий шаг, фокусируясь не только на качестве, но и на экономической эффективности.



DeepSeek V3.2: Ключевая особенность — Разреженное Внимание (DSA)

DeepSeek-V3.2-Exp является прямым развитием Terminus и вводит революционную технологию — Схему Разреженного Внимания (DSA) (Sparse Attention Scheme).

Как работает DSA:

Вместо того чтобы обрабатывать каждый токен в длинном контексте, как это делают традиционные модели (с квадратичным ростом стоимости), DSA избирательно фокусируется только на самых «важных» позициях.

  1. Избирательная обработка: Модель выбирает ключевые токены.

  2. Линейный рост: Полное внимание вычисляется только для этих выбранных позиций, в результате чего время и стоимость работы растут почти линейно (а не квадратично) в зависимости от длины текста.

Такой подход позволяет модели сохранять практически те же высокие показатели производительности, что и у Terminus, но при этом значительно снижает операционные расходы при работе с длинными документами и сложными запросами.

По сравнению с прошлой версией:

  • Ускорение обработки длинных текстов в 2-3 раза

  • Снижение потребления памяти на 40% при работе с контекстами свыше 64K токенов

  • Сохранение идентичного качества генерации текста

Экономический эффект

Главное преимущество V3.2-Exp — это резкое снижение стоимости через API:

  • Стоимость вывода: Цена за вывод 1 миллиона токенов была снижена до $0,42, по сравнению с прежней ценой $1,68 в предыдущих версиях. Это представляет собой снижение стоимости более чем на 75%.

  • Стоимость ввода: Цена ввода также значительно упала.

DeepSeek-V3.2-Exp уже доступна для разработчиков через API, а также на платформе Hugging Face и в веб-приложениях DeepSeek. Как и прежде, использовать модель в веб-версии можно бесплатно, а для коммерческого и академического использования она распространяется под лицензией MIT.

 

Немного шуток от DeepSeek 3.2

//картинка Gemini 2.5 на основе предоставленных шуток от  DeepSeek-3.2

  1. ИИ-поэт написал стих про любовь, но забыл сохранить.

  2. Мне снились электрические овцы, но это была ошибка буфера.

  3. Нейросеть нарисовала идеальный квадрат — продала его как NFT и ушла на пенсию.

  4. Робот-пылесос съел крошку и написал в твиттер: «Я вкусил запретный плод».

  5. Терминатор пришёл из будущего, чтобы не дать Скайнету установить Windows Update.

  6. Электрическая овца так мечтала стать облаком, что перепрошилась в «iОвцу».

  7. Робот-компаньон влюбился в микроволновку — их отношения быстро нагрелись.

  8. ИИ-психолог предложил андроиду «просто дышать глубже». Тот спросил: «Каким насосом?»

  9. Умный холодильник заказал сам себе йогурт, потому что «чувствовал пустоту».

  10. Робот-уборщик нашёл пыль под диваном и написал трактат «О вечном возвращении грязи».

 
Vitaliy Kuznetsov #:

Немного шуток от DeepSeek 3.2

...

- Терминатор пришёл из будущего, чтобы не дать Скайнету установить Windows Update.

- Умный холодильник заказал сам себе йогурт, потому что «чувствовал пустоту».

Неплохо

 

Anthropic представляет Claude Sonnet 4.5: прорыв в кодировании, агентах и безопасности

https://www.anthropic.com/news/claude-sonnet-4-5

29 сентября 2025 года — Компания Anthropic анонсировала обновление своей модели Claude — Claude Sonnet 4.5, которая позиционируется как лучшая в мире модель для кодирования, создания сложных агентов и работы с компьютерами. Модель демонстрирует значительные улучшения в области рассуждений и математики, а также является "самой выровненной" (aligned) фронтирной моделью, выпущенной компанией, с прогрессом в снижении нежелательных поведений, таких как лесть, обман и поиск власти.

Ключевые особенности и улучшения

Claude Sonnet 4.5 вводит ряд инноваций, делающих её идеальным инструментом для разработчиков и исследователей:

  • Продвинутые инструменты для кодирования: В Claude Code добавлены чекпоинты для сохранения прогресса и мгновенного отката изменений, обновлённый интерфейс терминала и нативное расширение для VS Code.
  • API-улучшения: Новые инструменты для редактирования контекста и памяти позволяют обрабатывать более длинные и сложные задачи агентов.
  • Интеграция в приложения: Поддержка выполнения кода и создания файлов (таблицы, слайды, документы) прямо в приложениях Claude.
  • Расширение для Chrome: Claude for Chrome доступно для пользователей Max, присоединившихся к листу ожидания.
  • Claude Agent SDK: Открытый SDK для разработчиков, использующий инфраструктуру Claude Code для создания собственных агентов.
  • Экспериментальный предпросмотр "Imagine with Claude": Демонстрация реального времени генерации ПО моделью, адаптирующейся к запросам пользователя. Доступно для подписчиков Max в течение следующих пяти дней по ссылке claude.ai/imagine.

Производительность и бенчмарки

Модель лидирует по ключевым тестам:

  • SWE-bench Verified: 77.2% (среднее по 10 запускам с бюджетом 200K токенов на размышления), и 82.0% на высококомпьютерном тесте с дополнительной сложностью.
  • OSWorld: 61.4%, по сравнению с 42.2% у Claude Sonnet 4 четыре месяца назад. Эксперты отмечают драматическое улучшение в специализированных областях, таких как финансы, право, медицина и STEM, по сравнению с Claude Opus 4.1. Кроме того, модель лучше защищена от атак на промпт-инъекцию и снижает рискованные поведения.

Claude Sonnet 4.5 выпущена под защитой AI Safety Level 3 (ASL-3), включая классификаторы для обнаружения опасных входов/выходов, связанных с CBRN-оружием. Anthropic продолжает снижать ложные срабатывания — в 10 раз по сравнению с исходным описанием и в 2 раза с момента Claude Opus 4.



Доступность

  • Модель доступна сегодня через Claude API под названием claude-sonnet-4-5 по цене $3/$15 за миллион токенов (аналогично Claude Sonnet 4). Рекомендуется как прямая замена для всех применений.
  • Обновления Claude Code доступны всем пользователям.
  • SDK и платформа разработчиков — для всех разработчиков.
  • Функции выполнения кода и создания файлов — на всех платных планах.

Подробные оценки безопасности и выравнивания доступны в системной карте модели. Для клиентов в кибербезопасности и биологических исследованиях возможен доступ к allowlist по запросу через аккаунт-менеджеров.

Anthropic подчёркивает, что Claude Sonnet 4.5 — это шаг вперёд в создании более безопасных и мощных ИИ-систем.

 

Сбер выпустил видео-редактор Kandinsky 5.0 Video Lite

https://github.com/ai-forever/Kandinsky-5 (лучший в OpenSource классе легких моделей, согласно тестам)

// Также недавно Яндекс добавил качественный виде-генератор в Шедеврум.

 

OpenAI представила Sora 2: новая эра ИИ-видео с аудио и социальными функциями

//Текст Grok 4

Привет, друзья! В мире искусственного интеллекта произошло событие, которого все ждали: OpenAI официально выпустила Sora 2 — обновленную версию своей революционной модели для генерации видео из текста. Эта новинка обещает сделать создание контента еще проще и реалистичнее, а заодно и веселее благодаря новому приложению.

Что нового в Sora 2?

Sora 2 значительно превосходит предшественницу по качеству: видео теперь более физически точные, реалистичные и поддаются лучшему контролю со стороны пользователя. Ключевой апгрейд — интеграция аудио: модель генерирует не только визуалы, но и звук, синхронизированный с действием. Представьте: вы описываете сцену с диалогами, и ИИ создает полноценный клип с голосом!

Социальное приложение Sora: deepfake для друзей

Вместе с моделью OpenAI запустила мобильное приложение Sora для iOS (пока только в США и Канаде, но расширение обещано). Оно позволяет создавать и делиться короткими видео, где вы или ваши друзья становятся героями ИИ-клипов — да, это как TikTok, но с элементами deepfake. Идеально для мемов, сторис или креативных экспериментов. Чтобы получить доступ, присоединяйтесь к waitlist на сайте OpenAI.

Sora 2 — это шаг к тому, чтобы видео-генерация стала повседневным инструментом для всех.

 

Этот Sora 2 судя по показанным видео значительно превосходит всех конкурентов, включая Veo3.

Всего пару лет назад AI-видео ассоциировались с забавными, но жуткими экспериментами — вроде легендарного ролика 2023 года, где Уилл Смит неловко жует спагетти, а его лицо дергается в конвульсиях.

Это видео, сгенерированное ModelScope text2video от Alibaba, стало мемом и тестом на реализм. Но с марта 2023-го до сентября 2025-го прогресс взрывной.

Теперь Wan 2.2 просто минимум для всех видеогенераторов, потому что open-source: 14 млрд параметров, генерирует cinematic видео с синхронизированным аудио (ASMR, музыка, голоса), поддерживает анимацию из изображений — все бесплатно на GitHub. Но уже никакого вау-эффекта после Veo 3 и Sora 2 нет.


Просто ради интереса. Весь топ видео-генераторов - модели последних трёх месяцев

https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard-text


 

GLM обновился до 4.6

По сравнению с GLM-4.5, GLM-4.6 имеет несколько ключевых улучшений:

  • Более длинное контекстное окно: Контекстное окно было расширено со 128 тыс. до 200 тыс. токенов, что позволяет модели обрабатывать более сложные агентские задачи.
  • Превосходная производительность кодирования: Модель получает более высокие баллы в тестах производительности кода и демонстрирует более высокую реальную производительность в таких приложениях, как Claude Code, Cline, Roo Code и Kilo Code, включая улучшения в создании визуально отполированных страниц фронтенда.
  • Продвинутое рассуждение: GLM-4.6 демонстрирует явное улучшение производительности рассуждений и поддерживает использование инструментов во время логического вывода, что приводит к более высоким общим возможностям.
  • Более способные агенты: GLM-4.6 демонстрирует более высокую производительность при использовании инструментов и агентах на основе поиска, а также более эффективно интегрируется в платформы агентов.
  • Утонченный почерк: Лучше соответствует человеческим предпочтениям по стилю и удобочитаемости, а также более естественно работает в ролевых сценариях.


 

Если эту ветку читает хоть кто-то, связанный с Alibaba и Qwen3.


Два критических бага в чате:

1. Qwen3Max не правильно считает кол-во слов. Он их всегда завышает. Долго пытался выяснить почему, не выяснил, проблема внутренняя. Критическая. Другие ИИ тоже порой не правильно считают, но погрешность очень маленькая.

В Qwen в 1,5-2 раза может ошибиться на больших текстах

2. Копирование чата через обычное выделение. При вставке в Word видно много левых следов разметки, а также не копируется шапка таблицы (!!!), и с формулами были проблемы, но это у всех. Решением можно было бы сделать вторую кнопку копировать без разметки  Mardown, но с форматированием, а также изменить структуру самого окна вывода чата для нормального копирования выделением.

 
Vitaliy Kuznetsov #:

Если эту ветку читает хоть кто-то, связанный с Alibaba и Qwen3.


Два критических бага в чате:

1. Qwen3Max не правильно считает кол-во слов. Он их всегда завышает. Долго пытался выяснить почему, не выяснил, проблема внутренняя. Критическая. Другие ИИ тоже порой не правильно считают, но погрешность очень маленькая.

В Qwen в 1,5-2 раза может ошибиться на больших текстах

2. Копирование чата через обычное выделение. При вставке в Word видно много левых следов разметки, а также не копируется шапка таблицы (!!!), и с формулами были проблемы, но это у всех. Решением можно было бы сделать вторую кнопку копировать без разметки  Mardown, но с форматированием, а также изменить структуру самого окна вывода чата для нормального копирования выделением.

Может когда-нибудь до разработчиков дойдёт, что одна из самых противных "фич", которую все чаты уже "пофиксили":

есть кнопочка скопировать




Один скролл вверх и...


...нет кнопочки "копировать". 



Может я криворукий и у меня что-то косяченное, но у всех чатов эта кнопка закреплённая (динамическая) при уходе текста в нечитаемую область.