Midjourney и другие нейросети обработки изображений - страница 1171

 
QWEN про кнопку "Рассуждения" у чатботов  

 

В ChatGPT появилась вкладка агента Codex

Получилось запустить и использовать онлайн бесплатно.

Требовалось создать Github окружение и дать доступ (делал шаг за шагом, что он просил)

https://chatgpt.com/codex


Codex
  • chatgpt.com
A cloud-based software engineering agent that answers codebase questions, executes code, and drafts pull requests.
 

Кошачья помощь

//нейросеть

 

Выход Kling 3.0 — это большой шаг для всей индустрии AI-видео.

Разработчики из Kuaishou представили не просто обновление, а «все-в-одном» систему (Omni-модель), которая объединяет генерацию, редактирование и работу со звуком.

//текст Gemini 3

🎬 Kling 3.0: Главные фишки и обновления

1. Единая Omni-архитектура Теперь не нужно переключаться между разными моделями для разных задач. Kling 3.0 объединяет в себе текст-в-видео, изображение-в-видео, инпейнтинг (редактирование областей) и расширение видео. Все этапы создания ролика теперь происходят в одном рабочем пространстве.

2. Кинематографическое качество в 4K Модель научилась генерировать видео в честном 4K-разрешении. Значительно улучшена детализация текстур (кожа, мех, ткани) и работа со светом. Визуально ролики стали выглядеть гораздо ближе к профессиональному кино.

3. Родная поддержка аудио и липсинк Kling 3.0 «слышит» видео. Звуковые эффекты, фоновая музыка и голоса персонажей теперь генерируются синхронно с движением в кадре. Улучшена точность липсинка (движения губ), а также добавлена поддержка множества языков и акцентов.

4. Продвинутый контроль и «Память режиссера»

  • Контроль движения: Обновленный Motion Brush позволяет задавать траектории объектов с ювелирной точностью.

  • Консистентность персонажей: Новая система позволяет удерживать внешность героя и детали окружения неизменными на протяжении всей серии кадров, что критично для создания короткометражек.

  • Редактирование текстом: Можно просто написать: «добавь персонажу очки» или «измени цвет машины», и нейросеть точечно перерисует нужную деталь, не меняя остальное видео.

5. Реалистичная физика Исправлена одна из главных проблем AI-видео — странные деформации при контакте объектов. В 3.0 взаимодействие рук, столкновения и сложные физические процессы (например, течение воды или движение волос на ветру) выглядят гораздо естественнее.

Итог: Kling 3.0 превращается из простого генератора «гифок» в полноценный инструмент для продакшена, рекламы и быстрого прототипирования кино.

 

Выход Qwen3-Coder-Next — это громкое событие в мире открытого ИИ, так как Alibaba совершила качественный скачок в архитектуре.

Если раньше модели просто «пухли» в размерах, то здесь упор сделан на экстремальную эффективность.


//текст Gemini 3 на основе https://qwen.ai/blog?id=qwen3-coder-next и https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf

//обновление в чат ещё не завезли, но расчёт именно на агентские возможности, вероятно, появится как агент для IDE

Вот краткое самари того, что делает эту модель особенной:

🚀 Главные фишки Qwen3-Coder-Next

  1. Невероятная эффективность (Архитектура Hybrid MoE):

    • Общий объем модели — 80 млрд параметров, но при генерации каждого токена активируются всего 3 млрд.

    • Это позволяет запускать «тяжелую» по знаниям модель даже на мощных потребительских видеокартах или MacBook.

    • Используется гибрид из стандартного Attention и Gated DeltaNet (линейное внимание). Это решило проблему «затухания» памяти в длинных контекстах и ускорило инференс в разы.

  2. Агентские способности (Agentic Coding):

    • Модель обучалась специально для работы в качестве «агента». Она умеет не просто писать код, но и взаимодействовать с окружением: запускать тесты, искать ошибки в файлах и пользоваться инструментами (MCP protocol).

    • На бенчмарке SWE-Bench Verified модель показывает результаты (более 70%), сравнимые с гигантами уровня Claude 3.5 Sonnet, имея при этом в десятки раз меньше активных параметров.


  3. Гибридный режим мышления (Thinking Mode):

    • В модель встроена возможность переключения между «быстрым ответом» и «глубоким раздумьем».

    • В режиме Thinking она генерирует скрытые цепочки рассуждений (Chain-of-Thought), что критически важно для исправления сложных багов или написания архитектуры с нуля.

  4. Работа с огромными контекстами:

    • Нативная поддержка 256 000 токенов, которую можно расширить до 1 млн. Это позволяет «скормить» модели сразу всю документацию проекта или крупный репозиторий.

  5. Скорость и генерация:

    • Благодаря технологии Multi-Token Prediction (MTP), модель предсказывает несколько токенов за раз. Это дает прирост скорости генерации в 3–5 раз по сравнению с классическими моделями.

Что это значит для разработчиков?

Qwen3-Coder-Next — это, по сути, «карманный Claude 3.5». Она дает уровень автономности и качества кода проприетарных моделей, но при этом остается открытой (лицензия Apache 2.0). Ее можно развернуть локально для работы с конфиденциальным кодом, и она будет достаточно быстрой, чтобы использовать ее в IDE как полноценного ИИ-агента, а не просто продвинутый автокомплит.

Вердикт: Это самая совершенная «маленькая» (по активным параметрам) модель для кодинга на текущий момент.

 

В VSC есть Qwen Code Companion.

Запуск этого агента ищите в ярлыке, когда открываете документ.


Попросил создать панель управления для скрипта падающих снежинок


А также, если интересуетесь бесплатными агентами, устанавливайте BlackBox, Cline, Koda (на русском)

 
Vitaliy Kuznetsov #:

В VSC есть Qwen Code Companion.

Запуск этого агента ищите в ярлыке, когда открываете документ.


Попросил создать панель управления для скрипта падающих снежинок


А также, если интересуетесь бесплатными агентами, устанавливайте BlackBox, Cline, Koda (на русском)

Расскажи поподробнее о агентах? Как что куда и пример какойнить? Хоть словами хоть ролик видео? 
 
Aleksander #:
Расскажи поподробнее о агентах? Как что куда и пример какойнить? Хоть словами хоть ролик видео? 
Вот пример с Koda
 

Claude Opus 4.6: Большой скачок в FinTech и агентской разработке


//Gemini 3 PRO на основе https://www.anthropic.com/news/claude-opus-4-6 и https://claude.com/blog/opus-4-6-finance

Anthropic представили Claude Opus 4.6 — новую версию своей самой мощной модели. Если предыдущие обновления были про "интеллект", то этот релиз полностью посвящен автономности и специализации.

Opus 4.6 позиционируется не просто как чат-бот, а как полноценный сотрудник, способный брать на себя сложные, многоступенчатые задачи (agentic tasks) в сферах финансов, аналитики и программирования.


💼 Офисная революция: Финансы и Аналитика


Финансовый сектор получил самый большой набор специализированных инструментов. Anthropic заявляют, что модель теперь способна выполнять работу, на которую у младших аналитиков уходили дни.

1. Режим Cowork (Desktop)

Это новый способ взаимодействия через десктопное приложение.

  • Доступ к файлам: Вы даете Claude доступ к рабочей папке, и он может читать, редактировать и создавать там файлы напрямую.

  • Автономность: Модель может вести несколько аналитических потоков одновременно.

  • Плагины: Встроены специальные навыки для корпоративных финансов (сверки, variance analysis, создание журнальных проводок).

2. Claude in Excel

Интеграция вышла на новый уровень. Теперь это не просто "помощник с формулами":

  • Планирование: Модель сначала описывает план анализа, прежде чем менять данные.

  • Сложные операции: Умеет работать со сводными таблицами (pivot tables), строить графики, сортировать данные и применять сложное условное форматирование.

  • Чистка данных: Автоматически находит и исправляет ошибки в неструктурированных массивах.

3. Claude in PowerPoint (Beta)

Долгожданная функция для консультантов и менеджеров.

  • Работа с брендом: Claude "читает" ваши мастер-слайды, шрифты и шаблоны.

  • Генерация: Может создать презентацию с нуля на основе данных из Excel или текстового запроса, сохраняя корпоративный стиль.


💻 Кодинг: От Ассистента к Тимлиду

Для разработчиков Opus 4.6 предлагает возможности, которые Anthropic называет "сменой парадигмы". Упор сделан на управление сложными проектами и работу в команде.

1. Agent Teams (Команды Агентов)

В среде Claude Code (Research Preview) теперь можно запускать несколько агентов параллельно.

  • Вы ставите высокоуровневую задачу.

  • Один агент пишет код, второй — параллельно пишет тесты, третий — обновляет документацию.

  • Вы выступаете в роли менеджера, который координирует этот рой агентов.

2. Работа с гигантскими проектами

  • Контекст 1M токенов (Beta): Впервые доступен для модели класса Opus.

  • Context Compaction (Сжатие контекста): Умная функция, которая "архивирует" старую часть диалога, оставляя суть. Это позволяет вести бесконечно долгие сессии (например, недельный рефакторинг) без потери фокуса и переполнения памяти.

  • 128k Output Tokens: Модель может выдавать огромные куски кода (целые модули или файлы) за один раз.


3. Отладка и Root Cause Analysis

Opus 4.6 показывает лучшие результаты в индустрии по поиску первопричин багов. Модель не просто лечит симптомы, а понимает архитектурные ошибки, приведшие к сбою.


📊 Бенчмарки и Цифры

Anthropic подтверждают свои слова результатами тестов, где Opus 4.6 обходит конкурентов (включая GPT-o1 и Gemini 1.5 Pro) и предыдущую версию Sonnet 4.5:

  • Финансы:

    • +23% прироста в тесте Real-World Finance (реальные задачи инвестбанков).

    • 60.7% на бенчмарке Finance Agent (анализ документов SEC) — абсолютный рекорд (SOTA).

  • Кодинг:

    • Terminal-Bench 2.0: Лидерство в работе с Linux-терминалом.

    • SWE-bench Verified: 81.4% успешных решений реальных задач с GitHub (issue resolution).

  • Общий интеллект:

    • Лидерство в Humanity’s Last Exam (тест на сложное мультидисциплинарное рассуждение).

Отзыв тестера (Bolt.new): "Модель с первого раза (one-shot) написала полностью рабочий физический движок, обработав огромный скоуп задач за один проход."



📅 Доступность

  • Модель: Claude Opus 4.6 уже доступна на всех платных тарифах (Plus, Team, Enterprise) и через API.

  • Интеграции:

    • Cowork и Excel доступны на платных тарифах.

    • PowerPoint доступен как Research Preview для тарифов Max, Team и Enterprise.

  • API: Цена осталась прежней ($15/$75 за 1M токенов - уточнить актуальные цифры, в новости было $5/$25, что невероятно дешево для Opus, возможно это опечатка или агрессивный демпинг). Добавлен параметр effort (Low, Medium, High) для контроля затрат.

 

🚀 OpenAI представила GPT-5.3-Codex — новый эталонный AI-кодировщик


//текст ChatGPT на основе https://openai.com/index/introducing-gpt-5-3-codex/

GPT-5.3-Codex — свежий релиз OpenAI, объединяющий максимальные способности генерации кода, агентные навыки и профессиональное reasoning, и при этом работающий на ~25% быстрее предыдущей версии Codex.

📊 Бенчмарки: значительный прогресс

Метрика GPT-5.3-Codex GPT-5.2-Codex GPT-5.2 (база)
Terminal-Bench 2.0 (терминал/агент) 77.3% 64.0% 62.2%
SWE-Bench Pro (кодирование) 56.8% 56.4% 55.6%
OSWorld-Verified (агентная работа) 64.7% 38.2% 37.9%
Cybersecurity CTF 77.6% 67.4% 67.7%
SWE-Lancer IC Diamond 81.4% 76.0% 74.6%
GDPval (win/tie) 70.9% 70.9%



📌 Рост особенно заметен по Terminal-Bench (+13.3 пп) и OSWorld (почти вдвое выше) — это большие шаги не просто в написании кода, а в реальной агентной работе по компьютеру — командная строка, тесты, диагностика, анализ.

🔥 Сравнение с конкурентами (Claude Opus 4.6)

На одном из открытых сравнений в сети приводят сопоставимые цифры по ключевым заданиям:

Benchmark GPT-5.3-Codex (xhigh) Claude Opus 4.6
Terminal-Bench 2.0 77.3% ~65.4%
OSWorld (agent desktop) ~64.7% ~72.7%


📌 Вывод из сравнения:

  • GPT-5.3-Codex значительно сильнее на терминальных/кодовых агентных сценариях,

  • Anthropic Opus 4.6 держит преимущество на более широких agent-tasks с визуальным окружением.

🚀 Что нового

  • 25% быстрее отклика и генерации на Codex по сравнению с GPT-5.2-Codex.

  • Расширенные агентные навыки: может идти в задачи на многие часы, самостоятельно управлять проектами, искать баги, писать тесты, деплоить и взаимодействовать с инструментами.

  • Улучшено понимание намерений в генерации сайтов, приложений, интерфейсов, с более зрелыми дефолтными решениями.

  • Model теперь классифицирован как High capability для кибeрбезопасности, обучена выявлять уязвимости.


🧠 Итог

GPT-5.3-Codex — это новая ступень AI-ассистента по разработке ПО: не просто генерация кода, а полноценный коллега-агент, способный участвовать в сложных, длинных рабочих циклах и помогать во всём жизненном цикле ПО. На ряде ключевых показателей он превосходит предыдущие версии и конкурентов, особенно в задачах, где важна командная среда, терминальная работа и комплексные агенты.