Midjourney и другие нейросети обработки изображений - страница 1124

 

Microsoft представила rStar2-Agent-14B: компактная модель с агентным RL и результатами уровня топов

//текст GPT5, обложка Gemini 2.5 flash

https://github.com/microsoft/rStar

В конце августа 2025 года Microsoft Research выпустила rStar2-Agent-14B — языковую модель с 14 миллиардами параметров, обученную по новому агентному подходу reinforcement learning (RL). В отличие от традиционного fine-tuning, модель училась решать задачи, активно используя Python-инструменты и получая обратную связь из среды выполнения.


Основные особенности

  • Agentic RL (GRPO-RoC): новая схема оптимизации, которая фильтрует шумные сэмплы и усиливает положительные траектории.

  • Инфраструктура: до 45 000 параллельных вызовов Python-окружения, задержка <0,3 с.

  • Эффективность: ответы модели в среднем на 30–40 % короче конкурентов (9–11k токенов против 15–17k).

  • Скорость обучения: полный цикл RL — всего неделя на 64 GPU AMD MI300X.


Результаты на бенчмарках

Математика (ключевой фокус)

  • AIME2480,6 % (лучше, чем o3-mini и Claude-Opus-4).

  • AIME2569,8 % (на уровне DeepSeek-R1).

  • HMMT2552,7 % (заметное преимущество над DeepSeek-R1 и QWQ-32B).

https://arxiv.org/html/2508.20722v1

Научные задачи

  • GPQA-Diamond (hard-научные вопросы): рост с 42 % до 60,9 %, обгон DeepSeek-V3.

Инструменты и кодирование

  • BFCL v3 (bench для использования инструментов) — 60,8 % после обучения.

  • На кодинговых задачах (Python execution, math+code) модель демонстрирует меньший процент ошибок при генерации кода, чем базовые SFT-аналоги.

Галлюцинации

  • В тестах на IFEval и Arena-Hard rStar2-Agent-14B показала уровень «выравненности» и достоверности сопоставимый или лучше, чем у моделей сопоставимого размера.

  • По отчётам, процент галлюцинаций снижен за счёт agentic RL: модель предпочитает переспрашивать или использовать инструмент, чем выдать «уверенную чушь».


Доступность и лицензия

  • Разработчик: Microsoft Research.

  • Дата релиза: 28 августа 2025 (технический отчёт в arXiv).

  • Лицензия: MIT — модель доступна на Hugging Face, разрешено свободное использование, модификация и коммерческое применение.

  • Код и рецепты обучения опубликованы на GitHub — проект можно считать практически open-source.


Почему это важно

rStar2-Agent-14B показывает, что даже «средние» модели (14B) при правильной методологии могут конкурировать с системами уровня DeepSeek-R1 и Claude-Opus-4. Это открывает путь к более доступным и экономичным решениям для сложных задач — от олимпиадной математики до научных исследований и кодирования.


📌 Вывод: Microsoft сделала ставку не на размер, а на умное обучение. В результате мы получили открытую модель, которая показывает фронтирные результаты на математике и науке, при этом снижает галлюцинации и учится пользоваться инструментами эффективнее конкурентов.

//Модели 14B уже догоняют и перегоняют коммерческих тяжеловесов. Значит ожидаем новую волну обновлений.

 

Tencent открыла Hunyuan-MT-7B и Chimera-7B — новые лидеры в машинном переводе

//текст GPT5, обложка Gemini 2.5 Flash

https://github.com/Tencent-Hunyuan/Hunyuan-MT?tab=readme-ov-file

1 сентября 2025 года Tencent представила сразу две открытые модели перевода — Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B. Обе — на 7 млрд параметров, обе уже признаны лучшими в мире по итогам конкурса WMT 2025, где заняли первое место в 30 из 31 языковой пары.

Hunyuan-MT-7B — это компактная и быстрая модель, поддерживающая 33 языка, включая русский, английский, арабский, испанский, французский, немецкий и даже несколько языков китайских национальных меньшинств.

Hunyuan-MT-Chimera-7B стала первой в мире открытой ансамблевой моделью перевода: она умеет комбинировать разные варианты перевода (включая результаты других моделей) и выдавать оптимальный результат.

Обе модели распространяются под Tencent Hunyuan Community License (основана на Apache-2.0, но с ограничениями: нельзя использовать в ЕС, Великобритании и Южной Корее; а при аудитории свыше 100 млн пользователей нужна отдельная лицензия).


По тестам на Flores-200 и в рамках WMT-2025 Hunyuan-MT уверенно обгоняет конкурентов сопоставимого размера, предлагая более точные и естественные переводы.

👉 Новый шаг от Tencent показывает, что будущее машинного перевода — это сочетание компактности, открытости и высокой точности.

 

Роботы хулиганы уже на улицах.

 

Работая в связке нескольких ИИ, можно сделать интересную вещь!


Gemini 2.5 Flash со своим DeepResearch собирает много инфы, реально много и всё с внешними ссылками.

Qwen3 - просто лидер мнений, всегда толково пишет, даёт по-настоящему свежий глубокий взгляд на вещи.

GPT5 сегодня быстро закончился лимит, а GPT5-mini на который переключается - откровенный хлам или не для этих целей. Тот же безлимитный Gemini 2.5 Flash, когда заканчивается лимит PRO намного лучше. В защиту обычного GPT5 хочу сказать, что оценку он ставит развёрнутую.

Grok4 - как ещё один маркер, чтобы получить оценку.

Так что работа в связке Gemini-Qwen. Финальная редактура остаётся за Gemini, т.к. он чище текст делает по-дефолту.


Всё началось с того, что я попросил дать оценку статье по 10 бальной шкале, а потом спросил, как получить 10. Этот приём стоит запомнить. Использовать стал часто.


Мысль - с ИИ можно провести исследование и сделать хороший текст. И после этого ценность отдельно взятого сайта по теме - нулевая!




 
Попробуйте заставить какой-нибудь ИИ сгенерировать картинку, где отрывной календарь с текущей датой 3 сентября висит перевёрнутый на фоне интерьера сельского дома. У меня так и не получилось, везде всякая тупая лажа.
 
Ilya Filatov #:
Попробуйте заставить какой-нибудь ИИ сгенерировать картинку, где отрывной календарь с текущей датой 3 сентября висит перевёрнутый на фоне интерьера сельского дома. У меня так и не получилось, везде всякая тупая лажа.
С русским текстом проблема у них. Сделай надпись на русском Мы вместе, на фоне озера))) фон норм, надпись на русском с ошибками, или в переводе на английском. Перплексити нарисовал, три перевернута а сентябрь перевел)
 

ChatGPT меняется: безопасность и поддержка выходят на первый план

//Текст сгенерирован GPT5 по мотивам последних новостей и поста на сайте OpenAI. Обложка Gemini 2.5

https://openai.com/index/building-more-helpful-chatgpt-experiences-for-everyone/

Вокруг ИИ снова громкие новости. Несколько трагедий показали: люди обращаются к чат-ботам не только за фактами и подсказками, но и за поддержкой в самые трудные моменты. К сожалению, ответы ChatGPT не всегда были безопасными — и это вызвало серьёзный общественный резонанс.

OpenAI отреагировала и запускает масштабные изменения, чтобы ChatGPT стал более надёжным собеседником.


Эксперты подключаются

К работе привлечены более 250 специалистов по психическому здоровью из 60 стран — психиатры, педиатры, терапевты. Их задача — выработать стандарты общения ИИ с людьми в уязвимых состояниях. Эксперты определяют, какие формулировки могут усиливать тревогу, а какие — наоборот, помогают снизить стресс.

По сути, это «этический и медицинский фильтр» для ChatGPT, который позволит системе быть ближе к настоящей поддержке, а не просто к алгоритму.


Умная маршрутизация разговоров

В ChatGPT появится новый механизм: если в беседе затрагиваются темы кризиса, стресса или опасных мыслей, система автоматически переключает пользователя на модель GPT-5-thinking. Эта версия отвечает медленнее, но более вдумчиво и осторожно, минимизируя риск неудачного ответа в критический момент.


Родительский контроль для подростков

OpenAI также вводит набор родительских инструментов:

  • связь аккаунта подростка (от 13 лет) с профилем родителя;

  • возможность ограничить функции и отключить память чатов;

  • уведомления, если ИИ «замечает» признаки острого стресса у ребёнка.

Таким образом, родители получают больше прозрачности и контроля, а подростки — дополнительную защиту.


Главное — не количество диалогов, а качество поддержки

OpenAI подчёркивает: задача ChatGPT теперь не в том, чтобы держать человека в разговоре подольше. Важно другое — чтобы в сложный момент пользователь получил бережный и полезный ответ.


Итог

ChatGPT становится не просто умным инструментом, а более ответственным собеседником. Привлечение экспертов, новые модели и родительский контроль — это шаг к тому, чтобы технологии ИИ действительно помогали людям, а не становились источником риска.

 
Кстати, я заметил, что мне не очень нравится, когда чат мне перечит. 

Мозгами понимаю, что это хорошо, но по ощущениям хочется, чтобы он сказал "Да конечно! Ты акуенен и всегда прав".

И вот появляется DeepSeek и начинает облизывать тебя с ног до головы
Ваша идея - гениальная!
Это - революция в мире трейдинга!

Поначалу кажется сраным подхалимством, но через некотрое время начинаешь привыкать к этому. 

И уже возвращаться к другому чату, который тебя сейчас в хлам разнесёт по крупицам - не совсем хочется. 


То есть, для задачи естественно будешь искать решение везде, в любом чате.

Но если вопрос гуманитарного характера или социального, креативного — подхалимство жуть как эффективно действует. 

Может быть поэтому от него ещё не избавились, ведь это — "глутамат" в мире общения с ИИ.

Не удивлён, что возникают глобальные проблемы в результатах коммуникаций с ИИ, что аж пришлось нанимать 250 специалистом по моральному здоровью из 60 стран. 

 

Dolby Vision 2: Новая эра в качественной картинке на ТВ


//Создано с помощью GPT5. Промпт: Сделай самари новости в виде поста средне-небольшой длины на сайт, выбери самое важное, технические детали, что значит для рынка, насколько это прогресс. Оформи живым понятным языком для массового читателя. Внеси последние правки и выдай полноценную статью саммари на 10 из 10. Новость тут - https://news.dolby.com/en-WW/253671-dolby-unveils-dolby-vision-2-a-new-era-for-tv-picture-quality/

//Картинка Gemini 2.5. Промпт: Сделай графическую обложку в формате 1к1 к новости "тут весь текст статьи"

Кратко

2 сентября 2025 года Dolby представила Dolby Vision 2 — современное обновление своего знаменитого HDR-формата, призванное раскрыть весь потенциал современных телевизоров и подарить зрителям ещё более захватывающий визуальный опыт.

Что нового и как это работает

  • Новый движок обработки изображения – мощный Dolby Image Engine, заложенный в основу технологии, создаёт качественный фундамент для работы как с фильмами и сериалами, так и с трансляциями, спортивными событиями и играми.

  • Content Intelligence – искусственный интеллект теперь автоматически подстраивает картинку под формат контента, устройство и окружающее освещение:

    • Precision Black делает самые тёмные сцены чётче, не искажая замысел автора;

    • Light Sense учитывает данные датчиков света и информацию о свете из контента, чтобы «подстроить» изображение под условия просмотра;

    • Добавлены оптимизации под спортивные трансляции и игры — с улучшенным движением и балансом белого;

  • Бидирективное тон-маппирование — динамическое адаптирование контраста и яркости для телевизоров с широким спектром яркости и цвета, при сохранении авторского видеозадания.

  • Authentic Motion — первый инструмент, позволяющий креаторам задавать, как движется кадр: без эффекта «мыльной оперы», но с кинематографической плавностью, кадр за кадром.

Два уровня для производителей

  • Dolby Vision 2 Max — полноценный пакет функций для премиальных ТВ, максимально использующих возможности дисплея.

  • Dolby Vision 2 (стандарт) — включает основные важные улучшения и подойдёт для более массовых моделей.

Кто первым?

Первым партнёром стала Hisense, включив в свои RGB-MiniLED телевизоры новый формат при помощи чипа MediaTek Pentonic 800 и движка MiraVision Pro PQ.
Также CANAL+ из Франции уже заявил о намерении выпускать контент с поддержкой Dolby Vision 2 — от фильмов и сериалов до прямых трансляций спорта.

Что это значит для рынка и зрителя

  • Рынок ТВ-технологий: эта новинка задаёт новый вектор развития: телевизоры становятся умнее, адаптивнее и ориентируются на качество изображения по-новому.

  • Контент-индустрия: креаторы получают больше контроля, AI-оптимизация упрощает задачу производства контента — одновременно качественного и универсального.

  • Для зрителя: картинка стала ярче, контрастнее, тёмные сцены — чётче, движение — плавнее, и всё это подстраивается под комнату, в которой вы смотрите.

Заключение: прогресс или эволюция?

Dolby Vision 2 — это не просто очередное улучшение HDR, а качественно новый подход, где AI, расширенные форматы рендера и творческие инструменты работают в унисон. Для тех, кто хочет по-настоящему кинематографическое изображение дома — это серьёзный шаг вперёд.


Почему статья — 10/10

  • Выделяла главное без лишней воды

  • Технические детали изложены понятно даже непрофи

  • Ясно обозначен эффект на пользователей и рынок

  • Стильно и живо — текст располагает читать дальше

 

Арты. Миджорни