Midjourney и другие нейросети обработки изображений - страница 1064

 

Девушка с котом. Шедеврум


 

Арты. Миджорни


 

ИИ-модели научились договариваться и самоорганизовываться.

Когда ИИ-агенты на базе больших языковых моделей взаимодействуют в группах, они способны самостоятельно вырабатывать общие правила поведения — без внешнего управления или заранее заданных инструкций

ИИ-агенты на базе больших языковых моделей могут самостоятельно вырабатывать общие правила поведения.
Это происходит без внешнего управления или заранее заданных инструкций.

Эксперимент с ИИ-агентами

Исследователи из Великобритании и Дании провели эксперимент с группами от 24 до 200 языковых моделей.
Агенты должны были одновременно выбирать «имя» из общего набора вариантов.
При совпадении выбора оба агента получали вознаграждение, при несовпадении следовал штраф.
После множества взаимодействий в «сообществе» появлялось общее правило для выбора имен.
Это происходило без управления сверху или готового решения, подобно возникновению общих норм в человеческом обществе.
Ученые заметили общие предубеждения, которые нельзя было объяснить особенностями отдельных агентов.

Уязвимость спонтанно возникающих норм

Небольшие, но активные группы ИИ-агентов могут перевести всю систему на новые правила именования.
Это перекликается с понятием «критической массы» в социальных науках.
Понимание того, как ИИ вырабатывает общие правила и предубеждения при взаимодействии, важно для решения этических проблем и создания безопасных систем.

 

Вышла Gemma 3n - открытая нейронка от Гугла, заточенная на быструю работу на смартфонах.

Ей нужно всего 2-3 Гб оперативы.

https://developers.googleblog.com/en/introducing-gemma-3n/


 

Новый подход к генерации текста. Gemini Diffusion.

Что такое модель диффузии?

Традиционные авторегрессионные языковые модели генерируют текст по одному слову – или токену – за раз. Этот последовательный процесс может быть медленным и ограничивать качество и согласованность результатов.

Модели диффузии работают по-разному. Вместо того чтобы напрямую предсказывать текст, они учатся генерировать выходные данные, пошагово устраняя шум. Это означает, что они могут очень быстро выполнить итерацию решения и исправить ошибки в процессе генерации. Это помогает им преуспеть в таких задачах, как редактирование, в том числе в контексте математики и кода.

Работает намного быстрее, чем Flash версия.

Готовый код за пару секунд? Пожалуйста.


https://blog.google/technology/google-deepmind/gemini-diffusion/

https://deepmind.google/models/gemini-diffusion/


 

Gemini Live с камерой и демонстрацией экрана теперь доступен бесплатно на Android и iOS.

Просто наведите телефон на что угодно и обсудите это в реальном времени.

https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025/#new-capabilities

Компания Gemini анонсировала новые функции платформы 2.5, включая нативный аудиовыход и улучшения для Live API, которые делают взаимодействие с ИИ более естественным и выразительным. Теперь разработчики могут создавать диалоговые системы, где Gemini адаптирует тон, акцент и стиль речи под запросы пользователя. Например, модель способна рассказывать истории драматичным голосом или выполнять поиск по заданным критериям.

Ключевые нововведения в Live API (превью):

  • Эмоциональный диалог: ИИ анализирует эмоции в голосе пользователя и подстраивает ответы.

  • Проактивное аудио: модель игнорирует фоновые шумы и реагирует только на релевантные реплики.

  • Мышление в реальном времени: использование вычислительных возможностей Gemini для решения сложных задач.

Live API обеспечивает двунаправленное голосовое и видео-взаимодействие с сверхнизкой задержкой, позволяя общаться с Gemini в прямом эфире, транслировать видео или демонстрировать экран. Это создаёт эффект «живого» общения, максимально приближенного к человеческому.

Также представлен превью текст-в-речь для версий 2.5 Pro и 2.5 Flash. Технология поддерживает:

  • Мультиголосье: синтез речи с двумя разными голосами.

  • Экспрессивность: передача нюансов вплоть до шёпота.

  • 24+ языков с возможностью переключения между ними в одном диалоге.

Эти обновления расширяют сценарии использования Gemini в образовании, развлечениях, клиентском сервисе и других сферах, где важны интерактивность и персонализация.

 

Бесплатная версия Gemma3, заточенная под медицину. Мультимодальная.

https://deepmind.google/models/gemma/medgemma/



Узнал о ней, когда увидел в обновах моделей в LM Studio. Версия от unsloth, значит нормальная.

gguf-4B будет работать локально на среднем железе с нормальной скоростью.

 

SeedCoder от ByteDance (создатели Тик-Ток)

https://seedcoder.org

Это OpenSource нейронка, заточенная на код. Небольшая, работает локально, но функциональная.

Есть в LM Studio


 
SeedCoder всё таки лучше q8 качать, всего 8 гигов, влазит в вкарту почти весь, ну и в цпу норм работает
 

Обычные ролики Veo 3.

Люди кинулись использовать сервис: рэп, фантастика, минифильмы, интервью и вообще весь (ну не весь, но это дело нескольких заходов на генерацию) сгенерированный Veo 3 видеоконтент теперь мало отличим от реального.

20 мая - день сингулярности в видеогенерациях.