Midjourney и другие нейросети обработки изображений

Vitaliy Kuznetsov 2025.05.20 19:09 #10631

Девушка с котом. Шедеврум

Vitaliy Kuznetsov 2025.05.20 19:11 #10632

Арты. Миджорни

Vitaliy Kuznetsov 2025.05.20 19:20 #10633

ИИ-модели научились договариваться и самоорганизовываться.

Когда ИИ-агенты на базе больших языковых моделей взаимодействуют в группах, они способны самостоятельно вырабатывать общие правила поведения — без внешнего управления или заранее заданных инструкций

https://www.reddit.com/r/Popular_Science_Ru/comments/1kr0vkv/иимодели_научились_договариваться_и/

ИИ-агенты на базе больших языковых моделей могут самостоятельно вырабатывать общие правила поведения.

Это происходит без внешнего управления или заранее заданных инструкций.

Эксперимент с ИИ-агентами

Исследователи из Великобритании и Дании провели эксперимент с группами от 24 до 200 языковых моделей.

Агенты должны были одновременно выбирать «имя» из общего набора вариантов.
При совпадении выбора оба агента получали вознаграждение, при несовпадении следовал штраф.

После множества взаимодействий в «сообществе» появлялось общее правило для выбора имен.

Это происходило без управления сверху или готового решения, подобно возникновению общих норм в человеческом обществе.

Ученые заметили общие предубеждения, которые нельзя было объяснить особенностями отдельных агентов.

Уязвимость спонтанно возникающих норм

Небольшие, но активные группы ИИ-агентов могут перевести всю систему на новые правила именования.

Это перекликается с понятием «критической массы» в социальных науках.

Понимание того, как ИИ вырабатывает общие правила и предубеждения при взаимодействии, важно для решения этических проблем и создания безопасных систем.

Разговор с искусственным интеллектом Машинное обучение и нейронные AI 2023. Встречайте ChatGPT.

Vitaliy Kuznetsov 2025.05.20 19:25 #10634

Вышла Gemma 3n - открытая нейронка от Гугла, заточенная на быструю работу на смартфонах.

Ей нужно всего 2-3 Гб оперативы.

https://developers.googleblog.com/en/introducing-gemma-3n/

Vitaliy Kuznetsov 2025.05.21 05:33 #10635

Новый подход к генерации текста. Gemini Diffusion.

Что такое модель диффузии?

Традиционные авторегрессионные языковые модели генерируют текст по одному слову – или токену – за раз. Этот последовательный процесс может быть медленным и ограничивать качество и согласованность результатов.

Модели диффузии работают по-разному. Вместо того чтобы напрямую предсказывать текст, они учатся генерировать выходные данные, пошагово устраняя шум. Это означает, что они могут очень быстро выполнить итерацию решения и исправить ошибки в процессе генерации. Это помогает им преуспеть в таких задачах, как редактирование, в том числе в контексте математики и кода.

Работает намного быстрее, чем Flash версия.

Готовый код за пару секунд? Пожалуйста.

https://blog.google/technology/google-deepmind/gemini-diffusion/

https://deepmind.google/models/gemini-diffusion/

Vitaliy Kuznetsov 2025.05.21 05:53 #10636

Gemini Live с камерой и демонстрацией экрана теперь доступен бесплатно на Android и iOS.

Просто наведите телефон на что угодно и обсудите это в реальном времени.

https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025/#new-capabilities

Компания Gemini анонсировала новые функции платформы 2.5, включая нативный аудиовыход и улучшения для Live API, которые делают взаимодействие с ИИ более естественным и выразительным. Теперь разработчики могут создавать диалоговые системы, где Gemini адаптирует тон, акцент и стиль речи под запросы пользователя. Например, модель способна рассказывать истории драматичным голосом или выполнять поиск по заданным критериям.

Ключевые нововведения в Live API (превью):

Эмоциональный диалог: ИИ анализирует эмоции в голосе пользователя и подстраивает ответы.
Проактивное аудио: модель игнорирует фоновые шумы и реагирует только на релевантные реплики.
Мышление в реальном времени: использование вычислительных возможностей Gemini для решения сложных задач.

Live API обеспечивает двунаправленное голосовое и видео-взаимодействие с сверхнизкой задержкой, позволяя общаться с Gemini в прямом эфире, транслировать видео или демонстрировать экран. Это создаёт эффект «живого» общения, максимально приближенного к человеческому.

Также представлен превью текст-в-речь для версий 2.5 Pro и 2.5 Flash. Технология поддерживает:

Мультиголосье: синтез речи с двумя разными голосами.
Экспрессивность: передача нюансов вплоть до шёпота.
24+ языков с возможностью переключения между ними в одном диалоге.

Эти обновления расширяют сценарии использования Gemini в образовании, развлечениях, клиентском сервисе и других сферах, где важны интерактивность и персонализация.

AI 2023. Встречайте ChatGPT. Машинное обучение и нейронные Запросы в MT5 через

Vitaliy Kuznetsov 2025.05.21 07:55 #10637

Бесплатная версия Gemma3, заточенная под медицину. Мультимодальная.

https://deepmind.google/models/gemma/medgemma/

Узнал о ней, когда увидел в обновах моделей в LM Studio. Версия от unsloth, значит нормальная.

gguf-4B будет работать локально на среднем железе с нормальной скоростью.

Кто обратил внимание на Мультитаймфреймовые индикаторы Bayesian regression - Делал

Vitaliy Kuznetsov 2025.05.21 08:02 #10638

SeedCoder от ByteDance (создатели Тик-Ток)

https://seedcoder.org

Это OpenSource нейронка, заточенная на код. Небольшая, работает локально, но функциональная.

Есть в LM Studio

Aleksander 2025.05.21 09:21 #10639

SeedCoder всё таки лучше q8 качать, всего 8 гигов, влазит в вкарту почти весь, ну и в цпу норм работает

Vitaliy Kuznetsov 2025.05.21 13:43 #10640

Обычные ролики Veo 3.

Люди кинулись использовать сервис: рэп, фантастика, минифильмы, интервью и вообще весь (ну не весь, но это дело нескольких заходов на генерацию) сгенерированный Veo 3 видеоконтент теперь мало отличим от реального.

20 мая - день сингулярности в видеогенерациях.

Машинное обучение в трейдинге: Программистам, нужны ли в Корректность Volume[0]

Midjourney и другие нейросети обработки изображений - страница 1064