Midjourney и другие нейросети обработки изображений - страница 1064
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Девушка с котом. Шедеврум
Арты. Миджорни
ИИ-модели научились договариваться и самоорганизовываться.
Когда ИИ-агенты на базе больших языковых моделей взаимодействуют в группах, они способны самостоятельно вырабатывать общие правила поведения — без внешнего управления или заранее заданных инструкций
https://www.reddit.com/r/Popular_Science_Ru/comments/1kr0vkv/иимодели_научились_договариваться_и/
При совпадении выбора оба агента получали вознаграждение, при несовпадении следовал штраф.
Вышла Gemma 3n - открытая нейронка от Гугла, заточенная на быструю работу на смартфонах.
Ей нужно всего 2-3 Гб оперативы.
https://developers.googleblog.com/en/introducing-gemma-3n/
Новый подход к генерации текста. Gemini Diffusion.
Что такое модель диффузии?
Традиционные авторегрессионные языковые модели генерируют текст по одному слову – или токену – за раз. Этот последовательный процесс может быть медленным и ограничивать качество и согласованность результатов.
Модели диффузии работают по-разному. Вместо того чтобы напрямую предсказывать текст, они учатся генерировать выходные данные, пошагово устраняя шум. Это означает, что они могут очень быстро выполнить итерацию решения и исправить ошибки в процессе генерации. Это помогает им преуспеть в таких задачах, как редактирование, в том числе в контексте математики и кода.
Работает намного быстрее, чем Flash версия.
Готовый код за пару секунд? Пожалуйста.
https://blog.google/technology/google-deepmind/gemini-diffusion/
https://deepmind.google/models/gemini-diffusion/
Gemini Live с камерой и демонстрацией экрана теперь доступен бесплатно на Android и iOS.
Просто наведите телефон на что угодно и обсудите это в реальном времени.
https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025/#new-capabilities
Компания Gemini анонсировала новые функции платформы 2.5, включая нативный аудиовыход и улучшения для Live API, которые делают взаимодействие с ИИ более естественным и выразительным. Теперь разработчики могут создавать диалоговые системы, где Gemini адаптирует тон, акцент и стиль речи под запросы пользователя. Например, модель способна рассказывать истории драматичным голосом или выполнять поиск по заданным критериям.
Ключевые нововведения в Live API (превью):
Эмоциональный диалог: ИИ анализирует эмоции в голосе пользователя и подстраивает ответы.
Проактивное аудио: модель игнорирует фоновые шумы и реагирует только на релевантные реплики.
Мышление в реальном времени: использование вычислительных возможностей Gemini для решения сложных задач.
Live API обеспечивает двунаправленное голосовое и видео-взаимодействие с сверхнизкой задержкой, позволяя общаться с Gemini в прямом эфире, транслировать видео или демонстрировать экран. Это создаёт эффект «живого» общения, максимально приближенного к человеческому.
Также представлен превью текст-в-речь для версий 2.5 Pro и 2.5 Flash. Технология поддерживает:
Мультиголосье: синтез речи с двумя разными голосами.
Экспрессивность: передача нюансов вплоть до шёпота.
24+ языков с возможностью переключения между ними в одном диалоге.
Эти обновления расширяют сценарии использования Gemini в образовании, развлечениях, клиентском сервисе и других сферах, где важны интерактивность и персонализация.
Бесплатная версия Gemma3, заточенная под медицину. Мультимодальная.
https://deepmind.google/models/gemma/medgemma/
Узнал о ней, когда увидел в обновах моделей в LM Studio. Версия от unsloth, значит нормальная.
gguf-4B будет работать локально на среднем железе с нормальной скоростью.
SeedCoder от ByteDance (создатели Тик-Ток)
https://seedcoder.org
Это OpenSource нейронка, заточенная на код. Небольшая, работает локально, но функциональная.
Есть в LM Studio
Обычные ролики Veo 3.
Люди кинулись использовать сервис: рэп, фантастика, минифильмы, интервью и вообще весь (ну не весь, но это дело нескольких заходов на генерацию) сгенерированный Veo 3 видеоконтент теперь мало отличим от реального.
20 мая - день сингулярности в видеогенерациях.