Midjourney и другие нейросети обработки изображений

Aleksander 2025.04.16 17:43 #10081

Edgar Akhmadeev #:

В новые модели цензура встроена. У меня в программе - фото-редакторе Krita из всех моделей нецензурная только старая Stable Diffusion 1.5, safetensors занимает 2 Гб, gguf будет может 1.5 Гб

Столкнулся с фактом цензуры, пока тестировал и сравнивал скорости. Модель SD1.5 очень маленькая, поэтому иногда рисует мутантов с лишними пальцами или руками. Но с детальными промптами такое случается редко. Зато девушки реально красивые на лицо, по сравнению с лучшей моделью, которая встроена - Flux1 на 11 Гб.

Насчёт смартфона - это шутка. Дело не в памяти.

Как шутка? Нее, обычный лаунчер gguf в оперативку грузит и делает около 10 токенов в секунду

Файлы:

Screenshot_20250416_204023.jpg 426 kb

Screenshot_20250416_204253.jpg 199 kb

Aleksander 2025.04.16 17:45 #10082

Вот, скорость 9-10 ток в сек

Файлы:

Screenshot_20250416_204445.jpg 361 kb

Vitaliy Kuznetsov 2025.04.16 17:50 #10083

Вышли!

OpenAI o3 и o4-mini - самые современные модели, разработанные OpenAI, с улучшенными возможностями рассуждения и полным доступом к инструментам.

OpenAI o3:

* Самая мощная модель рассуждений, превосходящая другие в **кодировании, математике, науке, визуальном восприятии и многом другом.**

* Устанавливает новый уровень производительности в таких бенчмарках, как Codeforces, SWE-bench и MMMU.

* Особенно сильна в **визуальных задачах**, таких как анализ изображений, графиков и диаграмм.

* Совершает на 20% меньше серьезных ошибок, чем OpenAI o1, в сложных задачах реального мира, особенно в программировании, бизнесе/консалтинге и творческой деятельности.

* Подходит для сложных запросов, требующих многогранного анализа, ответы на которые могут быть не сразу очевидны.

OpenAI o4-mini:

* Оптимизированная для **быстрых и экономичных** рассуждений, особенно в математике, кодировании и визуальных задачах.

* Набирает 99,5% на AIME 2025 при доступе к интерпретатору Python.

* Превосходит своего предшественника, o3-mini, в задачах, не связанных с STEM, а также в таких областях, как наука о данных.

* Поддерживает значительно более высокие лимиты использования, чем o3, что делает его отличным вариантом для больших объемов вопросов, требующих рассуждений.

Улучшенные возможности:

* Обе модели демонстрируют **улучшенное следование инструкциям** и более полезные, проверяемые ответы.

* Более естественные и разговорные, особенно при ссылке на память и прошлые разговоры.

* Интегрируют изображения непосредственно в цепочку рассуждений, что позволяет решать задачи, сочетающие визуальные и текстовые рассуждения.

* Обучены рассуждать о том, как решать проблемы, выбирая, когда и как использовать инструменты, для быстрого получения подробных и продуманных ответов в правильных форматах.

Масштабирование обучения с подкреплением:

* Крупномасштабное обучение с подкреплением демонстрирует тенденцию "больше вычислений = лучшая производительность".

* Модели обучаются использованию инструментов с помощью обучения с подкреплением, что делает их более способными в ситуациях с открытым концом.

Агентское использование инструментов:

* Имеют полный доступ к инструментам в ChatGPT, а также к пользовательским инструментам через вызов функций в API.

* Могут искать в Интернете данные, писать код Python для построения прогнозов, генерировать графики или изображения и объяснять ключевые факторы, лежащие в основе прогноза.

https://openai.com/index/introducing-o3-and-o4-mini/

Пользователи ChatGPT Plus, Pro и Team, начиная с сегодняшнего дня, увидят o3, o4-mini и o4-mini-high в селекторе моделей, заменив o1, o3‑mini и o3‑mini‑high. Пользователи ChatGPT Enterprise и Edu получат доступ через неделю. Бесплатные пользователи могут попробовать o4-mini, выбрав "Подумайте" в композиторе перед отправкой запроса. Ограничения ставок по всем планам остаются неизменными по сравнению с предыдущим набором моделей.

Мы рассчитываем выпустить OpenAI o3‑pro через несколько недель с полной поддержкой инструмента. На данный момент пользователи Pro по-прежнему могут получить доступ к o1‑pro.

AI 2023. Встречайте ChatGPT. Машинное обучение и нейронные Разговор с искусственным интеллектом

Vitaliy Kuznetsov 2025.04.16 17:55 #10084

Отдельный пост в OpenAI посвящен способностям визуального восприятия новых моделей

https://openai.com/index/thinking-with-images/

* Новые модели визуального мышления o3 и o4-mini могут рассуждать с изображениями в своей цепочке мыслей.

* Эти модели могут использовать инструменты для обрезки, масштабирования и поворота изображений.

* ChatGPT теперь может анализировать изображения более тщательно и точно.

* Модели могут решать сложные задачи, анализируя изображения, например, решать задачи по экономике или проводить анализ первопричин ошибок сборки.

* Визуальное мышление позволяет ChatGPT взаимодействовать с изображениями, не беспокоясь о положении объектов.

* В одном из примеров модель смогла прочитать текст на перевернутой фотографии в блокноте.

* В другом примере модель смогла решить задачу КЭД, проанализировав диаграмму Фейнмана.

* В третьем примере модель смогла прочитать текст на вывеске, на которой было написано "Ochsner URGENT CARE".

* В четвертом примере модель смогла определить автобусную остановку и частоту автобусов на этой остановке.

AI 2023. Встречайте ChatGPT. Разговор с искусственным интеллектом ЕСТЕСТВЕННЫЙ ИНТЕЛЛЕКТ как основа

Vitaliy Kuznetsov 2025.04.16 17:59 #10085

И что Вы думаете произойдёт в ближайшие пару недель?

o3, o4-mini вышли, новых релизов в ближайшее время от OpenAI не предвидится.

А значит конкуренты сейчас проявят активность, расчехлят свои новые модели, особенно OpenSource.

EURUSD - Тенденции, прогнозы Индекс качества волатильности MetaQuotes Software Corp. выступит

Edgar Akhmadeev 2025.04.16 18:09 #10086

Aleksander #:
Как шутка? Нее, обычный лаунчер gguf в оперативку грузит и делает около 10 токенов в секунду

А, вы в этом смысле...

Ну, можно попросить ИИ рассказать про сиськи.

Aleksander 2025.04.16 18:23 #10087

Edgar Akhmadeev #:

А, вы в этом смысле...

Ну, можно попросить ИИ рассказать про сиськи.

Нуу, эта модель ии не рисует, но может немного рассказать

Файлы:

Screenshot_20250416_212154.jpg 207 kb

Ivan Butko 2025.04.17 13:36 #10088

Ivan Butko #:

Хорошие девчонки. KLING 1.5

А теперь барышни от Ideogram (чьи лучше?)

Vitaliy Kuznetsov 2025.04.17 18:03 #10089

Вышел код Wan2.1‑FLF2V 14B

GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models

На этот раз сделана генерация с начальной и конечной картинкой.

Модель OpenSource, локально юзать будет не очень удобно. На одну генерацию на 4090 будет уходить около 2 часов.

Сервис "Сигналы" приходит в Машинное обучение в трейдинге: AI 2023. Встречайте ChatGPT.

Vitaliy Kuznetsov 2025.04.17 18:14 #10090

В LLM арена оказывается есть ещё бета версия, в которой я обнаружил возможность генерации изображений.

https://beta.lmarena.ai/

Midjourney и другие нейросети обработки изображений - страница 1009