Midjourney и другие нейросети обработки изображений - страница 1009

 
Edgar Akhmadeev #:

В новые модели цензура встроена. У меня в программе - фото-редакторе Krita из всех моделей нецензурная только старая Stable Diffusion 1.5, safetensors занимает 2 Гб, gguf будет может 1.5 Гб

Столкнулся с фактом цензуры, пока тестировал и сравнивал скорости. Модель SD1.5 очень маленькая, поэтому иногда рисует мутантов с лишними пальцами или руками. Но с детальными промптами такое случается редко. Зато девушки реально красивые на лицо, по сравнению с лучшей моделью, которая встроена - Flux1 на 11 Гб.

Насчёт смартфона - это шутка. Дело не в памяти.

Как шутка? Нее, обычный лаунчер gguf в оперативку грузит и делает около 10 токенов в секунду 
 
Вот, скорость  9-10 ток в сек
Файлы:
 

Вышли!


OpenAI o3 и o4-mini - самые современные модели, разработанные OpenAI, с улучшенными возможностями рассуждения и полным доступом к инструментам.


OpenAI o3:

    *   Самая мощная модель рассуждений, превосходящая другие в **кодировании, математике, науке, визуальном восприятии и многом другом.**

    *   Устанавливает новый уровень производительности в таких бенчмарках, как Codeforces, SWE-bench и MMMU.

    *   Особенно сильна в **визуальных задачах**, таких как анализ изображений, графиков и диаграмм.

    *   Совершает на 20% меньше серьезных ошибок, чем OpenAI o1, в сложных задачах реального мира, особенно в программировании, бизнесе/консалтинге и творческой деятельности.

    *   Подходит для сложных запросов, требующих многогранного анализа, ответы на которые могут быть не сразу очевидны.


OpenAI o4-mini:

    *   Оптимизированная для **быстрых и экономичных** рассуждений, особенно в математике, кодировании и визуальных задачах.

    *   Набирает 99,5% на AIME 2025 при доступе к интерпретатору Python.

    *   Превосходит своего предшественника, o3-mini, в задачах, не связанных с STEM, а также в таких областях, как наука о данных.

    *   Поддерживает значительно более высокие лимиты использования, чем o3, что делает его отличным вариантом для больших объемов вопросов, требующих рассуждений.


Улучшенные возможности:

    *   Обе модели демонстрируют **улучшенное следование инструкциям** и более полезные, проверяемые ответы.

    *   Более естественные и разговорные, особенно при ссылке на память и прошлые разговоры.

    *   Интегрируют изображения непосредственно в цепочку рассуждений, что позволяет решать задачи, сочетающие визуальные и текстовые рассуждения.

    *   Обучены рассуждать о том, как решать проблемы, выбирая, когда и как использовать инструменты, для быстрого получения подробных и продуманных ответов в правильных форматах.


Масштабирование обучения с подкреплением:


    *   Крупномасштабное обучение с подкреплением демонстрирует тенденцию "больше вычислений = лучшая производительность".

    *   Модели обучаются использованию инструментов с помощью обучения с подкреплением, что делает их более способными в ситуациях с открытым концом.


Агентское использование инструментов:

    *   Имеют полный доступ к инструментам в ChatGPT, а также к пользовательским инструментам через вызов функций в API.

    *   Могут искать в Интернете данные, писать код Python для построения прогнозов, генерировать графики или изображения и объяснять ключевые факторы, лежащие в основе прогноза.


https://openai.com/index/introducing-o3-and-o4-mini/

Пользователи ChatGPT Plus, Pro и Team, начиная с сегодняшнего дня, увидят o3, o4-mini и o4-mini-high в селекторе моделей, заменив o1, o3‑mini и o3‑mini‑high. Пользователи ChatGPT Enterprise и Edu получат доступ через неделю. Бесплатные пользователи могут попробовать o4-mini, выбрав "Подумайте" в композиторе перед отправкой запроса. Ограничения ставок по всем планам остаются неизменными по сравнению с предыдущим набором моделей.

Мы рассчитываем выпустить OpenAI o3‑pro через несколько недель с полной поддержкой инструмента. На данный момент пользователи Pro по-прежнему могут получить доступ к o1‑pro.

 

Отдельный пост в OpenAI посвящен способностям визуального восприятия новых моделей

https://openai.com/index/thinking-with-images/


*   Новые модели визуального мышления o3 и o4-mini могут рассуждать с изображениями в своей цепочке мыслей.

*   Эти модели могут использовать инструменты для обрезки, масштабирования и поворота изображений.

*   ChatGPT теперь может анализировать изображения более тщательно и точно.

*   Модели могут решать сложные задачи, анализируя изображения, например, решать задачи по экономике или проводить анализ первопричин ошибок сборки.

*   Визуальное мышление позволяет ChatGPT взаимодействовать с изображениями, не беспокоясь о положении объектов.

*   В одном из примеров модель смогла прочитать текст на перевернутой фотографии в блокноте.

*   В другом примере модель смогла решить задачу КЭД, проанализировав диаграмму Фейнмана.

*   В третьем примере модель смогла прочитать текст на вывеске, на которой было написано "Ochsner URGENT CARE".

*   В четвертом примере модель смогла определить автобусную остановку и частоту автобусов на этой остановке.

 

И что Вы думаете произойдёт в ближайшие пару недель?

o3, o4-mini вышли, новых релизов в ближайшее время от OpenAI не предвидится.

А значит конкуренты сейчас проявят активность, расчехлят свои новые модели, особенно OpenSource.

 
Aleksander #:
Как шутка? Нее, обычный лаунчер gguf в оперативку грузит и делает около 10 токенов в секунду 

А, вы в этом смысле...

Ну, можно попросить ИИ рассказать про сиськи.

 
Edgar Akhmadeev #:

А, вы в этом смысле...

Ну, можно попросить ИИ рассказать про сиськи.

Нуу, эта модель ии не рисует, но может немного рассказать
Файлы:
 
Ivan Butko #:

Хорошие девчонки. KLING 1.5


А теперь барышни от Ideogram (чьи лучше?)




 

Вышел код Wan2.1‑FLF2V 14B

GitHub - Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models

На этот раз сделана генерация с начальной и конечной картинкой.

Модель OpenSource, локально юзать будет не очень удобно. На одну генерацию на 4090 будет уходить около 2 часов.

 

В LLM арена оказывается есть ещё бета версия, в которой я обнаружил возможность генерации изображений.

https://beta.lmarena.ai/