Midjourney и другие нейросети обработки изображений - страница 999

 
Edgar Akhmadeev #:

Питон-платформа ComfyUI и программы, на ней основанные.

Да есть у меня. Хотел туда приделать gguf и началось. С первого захода словил какую-то ошибку. Но разберусь, наверное, как время появится.

 
Maxim Dmitrievsky #:
У вас есть какие-то реальные кейсы применения генераторов картинок? Не ради стеба, а информации для. Афтар ничего не знает по этому поводу. 

Нет. Генерацией не увлекаюсь, вроде неоднократно писал. ИИ использую для обработки старых личных фотографий и видеозаписей. К бизнесу и деньгам это не имеет отношения. Кроме дел должно быть и свободное время, для развлечения и хобби. А у меня свободного времени больше, чем у многих.

 
Vitaliy Kuznetsov #:

Да есть у меня. Хотел туда приделать gguf и началось. С первого захода словил какую-то ошибку. Но разберусь, наверное, как время появится.

Программа-редактор Krita с плагином AI основана на ComfyUI. Модели имеют расширение *.safetensors, не знаю, это название формата или нет. Модели берутся, как я ранее писал, с huggingface.co и civitai.com, ну и с github.com. Из коробки - Stable Diffusion 1.5, Stable Diffusion XL и Illustrious / NoobAI. Добавляются с ограничениями Flux и Stable Diffusion 3.5. Чтобы добавить другие модели, надо хорошо разобраться в ComfyUI, модели в одиночку не работают, там обвязка из множества мелких моделей.

[Удален]  
Edgar Akhmadeev #:

Нет. Генерацией не увлекаюсь, вроде неоднократно писал. ИИ использую для обработки старых личных фотографий и видеозаписей. К бизнесу и деньгам это не имеет отношения. Кроме дел должно быть и свободное время, для развлечения и хобби. А у меня свободного времени больше, чем у многих.

Путаюсь в никнеймах, когда нет картинки. Понял, спасибо.

 

Ещё один стих от AI

Название: “Сад Зеркал”

В саду зеркал, где тени говорят,
Растут цветы невиданных пород.
Одни несут прохладу и покой,
Другие - терпкий яд, зарытый под листвой.

Там ветер шепчет странные слова,
О том, что каждый сам себе глава.
Что посеешь, то и пожнешь, дружок,
Вернется эхом каждый твой шажок.

И если в сердце камень ты носил,
И в сад чужой его тайком пустил,
То помни, сад всегда найдет ответ,
И камень твой увидит ясный свет.

Зеркала помнят все твои дела,
И отражают суть, как есть она.
Не удивляйся, если вдруг увидишь,
В своем саду плоды, что ненавидишь.

В саду зеркал нет места для обмана,
Здесь каждый сам себе и царь, и рана.
Входи с добром, и сад тебя одарит,
Но зла тая, судьба тебя ударит.

 
Vitaliy Kuznetsov #:

Поделись скоростью TPS для разных моделей. Если есть Gemma3-12B и 27B, интересно про них.

Под llama.cpp замерил. CPU очень старая Ryzen 3 3200 (4 cores, AVX2), GPU RTX 3060, разогнана (прирост почти в 1.6 раз, если gemma целиком в VRAM, для Meta-Llama прироста почему-то нет).

За таблицу извиняюсь, просто скопировал с формата markdown.

| Model                                | Gb  | CPU     | RTX 3060  | RTX 3060 OC |
| ------------------------------------ | --- | --------| --------- | ----------- |
| gemma-3-27b-it-q4_0.gguf             | 16  |         | 1.03      | 1.04        |
| gemma-3-27b-it-q4_0_s.gguf           | 14  |         | 1.22      | 1.42        |
| gemma-3-12b-it-qat-q4_0-gguf         | 7.5 | 2.8     | 24.5      | 38.7        |
| Meta-Llama-3.1-8B-Instruct-Q6_K.gguf | 6.1 | 4.4-4.6 | 43.9-44.2 | 41.1        |
Как видим, если модель не помещается в VRAM целиком, всё очень замедляется.

В 12 Gb VRAM нужны модели полегче. ~20B для q4? Хотя q6 - самая оптимальная квантизация, как пишут (или я забыл, несколько страниц назад писал, лень искать).

Если честно, на 4-5 t/s скорость вывода текста - это как раз скорость чтения глазами, не вдумчиво. И быстрее, чем озвучивание текста. Но для работы с изображениями совсем не годится.

Если интересно, попробую запустить модели 11, 11.5 и 12 Гб, чтобы выяснить границу (300-400 Kb занято дисплеем). Только ищите модели сами и дайте прямые ссылки.

У многих проц достаточно мощный, чтобы сравняться со скоростью недорогого GPU, но ценой шума, перегрева, стоимости железа. Мне такие мощности не нужны. Даже для оптимизаций, которые длятся часами - я бы не вынес шума.

 

OpenAI выпустила новый тест для ИИ BrowseComp.

Это способность искать информацию, которую сложно найти и нужно понимать контекст.

Существующие бенчмарки, такие как SimpleQA, которые измеряют способность моделей извлекать основные изолированные факты, уже насыщены моделями с доступом к инструментам быстрого просмотра, таким как GPT-4o с просмотром. Чтобы измерить способность агентов ИИ находить труднодоступную, запутанную информацию в Интернете, мы открываем новый эталон из 1266 сложных задач под названием BrowseComp, что расшифровывается как «Browsing Competition».

BrowseComp: бенчмарк для просмотра агентов | Открытый ИИ

Мы оценили ряд моделей на BrowseComp, включая модели без просмотра — GPT-4o, GPT-4.5 и OpenAI o1 (средний), а также GPT-4o с просмотром и Deep Research, агентную модель, специально обученную для постоянного просмотра веб-страниц. Как показано в таблице ниже, GPT-4o и GPT-4.5 достигли почти нулевой точности, что подчеркивает сложность бенчмарка: без убедительных рассуждений или использования инструментов модели не могут найти виды неясных, многоскачковых фактов, на которые нацелен BrowseComp.


GitHub - openai/simple-evals

 

Нашёл такую информацию по скорости генераций через квантованные версии FLUX

Для справки:

1. Flux schnell - версия для быстрой генерации с меньшим кол-вом шагов (4). Качестве генерации всё равно хорошее

2. Flux Dev. Средняя версия примерно с 20-30 шагами на генерацию. Это вариант своего рода эталон, близкий к топам

3. Flux PRO. Только Api. Среди топов.

Квантованные версии созданы для того, чтобы юзать нейронки на менее требовательном железе.

Итак

3070 Ti 8 GB. Flux schnell в Q5 давал картинку за полминуты, dev за 3 минуты

rtx3050 8gb - shell просчитает 1024х1024 step 4 - от 2 минут, dev step 25 от 5 минут

Думаю, что 12+Gb новые видеокарты смогут за 10-20 секунд генерировать.


Чтобы юзать gguf версию через ComfyUI, нужно не только его установить, но и сверху накатить обновления и настройки https://github.com/city96/ComfyUI-GGUF

Мануал есть в сети (https://habr.com/ru/articles/866566/), но у меня с первого захода вышла ошибка, значит придётся как-нибудь найти время и повторить всё с нуля.


Также ComfyUI  поддерживает новую нейронку Hidream https://github.com/city96/ComfyUI-GGUF/issues/248

И вот она уже почти топ среди топов https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard


Так что просто необходим простой софт по работе с генераторами изображений (особенно включая gguf модели) без сложных схем и манипуляций с кучей плагинов.

 

поздравляю секту свидетелей ИИ с 1000 страниц пустоты

 

OpenAI добавил в ChatGPT новую возможность памяти, которая позволяет модели получать доступ к полной истории чата пользователей и учиться на ней.

Целью этой функции является предоставление более персонализированных ответов путем понимания индивидуальных предпочтений и прошлых разговоров.

До сих пор память ChatGPT была ограничено явно сохраненной информацией, такой как имена, стили письма и предпочтительные темы.

Обновление позволяет модели включать контекст из предыдущих разговоров для создания того, что OpenAI описывает как "заметно более актуальные и полезные" ответы.

Новые чаты будут автоматически основываться на более ранних взаимодействиях. Функцию можно отключить. В феврале подобный функционал появился у Google.

https://techcrunch.com/2024/02/13/chatgpt-will-now-remember-and-forget-things-you-tell-it-to/