Midjourney и другие нейросети обработки изображений - страница 996

 

rLLM — это проект с открытым исходным кодом, направленный на полную демократизацию обучения с подкреплением (RL) для LLM и воспроизведение DeepSeek R1 и OpenAI O1/O3 в масштабе реальных задач. Для всех выпусков мы открываем исходный код всех наших работ, включая обучающие скрипты (включая гиперпараметры), модели, системы, наборы данных и журналы.

[2025/04/08] Мы выпускаем модель кодирования 14B, которая достигает впечатляющей точности Pass@1 60,6% на LiveCodeBench (+8% улучшения). В рамках этого релиза мы открываем исходный код: DeepCoder-14B-Preview

GitHub - agentica-project/rllm: Демократизация обучения с подкреплением для LLM


DeepCoder.  Модель с 14B параметрами на уровне DeepSeek-R1 и обгоняет o3-mini

Конечно это не лидер, но среди топов. Новость в том, что подобная модель может работать на среднем железе.

Ждём квантованную версию. //Уже есть (lmstudio-community/DeepCoder-14B-Preview-GGUF · Hugging Face), плюс можно скачать в LM Studio



 
Vitaliy Kuznetsov #:

rLLM — это проект с открытым исходным кодом, направленный на полную демократизацию обучения с подкреплением (RL) для LLM и воспроизведение DeepSeek R1 и OpenAI O1/O3 в масштабе реальных задач. Для всех выпусков мы открываем исходный код всех наших работ, включая обучающие скрипты (включая гиперпараметры), модели, системы, наборы данных и журналы.

[2025/04/08] Мы выпускаем модель кодирования 14B, которая достигает впечатляющей точности Pass@1 60,6% на LiveCodeBench (+8% улучшения). В рамках этого релиза мы открываем исходный код: DeepCoder-14B-Preview

GitHub - agentica-project/rllm: Демократизация обучения с подкреплением для LLM


DeepCoder.  Модель с 14B параметрами на уровне DeepSeek-R1 и обгоняет o3-mini

Конечно это не лидер, но среди топов. Новость в том, что подобная модель может работать на среднем железе.

Ждём квантованную версию. //Уже есть (lmstudio-community/DeepCoder-14B-Preview-GGUF · Hugging Face), плюс можно скачать в LM Studio



Скачал 14ь, 7гигов засунул в видеокарту и 8 в оперативку, чисто потестить, вроде 5.6 токен в секунду дает, не быстро, но приемли о
 
Вообще ДипсикКодер хоть и 8q, свистит что троцкий, спросил - Опиши себя подробно, (правда я температуру ему поставил 0.97) начал писать всякую охинею 😀

Хотя игру змейка написал за 4 минуты, со скоростью 6.6ток в сек... 
 
Aleksander #:
Вообще ДипсикКодер хоть и 8q, свистит что троцкий, спросил - Опиши себя подробно, (правда я температуру ему поставил 0.97) начал писать всякую охинею 😀

Хотя игру змейка написал за 4 минуты, со скоростью 6.6ток в сек... 

Скорее всего для программирования температура должна быть 0.1


Я заметил одну вещь, что модели весом до 10 Гб помещаются в видеокарту 12Gb. Как и 4Gb модели залезают в 6Gb среднюю карту.

Иными словами 14B-Q4 весом 9Гб скорее всего уместится в RTX5070 12Gb и будет работать со скоростью 30+ токенов в секунду, что очень хорошо.

Так что нарисовался вполне конкретный стандарт по моделям, которые должны весить менее 10Гб и при этом быть на уровне топов. Тогда с ними приятно работать локально и можно скармливать внутренние доки (личные, по работе).

Это также значит, что можно смело покупать видеокарту на 12Gb для работы с такими моделями.


Ещё заметил, что токены в секунду можно сравнить с FPS (кадры в секунду). При 15 играть/работать можно, при 30 более менее комфортно, при 60+ суперкомфортно.

Может не совсем корректно сравнивать теплое и белое, но по внутренним ощущениям FPS и токены/сек похожи по цифрам == комфорт. FPS == TPS (token per second). Вот и новый термин.

 
Vitaliy Kuznetsov #:
уместится в RTX5070 12Gb
Vitaliy Kuznetsov #:
можно смело покупать видеокарту на 12Gb для работы с такими моделями

Рассмотрим карты с 12 Гб: RTX 3060, 4070 и 5070.

Для скорости работы ИИ на 1-м месте - количество тензорных ядер. Их 112, 184 и 192.

На 2-м месте - производительность памяти. 360, 504 и 672 Гбайт/сек.

При 8 бит квантизации RTX 4070 в 5 раз быстрее, чем RTX 3060. RTX 5070 - не знаю, отрыв по характеристикам не большой, но и по цене - тоже (скорее всего, соотношение цена/качество лучше).

Цены - 31тр, 62тр, 72тр.

RTX 4080 с 16 Гб примерно на треть быстрее RTX 3060, а 4090 с 24 Гб - ещё на четверть. Отрыв в скорости небольшой, в продаже найти труднее, цену не искал (боюсь испугаться).

Я для работы с ИИ купил RTX 3060 (бюджет).

 
У меня бюджетнее получилось- проц 24 потока, 32гг памяти, вкарта rx590 8ггб, все вместе около 10тыр {3года назад, запускал разные версии до 30ггб весом, хорошо пошол дипсик 11-15 тпс, гемма3-1б нормально и рассказы и код пишет около 15тпс
 
Aleksander #:
У меня бюджетнее получилось- проц 24 потока, 32гг памяти, вкарта rx590 8ггб, все вместе около 10тыр {3года назад, запускал разные версии до 30ггб весом, хорошо пошол дипсик 11-15 тпс, гемма3-1б нормально и рассказы и код пишет около 15тпс

У меня до недавнего времени стояло несколько карт AMD RX580 с 8 Гб. К сожалению, питон очень плохо работает с AMD GPU. Хорошо поддерживаются только самые топовые. А я работаю в основном с локальными моделями для фоток и видео. Текстовые - только онлайн. Открытые платформы на питоне мне не дались, а коммерческие работали, но гораздо медленнее, чем с RTX 3060 (у старых моделей нет тензорных ядер, которые работают как ИИ-ускорители).

 

Ironwood: Первый Google TPU для эпохи логических выводов

https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/

//Не в 2, а в 10 раз мощнее прошлого поколения и в 3600 раз по сравнению с первым.


• Google представляет Ironwood, свой TPU седьмого поколения для логических выводов.

• Ironwood - самый мощный и энергоэффективный TPU от Google.

• Он масштабируется до 9 216 чипов, обеспечивая более чем в 24 раза большую вычислительную мощность, чем крупнейший суперкомпьютер.

• Ironwood имеет улучшенный SparseCore, увеличенную пропускную способность HBM и полосу пропускания, а также улучшенную сеть ICI.

• Новый TPU позволяет клиентам Google Cloud выполнять сложные задачи с использованием ИИ с высокой производительностью и эффективностью.

• Ironwood создан для поддержки следующего этапа развития генеративного ИИ и его огромных вычислительных и коммуникационных требований.

• Он обеспечивает мощную параллельную вычислительную мощность для самых сложных задач ИИ, таких как сверхбольшие модели LLM и модели MoE.

• Каждый отдельный чип Ironwood может похвастаться максимальной вычислительной мощностью в 4614 ТФЛОПс.

 
Edgar Akhmadeev #:

RTX 3060 (бюджет).

Поделись скоростью TPS для разных моделей. Если есть Gemma3-12B и 27B, интересно про них.

 

UNO от ByteDance

GitHub - bytedance/UNO: 🔥🔥 UNO: A Universal Customization Method for Both Single and Multi-Subject Conditioning

Нейронка работает с различными сценариями согласованности предметов при генераций картинок.