RLLM — проект с открытым исходным кодом для демократизации обучения с подкреплением, включая модель DeepCoder-14B - Общее обсуждение

Vitaliy Kuznetsov 2025.04.09 11:00 #9951

rLLM — это проект с открытым исходным кодом, направленный на полную демократизацию обучения с подкреплением (RL) для LLM и воспроизведение DeepSeek R1 и OpenAI O1/O3 в масштабе реальных задач. Для всех выпусков мы открываем исходный код всех наших работ, включая обучающие скрипты (включая гиперпараметры), модели, системы, наборы данных и журналы.

[2025/04/08] Мы выпускаем модель кодирования 14B, которая достигает впечатляющей точности Pass@1 60,6% на LiveCodeBench (+8% улучшения). В рамках этого релиза мы открываем исходный код: DeepCoder-14B-Preview

GitHub - agentica-project/rllm: Демократизация обучения с подкреплением для LLM

DeepCoder. Модель с 14B параметрами на уровне DeepSeek-R1 и обгоняет o3-mini

Конечно это не лидер, но среди топов. Новость в том, что подобная модель может работать на среднем железе.

Ждём квантованную версию. //Уже есть (lmstudio-community/DeepCoder-14B-Preview-GGUF · Hugging Face), плюс можно скачать в LM Studio

Машинное обучение и нейронные Изучаем ONNX для применения AI 2023. Встречайте ChatGPT.

Aleksander 2025.04.09 12:27 #9952

Vitaliy Kuznetsov #:

rLLM — это проект с открытым исходным кодом, направленный на полную демократизацию обучения с подкреплением (RL) для LLM и воспроизведение DeepSeek R1 и OpenAI O1/O3 в масштабе реальных задач. Для всех выпусков мы открываем исходный код всех наших работ, включая обучающие скрипты (включая гиперпараметры), модели, системы, наборы данных и журналы.

[2025/04/08] Мы выпускаем модель кодирования 14B, которая достигает впечатляющей точности Pass@1 60,6% на LiveCodeBench (+8% улучшения). В рамках этого релиза мы открываем исходный код: DeepCoder-14B-Preview

GitHub - agentica-project/rllm: Демократизация обучения с подкреплением для LLM

DeepCoder. Модель с 14B параметрами на уровне DeepSeek-R1 и обгоняет o3-mini

Конечно это не лидер, но среди топов. Новость в том, что подобная модель может работать на среднем железе.

Ждём квантованную версию. //Уже есть (lmstudio-community/DeepCoder-14B-Preview-GGUF · Hugging Face), плюс можно скачать в LM Studio

Скачал 14ь, 7гигов засунул в видеокарту и 8 в оперативку, чисто потестить, вроде 5.6 токен в секунду дает, не быстро, но приемли о

Aleksander 2025.04.09 12:56 #9953

Вообще ДипсикКодер хоть и 8q, свистит что троцкий, спросил - Опиши себя подробно, (правда я температуру ему поставил 0.97) начал писать всякую охинею 😀

Хотя игру змейка написал за 4 минуты, со скоростью 6.6ток в сек...

Файлы:

IMG_2025_04_09_15_56_46_4292422838800597664183.jpg 5901 kb

IMG_2025_04_09_15_59_01_715470529742777830049.jpg 5002 kb

Билл Вильямс и его Array out of range [Что же вы понимаете

Vitaliy Kuznetsov 2025.04.09 14:07 #9954

Aleksander #:
Вообще ДипсикКодер хоть и 8q, свистит что троцкий, спросил - Опиши себя подробно, (правда я температуру ему поставил 0.97) начал писать всякую охинею 😀

Хотя игру змейка написал за 4 минуты, со скоростью 6.6ток в сек...

Скорее всего для программирования температура должна быть 0.1

Я заметил одну вещь, что модели весом до 10 Гб помещаются в видеокарту 12Gb. Как и 4Gb модели залезают в 6Gb среднюю карту.

Иными словами 14B-Q4 весом 9Гб скорее всего уместится в RTX5070 12Gb и будет работать со скоростью 30+ токенов в секунду, что очень хорошо.

Так что нарисовался вполне конкретный стандарт по моделям, которые должны весить менее 10Гб и при этом быть на уровне топов. Тогда с ними приятно работать локально и можно скармливать внутренние доки (личные, по работе).

Это также значит, что можно смело покупать видеокарту на 12Gb для работы с такими моделями.

Ещё заметил, что токены в секунду можно сравнить с FPS (кадры в секунду). При 15 играть/работать можно, при 30 более менее комфортно, при 60+ суперкомфортно.

Может не совсем корректно сравнивать теплое и белое, но по внутренним ощущениям FPS и токены/сек похожи по цифрам == комфорт. FPS == TPS (token per second). Вот и новый термин.

Машинное обучение в трейдинге: Элитные показатели :) HedgeHog System & EA

Edgar Akhmadeev 2025.04.09 15:38 #9955

Vitaliy Kuznetsov #:
уместится в RTX5070 12Gb

Vitaliy Kuznetsov #:
можно смело покупать видеокарту на 12Gb для работы с такими моделями

Рассмотрим карты с 12 Гб: RTX 3060, 4070 и 5070.

Для скорости работы ИИ на 1-м месте - количество тензорных ядер. Их 112, 184 и 192.

На 2-м месте - производительность памяти. 360, 504 и 672 Гбайт/сек.

При 8 бит квантизации RTX 4070 в 5 раз быстрее, чем RTX 3060. RTX 5070 - не знаю, отрыв по характеристикам не большой, но и по цене - тоже (скорее всего, соотношение цена/качество лучше).

Цены - 31тр, 62тр, 72тр.

RTX 4080 с 16 Гб примерно на треть быстрее RTX 3060, а 4090 с 24 Гб - ещё на четверть. Отрыв в скорости небольшой, в продаже найти труднее, цену не искал (боюсь испугаться).

Я для работы с ИИ купил RTX 3060 (бюджет).

Новая версия платформы MetaTrader OpenCl и инструменты для Тарифы на выделенный сервер

Aleksander 2025.04.09 15:56 #9956

У меня бюджетнее получилось- проц 24 потока, 32гг памяти, вкарта rx590 8ггб, все вместе около 10тыр {3года назад, запускал разные версии до 30ггб весом, хорошо пошол дипсик 11-15 тпс, гемма3-1б нормально и рассказы и код пишет около 15тпс

При оптимизации советников, что Падение терминала. Перегруз памяти. Терминалы на слабом сервере

Edgar Akhmadeev 2025.04.09 16:31 #9957

Aleksander #:
У меня бюджетнее получилось- проц 24 потока, 32гг памяти, вкарта rx590 8ггб, все вместе около 10тыр {3года назад, запускал разные версии до 30ггб весом, хорошо пошол дипсик 11-15 тпс, гемма3-1б нормально и рассказы и код пишет около 15тпс

У меня до недавнего времени стояло несколько карт AMD RX580 с 8 Гб. К сожалению, питон очень плохо работает с AMD GPU. Хорошо поддерживаются только самые топовые. А я работаю в основном с локальными моделями для фоток и видео. Текстовые - только онлайн. Открытые платформы на питоне мне не дались, а коммерческие работали, но гораздо медленнее, чем с RTX 3060 (у старых моделей нет тензорных ядер, которые работают как ИИ-ускорители).

Wine, Crossover, PlayToMac, Kegworks Обсуждение статьи "MetaTrader 5 Linux: WINE, MT5 и

Vitaliy Kuznetsov 2025.04.09 19:40 #9958

Ironwood: Первый Google TPU для эпохи логических выводов

https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/

//Не в 2, а в 10 раз мощнее прошлого поколения и в 3600 раз по сравнению с первым.

• Google представляет Ironwood, свой TPU седьмого поколения для логических выводов.

• Ironwood - самый мощный и энергоэффективный TPU от Google.

• Он масштабируется до 9 216 чипов, обеспечивая более чем в 24 раза большую вычислительную мощность, чем крупнейший суперкомпьютер.

• Ironwood имеет улучшенный SparseCore, увеличенную пропускную способность HBM и полосу пропускания, а также улучшенную сеть ICI.

• Новый TPU позволяет клиентам Google Cloud выполнять сложные задачи с использованием ИИ с высокой производительностью и эффективностью.

• Ironwood создан для поддержки следующего этапа развития генеративного ИИ и его огромных вычислительных и коммуникационных требований.

• Он обеспечивает мощную параллельную вычислительную мощность для самых сложных задач ИИ, таких как сверхбольшие модели LLM и модели MoE.

• Каждый отдельный чип Ironwood может похвастаться максимальной вычислительной мощностью в 4614 ТФЛОПс.

OpenCL в трейдинге Машинное обучение и нейронные 500 000 000 задач

Vitaliy Kuznetsov 2025.04.09 19:41 #9959

Edgar Akhmadeev #:

RTX 3060 (бюджет).

Поделись скоростью TPS для разных моделей. Если есть Gemma3-12B и 27B, интересно про них.

Vitaliy Kuznetsov 2025.04.09 19:48 #9960

UNO от ByteDance

GitHub - bytedance/UNO: 🔥🔥 UNO: A Universal Customization Method for Both Single and Multi-Subject Conditioning

Нейронка работает с различными сценариями согласованности предметов при генераций картинок.

Midjourney и другие нейросети обработки изображений - страница 996