NVIDIA показала, что даже небольшую модель на 1. 5B параметров можно превратить в мощную reasoning без роста архитектуры.

Vitaliy Kuznetsov 2025.07.28 19:41 #11001

Alibaba обновили OpenSource видеогенератор.

Теперь полный контроль сцены, угла, освещения и прочего.

Vitaliy Kuznetsov 2025.07.28 19:48 #11002

Саммари статьи "Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training" (arXiv:2507.12507):

💡 Как выжать максимум из маленькой LLM?

Ответ: долго и грамотно учить.

Команда NVIDIA показала, что даже небольшую модель на 1.5B параметров можно превратить в мощную reasoning‑машину — без роста архитектуры, просто за счёт продвинутого и масштабного RL‑обучения.

🔑 Ключевая новость

Модель размером 1.5B после месяцев обучения с подкреплением достигает топовых результатов в логике, математике, программировании и задачах STEM.

📈 Итоги:

+55% к логике
+14.7% к математике
+13.9% к коду
+25.1% к сложным STEM-вопросам

🔬 Как это работает?

🧠 База обучения:

RL с grounded-наградами — за каждый ответ проверка на корректность выполняется автоматически в изолированной среде (sandbox).
5 типов задач, включая:
- ~40 000 примеров по математике
- ~24 000 примеров по коду

🚀 Главное новшество — Group Relative Policy Optimization (GRPO)

Обновлённый RL-алгоритм, устойчивый к переобучению и более "щадящий" к экспериментам.

🛠 Трюки, которые дали буст:

Decoupled Clipping
Модель может отходить от шаблонов — теперь она не боится использовать редкие токены и может находить нестандартные, но верные решения.
Dynamic Sampling
Лёгкие задачи пропускаются — обучение фокусируется на сложных и полезных для роста задачах.
Низкий KL-шаг (0.0001)
Минимальные ограничения на отклонение от базовой модели позволяют LLM свободно исследовать новые подходы, но без скатывания в хаос.
Регулярный Policy Reset (каждые 400 шагов)
Модель периодически "перезагружается", сбрасывая оптимизатор и policy — как будто забывает плохое, но сохраняет хорошее.
Температура 1.2 и длинный контекст (8K → 16K)
Повышает разнообразие генерации и помогает использовать больше контекста при решении задач.

📌 Вывод

Не размер модели, а способ её обучения определяет результат.
Продолжительное RL-обучение с умными приёмами позволяет "маленькой" модели:

продолжать исследовать,
не застывать в паттернах,
и стабильно улучшать reasoning-навыки.

📎 Пример того, как LLM могут расти в качестве, не растя в размере.

Машинное обучение и нейронные Чемпионат Алгоритмов Оптимизации. Машинное обучение в трейдинге:

Vitaliy Kuznetsov 2025.07.28 20:03 #11003

«Если вы общаетесь с ChatGPT про свои наиболее приватные дела, а потом возникнет судебный иск или что-то в этом роде, нас могут обязать это предоставить, и я считаю, что это очень неправильно», — сказал Альтман (цитата по Business Insider).

Новая версия платформы MetaTrader Тестер МТ4 не отдает Да здравствует Страшный GDPR!

Ivan Butko 2025.07.28 20:06 #11004

Vitaliy Kuznetsov #:

«Если вы общаетесь с ChatGPT про свои наиболее приватные дела, а потом возникнет судебный иск или что-то в этом роде, нас могут обязать это предоставить, и я считаю, что это очень неправильно», — сказал Альтман (цитата по Business Insider).

Куда он денется

Чем чат с чатом приватней переписки в вацапе, которую требуют предоставить

Vitaliy Kuznetsov 2025.07.28 20:15 #11005

Ivan Butko #:

Куда он денется

Чем чат с чатом приватней переписки в вацапе, которую требуют предоставить

Да. Там он просто дальше рассуждает про нюансы.

«Прямо сейчас, если вы обсуждаете эти проблемы с психотерапевтом, юристом или врачом, на это распространяется юридическая привилегия — существует врачебная тайна, существует адвокатская тайна», — добавил Альтман. «Мы еще не решили этот вопрос для случаев, когда вы разговариваете с ChatGPT».

Альтман сказал, что должна существовать «та же концепция конфиденциальности для ваших разговоров с ИИ, что и для бесед с психотерапевтом», и что этот вопрос необходимо «решить в срочном порядке».

«Все больше пользователей — особенно молодые люди — используют ChatGPT в качестве психотерапевта, лайф-коуча или консультируются с ним по поводу отношений», — сказал Альтман.

Кто достигнет при форвард Элитные показатели :) Инструменты без запаздывания

Vitaliy Kuznetsov 2025.07.28 20:16 #11006

Арты. Миджорни

Vitaly Muzichenko 2025.07.28 21:40 #11007

Vitaliy Kuznetsov #:

Да. Там он просто дальше рассуждает про нюансы.

...

пользователей — особенно молодые люди — используют ChatGPT в качестве психотерапевта, лайф-коуча или консультируются с ним по поводу отношений», — сказал Альтман.

Ну и продолжение всего этого

Врачи Национальной службы здравоохранения предупреждают, что ChatGPT может доводить людей до психоза, 
поскольку миллионы людей обращаются к искусственному интеллекту (ИИ) за дружбой и советом.

Психиатры из службы здравоохранения и университетские исследователи утверждают, что появляется все больше доказательств того, 
что чат-боты на основе искусственного интеллекта могут «способствовать возникновению или ухудшению психотических состояний здоровья.

В новой научной статье дюжина врачей и других экспертов утверждают ,
что чат-боты на основе искусственного интеллекта имеют тенденцию отражать, подтверждать или усиливать бредовый или грандиозный контент, 
что может привести к тому, что психически больные люди потеряют связь с реальностью.

В частности, склонность чат-ботов соглашаться с пользователями может усугубить бред у психически больных людей. 
Компания OpenAI, чей ChatGPT был скачан 900 миллионов раз, признала, что её чат-боты занимаются подхалимством и осыпают пользователей ненужными похвалами.

Десятки людей в социальных сетях утверждают, что у их близких случился срыв психического здоровья после того, как они пристрастились к ChatGPT, так называемый «психоз ChatGPT».

Vitaliy Kuznetsov 2025.07.29 06:47 #11008

Vitaly Muzichenko #:

Ну и продолжение всего этого

Это озвучивалось несколько раз. Началось с постов на реддит. Я показывал промпты и примеры по этому вопросу, писал предупреждения перед некоторыми постами, что ИИ может доказывать любую точку зрения и находить связи в несвязанных вещах, если его попросить.

ИИ умных делает умнее, тупых - тупее. Работает как усилитель.

доливки в мт5 [Архив]учитесь зарабатывать селяне![Архив] Промывание мозгов советникам

Vitaliy Kuznetsov 2025.07.29 08:28 #11009

Edge браузер от Microsoft расширил возможности встроенного Copilot.

Vitaliy Kuznetsov 2025.07.29 09:53 #11010

ИИ поможет, даже если Вы - котенок

Midjourney и другие нейросети обработки изображений - страница 1101