Midjourney и другие нейросети обработки изображений - страница 945

 

Tencent выпустила ИИ Hunyuan-T1

https://llm.hunyuan.tencent.com/#/blog/hy-t1?lang=en


1. Обучение с подкреплением как ключевая технология

Обучение с подкреплением (Reinforcement Learning, RL) стало основным методом посттренинга больших языковых моделей (LLM). Компании OpenAI (серия O) и DeepSeek (R1) подтвердили его эффективность, что привлекло внимание индустрии.

2. Запуск Hunyuan-T1

Команда Hunyuan представила официальную версию модели Hunyuan-T1, основанную на TurboS — первой в мире гибридной трансформерной модели Mamba MoE Large. По сравнению с предварительной версией (T1-Preview), новая модель значительно улучшена:

  • Лучше справляется с длинными текстами (устранены потери контекста).

  • Эффективнее вычисляет (скорость декодирования в 2 раза выше).

  • Оптимизирована под человеческие предпочтения (96,7% ресурсов направлены на RL).

3. Обучение и возможности модели

  • Наборы данных: математика, логика, наука, программирование.

  • Постепенное обучение: увеличение сложности и контекста.

  • Стратегии RL: повторение данных, сброс политики (улучшение стабильности на 50%).

  • Обратная связь: система самооценки + вознаграждение за качество ответов.

4. Производительность и тесты

Hunyuan-T1 сопоставима с топовыми моделями (DeepSeek R1, OpenAI O1):

  • MMLU-Pro (87,2): тест на общие знания (14 дисциплин).

  • GPQA-diamond (69,3): сложные научные задачи уровня PhD.

  • LiveCodeBench (64,9): программирование.

  • MATH-500 (96,2): математические задачи (близко к R1).

  • ArenaHard (91,9): адаптивность в выполнении инструкций.

5. Итог

Hunyuan-T1 — конкурентная модель с сильными возможностями в логике, науке и инженерии, сравнимая с лидерами отрасли. Её ключевые преимущества — эффективная обработка длинных текстов, высокая скорость и улучшенное соответствие запросам пользователей.

 

Выше две новости с бенч-показателями. Берем, например, MMLU-Pro и GPQA Diamond - несовпадения в соответствующих значениях для каждого ИИ.

После такого нет никакой веры этим сравнительным таблицам.

 

Краткий обзор ARC-AGI-2: Новый рубеж в тестировании ИИ

Новый тест ARC-AGI-2, разработанный Франсуа Шолле и его командой, значительно повышает требования к оценке интеллекта ИИ, выявляя существенные недостатки даже у самых продвинутых систем, таких как OpenAI o3.


Суть теста

ARC-AGI-2 разработан для измерения общей "подвижной" (fluid) интеллектуальности, а не заученных навыков. Он состоит из новых задач, которые легко решаются людьми, но трудно даются современным ИИ. Основное внимание уделяется интерпретации символов, многоступенчатому композиционному мышлению и применению правил в зависимости от контекста.

Тест был откалиброван по результатам работы людей: средний участник справляется с 60% задач без предварительной подготовки, а группа экспертов — со 100%.


Результаты неутешительны

Первоначальные результаты тестирования показали низкую производительность даже у самых современных моделей ИИ. Например, языковые модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2, набрали 0%. Модели с базовым логическим мышлением, такие как Claude 3.7 Sonnet Thinking, R1 и o3-mini, справились только с 0-1% задач.

Модель o3-low от OpenAI показала значительное падение производительности: с 75,7% в ARC-AGI-1 до примерно 4% в ARC-AGI-2.


Результаты текущие с сайта https://arcprize.org




Важность эффективности

ARC-AGI-2 вводит новый параметр – эффективность. Теперь оценивается не только способность решать задачи, но и то, насколько эффективно эта способность используется. В качестве первичной метрики используется стоимость, что позволяет напрямую сравнивать производительность человека и ИИ.

Подчеркивается, что интеллект заключается в эффективном поиске решения, а не в исчерпывающем переборе вариантов. Существует огромный разрыв в эффективности между человеком и ИИ: эксперты решают 100% задач, тратя около 17 долларов на задачу, в то время как модель o3-low от OpenAI тратит около 200 долларов на задачу, достигая точности всего в 4%.




Конкурс ARC Prize 2025

Одновременно с ARC-AGI-2 стартует конкурс ARC Prize 2025 с общим призовым фондом в 1 миллион долларов. Главный приз в размере 700 000 долларов требует достижения 85% точности на закрытом наборе данных.

Конкурс проводится на платформе Kaggle с марта по ноябрь 2025 года. В отличие от публичной таблицы лидеров на arcprize.org, правила Kaggle ограничивают вычислительные ресурсы участников примерно 50 долларами на одну отправку и запрещают использование интернет-API.

Несмотря на то, что оригинальный тест ARC-AGI-1 считался одним из самых сложных для ИИ и сигнализировал о развитии моделей рассуждения, ни одна из версий не претендует на то, чтобы указывать на достижение общего искусственного интеллекта (AGI). По мнению разработчиков, оба теста могут оставаться нерешенными и без достижения AGI.


Citations:

[1] https://the-decoder.com/openais-top-models-crash-from-75-to-just-4-on-challenging-new-arc-agi-2-test/

 
fxsaber #:

Выше две новости с бенч-показателями. Берем, например, MMLU-Pro и GPQA Diamond - несовпадения в соответствующих значениях для каждого ИИ.

После такого нет никакой веры этим сравнительным таблицам.

Есть различие, да. Тут скорее каждый производитель самостоятельно прогоняет нейронки через тесты.

В зависимости от того, какой был выбран язык и какие задачи были в тесте, цифры и различаются.

Может ли человек пройти тест на IQ несколько раз, получая одну и ту же цифру? И какой тогда IQ у человека, если при каждом тесте цифра чуть отличается?

Тут ещё важен момент, что производители зачастую обновляют нейронку, но не меняют версию. Это так было с 4o и другими. Постоянно обновляют, а версию не меняют.

Безусловно присутствует тот факт, что производителям выгодно показать, что их цифры растут и могут идти на ухищрения.

При всём при этом различия не столь критичны в цифрах. Допустимая погрешность на перепроход теста. Более того, там внизу приписано Pass@1 - может это первый прогон на тесте, а не усреднённый из 10 прогонов.

Так что делать категоричные выводы, не разобравшись в вопросе, не корректно. Для программиста просто не допустимо.


 
Vitaliy Kuznetsov #:

Так что делать категоричные выводы, не разобравшись в вопросе, не корректно. Для программиста просто не допустимо.

В моих ТС важна производительность, поэтому много времени было уделено вопросам измерений и их трактовкам. Короче, в теме данного вопроса.


К сожалению, приведенные таблицы показывают невоспроизводимость результатов. Нет диапазона полученных значений и т.д.

Предлагаю постить официальные независимые рейтинги, а не таблицы маркетологов.


Как пример такого рейтинга.

 
Vitaliy Kuznetsov #:

Ну есть же

Чат есть, а модели в списке нет. Ну, может она неявно включается, а может и не может...

Испытать не могу, нет на компе гарнитуры/микрофона. Надо в андроиде попробовать. Вот программа Perplexity на андроиде есть, и прекрасно работает.

PS: Попробовал в web на андроиде. Отвечает мне по-китайски.


 

Пока из бесплатных вариантов для голосового чата нашёл только Perplexity. Модель, может, и не самая продвинутая, но гораздо умнее Алисы.

Я сказал, что здоровье ухудшилось, хочу уехать к морю. Он сразу понял слово "уехать" и что-то рассказал. Я сказал, что хочу к морю в России. Он начал мне подробно рассказывать про Крым.

Начал такой разговор с Алисой. Она коротко сказала - съездите в Турцию. Я сказал - нет, я не отдыхать, а переехать к морю в России. Она - как насчёт Австралии?

Когда спросил Алису какую-то информацию, она просто нашла ссылки и дала. Никакой обработки и анализа. И, если правильно помню, я тестировал Pro (у меня подписка на Yandex+).

[Удален]  
Наконец-то оголтелому промптусу показали другие промптусы, что там 0% интеллекта. Что соответствует действительности. 

,,кристаллизовавшийся" интеллект - это и вовсе не интеллект, а память и фантазии промптусов. Либо интеллектуальность (начитанность). Поэтому ИИ расшифровывается как интеллектуальность. 
 

Какие есть языковые модели для локального запуска под 16 Гб (можно чуть больше) видеопамяти, хорошо понимали русский язык и не путались в элементарных вопросах?

Mistral Small 3.1 24B Instruct 2503:

У Ани есть три сестры и три брата. Сколько сестёр у брата Ани?

Чтобы ответить на этот вопрос, нужно уточнить, является ли Аня девочкой или мальчиком. Если Аня — девочка, то у её брата будет столько же сестёр, сколько и у неё самой, то есть три сестры. Если Аня — мальчик, то у его братьев будет на одну сестру больше, то есть четыре сестры.

Пожалуйста, уточните пол Ани, чтобы я мог дать точный ответ.

 

Пока только это:

QwQ 32B Q4_K_M