Midjourney и другие нейросети обработки изображений - страница 945
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Tencent выпустила ИИ Hunyuan-T1
https://llm.hunyuan.tencent.com/#/blog/hy-t1?lang=en
1. Обучение с подкреплением как ключевая технология
Обучение с подкреплением (Reinforcement Learning, RL) стало основным методом посттренинга больших языковых моделей (LLM). Компании OpenAI (серия O) и DeepSeek (R1) подтвердили его эффективность, что привлекло внимание индустрии.
2. Запуск Hunyuan-T1
Команда Hunyuan представила официальную версию модели Hunyuan-T1, основанную на TurboS — первой в мире гибридной трансформерной модели Mamba MoE Large. По сравнению с предварительной версией (T1-Preview), новая модель значительно улучшена:
Лучше справляется с длинными текстами (устранены потери контекста).
Эффективнее вычисляет (скорость декодирования в 2 раза выше).
Оптимизирована под человеческие предпочтения (96,7% ресурсов направлены на RL).
3. Обучение и возможности модели
Наборы данных: математика, логика, наука, программирование.
Постепенное обучение: увеличение сложности и контекста.
Стратегии RL: повторение данных, сброс политики (улучшение стабильности на 50%).
Обратная связь: система самооценки + вознаграждение за качество ответов.
4. Производительность и тесты
Hunyuan-T1 сопоставима с топовыми моделями (DeepSeek R1, OpenAI O1):
MMLU-Pro (87,2): тест на общие знания (14 дисциплин).
GPQA-diamond (69,3): сложные научные задачи уровня PhD.
LiveCodeBench (64,9): программирование.
MATH-500 (96,2): математические задачи (близко к R1).
ArenaHard (91,9): адаптивность в выполнении инструкций.
5. Итог
Hunyuan-T1 — конкурентная модель с сильными возможностями в логике, науке и инженерии, сравнимая с лидерами отрасли. Её ключевые преимущества — эффективная обработка длинных текстов, высокая скорость и улучшенное соответствие запросам пользователей.
Форум по трейдингу, автоматическим торговым системам и тестированию торговых стратегий
Midjourney и другие нейросети обработки изображений
Vitaliy Kuznetsov, 2025.03.27 08:51
Tencent выпустила ИИ Hunyuan-T1
Форум по трейдингу, автоматическим торговым системам и тестированию торговых стратегий
Midjourney и другие нейросети обработки изображений
Vitaliy Kuznetsov, 2025.03.25 19:24
Обновлённый DeepSeek3 (0324) лидирует в мировых ИИ
Выше две новости с бенч-показателями. Берем, например, MMLU-Pro и GPQA Diamond - несовпадения в соответствующих значениях для каждого ИИ.
После такого нет никакой веры этим сравнительным таблицам.
Краткий обзор ARC-AGI-2: Новый рубеж в тестировании ИИ
Новый тест ARC-AGI-2, разработанный Франсуа Шолле и его командой, значительно повышает требования к оценке интеллекта ИИ, выявляя существенные недостатки даже у самых продвинутых систем, таких как OpenAI o3.
Суть теста
ARC-AGI-2 разработан для измерения общей "подвижной" (fluid) интеллектуальности, а не заученных навыков. Он состоит из новых задач, которые легко решаются людьми, но трудно даются современным ИИ. Основное внимание уделяется интерпретации символов, многоступенчатому композиционному мышлению и применению правил в зависимости от контекста.
Тест был откалиброван по результатам работы людей: средний участник справляется с 60% задач без предварительной подготовки, а группа экспертов — со 100%.
Результаты неутешительны
Первоначальные результаты тестирования показали низкую производительность даже у самых современных моделей ИИ. Например, языковые модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2, набрали 0%. Модели с базовым логическим мышлением, такие как Claude 3.7 Sonnet Thinking, R1 и o3-mini, справились только с 0-1% задач.
Модель o3-low от OpenAI показала значительное падение производительности: с 75,7% в ARC-AGI-1 до примерно 4% в ARC-AGI-2.
Результаты текущие с сайта https://arcprize.org
Важность эффективности
ARC-AGI-2 вводит новый параметр – эффективность. Теперь оценивается не только способность решать задачи, но и то, насколько эффективно эта способность используется. В качестве первичной метрики используется стоимость, что позволяет напрямую сравнивать производительность человека и ИИ.
Подчеркивается, что интеллект заключается в эффективном поиске решения, а не в исчерпывающем переборе вариантов. Существует огромный разрыв в эффективности между человеком и ИИ: эксперты решают 100% задач, тратя около 17 долларов на задачу, в то время как модель o3-low от OpenAI тратит около 200 долларов на задачу, достигая точности всего в 4%.
Конкурс ARC Prize 2025
Одновременно с ARC-AGI-2 стартует конкурс ARC Prize 2025 с общим призовым фондом в 1 миллион долларов. Главный приз в размере 700 000 долларов требует достижения 85% точности на закрытом наборе данных.
Конкурс проводится на платформе Kaggle с марта по ноябрь 2025 года. В отличие от публичной таблицы лидеров на arcprize.org, правила Kaggle ограничивают вычислительные ресурсы участников примерно 50 долларами на одну отправку и запрещают использование интернет-API.
Несмотря на то, что оригинальный тест ARC-AGI-1 считался одним из самых сложных для ИИ и сигнализировал о развитии моделей рассуждения, ни одна из версий не претендует на то, чтобы указывать на достижение общего искусственного интеллекта (AGI). По мнению разработчиков, оба теста могут оставаться нерешенными и без достижения AGI.
Citations:
[1] https://the-decoder.com/openais-top-models-crash-from-75-to-just-4-on-challenging-new-arc-agi-2-test/
Выше две новости с бенч-показателями. Берем, например, MMLU-Pro и GPQA Diamond - несовпадения в соответствующих значениях для каждого ИИ.
После такого нет никакой веры этим сравнительным таблицам.
Есть различие, да. Тут скорее каждый производитель самостоятельно прогоняет нейронки через тесты.
В зависимости от того, какой был выбран язык и какие задачи были в тесте, цифры и различаются.
Может ли человек пройти тест на IQ несколько раз, получая одну и ту же цифру? И какой тогда IQ у человека, если при каждом тесте цифра чуть отличается?
Тут ещё важен момент, что производители зачастую обновляют нейронку, но не меняют версию. Это так было с 4o и другими. Постоянно обновляют, а версию не меняют.
Безусловно присутствует тот факт, что производителям выгодно показать, что их цифры растут и могут идти на ухищрения.
При всём при этом различия не столь критичны в цифрах. Допустимая погрешность на перепроход теста. Более того, там внизу приписано Pass@1 - может это первый прогон на тесте, а не усреднённый из 10 прогонов.
Так что делать категоричные выводы, не разобравшись в вопросе, не корректно. Для программиста просто не допустимо.
Так что делать категоричные выводы, не разобравшись в вопросе, не корректно. Для программиста просто не допустимо.
В моих ТС важна производительность, поэтому много времени было уделено вопросам измерений и их трактовкам. Короче, в теме данного вопроса.
К сожалению, приведенные таблицы показывают невоспроизводимость результатов. Нет диапазона полученных значений и т.д.
Предлагаю постить официальные независимые рейтинги, а не таблицы маркетологов.
Как пример такого рейтинга.
Форум по трейдингу, автоматическим торговым системам и тестированию торговых стратегий
Midjourney и другие нейросети обработки изображений
Vitaliy Kuznetsov, 2025.03.27 09:04
Результаты текущие с сайта https://arcprize.org
Ну есть же
Чат есть, а модели в списке нет. Ну, может она неявно включается, а может и не может...
Испытать не могу, нет на компе гарнитуры/микрофона. Надо в андроиде попробовать. Вот программа Perplexity на андроиде есть, и прекрасно работает.
PS: Попробовал в web на андроиде. Отвечает мне по-китайски.
Пока из бесплатных вариантов для голосового чата нашёл только Perplexity. Модель, может, и не самая продвинутая, но гораздо умнее Алисы.
Я сказал, что здоровье ухудшилось, хочу уехать к морю. Он сразу понял слово "уехать" и что-то рассказал. Я сказал, что хочу к морю в России. Он начал мне подробно рассказывать про Крым.
Начал такой разговор с Алисой. Она коротко сказала - съездите в Турцию. Я сказал - нет, я не отдыхать, а переехать к морю в России. Она - как насчёт Австралии?
Когда спросил Алису какую-то информацию, она просто нашла ссылки и дала. Никакой обработки и анализа. И, если правильно помню, я тестировал Pro (у меня подписка на Yandex+).
Какие есть языковые модели для локального запуска под 16 Гб (можно чуть больше) видеопамяти, хорошо понимали русский язык и не путались в элементарных вопросах?
Mistral Small 3.1 24B Instruct 2503:
У Ани есть три сестры и три брата. Сколько сестёр у брата Ани?
Чтобы ответить на этот вопрос, нужно уточнить, является ли Аня девочкой или мальчиком. Если Аня — девочка, то у её брата будет столько же сестёр, сколько и у неё самой, то есть три сестры. Если Аня — мальчик, то у его братьев будет на одну сестру больше, то есть четыре сестры.Пожалуйста, уточните пол Ани, чтобы я мог дать точный ответ.
Пока только это:
QwQ 32B Q4_K_M