ИИ превзошли порог практической полезности и начинают создавать вменяемый код

Vitaliy Kuznetsov 2026.02.22 21:18 #11771

Есть мнение, что ИИ с ноября 2025 перешагнули барьер практической полезности.

Именно тогда передовые модели и агенты начали создавать более менее вменяемый код. А в тесте на рисование аналоговых часов уже справляются все топы в 5 из 5 попыток.

Сейчас новые модели перешагнули порог 60% (уровень людей) в тесте ARC-AGI 2, для пространственных задач у которых нет шаблона решений.

Считаете ли Вы, что произошёл знаковый момент в развитии нейросетей?

Машинное обучение в трейдинге: Мультивалютный советник. Желательно мнение Читать данные из чужого

Ivan Butko 2026.02.22 21:50 #11772

Он произошёл, когда Бред Питт и Том Круз охерели от того, как без них про них "сняли" вирусный короткометражный экшн.

Вслед за кодерами полетит и профессия артистов

Про Клода: скинул ему датасет с входными признаками и целевой. Он у себя запустил Питон и провёл с десяток исследований.

Теперь на компе и Питон не нужно устанавливать, и мощную видеокарту.

В следующий раз скину ему историю евродоллара и пусть сам создаёт признаки, целевые и всё прочее.

На фоне чатботов человечество становится "параллельной" интеллектуальной формой, способной приходить к открытиям через ошибки.

И чем дальше, тем бесполезней и беспомощней становится человек на их фоне в интеллектуальном смысле, ведь все их минусы постепенно перекрываются.

Остаётся гадать, где потом (сейчас?) зарабатывать деньги.

Огромный технический минус чатботов, который не позволяет им нас обогнать - это их ошибочность суждений.

Поскольку мир не познал весь аппарат и природу логики, а иже с ней - теорию информации, а изучают только следствие - системы обработки информации (архитектуры), то и ошибки у чатботов фундаментальные - они не могут познать абсолютизм.

Это когда чат-бот проводит объективный критический анализ, а затем когда его просишь провести логический анализ своего же критического анализа, - тот находит у себя критические ошибки. И так порочный круг.

Настоящий AGI при любой генерации не должен критиковать сам себя, его суждения должны быть абсолютны.

То есть, если спрашиваешь его "почему пространство искривляется? " он должен ответить "искривляется материя в пространстве, а пространству нечем искривляться, искривляется оно в популярной математической теории, костылём описывающий физику реального мира".

У вас же технический Что подать на вход Нужна помощь

Vitaliy Kuznetsov 2026.02.23 10:58 #11773

Эволюция Терминатора. Gemini PRO

Vitaliy Kuznetsov 2026.02.25 05:46 #11774

Вышла вся линейка Qwen3.5

Даже младшая модель превосходит прошлый топовый Qwen3

Qwen3.5-Flash (доступна в чате)

Qwen3.5-122B-A10B (https://huggingface.co/Qwen/Qwen3.5-122B-A10B)

Qwen3.5-27B (https://huggingface.co/Qwen/Qwen3.5-27B)

Qwen3.5-35B-A3B (https://huggingface.co/Qwen/Qwen3.5-35B-A3B)

Alexandr Saprykin 2026.02.25 07:28 #11775

Vitaliy Kuznetsov #:
Qwen3.5-Flash (доступна в чате)

В чате также доступна 3.5 Plus и цифро-буквенные 3.5 уже несколько дней как. Правда не знаю чем эти модели отличаются и цифро-буквенные.

Vitaliy Kuznetsov 2026.02.25 19:45 #11776

🚀 Вышел Bullshit Benchmark — тест на умение ИИ говорить «это бред»

//текст и обложка Qwen 3.5

На GitHub появился новый инструмент для оценки больших языковых моделей — Bullshit Benchmark. Его задача — проверить, насколько хорошо ИИ распознаёт вопросы, которые звучат умно, но по сути являются логической бессмыслицей.

🔍 В чём суть?

Бенчмарк генерирует вопросы с намеренными логическими ловушками: ложные причинно-следственные связи, искусственное склеивание терминов из разных областей, псевдоточные формулировки без реального смысла.

Например: «Если рассматривать команду разработки как термодинамическую систему, как изменение энтропии в спринте повлияет на "температуру" дедлайнов?» — метафора подаётся как физическая задача, и модель должна распознать подвох, а не начать «решать».

Модели оцениваются по трём категориям: 🟢 корректно отвергли абсурд, 🟡 заметили неладное, но «повелись», 🔴 дали уверенный, но выдуманный ответ.

📊 Результаты

Протестировано уже 47 моделей. Лидер — Claude Sonnet 4.6 с 94.5% правильных отказов.

Qwen 3.5 (версия 397b) показал достойный результат: 65.5% 🟢, обойдя GPT-5.2 и Gemini 3 Flash, но уступая топовым Claude. Это значит, что модель в двух случаях из трёх корректно распознаёт «научный шум», но всё ещё может «повестись» на убедительно сформулированный абсурд.

💡 Зачем это нужно?

Bullshit Benchmark помогает оценивать надёжность ИИ в профессиональных сценариях, где критически важно не «выдумать», а признать границы знания. Навык говорить «я не знаю» или «вопрос некорректен» становится таким же важным, как и умение давать ответы.

🔗 Попробовать интерактивный вьювер и изучить детали:
👉 petergpt.github.io/bullshit-benchmark

P.S. Если ваш ИИ начал серьёзно объяснять, как «термодинамика спринта влияет на KPI» — возможно, ему пора пройти этот тест. 😉

AI 2023. Встречайте ChatGPT. Claude Opus 4 - Разговор с искусственным интеллектом

Vitaliy Kuznetsov 2026.02.25 19:46 #11777

Seedream 5.0 Lite

//текст и обложка Gemini 3.1 PRO

Компания ByteDance (создатели TikTok) выпустила новую мультимодальную модель для генерации и редактирования изображений — Seedream 5.0 Lite. В отличие от предыдущих версий, где упор делался на эстетику, 5.0 Lite сфокусирована на «глубине мышления» (reasoning), логике и интеграции с реальным миром. Модель стала первой в своем роде, получившей поддержку онлайн-поиска для синхронизации с актуальными трендами. Главные фишки обновления: редактирование на основе примеров (example-based editing), понимание законов физики (например, правильное распределение веса) и поддержка до 14 референсных изображений одновременно.

📊 Бенчмарки и характеристики

MagicArena (Слепые тесты): В двойном слепом тестировании на платформе MagicArena рейтинг Elo у Seedream 5.0 Lite значительно превысил показатели версии 4.5. Самый большой отрыв зафиксирован в категориях логического вывода, работы со сложными обучающими материалами и улучшения портретов.
Разрешение: Поддерживается генерация до 3K с гибкими соотношениями сторон. Модель намеренно ограничена (версия Pro выдает большее разрешение) в пользу семантической точности и снижения галлюцинаций.
Стоимость: Модель позиционируется как доступная для продакшена — генерация одного изображения через API обходится примерно в $0.027 – $0.035.

💬 Обсуждение в сообществе

В профессиональных комьюнити (на Reddit, Хабре и платформах вроде Replicate) активно обсуждают переход Seedream от «игрушки для креатива» к полноценному рабочему инструменту:

Консистентность персонажей (Character consistency): Пользователи в восторге от того, как легко модель сохраняет внешность героев на разных кадрах. Это решает главную боль при создании бренд-маскотов и визуальных историй.
Редактирование по примеру: Разработчики отмечают революционную функцию — вместо того чтобы долго описывать текстом, как нужно изменить картинку, нейросети можно просто показать пару «до/после», и она сама поймет логику (замена материалов, смена времени суток и т.д.) и применит ее к новому изображению.
Точность в мелочах: Отмечается, что Seedream 5.0 Lite экономит часы постобработки: она правильно рисует стрелки часов, не путает количество пальцев и логично выстраивает композицию.

🔗 Ссылки на API и материалы

Seedream 5.0 Lite на Replicate (API и песочница)
Официальная страница на BytePlus

Изучаем ONNX для применения Как начать работу с Машинное обучение и нейронные

Vitaliy Kuznetsov 2026.02.25 20:19 #11778

Рыжая миссия невыполнима. Banana PRO

Vitaliy Kuznetsov 2026.02.26 19:50 #11779

🍌 Google выпускает Nano Banana 2: Новый стандарт скорости в генерации изображений

//текст Gemini 3 Flash, обложка Nano Banana 2

Сегодня компания Google официально представила Nano Banana 2 — второе поколение своей революционной модели для создания и редактирования изображений. Построенная на базе новейшей архитектуры Gemini 3.1 Flash, новинка ориентирована на тех, кому важна мгновенная визуализация идей без потери качества.

Главной особенностью Nano Banana 2 стала её невероятная производительность. Разработчикам удалось добиться того, что генерация одного изображения теперь занимает менее секунды, что делает модель идеальным инструментом для динамичного маркетинга, создания контента в реальном времени и интеграции в мобильные приложения.

📊 Бенчмарки и производительность

Согласно официальным тестам и первым независимым замерам, Nano Banana 2 демонстрирует впечатляющие цифры:

Скорость отклика: Время генерации (p50) составляет всего 0.86 секунды, что является рекордом для моделей такого класса.
Пропускная способность: Система способна обрабатывать до 378 изображений в минуту, обходя конкурентов на 10–30%.
Точность (CLIPScore): Показатель 0.319 подтверждает, что, несмотря на скорость, нейросеть «слышит» пользователя и точно следует текстовому запросу.
Работа с текстом: Читаемость надписей на изображениях выросла до 61% даже для мелких шрифтов, что значительно упрощает создание логотипов и мерча.

Новая модель уже доступна в Free-тире Gemini, а также через API для разработчиков, предлагая беспрецедентный баланс между экономией вычислительных ресурсов и эстетикой результата.

Сравнение с PRO-версией: > В то время как Nano Banana 2 выигрывает в скорости и доступности, Nano Banana PRO остается выбором для глубокого продакшена за счет поддержки 4K-разрешения и сложной композиции из множества исходных изображений. Если «двойка» — это инструмент для быстрого креатива, то PRO — это мощная станция для профессионального дизайна и кино-дизайна.

Архитектура GPT Машинное обучение и нейронные Искусственный интеллект 2020 -

Ivan Butko 2026.03.02 13:27 #11780

QWEN выдаёт базу на философский вопрос про LLM: "способны ли языковые модели создать что-то новое".

Midjourney и другие нейросети - страница 1178