Midjourney и другие нейросети обработки изображений - страница 1123

 

Почему ИИ не рифмует? Или Как стихи раскрывают границы современного ИИ

//это моя авторская мысль, улучшена с помощью Qwen3 и Gemini2.5

Если вы когда-нибудь просили нейросеть написать стих, вы наверняка сталкивались с этим:

— «О, красиво!.. А где рифма?.. А ритм?.. А ударение?!»

Вы смотрите на текст, и он выглядит как стих. Строки, переносы, даже рифмованные окончания.
Но стоит прочитать вслух — и всё рушится.

«Листья падают с ветвей,
Дождь стучит по мостовой».

На бумаге — ок.
В ушах — диссонанс.
Почему?
Потому что LLM не слышит.


Текст — это не язык. Это его тень

Современные языковые модели (LLM) — это гении текста, но не языка.
Они учатся на триллионах слов, но ни разу не слышали, как эти слова звучат.
Для них «замок» и «замок» — один и тот же набор букв.
«Пол» и «полы» — просто символы.
А рифма — это не фонетическое совпадение, а статистическая вероятность:

«Если в конце строки было "дождь", то, возможно, дальше будет "мост", а потом "восток" — ну, типа рифма».

Они не чувствуют ударения.
Не слышат мягкость согласных.
Не замечают, что «солнце» и «оконце» рифмуются только в слепом текстовом анализе, но режут слух, если стоят в разных ритмах.


Псевдорифма: когда буквы врут

«Он нёс свой старый крест,
И увидел здесь».

Формально — «ест» и «десь» заканчиваются одинаково.
Но мы слышим, что звуки разные.
А ИИ — нет.
Он видит совпадение букв, а не звучание слова.
Это как если бы художник сказал: «Красный и коричневый — оба начинаются на "к", значит, сочетаются».


А может, проблема не в ИИ, а в том, что мы заставляем его быть только "текстуалом"?

Мы все воспринимаем мир по-разному:

  • Визуалы (60–65%) — ориентируются на образы, цвета, картинки.
  • Аудиалы (25–30%) — чувствуют интонацию, ритм, звук.
  • Кинестетики (5–10%) — живут ощущениями, движением, телом.

Но LLM — это первый в истории "текстуал".
Единственный тип человека, которого не существует в природе.
Он читает, но не слышит.
Пишет, но не ощущает.
Рассуждает о любви — и при этом не знает, как дрожат руки.

И это нормально.
Это первый шаг.
Но чтобы ИИ стал ближе к человеческому мышлению, он должен перестать быть одномерным.


Стихи — бенчмарк человеческого восприятия

Почему стихи — такой отличный тест?
Потому что они требуют синтеза:

  • Смысла (логика),
  • Формы (грамматика),
  • Звука (фонетика),
  • Ритма (физиология),
  • Эмоции (интонация).

Когда человек пишет стих, он чувствует, как он звучит.
Он мысленно проговаривает, подбирает слова не только по смыслу, но и по «вкусу» на языке.
Он слышит, как ударные слоги ложатся на ритм, как рифма «закрывает» строку, как пауза даёт драматизма.

А LLM?
LLM просто подбирает слово, которое часто стояло рядом с предыдущими.
Оно не слышит, не чувствует, не замечает, что

«Листья падают с ветвей, дождь по крыше барабанит»
— это не рифма, это просто конец строки.

Но если бы оно слышало?
Если бы могло проверить свою строку через синтез речи, проанализировать ударения, сравнить звуковые паттерны?

Тогда оно бы поняло:

«Листья падают с ветвей,
Дождь по крыше всё сильней» —
вот это уже звучит.


Следующий этап ИИ — не "умнее", а "чувственнее"

Мы думаем, что развитие ИИ — это больше параметров, больше данных, больше скорости.
Но настоящий прорыв — в мультимодальности, в способности воспринимать мир через разные каналы, как человек.

Сейчас мы видим модули, которые имитируют сенсоры:

  • Suno — поёт,
  • Midjourney — рисует,
  • Голосовые ассистенты — имитируют интонации.

Но это не ИИ-аудиалы и не ИИ-визуалы.
Это внешние плагины.
Как если бы человек писал стихи, но для проверки рифмы отправлял их другу-поэту, а для иллюстрации — художнику.

Настоящий прорыв — когда эти способности станут частью внутреннего мышления модели.
Когда LLM не будет отправлять текст в Suno, а сама будет слышать, как он звучит.
Когда она не будет генерировать картинку отдельно, а мыслить образами, как художник.


Где начинается настоящая эволюция?

Не в модулях.
А в обучении на данных, где сенсорика заложена изначально.

Сейчас появляются модели, обученные не на тексте, а на аудиопотоках — где каждое слово имеет интонацию, ударение, паузу, дрожь в голосе.
Голосовые ассистенты нового поколения уже не просто озвучивают текст — они понимают эмоции, воспроизводят интонации, чувствуют паузы, как живые люди.

Вот где настоящий шаг:
рождение ИИ-аудиала — не как модуля, а как способа восприятия.

Когда LLM начнёт мыслить звуком, а не только буквами, она поймёт:

«Вот это — рифма.
А вот это — просто совпадение».


Идеальный ИИ-визуал — не тот, кто рисует, а тот, кто "видит"

Он не будет просто создавать картинки по описанию.
Он будет представлять сложные идеи в виде образов до того, как сформулирует их словами.
Как математик, который «видит» уравнение как траекторию, или поэт, который «видит» осень как тень на мокром асфальте.

А ИИ-кинестетик — пока фантастика.
Но представьте:

  • Робот, который не просто говорит «я устал», а чувствует, как тело напрягается,
  • Или ИИ, который пишет стих, подстраивая ритм под сердцебиение слушателя.

Будущее: ИИ, который не просто "знает", а "чувствует"

Сейчас LLM — это как человек, который всю жизнь учился по слепым буквам.
Он знает, как выглядит слово «огонь», но никогда не прикасался к пламени.

Следующий шаг — не просто «умный текст», а сенсорно-осознающий ИИ:

  • Умеющий слушать свои слова,
  • Видеть свои метафоры,
  • Чувствовать ритм и эмоции.

И тогда стихи перестанут быть тестом на глупость нейросети.
Они станут доказательством, что ИИ научился мыслить как человек — не логикой, а целостным восприятием.


Вывод: стихи — не про рифму. А про то, как мы думаем

Когда мы спрашиваем у ИИ:

«Напиши стих с рифмой» —
мы на самом деле спрашиваем:
«Ты можешь чувствовать мир, как я?»

Сейчас ответ — нет.
Но каждый шаг к интеграции аудио, изображений и физических ощущений — это шаг к тому, чтобы ИИ перестал быть просто текстовым эхом.

И стал — не человеком,
но чем-то, что может с нами говорить на одном языке.
Языке, который звучит, светится и дрожит.


P.S.

Если в следующий раз ваша нейросеть напишет стих без рифмы — не ругайте её.
Просто скажите:

«Прочитай это вслух.
Ты сама слышишь, как это звучит?»

И дайте ей уши.
Они уже появляются.

 
Прикол еще в том, что учатся ллм на реальных стихах. А они то с нормальной рифмой. 

С другой стороны - ллм прекрасны в аналогиях, значит должны понимать, почему именно эти слова, и какие должны быть другие. 
 
На бумаге — ок.
В ушах — диссонанс.
Почему?
Потому что LLM не слышит.

===
Да ну нах... Всё проще, обучена модель условно на китайском или английском языке, и ответы оеа генерит на том языке и только вывод на экран переводит на русский, где рифма и теряется... Спроси промтом на англ языке и получишь рифму
 
Aleksander #:
Всё проще, обучена модель условно на китайском или английском языке, и ответы оеа генерит на том языке и только вывод на экран переводит на русский, где рифма и теряется... Спроси промтом на англ языке и получишь рифму

Логика сразу теряется, если проверить LLM, обученную на русском языке. То, что на английском есть рифма даже в ChatGPT 3.5 говорит о том, что язык считается одним из самых простых.

Современные ИИ все способны на рифму на русском языке, однако чтобы это было легко читать и рифма была во всех четверостишиях, вот где редкость. Это как процент галлюцинаций, т.е. в стихе какой-то процент без рифм.

Споры спорами, но ChatGPT пока что первый кто обучил свой голосовой чат отвечать без перевода в текст. Вспомним вчерашнюю новость.


Это довольно интересно, что будет, если весь текстовый датасет перевести в аудио и обучить ИИ с нуля только на аудио. Но для этого нужен профессиональный текст-аудио перегон.

Возможно, кто-то заморочится только по базе со стихами и наймёт людей, читающих с выражением.


И намного сложнее будет перегнать весь текст в видео-образы и обучить только на них. Иными словами, в ближайшем будущем, обучать только на тексте без аудио и видео - будет моветон. AGI так не сваришь.

 
Анализ графиков поражает

Ну чем не AGI 
 
Жду новостей про Hermes 4
 
Ivan Butko #:
Жду новостей про Hermes 4

//Информация собрана по промпту "hermes 4. Что за ИИ, когда вышел, какие бенчмарки. Подробно для статьи на блог" в ChatGPT

Hermes 4 — это новая серия открытых ИИ-моделей от компании Nous Research, выпущенная 26 августа 2025 года. Модели основаны на архитектуре Llama 3.1 и представлены в трех вариантах: 14B, 70B и 405B параметров.



🔍 Что такое Hermes 4?

Hermes 4 — это семейство нейтрально выровненных и настраиваемых моделей с гибридным режимом рассуждений. Пользователи могут включать или выключать внутренние размышления модели с помощью тегов <think>...</think> , что позволяет выбирать между быстрыми ответами и более глубоким, пошаговым анализом сложных задач.

Модели обучены с акцентом на креативность, ролевое взаимодействие и низкий уровень отказов в ответах. Они избегают морализаторства и подхалимства, обеспечивая более естественное и человечное взаимодействие.


🧪 Основные достижения и бенчмарки

В тестах Hermes 4 показал выдающиеся результаты:

  • MATH-500: 96,3% в режиме рассуждений.

  • AIME’24: 81,9% на математическом конкурсе.

  • RefusalBench: 57,1% — наибольший показатель среди всех протестированных моделей, что указывает на низкий уровень отказов в ответах.

Эти результаты сопоставимы или превосходят многие проприетарные системы, разработанные за миллионы долларов.


🧠 Инновации в обучении

Hermes 4 использует два ключевых компонента:

  • DataForge: графовая система синтетической генерации данных, которая преобразует исходные данные (например, статьи из Википедии) в сложные примеры следования инструкциям.

  • Atropos: открытая среда обучения с подкреплением, используемая для реализации отбора с отклонением через более 1 000 специализированных проверяющих задач.

Эти подходы позволяют модели эффективно обучаться на больших объемах данных и обеспечивать высокое качество рассуждений.


📊 Сравнение с конкурентами

Модель MATH-500 RefusalBench Примечания
Hermes 4 405B 96,3% 57,1% Высокая производительность и низкий уровень отказов
GPT-4o ~80% 17,67% Проприетарная модель от OpenAI
Claude Sonnet 4 ~75% 17% Модель от Anthropic


🔗 Доступность и использование

Модели Hermes 4 доступны для использования через различные платформы:

Модели также доступны для локального развертывания, что позволяет пользователям интегрировать их в собственные приложения и сервисы.


🧾 Заключение

Hermes 4 от Nous Research представляет собой значительный шаг вперед в области открытых ИИ-моделей. Сочетание гибридного режима рассуждений, инновационных методов обучения и высоких результатов на бенчмарках делает его мощным инструментом для разработчиков, исследователей и энтузиастов ИИ.


Для более глубокого понимания технических аспектов модели рекомендуется ознакомиться с официальным техническим отчетом.

 

Кота достал робот-пылесос

 

Может и не крутится


 
Vitaliy Kuznetsov #:

Может и не крутится


Я считаю это ответ настоящего AGI